首頁 >[新聞]商城系統開發

淘寶搜索排序算法模型

發布時間:2013-08-14     發布者:本地    

淘寶搜索排序的目的是幫助用戶快速的找到需要的商品。從技術上來說,就是在用戶輸入關鍵詞匹配到的商品中,把最符合用戶需求的商品排到第一位,其它的依次排在后續相應的位置。為

當用戶輸入關鍵詞進行搜索的時候,系統依據算法模型來給匹配到的每個商品進行實時的計算,并按照分數的大小對商品進行排序。

對于好的算法模型,首先需要考慮我們能夠有哪些特征因子可以應用。比如在網頁搜索中,算法模型基本就是按網頁的重要性和相關性給網頁計算一個分數,然后進行排序。這里的相關性,和重要性就是網頁排序模型中兩個重要的因子。具體來說相關性因子是指搜索關鍵字在文檔中出現的度數,當這個度數越高時,則認為該文檔的相關程度越高。重要度因子比如Google的Pagerank,可以理解為一個網頁入口超級鏈接的數目:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。

考慮淘寶搜索的時候,有些特征因子是很容易能想到的,比如

A.文本的相關性:關鍵詞和商品的匹配,匹配的程度,是否重要詞的匹配,匹配詞之間的距離等,都可能影響相關性。比如搜索“小鴨子洗衣機”的時候,一個商品的中心詞是洗衣機的要比賣洗衣機配件商品的相關性高,小鴨子連在一起的相關性要比“小”和“鴨子”分開時候的相關性高等。文本相關性最基本的計算方式可以參考BM25等。

B.類目熱點:淘寶數據的一個重要特質是每個商品都掛靠在類目屬性體系下面,每個商品都做了一個很好的分類。在搜索過程中,同一搜索詞的大量用戶行為數據很容易聚焦到相應的熱點類目,比如“手機”的搜索行為會集中到手機類目,而不是配件類目。

C.圖片質量:圖片是電子商務網站非常重要的一個數據,圖片是否精美吸引人,圖片上是否有各種各樣的“牛皮癬”,和商品匹配度等都很大程度上影響著用戶的點擊和購買決策。

D.商品質量:每個商品都有不同的質量,商品的描述真實性,是否物美價廉,受人歡迎的程度等

E.作弊因子:類似于全網搜索有關鍵詞堆砌,link spam,網頁重復等等作弊的問題,電子商務搜索也面臨同樣的問題,比如商品關鍵詞堆砌,重復鋪貨,重復開店,廣告商品引流等等,也有商品特有的問題如價格作弊,交易作弊等,需要利用統計分析或者機器學習來做異常行為,異常規律的發現和識別并運用到排序中

F.公平因子:淘寶的商品很豐富,每個搜索詞下都有足夠多的商品在競爭,需要在相似質量的情況下讓更多的商品和賣家有展示的機會,而不是像網頁搜索一樣是一個基本靜態的排序,照成商品點擊和展示的馬太效應。

類似的商品,賣家,買家,搜索詞等方面的特征因子有很多,一個排序模型就是把各種各樣不同的特征因子組合起來,給出一個最終的關鍵詞到商品的相關性分數。只用其中的一到兩個特征因子,已經可以對商品做一些最基本的排序。如果有更多的特征參與到排序,我們就可能得到一個更好的排序算法。組合的方法可以有簡單的人工配置到復雜的類似Learning to Rank等的學習模型。


上一篇:產品優先還是技術優先 下一篇:淘寶算法模型評估

相關新聞

11选5缩水软件超强版 开家庭式幼儿托管赚钱吗 做梦梦见自己贩毒赚钱 商家怎么在美团上赚钱 玩彩票哪个网站赚钱 什么直播赚钱 知乎 怎么靠发微信文章赚钱 天天捕鱼正版 支付宝会赚钱的手机卡 吉利彩票苹果 百万英雄考什么赚钱 海王捕鱼怎么中巨奖 抖音直播真的很赚钱吗 开赌场的赚钱合天理吗 uc彩票网址 刷宝怎样发视频赚钱吗 不要命了什么职业赚钱