a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

新聞中心

EEPW首頁 > 智能計算 > 編輯觀點 > 抖音背后的算法推薦邏輯

抖音背后的算法推薦邏輯

作者:陳玲麗 時間:2025-04-22 來源:電子產品世界 收藏

推薦已并非新生事物,但圍繞它的爭議卻從未間斷。這些爭議包括推薦帶來標題黨、低質量、甚至虛假內容以及信息繭房的問題。很多人對推薦技術存在誤解,認為算法是給內容打上對應,再給用戶打上對應的屬性,最后通過數據運算,把對應的內容推薦給有對應屬性的用戶。實際上,隨著技術的發展,的推薦系統已幾乎不依賴對內容或者用戶打,而是通過復雜的計算,直接預測每個用戶對每條內容可能產生的互動行為概率。

本文引用地址:http://www.j9360.com/article/202504/469675.htm

對推薦算法的主要貢獻在于建立評分系統,在海量算力和海量供給的環境里,把用戶行為抽象成數學里的映射關系,給用戶推薦以他為標準的高評分內容的目標。

截屏2025-04-22 13.12.06.png

算法會圍繞用戶的反饋建模,有沒有點贊、看到了第幾秒、寫了什么評論、是否點開了作者主頁……等等,這些互動都會讓算法對一個用戶的了解逐漸加深,是推薦算法的「北極星指標」,最終越來越準確的“預測”用戶行為的發生率,就是把反饋價值最高的視頻推給用戶。這意味著,在這個高密度的數據化時代,算法無需深入理解內容的具體類型或語義,就能高效預測用戶的潛在興趣和行為。

背后的算法

過去短視頻平臺的推薦算法是在給內容和用戶打標簽,然后去做相互匹配,甚至產生了很多教人在養號時怎么引導系統給自己打標簽的玄學。然而,標簽機制是人工編輯時代的經驗殘余,是讓算法模仿人類的糊涂做法,只有在非常早期的推薦算法里才有用過,當的技術成熟之后,依靠幾百個標簽去理解內容的做法就完全被淘汰掉了。

近日,抖音安全與信任中心網站已上線試運營,公開了抖音算法推薦系統的原理、用戶行為背后的算法推薦邏輯以及平臺人工治理識別各類風險等內容。當前抖音推薦算法的核心邏輯可以簡化為“推薦優先級公式”:綜合預測用戶行為概率×行為價值權重=視頻推薦優先級。

截屏2025-04-22 13.13.09.png

推薦優先級公式

抖音推薦算法作為人工智能機器學習技術的重要應用場景,本質上是一套高效的信息過濾系統。在抖音的實際應用中,所有在平臺發布的內容都會經過評估,流量越高的內容經過評估的次數越多,標準也越嚴格,“人工+機器”審核相互分工又密切配合 —— 機器負責「寬度」評估所有投稿,人工負責「深度」。創作者將內容上傳至后,首先進入機器識別環節:如果內容被識別出含有高危特征,將被直接攔截;若未命中高危特征但模型判斷有問題,則會送至人工審核,若問題概率較低,則獲得基礎流量進入下一環節。內容被舉報、評論區出現集中質疑、流量激增等情況出現,均可能觸發再次審核,并導致停止進一步推薦和分發的處置。

抖音基于用戶行為的推薦方法包含多種技術模型,如協同過濾、雙塔召回、Wide&Deep模型(均為推薦系統中常用模型)等。算法可以在完全“不理解內容”的情況下,找到興趣相似的用戶,把其他人感興趣的內容推薦給該用戶。

· 協同過濾推薦算法是最經典的推薦算法,基于內容的協同過濾算法會分析和比較用戶行為。比如,用戶A觀看了內容X、Y、Z,用戶B觀看了內容X、Z、W,用戶C觀看了內容X、Z、V,算法就會判定X和Z之間就有較高的相似度,系統會根據用戶對已觀看或已評分內容的偏好,為用戶推薦與這些內容相似的其他內容。其原理就是,找到和你興趣相似的用戶,把他們感興趣的內容也推薦給你。

· Wide&Deep模型是抖音推薦算法主力模型之一,由Wide部分和Deep部分組成。Wide部分的主要作用是讓模型具有較強的“記憶能力”,模型可直接學習并利用歷史數據中物品或者特征的“共現頻率”;Deep部分的主要作用是讓模型具有“泛化能力”,能夠發掘稀疏甚至從未出現過的稀有特征與最終標簽相關性。以知識圖譜的跨域推薦,助力信息高效分發和連接,能夠解決協同過濾算法推薦結果頭部效應比較明顯的問題。

640.png

當Wide&Deep模型與協同過濾算法共同發揮作用,平臺既可以快速推薦熱門內容,又能挖掘用戶潛在的多樣化興趣,讓小眾內容能被更多用戶關注。從推薦算法來看,抖音與國內外大部分內容推薦平臺相似,包含召回、過濾、排序等環節,而從數以億計逐漸減少到數以萬計、數以千計,直到篩選出幾條用戶能夠刷到的內容,一切都要依靠算法的「召回」能力。

如何簡單地理解「召回」:假設問一個知道結果的球迷“哪支球隊是冠軍”,那么需要猜多少次才能知道世界杯冠軍?「召回」方式是把32支球隊編號,從1到32,然后提問“冠軍在1號到16號之中嗎”?如果猜對了,就繼續問“冠軍在1號到8號之中嗎”?如果猜錯了,那么就知道冠軍必然在9號到16號之間。這就是數學模型的本事,它并不需要知道這32支球隊的強弱關系,卻能以低且簡潔的成本最大概率「召回」答案。

基于機器學習和深度學習構建的推薦算法,提升了超大規模信息分發、推薦的效率,能交付人類難以快速高效完成的任務。從行為發生到現實有效反饋的時間已經非常短,這種近似即時調整的機制,有助于算法更精準地預判用戶行為。抖音已經實現了“分鐘級”實時反饋更新。

但由于算法是通過數據收集、特征工程、模型訓練等復雜流程嘗試復刻用戶選擇的不確定性,其本質是數學模型的運算過程,而非理解內容本身,因此依然有其局限性。也正是因為這個特性,抖音曾嘗試直接給知識、歷史、科技等深度內容做加熱,但實際效果不佳。此舉改變了算法的正常邏輯,會影響數據循環,導致這些內容的后續推薦受到干擾;此后,抖音轉換思路,針對深度內容訓練,預估收藏和重復觀看概率的模型,使平臺中的深度內容分發效率更高。

價值模型就是對用戶的互動行為進行價值計算,并通過不斷調整參數,對各類價值進行加權,代表了抖音對于哪些動作可能更重要的理解。簡單來說,如果僅考慮用戶交互概率,可能會造成一些問題,比如,一些精心制作的中長優質視頻可能因為完播率較低,而在分發中處于劣勢地位。通過對這些因素的深入分析和權衡,「價值最大化」原則能夠為每個候選內容計算出反映其潛在價值的分數,從而為后續的推薦提供有力的依據。

而正是由于算法推送內容的規律性,近年來在實踐層面,用戶對于“反向馴化”算法樂此不疲 —— 不連續點贊同類視頻、不使用平臺搜索記錄、不定期清除瀏覽痕跡,通過這種刻意制造“數據噪聲”更積極地馴化、制衡算法,主動告訴算法自己的需求和偏好,倒逼平臺算法提升推薦服務水平。

算法大時代

推薦算法的本質是信息過濾系統,這和信息爆炸的環境有關。根據IDC的報告顯示,全球產生的數據量2024年達159ZB,到2028年將達384ZB。需要說明的是,1ZB等于10萬億億個Byte,如果以一部約兩小時的4K電影約20G的大小來衡量,159ZB相當于7.95萬億部電影,連續播放這些電影需要約18億年。這已完全超出了歷史上任何一個時代需要處理的信息體量。

抖音每天新增視頻高達億數量級,而普通用戶平均每天能夠消費的視頻撐死了也就幾百條,那么在這有限的幾百條視頻里,怎么盡可能的確保它們都是用戶喜歡的,就是算法需要不斷精進的母題。不少人將算法視作信息繭房推手,但事實與之相去甚遠。

信息繭房一詞來源于美國法學教授凱斯·R·桑斯坦2006年出版的《信息烏托邦》,指如果人只關注和選擇自我愉悅的內容,信息接觸面便會越來越窄,困于自我編織的繭房中。事實上,這一概念提出時并非針對算法,也沒有實證研究和量化數據支撐。

截屏2025-04-22 13.16.14.png

社交媒體、搜索引擎等不同網絡平臺實際上擴充了用戶的信息源,不同觀點的網絡用戶集群之間不會完全隔離,使用戶接觸到的信息多樣性高于不使用這些平臺的用戶。但即使是最優秀的算法工程師,也無法脫離算法技術的種種理論和架構,簡單解釋為什么把某個視頻推薦給了這些用戶而非那些用戶 —— 當每個用戶都變成數據里的“點”時,用戶無法縱覽全貌,必然極易感覺身處黑盒當中。

此外,算法治理已成為當今平臺面臨的共同問題。中央網信辦以壓實網站平臺主體責任為抓手,出臺系列政策法規,構建算法備案、安全評估、監測檢查、執法處罰等全流程監管體系,加強算法治理。只有提高算法設計的透明度和算法運行的可解釋性,才能守好算法應用“責任田”。



評論


相關推薦

技術專區

關閉