3月27日,今日頭條出品的一款名為“靈犬”的微信小程序,正式結(jié)束了為時兩個月的內(nèi)測期?!办`犬”本周內(nèi)正式上線,這是國內(nèi)首款反低俗信息小程序。
這款小程序脫胎于今日頭條反低俗算法模型,用于鑒定低俗信息。用戶可以將文字或者文章鏈接放置到搜索框內(nèi),即可查詢該條信息的健康程度。
不過,在文字檢測上,“靈犬”團隊規(guī)定,用戶輸入的字數(shù)必須超過10個字,才能進行檢測。
為此,“靈犬”團隊給出了解釋:用戶給的上下文、語境等信息越充分,機器判斷的準確度就會越高。
有參與內(nèi)測的用戶曾經(jīng)在“靈犬”上檢測了“你餓不餓我下面給你吃”幾個字,數(shù)據(jù)顯示,該內(nèi)容健康指數(shù)為51%。昨天,刺猬君再次檢測,該內(nèi)容的指數(shù)為56%。
“靈犬”團隊解釋說,不同于色情信息,處理低俗信息的一個難點在于,人們對于低俗的判斷標準具有一定的主觀性。色情信息很直接,低俗信息偏隱晦,對于像“靈犬”這種機器就更難了。
今日頭條的做法是,把低俗的標準分為兩個層次:幾乎所有人看來都會一致同意的標準底線,和因人而異的主觀判斷。
那么,在算法機制機制背后,“靈犬”是如何判斷一段文字或網(wǎng)址鏈接為低俗呢?
“靈犬”團隊給出的解釋是,算法模型處理低俗內(nèi)容,有一條最常見的路徑:“收集數(shù)據(jù)-標注樣本-訓(xùn)練模型”。
對于用戶輸入的文字或鏈接,“靈犬”會先進行提取、分詞和語義識別,然后根據(jù)設(shè)定的規(guī)則,輸出對應(yīng)的分數(shù)、評級和結(jié)論。
不過,測試員將帶圖片和視頻的鏈接進行測試時,檢測效果并不太好。
“靈犬”團隊給出的解釋是:因為圖片、視頻提取需要較長的時間,返回結(jié)果較慢,考慮到工具的即時性,暫時還不支持檢測。
“靈犬”的誕生,將被納入到今日頭條內(nèi)容審核體系中,它與今日頭條內(nèi)容審核機制是一條“犬”和一支“工作犬部隊”的關(guān)系??梢岳斫鉃?,“靈犬”是頭條審核機制中反低俗部分的一個簡化版本。
據(jù)了解,在內(nèi)容審核方面,今日頭條目前投入了4000多人專業(yè)審核團隊。
“靈犬”團隊對外稱,這是國內(nèi)最大的審核團隊,并搭建色情、低俗、標題黨、虛假信息、低質(zhì)模型180多個,結(jié)合人工、技術(shù)手段,有效提升了內(nèi)容審核的效率和準確度。
其實,今日頭條在去年就謀劃這件事情了,在今年1月底,“靈犬”團隊曾面向全社會招募反低俗測試員,最終從超過5000位報名用戶,選出了30位代表,包括政府部門工作人員,媒體記者、編輯,大學(xué)教授、學(xué)生,互聯(lián)網(wǎng)公司產(chǎn)品經(jīng)理和技術(shù)人員,自媒體人等。
在內(nèi)測階段,“靈犬”團隊根據(jù)測試員的意見反饋,增加了大量人工策略,幫助完善“靈犬”小程序。增加的策略包括:對于權(quán)威媒體報道和詩詞類內(nèi)容,予以算法推薦傾斜;對于時政等機器難以直接處理的內(nèi)容,必須交由人工審核判斷。
p0