今天,我們的生活已經很難再脫離網絡。雖然互聯網給我們帶來了前所未有的巨量信息,但這些信息卻并不都是真實和有用的信息。事實上,今天的互聯網中,有大量的機器人賬號存在。機器人賬號由算法來模仿人類的行為習慣進行操控,不需要真人的參與就可以自動完成發帖、評論和轉發。
雖然大部分人并不了解甚至不知道機器人賬號的存在,但機器人賬號已經成為影響輿論和干擾數據的重要因素。那么,機器人賬號到底為何而存在?又該如何被管理?除了造成虛假的信息泛濫,機器人賬號還有沒有其他用途?
【資料圖】
龐大的機器人賬號
機器人賬號其實就是一種能夠在社交網絡上接收指令并模仿正常人類用戶行為的智能程序。并且,隨著人工智能的發展,從創建應用軟件、官方網站或內容傳播平臺,到生產具有實質性內容的圖像、視頻或文字,通過或真或假或自動地與用戶交互,今天,機器人賬號已經越來越“真實”。
作為能模仿正常人類用戶行為的智能程序,機器人賬號最大的特點,就是龐大。早在2017年,就有研究人員報告了其發現的一個Twitter僵尸網絡,其中包含超過35萬個機器人帳戶。這是一個具有難以想象比例的網絡,它自2013年誕生以來就一直未被發現。
同年,來自美國馬里蘭州的網絡安全公司ZeroFOX公布了一份研究報告,揭開了Twitter平臺大規模垃圾色情郵件僵尸網絡的冰山一角:根據報告,被ZeroFOX定點追蹤、被稱為“SIREN”的Twitter僵尸網絡,包含超過90000個偽造的賬號,總計發布了超過850萬條包含惡意鏈接的推文。這些內容僅在調查結束前的數周之內,就產生了超過3000萬次的推特用戶點擊。
中文網絡輿論場的網絡水軍問題也很突出。打開手機,我們在社交媒體上收到的評論與轉發,在問答平臺上看到的點贊和收藏,微博時常莫名的關注,和直播營銷好看的數據,這些與我們展開互動的陌生ID和互聯網呈現給我們的數字現象,背后的控制者,很可能就是機器人賬號。
微博大V動輒坐擁數千萬粉絲,其真實性也很可疑。曾有“一找照妖鏡”網站專查“活粉”比例,大V們近80%的粉絲都是僵尸粉。新浪微博里首個突破一億粉絲的女藝人,我們不會真的相信是有一億個人關注了她;百分百好評的商品,消費者也會對其持有懷疑;事實上,批量生產的機器人賬號,流量造假的媒介狂歡,早已在中文社交網絡上泛濫成災。
龐大的的機器人賬號背后,其實是產業鏈的發展。2018年1月,《紐約時報》刊發調查報道,就揭秘了美國的“僵尸粉制造工廠”。一家名為Devumi的公司在社交媒體上通過“造粉”和“賣粉”賺了上千萬美元。而Devumi生產僵尸粉的流程就在于,先“復制”一批真實存在的網絡用戶的照片、資料和賬戶細節等,把它們做成“機器人粉絲”,然后賣給演員、企業家、政治評論員等“想出名或是想在互聯網上施加影響力的人”。此外,Devumi還提供轉發、點贊等服務。
這家“地下工廠”共造了350萬個僵尸粉,而且每個僵尸粉都被多次買賣,累計起來提供的“假粉絲”數量超過兩億。Devumi不僅在推特上,還在拼趣(Pinterest)、領英和優兔等網站上開展生意。
機器人賬號背后的生意經
機器人賬號之所以能夠催生出像Devumi一樣的公司,根本上還是利益導向的結果。如今的互聯網已經變身一個“唯流量”時代,流量在哪里,就以為著關注點在哪里,大家就認為市場在哪里。
傳統媒體時代,主要的流量造假者大多來自傳統媒體,報紙夸大發行量、廣電對于收視聽率的調查樣本進行污染的情況時有發生。互聯網時代,電商等新消費形態逐漸普及,對于轉化率等數據第一次有了網絡采集與對照的可能,流量造假就有了更強烈的需求驅動,點擊率等指標被注水成為常態。
這是數據的時代,也是虛假盛行的時代。機器人賬號造成的大量信息,不僅讓虛假蔓延在互聯網領域,基于機器人賬號的流量造假、流量劫持,還會破壞商業模式,損害數據信息價值,造成大數據產業“劣幣驅逐良幣”。為了追求自身的利益最大化的流量造假,也違背了誠信的原則。而當數據造假成為一種產業,每個參與其中的人都因自身獲利而或多或少助長了造假現象的持續蔓延。
此外,機器人賬號也被廣泛用于操縱輿論,而其背后往往是為了某一利益集團服務。在影響輿論方面,2018年麻省理工學院的研究團隊,通過對Twitter輿論事件話題下的發言進行歸納分析,得出一個驚人的結論:只要保證充足的活躍度,哪怕實際數量還不到參與用戶總數的1%,Twitter上的機器人賬號,依舊能夠影響輿論的風向走勢。
這項研究的樣本輿論事件,正是2016年的美國總統大選。通過對收集到的77563個用戶樣本展開分析,麻省理工學院的研究者篩選出了7702個不會改變立場的頑固用戶;隨后經過進一步篩選,總共鎖定了396個僵尸賬戶——260個支持特朗普,136個支持希拉里,加在一起不到用戶樣本總數的5%。
盡管占比不高,但憑借遠超真人用戶的活躍度,這400個僵尸賬戶扮演的“意見領袖”,成功將雙方候選人的觀點推向極端化,為兩邊吸引了數量可觀的真實支持者,最終實現了微妙的“平分秋色”。
而輿論操縱背后,有研究顯示,有100多個支持特朗普的偽造網站都來自遠在南歐巴爾干半島馬其頓的韋萊斯小鎮,鎮上的年輕人想趁美國大選發財,因此開設了“今日美國保守派”“唐納德·特朗普新聞”等100多個網站,發布純粹造假或嚴重摻假以固化讀者偏見的新聞,如“教皇背書支持特朗普”“希拉里即將被定罪”“奧巴馬說非法移民可以投票”等高點擊量的假信息,并從谷歌和臉書廣告分成,賺得盆滿缽滿。
布達佩斯中央歐洲大學媒體、數據和社會中心主任馬里厄斯·德拉戈米爾(Marius Dragomir)指出,韋萊斯小鎮的造假模式能夠成功說明假新聞能夠貨幣化。美國著名傳媒專家羅伯特·麥克切斯尼(Robert McChesney)早就指出,市場的趨利性會傷害現有民主,眼里只有利潤的商業化媒介集團一味迎合受眾終將帶來“極具破壞性、非理性的結果”。
虛假和真實的博弈
龐大的機器人賬號不僅會破壞商業模式,帶來不良的輿論影響,還難以清理和規制。比如,Facebook就頻繁受困于流量造假,自它上線的第一天開始,就有大量與之相關的麻煩與官司纏身。其中的邏輯很簡單,每一個體都能創建不止一個的臉書賬戶,當某個賬戶被拉黑、屏蔽,用另外的名字重新開一個就好。對于個人來說都如此輕而易舉,換成機構化的組織就更不用說。
由此帶來的是一場無止盡的貓鼠大戰。一個賬戶被查封了,另外一個賬戶又出現了。龐大的用戶數使臉書反欺詐團隊頭痛不已。根據美國媒體Vox的報道,2019年的一季度,臉書總共刪除了22億個虛假賬號;2018年四季度,刪了12億個虛假賬號;2018年三季度,這個數字是75萬;而在2018年的第一季度,總共刪了不到60萬個虛假賬號。換言之,虛假賬號產生的速度是——60萬到75萬,75萬到12億,12億到22億。2019年,臉書一季度里刪掉的假賬號數量,已經等同于其平臺一季度由真人注冊的真實賬號數量。
當然,在這個過程中,也有研究團隊嘗試開發檢測機器人賬號的工具。此前,印第安納大學伯明頓分校的研究人員就開發了一個“BotOrNot”工具,以檢測社交媒體上的機器人賬號。BotOrNot是Twitter公開的第一個檢測社交機器人的接口。該系統利用Twitter的搜索接口,收集待檢測賬號最近的200個帖子和最近被提及的100個帖子,從網絡、用戶、好友、時間、內容和情感等6類特征入手,判斷該賬號屬于惡意機器人的可能性,經過十折交叉驗證后發現隨機森林模型的分類效果最好。
通過BotOrNot,研究人員分析了2016年5月至2017年5月推特用戶分享的1 400萬條信息,包括關于美國總統初選和特朗普就職典禮的信息。結果發現,圍繞2016年美國總統大選的很大一部分話題都是機器人制造的。實際上,僅用6%的被確認為機器人的推特賬戶,就能在推特上傳播31%的低可信度的信息。機器人賬號只需要2~10秒就能完成這些事情。當低可信度信息與可靠來源信息混到一起時,人們就很難對其加以辨別。這一研究成果后來被發表在《自然通訊》(Nature Communications)雜志上。
此外,樸素貝葉斯算法、K近鄰算法、C4.5決策樹、支持向量機、隨機森林算法等都已被用于識別社交機器人。此前,也有研究人員選取發文內容、發文數量、粉絲和好友數量、推文來源、用戶注冊時間、地理位置信息等7個特征,使用樸素貝葉斯的方法對Twitter上真實用戶和星球大戰僵尸機器人進行研究,發現機器人賬戶與真實用戶在地理距離和連接屬性上呈現明顯差異,真實用戶的推文數據呈冪率分布,而機器人呈現出均勻分布的特征。
還有研究人員提出了多種檢測網絡水軍的算法,包括基于黑名單的算法、基于用戶特征的算法以及基于文本的方法等。
今天,機器人賬號都已經無可避米地滲透在我們的網絡生活中,這是數據的時代,也是虛假盛行的時代,分辨這一切的虛假與真實,我們還有很長的路要走。(本文首發鈦媒體APP)
關鍵詞: