国产一区二区美女诱惑_国产精品免费播放_91精品国产综合久久香蕉麻豆 _久久精品30_久久综合88_国产精品亚洲成人_黑人极品videos精品欧美裸_亚洲色图欧美激情

原創生活

國內 商業 滾動

基金 金融 股票

期貨金融

科技 行業 房產

銀行 公司 消費

生活滾動

保險 海外 觀察

財經 生活 期貨

當前位置:科技 >

每日熱議!解決AI“高分低能”?需要升級的是考核機制

文章來源:科技日報  發布時間: 2022-06-17 06:04:24  責任編輯:cfenews.com
+|-
目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。

近日,有媒體報道,目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。這種沉迷刷榜,忽略實用性質的行為造成了部分AI模型“高分低能”的現象。那么,對于AI發展而言,基準測試是否必要?在實際應用中,基準測試哪些問題有待改進完善呢?

AI模型哪家好,基準測試來說話


(資料圖片)

AI模型應該如何衡量其性能?

“目前AI模型能力的高低取決于數據,因為AI的本質是學習數據,輸出算法模型。為了公平衡量AI能力,很多機構、企業甚至科學家會收集、設計不同的數據集,其中一部分喂給AI訓練,得到AI模型,另外一部分數據用于考核AI模型的能力,這就是基準測試。”近日,西安電子科技大學電子工程學院教授吳家驥接受科技日報記者采訪時表示。

吳家驥介紹說,機器學習越來越多地用于各種實際應用場景,例如圖像和語音識別、自動駕駛汽車、醫學診斷等。因此,了解其在實踐中的行為和性能變得非常重要。其魯棒性和不確定性的高質量估計對于許多功能至關重要,尤其是在深度學習領域。為掌握模型的行為,研究人員要根據目標任務的基線來衡量其性能。

2010年,基于ImageNet數據集的計算機視覺競賽的推出,激發了深度學習領域一場算法與數據的革命。從此,基準測試成為衡量AI模型性能的一個重要手段。微軟公司的計算機科學家馬塞洛·里貝羅表示,基準測試應該是從業者工具箱中的一個工具,人們用基準來代替對于模型的理解,通過基準數據集來測試“模型的行為”。

例如,在自然語言處理領域,GLUE科研人員讓AI模型在包含上千個句子的數據集上訓練,并在9個任務上進行測試,來判斷一個句子是否符合語法,并分析情感,或者判斷兩個句子之間是否是邏輯蘊涵等,一度難倒了AI模型。隨后,科研人員提高了基準測試難度,一些任務要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網站的段落后回答閱讀理解問題。僅經過1年的發展,AI模型的性能從不到70分輕松達到90分,超越了人類。

吳家驥表示:“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究,包括人工智能的科研中,也必須有計算與試驗對比,也就是說AI算法的能力應該是可測量的,目的是驗證研究方法的可行性、有效性。因此,基準測試很有必要,這樣才可以公平驗證AI算法能力的高低好壞,避免各說各話,‘王婆賣瓜自賣自夸’。”

算法最終服務實踐,而非刷榜

有人說,高分是AI模型的興奮劑。于是,有的人工智能為了取得好成績而頻頻刷榜。

微軟公司2020年發布報告指出,包括微軟、谷歌和亞馬遜在內的各種sota模型包含諸多隱含錯誤,比如把句子里的“what"s”改成“what is”,模型的輸出結果就會截然不同,而在此前,從沒有人意識到這些曾被評價還不錯的商業模型竟會在應用中如此糟糕。顯然,這樣訓練出的AI模型就像一個只會考試、成績優異的學生,可以成功通過科學家設置的各種基準測試,卻不懂為什么。

“為了獲得好成績,研究人員可能會使用特殊的軟硬件設置對模型進行調整和處理,讓AI在測試中表現出色,但這些性能在現實世界中卻無法施展。”西安電子科技大學研究員尚坤指出。

在智能手機領域,我們談及手機的使用體驗時一般都不免會涉及手機的性能表現,這些性能通常會用跑分成績來表現。然而,我們常常會遇到一款手機的跑分成績處于排行榜領先水平,但是在實際使用過程中卻出現動畫掉幀、頁面滑動卡頓、應用假死等的現象。全球頂級評測網站AnandTech的一篇報道曾對這種現象提出質疑,指出某品牌手機跑分時啟動了“性能模式”,而在平時的使用中“性能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實的使用情景,這讓基準測試不具有參考意義。

尚坤認為,針對上述問題,改進基準的方法主要有:一種是增加更多的數據集,讓基準變得更難。用沒有見過的數據測試,這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創建一個動態數據收集和基準測試平臺,針對每個任務,通過眾包的方式,提交他們認為人工智能模型會錯誤分類的數據,成功欺騙到模型的樣例被加入基準測試中。如果動態地收集數據增加標注,同時迭代式的訓練模型,而不是使用傳統的靜態方式,AI模型應該可以實現更實質性的進化。

尚坤說,另一種是縮小實驗室內數據和現實場景之間的差距。基線測試無論分數多高,還是要用實際場景下的數據來檢驗,所以通過對數據集進行更貼近真實場景的增強和擴容使得基準測試更加接近真實場景。如ImageNet-C數據集,可根據16種不同的實際破壞程度對原有的數據集進行擴充,可以更好模擬實際數據處理場景。

應用廣泛,需盡快建立國家標準

美國麻省理工學院Cleanlab實驗室的研究指出,常用的10個作為基準的數據集中,有超過3%的標注是錯誤的,基于這些基準跑分的結果則無參考意義。

“如果說,基準測試堪稱人工智能領域的‘科舉制’,那么,‘唯分數論’輸贏,是不可能訓練出真正的好模型。要打破此種現象,一方面需要采用更全面的評估方法,另一方面可以考慮把問題分而治之,比如用多個AI模型解決復雜問題,把復雜問題轉化為簡單確定的問題。簡單且經過優化的基線模型往往優于更復雜的方法。谷歌的研究人員為常見的AI任務引入了不確定性基線庫,來更好評估AI應用的穩健性和處理復雜不確定性的能力。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲指出。

雖然行業正在改變對于基準的態度,但目前基準測試研究仍然是一個小眾研究。谷歌在一份研究中采訪了工業界和學術界的53位AI從業者,其中許多人指出,改進數據集不如設計模型更有成就感。

譚茗洲表示,AI應用基準研究是構建國內統一大市場的內在需要,當前AI已經在國計民生的各類領域中得到廣泛應用,更需要設立標準對AI模型進行全面有效的評估,片面追求和采用高分AI模型,可能會讓模型在復雜極端場景下出現“智障”行為,并且可能由于訓練和推理性能的低效,造成不良社會影響、經濟損失和環境破壞。

譚茗洲強調,AI應用基準研究關乎國家戰略。針對重要領域,建立我國自己的AI基準測試標準、AI數據集、AI模型評估標準等迫在眉睫。

據了解,西安電子科技大學的DvcLab也在AI基準測試這個領域進行了前瞻性研究,特別是針對AI應用基準測試中數據集的整體質量與動態擴展兩個關鍵問題,正在開發可在線協作的數據標注與AI模型研發托管項目,并計劃今年陸續開源,正在為構建國家AI基準評估標準體系進行積極探索。

關鍵詞: 基準測試 人工智能 研究人員 不確定性 西安電子科技大學

專題首頁|財金網首頁

原創
新聞

精彩
互動

獨家
觀察

京ICP備2021034106號-38   營業執照公示信息  聯系我們:55 16 53 8 @qq.com  財金網  版權所有  cfenews.com
亚洲另类中文字| 久久一二三四| 亚洲一区图片| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 亚洲一区二区视频在线| 欧美亚洲丝袜传媒另类| 亚洲摸下面视频| 2019中文字幕在线视频| 狠狠操一区二区三区| 成人三级av在线| 99国产一区| 99国产一区二区三精品乱码| 亚洲成人综合在线| 亚洲国产一区二区三区四区| 你懂得在线网址| 偷拍自拍亚洲| 国内精品嫩模av私拍在线观看| 国产成都精品91一区二区三| 亚洲女人****多毛耸耸8| 欧美成人精精品一区二区频| 激情小视频在线观看| 91大神在线观看线路一区| 国产一区二区三区天码| 麻豆成人免费电影| 亚洲国产乱码最新视频| 日韩国产高清视频在线| 伊人手机在线| 精品不卡一区| 粉嫩aⅴ一区二区三区四区| 精品福利在线看| 在线天堂日本| 色综合久久久| 国产欧美一区二区三区国产幕精品| 91捆绑美女网站| 日韩欧美在线综合网| 黄色一级片在线观看| 另类ts人妖一区二区三区| 日本视频一区二区| 欧美视频在线观看 亚洲欧| 天堂影视av| 婷婷久久免费视频| 日韩福利视频网| 五月激情综合婷婷| 一本大道香蕉久久| japansex久久高清精品| 玖玖国产精品视频| 丁香五六月婷婷久久激情| 在线国产三级| theporn国产在线精品| 另类欧美日韩国产在线| 日韩欧美在线一区| a黄色在线观看| 日韩成人三级| 中文字幕一区二区三区视频| 亚洲人在线视频| 四虎地址8848精品| 狠狠狠色丁香婷婷综合久久五月| 精品毛片三在线观看| 麻豆av电影在线观看| 中文字幕av一区二区三区人| 成人激情校园春色| 日韩国产在线播放| 四虎影视成人精品国库在线观看| 久久精品国产亚洲一区二区三区| 欧美日韩中文字幕一区二区| 在线视频国产区| 亚洲精品在线二区| 欧美人与性动交α欧美精品济南到| av片在线观看免费| 99精品欧美| 在线精品观看国产| 91福利区在线观看| 免费观看成人av| 日韩精品在线网站| av成人免费看| av在线这里只有精品| 亚洲欧洲视频在线| 日本欧美高清| 日韩毛片在线免费观看| 色猫av在线| 欧美国产91| 欧洲精品视频在线观看| 日本а中文在线天堂| 男男成人高潮片免费网站| 欧美不卡一区二区三区四区| 久久精品资源| 久久久久99精品一区| 福利资源在线久| 久久一级电影| 在线精品视频小说1| 亚洲www啪成人一区二区| 国产成人精品亚洲日本在线桃色| xxxx影院| 999国产精品永久免费视频app| 亚洲成a人v欧美综合天堂| www.色在线| 床上的激情91.| 欧美孕妇孕交xxⅹ孕妇交| 国产综合婷婷| 亚洲国产黄色片| 成人激情在线| 欧美日韩小视频| 国产美女撒尿一区二区| 一区二区三区国产豹纹内裤在线| 麻豆av在线免费观看| 国产一区二区不卡| 亚洲成人天堂| 三级欧美韩日大片在线看| 亚洲人午夜精品| 日韩欧美在线免费| 性欧美xxx69hd高清| av电影一区二区| 免费av在线| 成人午夜伦理影院| 性开放的欧美大片| 麻豆精品一区二区| 欧洲视频在线免费观看| 麻豆成人91精品二区三区| 粉嫩粉嫩芽的虎白女18在线视频| 伊人精品在线| 东北一级毛片| 中文日韩欧美| 作爱视频免费观看视频在线播放激情网| 欧美视频导航| 伊人发布在线| 日韩综合在线视频| 蜜桃视频在线观看网站| 国产一区啦啦啦在线观看| 国产视频网址在线| 国产·精品毛片| 久色国产在线| 综合网在线视频| 玖玖精品一区| 欧美高清你懂得| 久久精品高清| 国产a国产a国产a| 日韩中文字幕一区二区三区| 九一国产在线| 9人人澡人人爽人人精品| 69av成人| 亚洲一区二区三区在线看| 日韩欧美中文字幕在线视频| 日韩欧美在线观看| 成人精品亚洲| 日本二区视频| 韩国精品在线观看| av中文在线资源库| 亚洲黄色小视频| 美女主播精品视频一二三四| 欧美mv日韩mv| 视频一区二区三区中文字幕| 国产人成在线视频| 中文字幕精品综合| 日韩欧美中文字幕在线视频| 日韩一区二区三区免费观看| 亚洲区国产区| 国产三级在线播放| 一区二区在线观看视频在线观看| 好吊妞国产欧美日韩免费观看网站 | 91片在线免费观看| 中文成人在线| 日韩精品专区在线| 久久九九国产| 嗯~啊~轻一点视频日本在线观看| 亚洲国产视频直播| 久久美女视频| 视频在线不卡| 中文字幕佐山爱一区二区免费| 露出调教综合另类| 精精国产xxxx视频在线动漫| 成人美女在线观看| 亚洲日本中文| 亚洲视频免费一区| 国产91综合一区在线观看| 成人国产精品| 亚洲国产黄色片| av影院午夜一区| 好吊妞国产欧美日韩免费观看网站| 亚洲欧美国产一本综合首页| 成人免费三级在线| 波多野结衣在线一区二区| 伦理电影国产精品| 亚洲国产成人私人影院tom | 日韩大片在线永久免费观看网站| 中文字幕日韩精品一区| 欧美猛男做受videos| 超碰在线公开免费| 亚洲男人的天堂在线观看| 亚洲一区在线| 69av成人| 精品性高朝久久久久久久| 91视视频在线直接观看在线看网页在线看 | 日韩视频123| 国产成人av一区| jizz18欧美18| 国产特黄在线| 欧美系列在线观看| 成人一区二区三区| 国产精品三级| 污视频免费在线观看|