国产一区二区美女诱惑_国产精品免费播放_91精品国产综合久久香蕉麻豆 _久久精品30_久久综合88_国产精品亚洲成人_黑人极品videos精品欧美裸_亚洲色图欧美激情

原創生活

國內 商業 滾動

基金 金融 股票

期貨金融

科技 行業 房產

銀行 公司 消費

生活滾動

保險 海外 觀察

財經 生活 期貨

當前位置:科技 >

半年多過去了,ChatGPT的排名快“墊底”了

文章來源:鈦媒體APP  發布時間: 2023-09-08 09:21:16  責任編輯:cfenews.com
+|-

昨天,筆者無意中刷到一張圖片。


【資料圖】

據該圖片顯示,OpenAI的GPT-4在11個大模型中(第一名序號為0),已經排到了最后。還有網友配上了“GPT4:我的冤屈怎么訴?”的字樣。

這不禁讓人好奇,今年年初,ChatGPT爆火以后,其他公司才開始提大模型的概念。

這才半年多,GPT就已經“墊底”了?

于是,筆者想看看GPT排名到底咋樣了。

測試時間不同,測試團隊不同,GPT-4排第十一

從前文中圖片上顯示的信息來看,這個排名是出自C-Eval榜單。

C-Eval榜單,全稱C-Eval全球大模型綜合性考試測試榜,是由清華大學、上海交通大學和愛丁堡大學合作構建的中文語言模型綜合性考試評估套件。

據悉,該套件覆蓋人文、社科、理工、其他專業四個大方向,包括52個學科,涵蓋微積分、線性代數等多個知識領域。共有13948道中文知識和推理型題目,難度分為中學、本科、研究生、職業等四個考試級別。

于是筆者查看了最新的C-Eval榜單。

C-Eval榜單的最新排名與前文中圖片所顯示的排名相符,排名前十一的大模型中,GPT-4排最后。

據C-Eval榜單介紹,這些結果代表zero-shot(零樣本學習)或者few-shot(少樣本學習)測試,但few-shot不一定比zero-shot效果好。

C-Eval表示,在其測試中發現許多經過指令微調之后的模型在zero-shot下更好。其測試的很多模型同時有zero-shot和few-shot的結果,排行榜中顯示了總平均分更好的那個設置。

C-Eval榜單還注明了,大模型名字中帶“*”的,表示該模型結果由C-Eval團隊測試得到,而其他結果是通過用戶提交獲得。

此外,筆者還注意到,這些大模型提交測試結果的時間有很大差別。

GPT-4的測試結果提交時間是5月15日,而位居榜首的云天書,提交時間為8月31日;排第二的Galaxy提交時間為8月23日;排第三的YaYi提交時間為9月4日。

并且,排名前16的這些大模型,只有GPT-4的名字加了“*”,是由C-Eval團隊測試的。

于是筆者又查看了完整的C-Eval榜單。

最新的C-Eval榜單一共收錄了66個大模型的排名。

其中,名字帶“*”,也就是由C-Eval團隊測試的,只有11個,且提交測試的時間均為5月15日。

這些由C-Eval團隊測試的大模型,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清華智譜AI的ChatGLM-6B排在第六十,復旦的MOSS排在了第六十四。

雖然這些排名可以看出國內的大模型發展勢頭的迅猛,但筆者認為,畢竟不是同一團隊在同一時間進行的測試,不足以完全證明這些大模型誰強誰弱。

這就好比,一個班的學生,每個人的考試時間不同,答的試卷也都不一樣,怎么能靠每個學生的分數比高低呢?

大模型開發者怎么說?多家表示在中文等能力上超過ChatGPT

最近,大模型的圈子相當熱鬧。

又是百度、字節等8家公司大模型產品通過了《生成式人工智能服務管理暫行辦法》備案,可正式上線面向公眾提供服務。又是其他公司相繼發布自家大模型產品。

那這些大模型的開發者又都是怎么介紹自家產品的呢?

7月7日,在2023世界人工智能大會“大模型時代的通用人工智能產業發展機遇以及風險”論壇上,復旦大學計算機科學技術學院教授、MOSS系統負責人邱錫鵬表示,復旦對話式大型語言模型MOSS在今年2月發布后,還在連續不停地迭代,“最新的MOSS已經能夠在中文能力上超過ChatGPT。”

7月底,網易有道上線翻譯大模型,網易有道CEO周楓公開表示,在內部的測試中,在中英互譯的方向上,已經超越ChatGPT的翻譯能力,也超過了谷歌翻譯的水準。

8月下旬,在2023年亞布力論壇夏季高峰會上,科大訊飛創始人、董事長劉慶峰發表演講時稱,“訊飛星火大模型的代碼生成和補齊能力已經超過了ChatGPT,其他各項能力正在快速追趕。當前代碼能力的邏輯、算法、方法體系、數據準備已就緒,所需要的就是時間和算力。”

商湯近期的新聞稿中稱,今年8月,新模型internlm-123b完成訓練,參數量提升至1230億。在全球51個知名評測集共計30萬道問題集合上,測試成績整體排名全球第二,超過gpt-3.5-turbo以及meta公司新發布的llama2-70b等模型。

據商湯介紹,internlm-123在主要評測中,有12項成績排名第一。其中,在評測集綜合考試中的agieval分數為57.8,超越gpt-4位列第一;知識問答commonsenseqa的評測分數為88.5,排名第一;internlm-123b在閱讀理解的五項評測中成績全部居榜首。

此外,在推理的五項評測中成績排名第一。

本月初,作業幫正式發布自研銀河大模型。

作業幫表示,銀河大模型在C-Eval、CMMLU兩大權威大語言模型評測基準的成績。數據顯示,作業幫銀河大模型以平均分73.7分位居C-Eval榜首;同時在CMMLU榜單Five-shot和Zero-shot測評中分別以平均分74.03分及73.85分位列第一,成為首個同時在上述兩大權威榜單平均分排名第一的教育大模型。

昨天,百川智能宣布正式開源微調后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat與其4bit量化版本。

百川智能創始人、CEO王小川稱,經過微調之后的Chat模型,在中文領域,在Q&A問答環境,或者摘要環境里面,評價它的實際性能已經超過ChatGPT-3.5這樣的閉源模型。

今天,在2023騰訊全球數字生態大會上,騰訊正式發布混元大模型。騰訊集團副總裁蔣杰稱,騰訊混元大模型中文能力已經超過GPT-3.5。

除了這些開發者的自我介紹,也有一些媒體和團隊對一種大模型進行評比。

8月上旬,清華大學新聞與傳播學院教授、博士生導師沈陽所在團隊發布了《大語言模型綜合性能評估報告》。報告顯示,百度文心一言在三大維度20項指標中綜合評分國內領先,較優于ChatGPT,其中中文語義理解排名靠前,部分中文能力較優于GPT-4。

8月中旬,有媒體報道稱,8月11日,小米大模型MiLM-6B現身C-Eval、CMMLU大模型評測榜單。截至當前,MiLM-6B在C-Eval總榜單排名第10、同參數量級排名第1,在CMMLU中文向大模型排名第1。

8月12日,天津大學發布《大模型評測報告》。報告顯示,GPT-4和百度文心一言相較于其他模型綜合性能顯著領先,兩者得分相差不大,處于同一水平。文心一言已經在大部分中文任務中實現了對ChatGPT的超越,并逐步縮小與GPT-4的差距。

8月下旬,有媒體報道稱,快手自研的大語言模型“快意”(KwaiYii)已開啟內測。在最新的CMMLU中文向排名中,快意的13B版本KwaiYii-13B同時位列five-shot和zero-shot下的第一名,在人文學科、中國特定主題等方面較強,平均分超61分。

通過上述內容可以看出,這些大模型雖然紛紛號稱自己在某排名中居首,或者是在某某方面超越ChatGPT,但大多是在一些具體的領域表現優異。

另外,有一些綜合評分超過了GPT-3.5或GPT-4,但GPT的測試是停留在5月的,誰能保證這近3個月的時間里,GPT沒有進步呢?

OpenAI的處境

根據瑞銀集團2月的一份報告顯示,在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經突破了1億,成為史上用戶增長速度最快的消費級應用程序。

但ChatGPT的發展也不是那么順利。

今年7月,有不少GPT-4用戶吐槽,與之前的推理能力相比,GPT-4的性能有所下降。

有些用戶在推特以及OpenAI在線開發者論壇上指出了問題,集中于邏輯變弱、更多錯誤回答、無法跟蹤提供的信息、難以遵循指令、忘記在基本軟件代碼中添加括號,只能記得最近的提示等等。

8月,又有一份報告稱,OpenAi可能處于潛在的財務危機中,可能于2024年底破產。

報告中表示,OpenAI僅運行其人工智能服務ChatGPT每天就要花費約70萬美元。目前,該公司正試圖通過GPT-3.5和GPT-4實現盈利,但是還尚未產生足夠的收入實現收支平衡。

不過,OpenAI或許也有新的轉機。

日前,OpenAI宣布,將于11月舉辦首屆開發者大會。

雖然OpenAI表示不會發布GPT-5,但OpenAI稱將有來自世界各地的數百名開發人員與OpenAI團隊一起,提前一覽“新的工具”,并且交流想法。

這可能意味著,ChatGPT已經取得了新的進步。

另據澎湃新聞報道,8月30日,一位知情人士透露,通過銷售AI軟件和驅動其運行的計算能力,OpenAI預計將在未來12個月內實現超過10億美元的收入。

今天,又有媒體報道稱,本月晚些時候摩根士丹利將推出一款和OpenAI共同研發的生成式人工智能聊天機器人。

和摩根士丹利的銀行家打交道的人,非富即貴。如果這款即將推出的生成式人工智能聊天機器人能給摩根士丹的客戶帶來不同的體驗,對OpenAI來說,也許會是一個巨大的收獲。

人工智能時代的到來,已經勢不可擋。至于到底誰更勝一籌,不能光靠自己說,還得讓用戶來打分。我們也相信國內大模型一定會、一定能在各具體能力、綜合能力上趕超ChatGPT。

關鍵詞:

專題首頁|財金網首頁

投資
探索

精彩
互動

獨家
觀察

京ICP備2021034106號-38   營業執照公示信息  聯系我們:55 16 53 8 @qq.com 關于我們 財金網  版權所有  cfenews.com
密臀av在线播放| 日本午夜一本久久久综合| 成人亚洲一区| 一本色道久久综合一区| 毛片基地黄久久久久久天堂| 狠狠做深爱婷婷久久综合一区 | 99久久精品网| 久久免费高清| 欧美国产精品劲爆| 欧洲一区在线观看| 一本到不卡免费一区二区| 丝袜美腿一区| 精品成人国产在线观看男人呻吟| 精品一区91| 亚洲精品国产电影| 亚洲一区二区三区不卡国产欧美 | 国产精品传媒入口麻豆| 亚洲精品亚洲人成人网| 久久久久久久av麻豆果冻| 亚洲伦理在线| 亚洲成a人片在线观看中文| 精品福利网址导航| 337p亚洲精品色噜噜狠狠| 麻豆9191精品国产| 国产欧美日韩| 美腿丝袜亚洲三区| 欧美日韩精品是欧美日韩精品| 污污在线观看| 国产精品x8x8一区二区| 玖玖玖国产精品| 亚洲日本青草视频在线怡红院| 日韩欧美专区在线| 毛片免费不卡| 国产欧美日韩精品高清二区综合区| 免费观看日韩电影| 天天综合色天天| 欧美另类极限扩张| 色综合久久久| 日韩成人dvd| 黄色精品在线看| 日本人妖在线| 欧美丝袜美腿| av在线这里只有精品| 欧美美女bb生活片| 超碰在线网址| 99精品电影| 亚洲国产成人午夜在线一区| 亚洲精品国产精品久久清纯直播| 678在线观看视频| 欧美网站在线| 亚洲综合色成人| 日本又骚又刺激的视频在线观看| 久久伊人影院| 国产成人精品一区二| 91精品国产综合久久香蕉麻豆| 中文字幕在线观看播放| 欧美成人日本| 亚洲成人一区在线| 国产在线观看免费| 成人区精品一区二区婷婷| 国产三级欧美三级日产三级99| 日韩精品www| 精品国产亚洲一区二区在线观看| 精品午夜久久福利影院| 欧美一级片在线| 成人短视频app| 男人的j进女人的j一区| 欧美精品三级日韩久久| 92国产精品| 国产在线国偷精品免费看| 日韩一区二区高清| 成人18视频在线观看| 国产东北露脸精品视频| 日韩精品久久久久| 欧美激情三区| 99久久精品免费观看| 91福利免费在线| 久久超级碰碰| 亚洲欧美日韩在线| 日韩欧美小视频| 伦理一区二区| 精品1区2区3区4区| 久久久久99精品国产片| 91豆麻精品91久久久久久| 欧美猛男gaygay网站| 日韩精品一区二区三区在线播放| 精品污污网站免费看| 欧美久久久久久久久中文字幕| 欧美午夜电影网| 91精品婷婷国产综合久久竹菊| 亚洲777理论| 色一情一乱一乱一91av| 91精品啪在线观看国产60岁| 阿v免费在线观看| 高清不卡一区| 久久综合给合久久狠狠狠97色69| 香港日本韩国三级| 欧美残忍xxxx极端| 欧美在线|欧美| 婷婷激情成人| 国产精品午夜久久| 欧美三级黄网| 国产在线精品一区在线观看麻豆| 国产一级大片| 国产精品www994| 精品国产网站在线观看| 中文字幕av一区二区三区人| 精品国产成人在线| 在线欧美激情| 亚洲福利一区二区| 欧美亚洲二区| 亚洲自拍偷拍九九九| 电影在线观看一区| 久久精品水蜜桃av综合天堂| 欧美xxxxhdvideosex| 91色|porny| 草美女在线观看| 国产三级精品视频| 成全电影大全在线观看| 国产偷国产偷精品高清尤物 | 蜜臀久久99精品久久久画质超高清| 国产激情二区| 久久人人精品| 三级在线播放| 国产自产高清不卡| 成人全视频高清免费观看| 国产精品中文字幕一区二区三区| 国产在线电影| 不卡av在线网| 欧洲黄色一区| 国产精品高潮呻吟| 九九热这里有精品| 欧美性猛交视频| 国产成人精品免费视| 91精品婷婷国产综合久久性色| 日韩国产一区二区| 日韩经典中文字幕在线观看| 国产欧美一区二区色老头 | 国产色91在线| 日本欧美韩国| 欧美在线一区二区| 97精品国产| 二个人看的毛片| 久久精品国产一区二区| 国产美女在线观看| 亚洲国产精品ⅴa在线观看| 日韩专区视频| 91精品国产综合久久蜜臀| 亚洲欧美亚洲| 你懂的在线网址| 久久久综合视频| 亚洲狼人综合| 日韩一区二区影院| 国产日本精品| 精品视频在线一区二区| 欧美国产精品一区二区三区| 免费观看亚洲视频大全| 欧美大胆人体bbbb| 视频精品一区二区| 成人日批视频| 亚洲国产欧美一区二区三区丁香婷| 美国一区二区| 国产网站欧美日韩免费精品在线观看 | 日韩av在线一区二区| 成人a在线观看高清电影| 日本高清不卡aⅴ免费网站| 91视频精品| 免费国产在线观看| 久久嫩草精品久久久精品| a一区二区三区亚洲| 精品电影一区二区三区| 麻豆视频一区二区| 午夜精品成人av| 欧美一区二区三区在线视频| 日韩成人伦理电影在线观看| 国产伦精品一区二区三区视频金莲| 欧美日韩一级视频| 日韩和的一区二区| 日韩av福利| 日韩不卡在线观看| 成人高清免费观看| 日韩精品一区二区三区中文在线| 日韩电影在线观看中文字幕 | 国产午夜精品久久久 | 国产精品国产a| 热久久天天拍国产| 在线免费看av| 欧美视频中文在线看| 美女久久网站| 日本国产亚洲| 69日小视频在线观看| 日本一区二区三区四区在线视频| 亚洲8888| 日本中文字幕在线视频| 在线观看网站黄不卡| 精品一区中文字幕| 成人知道污网站| av免费在线一区二区三区| 在线观看成人小视频| 国产精品亚洲一区二区三区在线 |