国产一区二区美女诱惑_国产精品免费播放_91精品国产综合久久香蕉麻豆 _久久精品30_久久综合88_国产精品亚洲成人_黑人极品videos精品欧美裸_亚洲色图欧美激情

原創生活

國內 商業 滾動

基金 金融 股票

期貨金融

科技 行業 房產

銀行 公司 消費

生活滾動

保險 海外 觀察

財經 生活 期貨

當前位置:原創 >

看點:AI考生今日抵達,商湯與上海AI實驗室等發布“書生·浦語”大模型

文章來源:中國網財經  發布時間: 2023-06-08 01:40:26  責任編輯:cfenews.com
+|-

隨著AI大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。OpenAI 在其關于 GPT-4 的技術報告中就主要通過各領域的考試對模型能力進行檢驗。

2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?


(資料圖)

綜合“大考”:“書生·浦語”多項成績領先于 ChatGPT

近日,商湯科技、上海AI實驗室聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數,是在包含1.6萬億token的多語種高質量數據集上訓練而成。

全面評測結果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測試任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個科目的數據集(GaoKao)。

“書生·浦語”聯合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:

由伯克利加州大學等高校構建的多任務考試評測集MMLU;

微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);

由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval;

以及由復旦大學研究團隊構建的高考題目評測集Gaokao;

實驗室聯合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。

“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學術開源模型,還在AGIEval、C-Eval,以及Gaokao等多個綜合性考試中領先于ChatGPT;在以美國考試為主的MMLU上實現和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優秀的綜合能力。

雖然 “書生·浦語”在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復雜推理、撰寫代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數據集結果

MMLU是由伯克利加州大學(UC Berkeley)聯合哥倫比亞大學、芝加哥大學和UIUC共同構建的多任務考試評測集,涵蓋了初等數學、物理、化學、計算機科學、美國歷史、法律、經濟、外交等多個學科。

細分科目結果如下表所示。

(圖中粗體表示結果最佳,下劃線表示結果第二)

AGIEval是由微軟研究院在今年新提出的學科考試評測集,主要目標是通過面向的考試來評估語言模型的能力,從而實現模型智能和人類智能的對比。

這個評測集基于中國和美國各類考試構建了19個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項有9個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中,帶GK的是中國高考科目。

(圖中粗體表示結果最佳,下劃線表示結果第二)

C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集。

它包含了52個科目的近14000道考題,涵蓋數學、物理、化學、生物、歷史、政治、計算機等學科考試,以及面向公務員、注冊會計師、律師、醫生的職業考試。

測試結果可以通過leaderboard獲得。

Gaokao是由復旦大學研究團隊構建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。

在GaoKao測評中,“書生·浦語”在超過75%的項目中均領先ChatGPT。

分項評測:閱讀理解、推理能力表現出色

為避免“偏科”,研究人員還通過多個學術評測集,對“書生·浦語”等語言模型的分項能力進行了評測對比。

結果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現突出,并且在數學推理、編程能力等評測中也取得較好成績。

知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語)方面,“書生·浦語”明顯領先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。

中文理解方面,“書生·浦語”成績全面超越主要的兩個中文語言模型ERNIE-260B和GLM-130B。

多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

數學推理方面,“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數學考試中,分別取得62.9和14.9的得分,明顯領先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中,分別取得28.1和41.4的得分(其中經過在代碼領域的微調后,在HumanEval上的得分可以提升至45.7),明顯領先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外,研究人員還對“書生·浦語”的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達到領先水平。

(以上圖片由商湯科技授權中國網財經使用)

關鍵詞:

專題首頁|財金網首頁

投資
探索

精彩
互動

獨家
觀察

京ICP備2021034106號-38   營業執照公示信息  聯系我們:55 16 53 8 @qq.com 關于我們 財金網  版權所有  cfenews.com
成人手机电影网| 亚洲视频一起| 亚洲ww精品| 精品资源在线| 亚洲毛片视频| 成人午夜又粗又硬又大| 国产精品日日摸夜夜摸av| 欧美体内谢she精2性欧美| 亚洲成avwww人| 国产三级在线免费| 亚洲18在线| 亚洲性图久久| 26uuu精品一区二区| 欧美性xxxx在线播放| 亚洲护士老师的毛茸茸最新章节| 毛片在线播放网站| 亚洲第一会所| 综合天天久久| 久久丝袜美腿综合| 欧美久久久久久久久| 小小水蜜桃在线观看| 99re66热这里只有精品4| 99精品在线| 不卡的av电影| 欧美丰满嫩嫩电影| av在线电影网| 在线一区二区三区视频| 免费欧美在线| 亚洲欧美偷拍三级| 亚洲精品理论电影| 91超碰国产在线| 久久中文视频| 99久久婷婷国产综合精品电影| 日本二三区不卡| 飘雪影视在线观看免费观看| 人人精品久久| 久久天堂精品| 亚洲不卡av一区二区三区| 精产国产伦理一二三区| 亚洲爱爱视频| 亚洲少妇诱惑| 亚洲成人午夜影院| 午夜cr在线观看高清在线视频完整版| 日韩三区免费| 亚洲在线电影| 精品国产鲁一鲁一区二区张丽| 色播在线观看| xxxx日韩| 成人深夜福利app| 欧美一区二区三区思思人| 在线视频中文字幕第一页| 亚洲精品小说| 亚洲综合色成人| 番号集在线观看| 精品国产a一区二区三区v免费| 99久久精品99国产精品| 国产偷国产偷亚洲清高网站| 福利视频一区| 国产麻豆视频一区| 精品国内二区三区| 国产精品久久久久77777丨| 国产亚洲精品自拍| 日韩欧美在线网址| 18在线观看的| 亚洲一区二区动漫| 欧美色电影在线| 女人让男人操自己视频在线观看 | 成人亚洲精品| 免费成人你懂的| 日韩欧美一区二区视频| 成人软件在线观看| 国产精品小仙女| 精品国产3级a| 欧美日韩黄网站| 久久一二三国产| 在线播放av片| 夜间精品视频| 色中色一区二区| 英国三级经典在线观看| 看片的网站亚洲| 日韩高清免费观看| 女同另类激情重口| 中文字幕视频一区| 毛片网站在线免费观看| 国产日韩欧美| 精品av久久707| 国产乱人伦丫前精品视频| 中文字幕av资源一区| 成年网站在线| 久久都是精品| 亚洲国产一区二区三区四区| 成人在线视频你懂的| 国产精品久久久久久久久图文区| av在线播放免费| 免费日韩精品中文字幕视频在线| 日韩三级视频在线看| 亚洲一区二区三区在线免费| 亚洲色图在线看| 青草av在线| 国产99久久精品| 欧美91精品久久久久国产性生爱| 91亚洲成人| 欧美日韩视频在线观看一区二区三区 | 被下部羞羞漫画| 久久国产精品亚洲人一区二区三区| 狠狠躁夜夜躁久久躁别揉| 性感美女一区二区在线观看| 国产婷婷色一区二区三区在线| 9191在线观看| 国产乱妇无码大片在线观看| 天堂资源中文在线| 制服诱惑一区二区| 国产真实伦在线观看| 欧美视频福利| 精品一区二区三区三区| 亚洲午夜精品一区二区国产 | 国产精品18hdxxxⅹ在线| 亚洲国产中文字幕| 国产亚洲观看| 日韩欧美精品网址| 狠狠久久伊人| 欧美福利电影网| 不卡中文一二三区| 精品国产一区久久| 伊人久久大香线| 亚洲女人天堂网| 国产欧美综合一区二区三区| 日本1区2区3区中文字幕| 国产精品久久久亚洲一区| 九色视频网站| 水蜜桃久久夜色精品一区的特点 | 午夜精品久久久久久久蜜桃app| 97欧美成人| 亚洲成人免费视| 亚洲国产视频二区| 欧美日韩一区中文字幕| 日本不卡高清| 亚洲女人天堂视频| 奇米色777欧美一区二区| 国产在线三区| 91蜜桃婷婷狠狠久久综合9色| 欧美四级在线| 亚洲欧美电影一区二区| 一区二区三区免费在线看| 欧美三级韩国三级日本三斤 | h片在线观看视频免费| 国产欧美久久久精品影院| 国内欧美日韩| 欧美日韩视频专区在线播放| 你懂的亚洲视频| 头脑特工队2免费完整版在线观看 头脑特工队2在线播放 | 一本精品一区二区三区| 日本1区2区3区中文字幕| 国产精品夜夜嗨| av在线最新| 免费一级在线观看播放网址| 久久久久久久久成人| 4438x亚洲最大成人网| 欧美日一区二区三区在线观看国产免| bdsm精品捆绑chinese| 国产iv一区二区三区| 欧洲av一区二区| 欧美精品在线一区二区三区| 亚洲国产美女| 超碰在线网址| 亚洲国产日日夜夜| 久久中文字幕av| 毛片免费在线播放| 亚洲精品久久久蜜桃| 三级精品视频| 噼里啪啦在线中文观看| www成人在线观看| 亚洲一区二区三区四区电影| 亚洲少妇中文在线| 91在线看国产| 136国产福利精品导航网址应用| 亚洲大尺度美女在线| 高潮精品一区videoshd| 久久久久久亚洲精品美女| 粉嫩一区二区| 欧美mv日韩mv亚洲| 国产成人无遮挡在线视频| 午夜不卡一区| 日韩精品在线观看一区二区| 不卡一卡二卡三乱码免费网站| 国产精品日韩精品在线播放| free性欧美1819hd| 国产精品免费人成网站| 91精品综合久久久久久久久久久| 国产在线91| 色综合久久综合网欧美综合网| 亚洲一区国产一区| 日韩一区二区三区免费| 亚洲欧美综合另类中字| 久久免费看少妇高潮| 色呦哟—国产精品| 性xxxxfjsxxxxx欧美| 日韩欧美一区中文| 久久综合九色综合久久久精品综合| 欧美精品羞羞答答|