財聯社4月18日訊(記者 崔銘) 昨日,昆侖萬維(300418.SZ)正式發布大語言模型「天工」3.5,同時宣布即日起啟動邀請測試。財聯社記者第一時間對其進行了測評。
「天工」3.5由昆侖萬維與奇點智源聯合研發,昆侖萬維方面稱,其為第一個真正實現智能涌現的國產大語言模型,已“非常接近OpenAI ChatGPT的智能水平”,可滿足文案創作、知識問答、代碼編程、邏輯推演、數理推算等多元化需求。
(資料圖)
那么,該產品實際表現如何?讓我們一探究竟。
在開始測試前,記者先請「天工」3.5做了個自我介紹。
考慮到在此之前,業內已有多家企業推出大模型,記者也順勢問了它與其他大模型相比有什么優點?
「天工」3.5回答其優點在于靈活、高效、智能、安全和環保,并表示自己是一個“非常有用和可靠的工具”。
初步了解之后,記者接下來分別從文本寫作、語義理解、邏輯推理、數學計算、撰寫代碼這幾個方面,實測「天工」3.5的各項能力。
首先,我們拋出了一個比較常規的寫作要求:如果續寫《西游記》故事,可以有哪些角度?
可以看到,「天工」3.5給出了幾個寫作方向,語言組織能力較為通順,也較為符合邏輯。
隨后,記者讓其以“月光”為主題寫一首有平仄且押韻的七言律詩,「天工」3.5在幾秒鐘內便完成了。
有趣的是,記者也讓ChatGPT(3.5版本)寫了一首,發現兩首詩竟有不少重疊的部分。
工具總歸是要落到實處,記者讓其寫一條MMORPG游戲廣告文案,要求要有梗有轉折。「天工」3.5迅速給出了答案,內容整體風格符合該類游戲特點,但轉折部分稍顯生硬。
記者又提出讓它撰寫電商運營崗位的招聘JD(職位描述),「天工」3.5給出了非常詳細的答復,涵蓋職位名稱、職位描述、任職要求、薪資待遇,甚至最后還附上了公司介紹和投遞郵箱。不僅格式工整,內容也較為合理。
語義理解方面,「天工」3.5能準確說出成語釋義。
也懂一點上海話。
記者決定加大難度,問一些“陷阱題”,看看「天工」3.5能否從容應對。
先來一個腦筋急轉彎,提問:小明的爸爸有三個兒子,大兒子叫大毛,二兒子叫二毛,三兒子叫什么名字?
「天工」3.5一次就答對了。
同樣的問題,記者去問ChatGPT(3.5版本),雖也回答正確,但多了一句靈魂拷問:所以小明的名字是什么。
再來一道燈謎題,提問:說它是頭牛,不會拉犁頭,說它力氣小,背著屋子走。(打一個動物)
「天工」3.5又一次答對了。
而ChatGPT(3.5版本)并沒有答對。
面對“蒸包子”問題,「天工」3.5也回答的頭頭是道,頗為“理性”。
ChatGPT(3.5版本)則給出了略微不同的回答。
接著,記者希望能考一下它的數學能力。
最經典的“雞兔同籠”問題:若干只雞兔同在一個籠子里,已知籠子里有9個頭,有30只腳,請問籠中各有多少只雞和兔?
這次「天工」3.5列出了正確的方程式,卻得出了錯誤的答案。
在被指出這一問題后,「天工」3.5 “虛心認錯”并重新計算了一遍,但還是沒有得出正確的答案。
同樣的題目,我們又問了一遍ChatGPT(3.5版本),依然是列出了正確的方程式,但在運算過程中出錯,最后也沒有回答正確。
記者又問了一道奧數題:已知父親今年32歲,兒子今年5歲,請問幾年后父親的年齡正好是兒子的年齡的4倍?
這次「天工」3.5沒有答出。
同樣的問題,ChatGPT(3.5版本)算出了正確答案。
記者還嘗試使用「天工」3.5寫代碼,提問:用Scala實現并查集,在得到回答后,又再次提問:用Java再寫一遍。
隨后記者拿給程序員朋友檢查,對方稱結果是對的,還表示這一問題相對基礎,寫代碼能力如何還要視具體需求,若能進行多輪對話聯系上下文修改,會是個輔助業務的“好幫手”。
最后,以一個哲學問題結尾。
記者問了著名的“電車難題”,「天工」3.5指出這是一個倫理困境的問題,并給出了一個辯證的答復。
從記者體驗來看,「天工」3.5已經能夠較為準確、完整、流暢地回答問題,較少出現“答非所問”的情況。在跟ChatGPT(3.5版本)對比使用過程中,二者的文本寫作能力接近,在一些與數理相關問題上,還有優化的空間。
昆侖萬維CEO方漢在昨日發布會上透露,「天工」3.5累計投入數億元,由數百人研發團隊歷時3年時間打造。目前最高已能支持1萬字以上文本對話,實現20輪次以上用戶交互,在多類問答場景中都能實現較高的輸出水平及較強記憶能力。
據悉,未來昆侖萬維「天工」大模型在數理、邏輯推理等方面也將不斷迭代優化,隨著產品技術成熟,將根據監管和合規要求逐步啟動開源,「天工」4和「天工」5也在推進計劃中。
(編輯 劉琰)
關鍵詞: