(資料圖)
4月10日,昆侖萬維宣布聯合奇點智源,共同研發了號稱“中國第一個真正實現智能涌現”的國產大語言模型——“天工”3.5,甚至還注冊了chatgpt.cn作為域名。
隔天,4月11日,昆侖萬維就收到了來自深交所的關注函。要求結合行業政策風險、該項目研發進度、產品落地可行性、預計上線時間、市場需求情況、對公司財務影響等情況,說明“天工”3.5可能面臨的風險,相當于是深交所在懷疑昆侖萬維在“蹭熱點”。
在4月17日,天工大模型開放了內部測試并做了直播演示后,效果并不太好。
在開場問過一些常見問題之后,在問到蒸包子問題時,回答效果開始不盡如人意。蒸一個包子需要10分鐘,蒸10個呢?第一輪直接回答是10分鐘;當再問100個的時候,卻回答道因為蒸包子時間是固定的,所以還是10分鐘。
同樣的問題交給New Bing,很顯然New Bing考慮到了問題中的陷阱,按照鍋的大小做出了回答。
此外,在一些測試者在公開平臺上上傳的測試情況來看,天工大模型的問題,不僅是在邏輯,在表格上也不太嚴謹。測試者要求制作一個工資表格,天工大模型給出了案例和計算規則,但最后的結論(實發工資一欄)全部都是不正確的。
從當前展示結果上看,天工大模型的表現無疑是差強人意的。實際上,從昆侖萬維宣布發布大模型之時,就值得細細推敲。
01疑點重重的大模型
不論大模型能不能給出市場一個滿意的答案,昆侖萬維已經在股市上“贏麻了”。
2023年春節后開始,“數字經濟熱潮”從數據要素開始輪動,昆侖萬維的市值就借上了AIGC+游戲的東風,如今其市值到現在已然翻了兩倍有余。而現在,昆侖萬維借著天工大模型準備再添一把火。
但如果細細思索昆侖萬維大模型的真實性,有不少蹊蹺。
首先,昆侖萬維大模型的實力存疑。
第一是,按照昆侖萬維在4月10日官方公眾號的一份模型排位截圖顯示,其自研百億級模型「瑤光」在2021年4月的數據表現領先其他玩家,并且在2022年12月的行業評測中仍處于領先水平。
如圖所示,昆侖萬維號稱,2021年采用瑤光大模型訓練的大語言模型“天工妙筆”,在續寫、擴寫、摘要等能力上都超過瀾舟科技、智源研究院等幾家AI公司的水平。
但實際上,這個能力與模型參數量相關,并不能完全體現算法水平。比如昆侖萬維的為瑤光大模型參數量為140億 ,而瀾舟科技的孟子兩個大模型參數僅分別為14~64億。
另一邊,大模型的發布背后應該是豐富的技術積累,可以大致用AI專利數去衡量。例如,在百度在線網絡技術(北京)有限公司下面,會有文本生成方法、數據處理方法等相關技術專利。
但昆侖萬維根本找不到相關的專利。經查詢,在昆侖萬維科技股份有限公司下面并未發現任何與大模型直接相關的專利,奇點智源下面不存在任何專利。如果將搜索條件放寬到奇點智源大股東關聯的奇點智能,還是找不到任何專利信息。
其次,昆侖萬維公司主體對AI的持續推進能力不足。
從財務角度來看,昆侖萬維當前的資金不太寬裕。2022年報顯示,昆侖萬維賬上貨幣資金+交易性金融資產-短期借款為18.82億,除開賬上可用資金,昆侖萬維在應收、應付票據及應收賬款之間存在8.22億的缺口,換算下來,較為自由使用的資金在10億人民幣左右。
另一邊,從開支層面來說,支撐AI最直接的就是算力設備,當前昆侖萬維有用200張卡的訓練集群,且已合計采購約4400萬美金的硬件設備。事實上,按照現在主流對大模型的理解,200張卡只是杯水車薪,如果僅以文本生成對比,近似體量的例子是復旦大學研發,采用了128張卡、200億參數“MOSS”。雖然名字蹭了《流浪地球》的熱度,引得眾人期待,但還是因為后續表現差強人意,最終“泯于眾人”。
昆侖萬維未來如果對標百度文心一言,約1000張卡的開支,從設備角度推測,昆侖萬維短期內需要四倍4400萬美元的硬件開支來彌補算力差距,這對應約12億人民幣,差不多是公司一年的凈利潤。再進一步,如果按照4月6號公司CEO方漢的談話,認為如果要繼續開展視頻和圖片的訓練需要再翻10倍的算力需求推算,117億人民幣的長期開支差不多對應的是昆侖萬維兩年半的營收。
以上這還僅僅是硬件成本的推算。據國盛證券報告《ChatGPT需要多少算力》估算,GPT-3訓練一次的成本約為140萬美元,對于一些更大的模型,訓練成本介于200萬美元至1200萬美元之間。以ChatGPT在1月的獨立訪客平均數1300萬計算,其對應芯片需求為3萬多片英偉達A100 GPU,初始投入成本約為8億美元,每日電費在5萬美元左右。
另一邊,在AI模型轉化的收入端,根據昆侖萬維在3月24號對深交所的回復函表示:目前公司AIGC、人工智能等業務產品尚未產生實際收入,預計不會對2023年財務狀況產生較大影響。這也就意味著,如果昆侖萬維執行了AI模型的投入,公司將難以面對短期可能出現的虧損。
最后,昆侖萬維大模型缺少訓練數據。
通觀市面上的國產大模型,其內在語料庫基本都基于公司業務。例如文心一言基于百度的語料庫、騰訊基于QQ和微信聊天語義庫、阿里基于電商數據等,這些語料庫不僅龐大,而且也都是互聯網數據流通的高頻領域。而昆侖萬維的直接預料來源只有Opera瀏覽器,而Opera瀏覽器是昆侖萬維在2020年10月完成收購的挪威公司。
縱然有直接購買訓練數據集作為豐富語料庫的解決方案,但這種方式,昆侖萬維根本無法與其他大廠的云計算、數據標注、數據清洗等體系化能力相抗衡。畢竟初始語料庫越豐富,模型的訓練集就越好,語料庫更新速度越快,模型迭代速度也隨之加快。面對大廠在數據實力上的飛輪,可以預見昆侖萬維的大模型最終還是會表現為落后一步。
以上問題,雖不能直接指出天工模型的存在與否,但來自技術、資金、語料庫的種種限制無疑直接揭示了該模型的效果不會太好。
那么,昆侖萬維又是為何要在當下的節點準備發布呢?
02強行發布大模型,昆侖萬維“急了”
從基本面上看,昆侖萬維的確需要強而有力的新增長。
昆侖萬維2022年實現營業收入47.36億元,同比下滑25.49%,實現歸母凈利潤11.53億元,同比下滑2.35%,論盈利規模,這是昆侖萬維2019年以來最差的財報。
昆侖萬維的主要營收來自于社交和廣告,其商業模式是通過向用戶提供社交平臺、搜索和游戲服務獲取流量,再將流量轉化成為廣告的閉環,但現在這種流量變現的模式正在面臨危機。
在Opera瀏覽器這邊,業務則主要面向歐美、非洲及東南亞地區。業務在海外的部分更多,并且市場占比很小。
用戶數量上,昆侖萬維在2022年報中表示全球月活躍用戶為3.24億。但從相對值的角度觀察,根據statcounter發布2022年3月-2023年3月,國內和國外手機瀏覽器市場占有率排名顯示,全球opera瀏覽器的占比為3.06%,國內在PC端和手機端的占比均為“其他”,分別歸類占比為8.31%和0.2%。
從業務的角度來看,昆侖萬維的營收主要也來自海外(占比77.54%)。值得注意的是,從2019年以來,昆侖萬維的境內業務營收就在不斷下滑,2022年昆侖萬維的海外業務營收增長7.15%,而境內業務營收下滑25.23%,未來預計昆侖萬維極有可能在國內的營收及占比進一步下滑,這也意味著未來Opera直接收集的中文語料也將會越來越少。
縱然搜索業務在增長,但通盤看待昆侖萬維的商業模式,維護用戶留存的游戲、社交業務的下滑,無疑是非常危險的信號。
為了解決如此困境,昆侖萬維的解決方案是風口投資,甚至被追捧者奉為“投資高手”。
2020年,昆侖萬維收購了Opera瀏覽器;2021年,收購了海外社交平臺Star Group;2022年喊出了元宇宙AIGC并入住了新能源儲能領域(包括綠釩新能源、蜂巢能源、東岳氫能、纖納光電、星環聚能等)。其中也不乏有項目收益頗豐,2020年參投公司DADA在美國掛牌上市;2021年心通醫療在港交所主板上市。接連的并購,為公司帶來了高達39.34億的商譽,占總資產比例為22.4%。
而現在,昆侖萬維又將新的賭注下在了大模型之上。
以博弈論的視角,當前發布大模型確實是昆侖萬維最好的選擇。如果模型效果匹配市場預期,那水漲船高的估值,會為公司今后的投資帶來金融工具的便利;如果模型效果不好,那就重回原點,一切就當無事發生。
不論如何,4月17日發布的天工大模型,不會是國產大模型熱潮的終點,但一定是昆侖萬維市值的轉折點。
關鍵詞: