當(dāng)前位置：科技 >

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，人工智能如何自我學(xué)習(xí)？當(dāng)前簡(jiǎn)訊

文章來源：鈦媒體APP　發(fā)布時(shí)間： 2023-02-27 11:17:42　責(zé)任編輯：cfenews.com

+|-

人工智能的發(fā)展應(yīng)用離不開數(shù)據(jù)。比如，訓(xùn)練當(dāng)前大火的ChatGPT，就需要大量的數(shù)據(jù)——根據(jù)OpenAI披露，ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬億個(gè)單詞，大概是1351萬本牛津詞典所包含的單詞數(shù)量。

【資料圖】

基于龐大數(shù)據(jù)集訓(xùn)練而成的ChatGPT獲得了前所未有的成功，而ChatGPT想要向前迭代，就需要更多的數(shù)據(jù)進(jìn)行訓(xùn)練。但真實(shí)世界的數(shù)據(jù)總歸是有限的，并且面臨著難以獲取、質(zhì)量差、標(biāo)準(zhǔn)不統(tǒng)一等諸多問題。在這樣的情況下，計(jì)算機(jī)模擬技術(shù)或算法生成的合成數(shù)據(jù)受到了愈發(fā)廣泛的關(guān)注。作為真實(shí)世界數(shù)據(jù)的廉價(jià)替代品，合成數(shù)據(jù)正日益被用于創(chuàng)造精準(zhǔn)的AI模型。

為什么需要合成數(shù)據(jù)？

顧名思義，合成數(shù)據(jù)就是通過計(jì)算機(jī)模擬或人工智能算法合成的數(shù)據(jù)，這樣的數(shù)據(jù)并不基于現(xiàn)實(shí)世界的現(xiàn)象和事件，但由于在數(shù)學(xué)上或統(tǒng)計(jì)學(xué)上，合成數(shù)據(jù)也能夠反映真實(shí)世界數(shù)據(jù)的屬性，因此，合成數(shù)據(jù)可以作為真實(shí)世界數(shù)據(jù)的替代品，來訓(xùn)練、測(cè)試、驗(yàn)證AI模型。

2022年以來，F(xiàn)orrester、埃森哲（Accenture）、Gartner、CB Insights等研究咨詢公司都已經(jīng)將合成數(shù)據(jù)列為人工智能未來發(fā)展的核心要素，認(rèn)為合成數(shù)據(jù)對(duì)于人工智能的未來而言是“必選項(xiàng)”和“必需品”。

比如，F(xiàn)orrester將合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)、Transformer網(wǎng)絡(luò)、聯(lián)邦學(xué)習(xí)、因果推理視為實(shí)現(xiàn)人工智能2.0的五項(xiàng)關(guān)鍵技術(shù)進(jìn)展，可以解決人工智能1.0所面臨的一些限制和挑戰(zhàn)，諸如數(shù)據(jù)、準(zhǔn)確性、速度、安全性、可擴(kuò)展性等。

Gartner預(yù)測(cè)稱，到2024年，用于開發(fā)人工智能和分析項(xiàng)目的數(shù)據(jù) 60% 將是生成式合成數(shù)據(jù)，到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù)，成為AI模型所使用的數(shù)據(jù)的主要來源。MIT科技評(píng)論將AI合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一，稱其有望解決AI領(lǐng)域的數(shù)據(jù)鴻溝問題。

數(shù)據(jù)對(duì)于人工智能發(fā)展的意義不言自明——如果說以深度學(xué)習(xí)為代表的智能算法是人工智能應(yīng)用和發(fā)展的“引擎”，那么數(shù)據(jù)就是用于驅(qū)動(dòng)“引擎”的“燃料”。而合成數(shù)據(jù)之所以在今天會(huì)受到關(guān)注，正是因?yàn)槟壳艾F(xiàn)實(shí)世界的數(shù)據(jù)已經(jīng)難以滿足人工智能繼續(xù)迭代，并向前發(fā)展的數(shù)據(jù)需求。

要知道，現(xiàn)實(shí)世界的數(shù)據(jù)收集和處理是一種昂貴且緩慢的過程，公司通常無法在短時(shí)間內(nèi)獲取大量的數(shù)據(jù)來訓(xùn)練準(zhǔn)確的模型，就算是獲取現(xiàn)實(shí)世界的數(shù)據(jù)也要符合隱私規(guī)定，然而，除去獲取成本高昂以外，特定領(lǐng)域的數(shù)據(jù)集還受限于用戶隱私，極難采集。可以說，現(xiàn)實(shí)世界數(shù)據(jù)的稀缺性已經(jīng)成為人工智能發(fā)展的最大瓶頸——如何高效、廉價(jià)并在不侵犯隱私的情況下獲取大量數(shù)據(jù)，成為當(dāng)前人工智能領(lǐng)域的關(guān)鍵問題之一。

合成數(shù)據(jù)就是這個(gè)關(guān)鍵問題的解法。首先，合成數(shù)據(jù)能夠?qū)崿F(xiàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)模擬，解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問題，包括通過合成數(shù)據(jù)來改善基準(zhǔn)測(cè)試數(shù)據(jù)的質(zhì)量等；其次，避免數(shù)據(jù)隱私問題，利用合成數(shù)據(jù)訓(xùn)練AI模型可以避免用戶隱私問題，這對(duì)于金融、醫(yī)療等領(lǐng)域而言尤其具有意義；第三，合成數(shù)據(jù)還能最大限度地確保數(shù)據(jù)多樣性，更多反映真實(shí)世界，提升AI的公平性，以及糾正歷史數(shù)據(jù)中的偏見，消除算法歧視；第四，合成數(shù)據(jù)能夠應(yīng)對(duì)長(zhǎng)尾、邊緣案例，提高AI的準(zhǔn)確性、可靠性，因?yàn)橥ㄟ^合成數(shù)據(jù)可以自動(dòng)創(chuàng)建、生成現(xiàn)實(shí)世界中難以或者無法采集的數(shù)據(jù)場(chǎng)景，更好確保AI模型的準(zhǔn)確性。

不僅如此，合成數(shù)據(jù)還具有低成本的特點(diǎn)。合成數(shù)據(jù)服務(wù)商AI.Reverie指出，人工標(biāo)注一張圖片可能需要6美元，但人工合成的話只需要6美分。總的來說，利用合成數(shù)據(jù)可以更廉價(jià)、更高效、更準(zhǔn)確、更安全可靠地訓(xùn)練AI模型，進(jìn)而極大擴(kuò)展AI的應(yīng)用可能性，將人工智能推向新的發(fā)展階段。

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)

2021年，尼日利亞數(shù)據(jù)科學(xué)公司的研究人員就注意到，旨在訓(xùn)練計(jì)算機(jī)視覺算法的工程師可以選用大量以西方服裝為特色的數(shù)據(jù)集，但卻沒有非洲服裝的數(shù)據(jù)集。于是，這個(gè)團(tuán)隊(duì)通過人工智能算法成功實(shí)現(xiàn)了人為生成由非洲時(shí)尚服裝的圖像組成的數(shù)據(jù)來解決這一不平衡問題。

可以說，合成數(shù)據(jù)真正實(shí)現(xiàn)了用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，這也讓機(jī)器智能向前更進(jìn)一步。實(shí)際上，人類的學(xué)習(xí)正是遵循著這樣的方式，一方面，我們可以從外部信息來源收集知識(shí)和觀點(diǎn)，比如，通過閱讀一本書。但我們也可以通過思考一個(gè)問題，自發(fā)產(chǎn)生想法和見解，換言之，我們能夠通過內(nèi)部反思和分析來加深對(duì)世界的理解，而不直接依賴于任何新的外部輸入。

而人工智能通過合成數(shù)據(jù)來自我訓(xùn)練，就像是人工智能也無需任何新的外部輸入，而是通過合成數(shù)據(jù)來有效地引導(dǎo)它們自己的智能。

試想一下，今天的人工智能大模型吸收了世界上存在的大量信息和數(shù)據(jù)，比如維基百科、書籍、新聞文章等。如果人工智能能夠根據(jù)這些數(shù)據(jù)合成新的數(shù)據(jù)，然后再將這些合成數(shù)據(jù)進(jìn)一步訓(xùn)練來改進(jìn)自己，那人工智能就將不斷迭代，且功能愈發(fā)強(qiáng)大。換言之，AI在合成數(shù)據(jù)構(gòu)建的虛擬仿真世界中自我學(xué)習(xí)、進(jìn)化，這將極大擴(kuò)展AI的應(yīng)用可能性。

實(shí)際上，用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)的想法并不新鮮，例如，無人駕駛汽車已經(jīng)在虛擬街道上進(jìn)行了許多訓(xùn)練。要知道，由于實(shí)際道路交通場(chǎng)景千變?nèi)f化，因此，讓自動(dòng)駕駛汽車通過實(shí)際道路測(cè)試來窮盡其在道路上可能遇到的每一個(gè)場(chǎng)景是不現(xiàn)實(shí)的，必須借助于合成數(shù)據(jù)才能更好地訓(xùn)練、開發(fā)自動(dòng)駕駛系統(tǒng)。

為此，許多自動(dòng)駕駛企業(yè)都開發(fā)了復(fù)雜的仿真引擎來“虛擬地合成”自動(dòng)駕駛系統(tǒng)訓(xùn)練所需的海量數(shù)據(jù)，并高效地應(yīng)對(duì)駕駛場(chǎng)景中的“長(zhǎng)尾”問題和“邊緣案例”。比如，騰訊自動(dòng)駕駛實(shí)驗(yàn)室開發(fā)的自動(dòng)駕駛仿真系統(tǒng)TAD Sim 可以自動(dòng)生成無需標(biāo)注的各種交通場(chǎng)景數(shù)據(jù)，助力自動(dòng)駕駛系統(tǒng)開發(fā)。

在安全的、合成的仿真環(huán)境中，計(jì)算機(jī)可以模擬任何人類想象得到的駕駛場(chǎng)景，諸如調(diào)節(jié)天氣狀況、添加或移除行人、改變其他車輛的位置等等。可以說，合成數(shù)據(jù)和仿真技術(shù)是自動(dòng)駕駛的核心支撐技術(shù)。實(shí)際上，最早涌現(xiàn)的一批合成數(shù)據(jù)創(chuàng)業(yè)公司就瞄準(zhǔn)的是自動(dòng)駕駛汽車市場(chǎng)，幫助自動(dòng)駕駛企業(yè)解決其在自動(dòng)駕駛系統(tǒng)開發(fā)過程中所面臨的數(shù)據(jù)和測(cè)試難題。

目前，合成數(shù)據(jù)還在向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展應(yīng)用，用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)正在成為人工智能發(fā)展的必經(jīng)之路。

下一次飛躍

由于對(duì)人工智能未來發(fā)展的巨大價(jià)值，合成數(shù)據(jù)也加速成為AI領(lǐng)域的一個(gè)新產(chǎn)業(yè)賽道。

一方面，國(guó)外的主流科技公司紛紛瞄準(zhǔn)合成數(shù)據(jù)領(lǐng)域加大投入與布局。微軟的Azure云服務(wù)則推出了airSIM平臺(tái)，可以創(chuàng)建高保真的（high fidelity）的3D虛擬環(huán)境來訓(xùn)練、測(cè)試AI驅(qū)動(dòng)的自主飛行器，微軟還開發(fā)了可以生成合成和聚合數(shù)據(jù)集的開源工具Synthetic Data Showcase，并創(chuàng)建了合成人臉數(shù)據(jù)庫，和國(guó)際移民組織（IOM）合作打擊人口販賣。亞馬遜則在多個(gè)場(chǎng)景探索合成數(shù)據(jù)的應(yīng)用，例如使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa，以避免用戶隱私問題；其合成數(shù)據(jù)技術(shù)Wordforge工具可以用來創(chuàng)建合成場(chǎng)景（synthetic scenes）。

另一方面，合成數(shù)據(jù)作為AI領(lǐng)域的新型產(chǎn)業(yè)，相關(guān)創(chuàng)新創(chuàng)業(yè)方興未艾，合成數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn)，合成數(shù)據(jù)領(lǐng)域的投資并購持續(xù)升溫。據(jù)國(guó)外研究者統(tǒng)計(jì)，目前全球合成數(shù)據(jù)創(chuàng)業(yè)企業(yè)已達(dá)100家。在過去的18個(gè)月，公眾視野中已知的合成數(shù)據(jù)公司融資總額達(dá)到3.28億美元，比2020年高出2.75億美元。

看起來，合成數(shù)據(jù)是對(duì)真實(shí)數(shù)據(jù)稀缺性的重要解法，但這并不代表合成數(shù)據(jù)毫無問題。首先，雖然高質(zhì)量的合成數(shù)據(jù)集不僅可以作為真實(shí)數(shù)據(jù)集的補(bǔ)充，更可以作為訓(xùn)練人工智能模型的主要數(shù)據(jù)來源，但在全面應(yīng)用合成數(shù)據(jù)集之前，需要充分研究合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的差異，從而避免應(yīng)用合成數(shù)據(jù)集帶來的偏差。因此，如何評(píng)估合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的差異仍是一個(gè)有待解決的問題。

其次，合成數(shù)據(jù)仍存在“非自然數(shù)據(jù)”的問題。目前大多合成數(shù)據(jù)技術(shù)是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的，由于經(jīng)典統(tǒng)計(jì)學(xué)只關(guān)注了數(shù)據(jù)中蘊(yùn)含的相關(guān)性，而忽視了因果性，因此有可能會(huì)生成不合邏輯的數(shù)據(jù)。比如，合成圖像中可能會(huì)出現(xiàn)具有異常背景的圖像，這類數(shù)據(jù)被稱為“非自然數(shù)據(jù)”。“非自然數(shù)據(jù)”對(duì)智能算法的影響目前仍然未知。刻畫影響的邊界并提早思考應(yīng)對(duì)辦法將會(huì)是合成數(shù)據(jù)能否進(jìn)入風(fēng)險(xiǎn)敏感領(lǐng)域的關(guān)鍵。

最后，合成數(shù)據(jù)仍然涉及的隱式隱私泄露問題。雖然“合成數(shù)據(jù)”并不由某個(gè)用戶產(chǎn)生，但是目前的合成數(shù)據(jù)仍然需要借用數(shù)據(jù)來訓(xùn)練用于合成數(shù)據(jù)的模型，比如生成對(duì)抗網(wǎng)絡(luò)。由于生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度較高，因此在模型訓(xùn)練的過程中，存在記憶原始訓(xùn)練樣本分布的可能。已經(jīng)有最新研究結(jié)果表明，可以通過合成的數(shù)據(jù)反向推斷出原始訓(xùn)練樣本。所以，數(shù)據(jù)合成技術(shù)存在上述“隱式隱私”泄露問題，如何更嚴(yán)密地保護(hù)隱私仍是有待探究的問題。

從數(shù)據(jù)到合成數(shù)據(jù)，當(dāng)人工智能能夠合成數(shù)據(jù)，并使用它來繼續(xù)自我改變，這可能會(huì)使迫在眉睫的數(shù)據(jù)短缺變得無關(guān)緊要。對(duì)于人工智能來說，這將代表下一次的飛躍。

關(guān)鍵詞：人工智能量子計(jì)算機(jī)

更多資訊>>