【原標題:如故app用戶質量高:軟件架構發展歷程 人工智能開源軟件現狀】財金網消息 知識圖譜本質上是語義網絡(Semantic Network)。目前知識圖譜這個概念最早由Google在2012年提出,主要是用來優化現有的搜索引擎。最近,知識圖譜慢慢地被泛指各種大規模的知識庫。知識圖譜的構建屬于知識工程的范疇,其發展歷程如圖1所示。
圖1知識圖譜的發展歷程
知識圖譜從其知識的覆蓋面來看可以分為開放域知識圖譜和垂直領域知識圖譜,前者主要是百科類和語義搜索引擎類的知識基礎,后者在金融、教育、醫療、汽車等垂直領域積累行業內的數據而構成。
知識圖譜相關的關鍵技術包括構建和使用。知識圖譜的構建有自頂向下和自底向上兩種方法,現在大部分情況會混合使用這兩種方法。知識圖譜的構建應用了知識工程和自然語言處理的很多技術,包括知識抽取、知識融合、實體鏈接和知識推理。知識的獲取是多源異構的,從非結構化數據中抽取知識是構建時的難點,包括實體、關系、屬性及屬性值的抽取。對不同來源的數據需要做去重、屬性歸一及關系補齊的融合操作。同時,根據圖譜提供的信息可以推理得到更多隱含的知識,常用知識推理方法有基于邏輯的推理和基于圖的推理。知識圖譜的使用需要自然語言處理和圖搜索算法的支持。
知識圖譜在語義搜索、百科知識及自動問答等方面有著很典型的應用。在語義搜索領域,基于知識圖譜的語義搜索可以用自然語言的方式查詢,通過對查詢語句的語義理解,明確用戶的真實意圖,從知識圖譜中獲取精準的答案,并通過知識卡片等形式把結果結構化地展示給用戶,目前具體應用有Google、百度知心、搜狗知立方等。在百科知識領域,知識圖譜構建的知識庫與傳統的基于自然文本的百科相比,有高度結構化的優勢。在自動問答和聊天機器人領域,知識圖譜的應用包括開放域、特定領域的自動問答以及基于問答對(FAQ)的自動問答。比如IBM的Watson,Apple的Siri,Google Allo,Amazon Echo,百度度秘以及各種情感聊天機器人、客服機器人、教育機器人等。
開源知識庫
Freebase是一個大規模鏈接數據庫,是由硅谷創業公司MetaWeb于2005年啟動的基于Creative Commons Attribution協議的語義網項目。Freebase主要采用社區成員協作方式構建,其數據源主要包括Wikipedia、NNDB、Fashion Model Directory、MusicBrainz和社區用戶貢獻等。Freebase基于RDF三元組模型,共有19億條三元組,底層采用圖數據庫進行存儲。2010年,Freebase被Google收購作為其知識圖譜數據來源之一。2016年,Google宣布將Freebase的數據和API服務都遷移至Wikidata,并正式關閉了Freebase。
WikiData是免費開放、多語言、任何人或機器都可以編輯修改的大規模鏈接知識庫,是由維基百科于2012年啟動的基于Creative Commons Attribution協議的項目。WikiData繼承了Wikipedia的眾包協作構建機制,但與Wikipedia不同,WikiData基于以三元組為基礎的知識條目的自由編輯,目前已經有超過4667萬條知識條目。
DBPedia是由OpenLink Virtuoso托管和發布的基于GPL協議的開源知識庫。DBpedia以互聯網挖掘的方式從各種維基媒體項目創建的信息中提取結構化內容,以機器可讀的形式存儲知識,并提供信息收集、組織、共享、搜索和利用的手段。DBpedia 2014年發布的版本包含30億條三元組。DBpedia知識庫與現有的知識庫相比有幾個優點:涵蓋領域多、代表真實的社區協議、會隨著維基百科的變化而自動演變、多語言。DBpedia知識庫的用例非常廣泛,包括企業知識管理、Web搜索以及維基百科搜索的革命。
YAGO是一種基于鏈接數據庫的開放語義知識庫,是由德國馬普研究所與巴黎電訊科技大學于2007開始的基于Creative Commons Attribution協議的聯合項目。YAGO主要集成了Wikipedia、WordNet和GeoNames三個來源的數據,包含1.2億條三元組知識,其功能包括作為一個分類單元直接連接到DBpedia云知識庫。目前YAGO在SUMO Ontology項目、DBpedia計劃、UMBEL Ontology項目以及Freebase等項目中提供相關知識庫支持,同時它也是IBM Watson的后端知識庫之一。
其他的開放知識圖譜有:ConceptGraph、BabelNet、CN-DBPeidia、OpenKG等。
開源構建工具
Protege是基于Java語言開發的本體編輯和知識獲取軟件,是斯坦福大學醫學院生物信息研究中心于1999年發布的基于BSD 2-clause協議的開源軟件。Protege提供本體概念類、關系、屬性和實例的構建,不基于具體的本體描述語言,因此用戶可以在概念層次上構建領域本體模型。
除了Protege,還有Stanford OpenIE、Tuffy、OpenKE、Grakn等應用于知識圖譜構建的開源軟件。但它們普遍受到的關注度不高,這在一定程度上體現出了知識圖譜領域用于構建圖譜的開源軟件的匱乏。
完整的知識圖譜構建還包括知識的存儲。知識圖譜有兩類存儲方式,一類是傳統的RDF結構存儲,RDF 標準的結構化查詢語言是SPARQL;另一類是圖數據庫,它可以彌補傳統關系型數據庫在存儲知識圖譜時查詢復雜、緩慢的缺陷。目前常用的圖數據庫軟件包括Neo4j、OrientDB、ArangoDB和AllegroGrap等。
小結
知識圖譜提供了一種新的數據和知識組織方式,能夠讓多源異構的數據知識化,基于知識圖譜能夠建立各種知識服務和智能應用。知識圖譜在金融、醫療、農業、法律等很多垂直領域的應用已經得到了迅速地展開,范圍越來越廣,程度由淺入深。但知識圖譜的構建和應用具有很大的技術難度,需要自然語言處理、數據庫和語義推理等多重技術的支持。
連載預告
人工智能開源軟件發展現狀連載預告:
第一集:人工智能開源軟件發展歷程
第二集:人工智能開源計算平臺
第三集:開源機器學習框架
第四集:自然語言處理開源軟件
第五集:計算機視覺開源軟件
第六集:智能語音開源軟件
第七集:無人系統開源軟件
第八集:知識圖譜開源軟件
第九集:虛擬現實與增強現實開源軟件
第十集:游戲智能與信息安全開源軟件
第十一集:人工智能開源軟件特性分析
第十二集:基于開源軟件的人工智能技術典型解決方案
《中國人工智能開源軟件發展白皮書(2018)》
為推動人工智能開源軟件產業發展,工業和信息化部信息化和軟件服務業司指導中國電子技術標準化研究院,聯合上海計算機軟件技術開發中心、北京大學、中國科學院、北京京東尚科信息技術有限公司、深圳前海微眾銀行股份有限公司、螞蟻小微金融服務集團、北京百度網訊科技有限公司、東軟集團股份有限公司、順豐科技有限公司等企事業單位,編撰形成了《中國人工智能開源軟件發展白皮書(2018)》。白皮書現已公開發布,點擊左下方閱讀全文免費獲取下載鏈接。