拓數派創始人兼CEO 馮雷(Ray Von)
鈦媒體獲悉,拓數派(OpenPie)不久前發布了全新產品虛擬數倉PieCloudDB「云上云」版(CoC:Cloud on Cloud),并正式上線基于阿里云構建公共云數據倉庫服務。
據創始人兼CEO馮雷所述,基于數倉虛擬化打造的旗艦產品PieCloudDB,是對行業頂級數據庫的抽象思考和設計原則復用為技術路線,實現了分析型數據數倉上云虛擬化。
【資料圖】
拓數派成立于2021年,創立之初便獲得頭部產業基金連續兩筆天使輪投資,并于2022年6月再度獲得新一輪戰略融資,其核心產品PieCloudDB是面向企業級的云原生虛擬數倉。
如今過去兩年,拓數派已相繼發布PieCloudDB的企業版/社區版(基于私有云部署)、軟硬件一體機、「云上云」版本(首先基于阿里云構建公共云數倉)。
拓數派為此給出了數倉虛擬化技術理念的完整演繹。據介紹,團隊將多個數倉整合到一個高可用的云虛擬數倉,以打通多云數據管道,數據計算資源按需擴縮容,同時可計算數據空間實現了數量級增加,數倉的管理復雜度和成本均得到降低。這個過程中使用了存算分離、eMPP(elastic Massive Parallel Processing,彈性大規模并行計算)、服務器無感知及TDE等多項核心技術。
PieCloudDB數倉虛擬化四大核心技術架構:
云原生數據庫/數倉技術近些年在概念上非常熱,但怎么實現云原生的彈性優勢、存算分離,各家廠商的產品成熟度和技術積累難免有所差異。從產品迭代周期和研發復雜性上看,拓數派的技術路徑難度頗高。據了解,團隊已經進行了百萬行代碼的推倒重寫。
以eMPP為例,PC版分析型數據庫所采用的傳統MPP技術,在遇到云端海量數據時會存在比較明顯的缺陷:如拓展困難、升級部署難,以及大量的數據孤島。eMPP則基于云計算架構的彈性并行計算,存儲和計算各自作為兩個獨立變量,各自在云里彈性伸縮,同時可以實現瞬間擴縮容。此外,用戶對于云中數據同時開啟多個集群進行數據計算,可以持續將所有數據在云中存儲,為已有的應用和未來的應用真正實現數據共享。
在媒體溝通會上,拓數派CTO郭罡告訴鈦媒體,“團隊最開始在單機版本上進行原型創新,支持多節點共享元數據和用戶數據,后來才支持分布式集群,相當于在Postgres上重新實現了一個新的分析型數據庫(OLAP)。”
從產品迭代節奏上,他還指出,“并不是因為Teradata退出中國,而是目前國內企業客戶還是會有對一體機的場景需求,未來也會跟更多的國產硬件廠商進行適配。”“目前來看,基于私有化部署的業務占比會更高,但未來3~5年內還是希望將公有云的業務收入進行持續提升。”
另外值得一提的是,馮雷為原Pivotal(中國)創始人兼總經理,在此之前,Pivotal就已經是一家非常成功的技術公司,其支持運營的開源數據庫Greenplum、PaaS平臺Cloud Foundry和Java開發的Spring框架在業內赫赫有名,云原生(cloud native)一詞最早起也源于Pivotal公司。
談及Greenplum的創新邏輯,郭罡明確指出:“團隊并沒有沿襲GP技術棧進行創新,而是進行了數據庫內核的重構;但另一方面,團隊保留了GP的部分優勢,通過GP生態進行更廣泛的用戶連接。”
在鈦媒體看來,從以Teradata為代表的一體機MPP數據庫產品,到Greenplum和Vertica等基于PC的MPP數據庫,再到如今企業所倡導的云原生數據庫/數倉,盡管市場對新一代數據技術棧的關注在近些年十分火熱,但國產數據庫產業的整體資金投入、人才積累以及實際應用案例的深度仍有待提高。
作為一家初創公司,拓數派正式組織研發與市場力量不過兩年,有其發展的優勢與契機。
(本文首發鈦媒體APP 作者 | 楊麗)
關鍵詞: