南通颐猩文化传播有限公司

  1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

國產(chǎn)數(shù)據(jù)庫硬核技術(shù)又破紀(jì)錄?

 2020-08-19 14:55  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

國產(chǎn)數(shù)據(jù)庫領(lǐng)域有人“破世界紀(jì)錄”了 ,創(chuàng)紀(jì)錄達(dá)7.6倍!

最近中國軟件網(wǎng)注意到一份數(shù)據(jù)庫前沿技術(shù)領(lǐng)域的測試報告——《TuGrpah基于LDBC-SNB的測試報告》。http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf

這是國際圖數(shù)據(jù)非盈利組織針對國內(nèi)的一款圖數(shù)據(jù)庫產(chǎn)品發(fā)布的一份專業(yè)報告,是備受關(guān)注的圖數(shù)據(jù)庫領(lǐng)域的權(quán)威基準(zhǔn)測試報告。

就是在這份報告,費馬科技用數(shù)據(jù)證明:他們公司推出的圖數(shù)據(jù)庫產(chǎn)品——TuGraph,在嚴(yán)格準(zhǔn)守LDBC-SNB規(guī)范中的測試中,比LDBC官網(wǎng)目前排名第一的圖數(shù)據(jù)庫產(chǎn)品要好得多。

報告結(jié)果顯示,TuGraph的得分接近或超過5000。這一結(jié)果遠(yuǎn)高于目前LDBC-SNB已經(jīng)公布的最高紀(jì)錄(由Virtuoso保持),約為當(dāng)前紀(jì)錄的7.6倍。

圖1. 審計測試成功的聲明頁截圖(含認(rèn)證審計員,LDBC SNB任務(wù)組主任和費馬科技CTO的簽名)

數(shù)據(jù)庫一直是我國IT核心技術(shù)中內(nèi)心深處的痛。圖數(shù)據(jù)庫是數(shù)據(jù)庫領(lǐng)域非常重要的一個發(fā)展方向,也是很多新興數(shù)據(jù)庫廠商希望能成為獨角獸的土壤。正是圖數(shù)據(jù)庫、正是這個結(jié)果,引起了中國軟件網(wǎng)的關(guān)注。

關(guān)于LDBC與SNB測試

關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(LDBC,Linked Data Benchmark Council)是由廠商成員、非盈利組織成員、個人成員共同組成的,匯聚了各界圖數(shù)據(jù)領(lǐng)域的學(xué)者,共同推進圖數(shù)據(jù)發(fā)展。就像TPC(Transaction Processing Performance Council,事務(wù)處理性能委員會)是制定商務(wù)應(yīng)用基準(zhǔn)程序的標(biāo)準(zhǔn)規(guī)范、性能和價格度量,并管理測試結(jié)果發(fā)布的機構(gòu)。LDBC是圖(Graph)和RDF數(shù)據(jù)管理的基準(zhǔn)指南制定者與測試結(jié)果發(fā)布機構(gòu)。

社交網(wǎng)路基準(zhǔn)(SNB,Social Network Benchmark)是關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(LDBC)發(fā)布的基準(zhǔn)測試程序之一。它通過兩個典型場景來評價圖數(shù)據(jù)庫。這兩個場景分別是:

•交互場景(interactive), 事務(wù)查詢?nèi)蝿?wù)(transaction query workload),類似OLTP。

•商務(wù)智能場景(business intelligence),統(tǒng)計查詢?nèi)蝿?wù)(analytical query workload) ,類似OLAP。

目前,LDBC-SNB Benchmark(http://ldbcouncil.org/benchmarks/snb)是數(shù)據(jù)庫業(yè)界權(quán)威的衡量圖數(shù)據(jù)庫和圖數(shù)據(jù)管理系統(tǒng)的重要參照標(biāo)準(zhǔn)。LDBC采用開源的做法,遵循GPLv3。它的基準(zhǔn)(Benchmark)標(biāo)準(zhǔn)文檔,評估基準(zhǔn)要用到軟件和工具的源碼,以及問題跟蹤、技術(shù)文檔都發(fā)布在開源網(wǎng)站上。

關(guān)于測試過程

費馬科技從測試環(huán)境準(zhǔn)備,測試數(shù)據(jù)生成和導(dǎo)入,測試?yán)绦颍≒lugins)的安裝和執(zhí)行,以及結(jié)果正確性的驗證,整個過程由LDBC指定的第三方在亞馬遜公有云上進行,過程中所使用的所有程序和腳本都是公開的,并且整個測試流程由第三方人員完成,保證測試過程的公正、公平、公開。測試結(jié)果和測試代碼需交由LDBC執(zhí)行委員會審核通過。

測試的目標(biāo)包括圖數(shù)據(jù)的數(shù)據(jù)加載速度,數(shù)據(jù)存儲規(guī)模,功能正確性和性能指標(biāo)。本次測試,費馬科技用LDBC的數(shù)據(jù)生成工具(datagen)生成了SF30,SF100,SF300三個大小不同的數(shù)據(jù)集,分別代表大小為30G,100G和300G的社交網(wǎng)絡(luò)數(shù)據(jù),充分反映數(shù)據(jù)庫在不同數(shù)據(jù)規(guī)模下的表現(xiàn)的穩(wěn)定性。

下表列出了交互場景的測試結(jié)果,其中的吞吐率(OPS)的意思是每秒完成的操作次數(shù)。

表1. 不同數(shù)據(jù)規(guī)模SF30(30GB),SF100(100GB)和SF300(300GB)的測試結(jié)果

上表是交互場景(interactive)的測試結(jié)果,每項持續(xù)時間超過兩個小時,操作數(shù)達(dá)到數(shù)千萬,而TuGraph在保證100%的查詢及時率的前提下,吞吐率達(dá)到5000上下,實屬不易。這里的查詢及時率指的是每一個查詢結(jié)果均能在給定的延遲要求里返回,院高于標(biāo)準(zhǔn)要求的95%,展現(xiàn)了TuGraph穩(wěn)定的運行效率。就吞吐率而言,TuGraph為當(dāng)前紀(jì)錄的7.6倍,這在商業(yè)數(shù)據(jù)庫中非常難能可貴。

幫助銀行識別個人信貸詐騙團伙

TuGraph的主要貢獻(xiàn)者之一,費馬科技CTO朱曉偉是清華大學(xué)圖數(shù)據(jù)庫研究方向的博士。在朱曉偉看來,這是值得驕傲的成績。這表明費馬科技在數(shù)據(jù)庫發(fā)展的最新前沿——圖數(shù)據(jù)庫方面走在了世界前列,將國內(nèi)自主研發(fā)的技術(shù),推向了世界。

更重要的是,正是有這樣突出的性能表現(xiàn),費馬圖數(shù)據(jù)庫產(chǎn)品和技術(shù)為客戶創(chuàng)造了真正的價值,幫助客戶解決了一些長期以來難以著手的問題。

陳亮是沅啟融安的CTO。沅啟融安是一家專注于從事風(fēng)險控制領(lǐng)域的專業(yè)咨詢與技術(shù)服務(wù)公司,他們的主營業(yè)務(wù)是為大型銀行風(fēng)險管理部提供深度服務(wù)。

他向中國軟件網(wǎng)介紹了一個用圖數(shù)據(jù)解決的金融風(fēng)控場景——信用卡等銀行個人信貸團伙詐騙。

詐騙團伙會用非法渠道獲取的大量身份證向銀行提出信用卡申請。這些身份證所代表的人員信息銀行系統(tǒng)并不全部掌握,以致部分有潛在風(fēng)險的申請會被銀行通過。詐騙者將通過的部分進行提現(xiàn)或消費,但不還款。一旦出現(xiàn)這種情況,該項消費大概率會成為銀行的壞賬。

為此,銀行的風(fēng)險管理部門一直希望能有一項技術(shù),在信用卡申請時,就能從申請時提交的相關(guān)信息中發(fā)現(xiàn)蛛絲馬跡,將這些具有詐騙意圖的人識別出來。

傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫的分析方法一直沒有很好地解決這個問題。因為傳統(tǒng)數(shù)據(jù)分析方法涉及的數(shù)量太大,算法也比較復(fù)雜,因此分析所需要的時間太長,無法在信用卡申請的時限內(nèi)完成分析。

為此,陳亮他們和費馬科技一起,為銀行提供了一種特別有效的解決方案——基于圖數(shù)據(jù)庫和圖計算平臺進行分析。

通過建立圖數(shù)據(jù)庫,并對圖數(shù)據(jù)庫進行相應(yīng)的計算分析,可以對信用卡申請人的電話號碼、地址等信息進行關(guān)聯(lián)和聚類分析。根據(jù)這些相關(guān)性,銀行可以從中會發(fā)現(xiàn)一些具有團伙性質(zhì)的蛛絲馬跡。

相比傳統(tǒng)的數(shù)據(jù)分析方法,他們的系統(tǒng)效率提升了60倍,從原來的需要10個時到現(xiàn)在只用10分鐘解決,可用性大大增強。

一個空間巨大的市場

業(yè)界普遍認(rèn)為,對于圖數(shù)據(jù)庫和計算技術(shù)的研究,最早可追溯至20世紀(jì)四五十年代。但圖數(shù)據(jù)庫、圖計算逐漸進入人們視野,則是因2010年谷歌發(fā)布的一篇圖計算論文引起。隨著數(shù)字經(jīng)濟的迅速發(fā)展,目前圖數(shù)據(jù)庫已進入臨近爆發(fā)的前夜。

在這個全媒體社交、萬物互聯(lián)的時代,具有很多的應(yīng)用場景。例如,在金融領(lǐng)域,可用圖數(shù)據(jù)庫通過建立賬戶(客戶)的關(guān)系圖,根據(jù)其社會關(guān)系、交易情況,分析客戶的還款能力、還款意愿、抗風(fēng)險能力等,提升金融行業(yè)小貸授信、信貸審核、貸后追蹤等風(fēng)控能力,并根據(jù)資金交易圖譜實現(xiàn)反洗錢、反欺詐等系統(tǒng)。在社交領(lǐng)域,人與人在線上和線下的聯(lián)系天然形成了一張圖,匯集海量的關(guān)系數(shù)據(jù)后,能夠做社區(qū)發(fā)現(xiàn)、輿論追蹤、用戶推薦等應(yīng)用;在電信領(lǐng)域,人與人的通信是一個非常強的聯(lián)系,通信的時間和頻率則代表了這種聯(lián)系的強弱。電信運營商在通信圖上進行拓展騷擾電話阻斷、經(jīng)營分析等業(yè)務(wù)……

根據(jù)Gartner研究報告,2019~2022年,圖數(shù)據(jù)庫市場將會以每年100%的增長率增長;而在過去的2018年,圖數(shù)據(jù)庫市場大概是5億美元,到2022年保守估計至少80億美元。

圖中可知,從2013年1月起至2020年8月,圖數(shù)據(jù)庫的發(fā)展一直屬于急速上升的模式。可得,越來越多的人開始關(guān)注圖數(shù)據(jù)庫。數(shù)據(jù)來源:https://db-engines.com/en/ranking_categories

當(dāng)前,越來越多的應(yīng)用場景需要在海量異構(gòu)數(shù)據(jù)中提出復(fù)雜問題,使用現(xiàn)有的數(shù)據(jù)庫(比如關(guān)系型數(shù)據(jù)庫)實現(xiàn)相關(guān)分析是不切實際、甚至完全不可能的。而圖數(shù)據(jù)存儲可以跨越數(shù)據(jù)孤島、并有效地建模、探索和查詢數(shù)據(jù),能非常方便地解決這類問題。因此,圖數(shù)據(jù)庫的需求將會越來越多,但是目前擁有相關(guān)專業(yè)技能人才缺乏的限制了其采用。

巨頭還未全心入局,一場還未真正打響的戰(zhàn)爭

看上去的誘人前景,吸引了很多廠商殺入到圖數(shù)據(jù)庫市場。尤其是近幾年,新興廠商開始增多。

中國軟件網(wǎng)調(diào)查發(fā)現(xiàn),當(dāng)前圖數(shù)據(jù)庫領(lǐng)域主要有兩類提供商:一類是開源軟件,一類是新興公司,還有一些巨頭推出的產(chǎn)品。

從當(dāng)前的競爭態(tài)勢來看,目前處于剛起步的階段,還沒有形成穩(wěn)定的競爭格局。

但從業(yè)界口碑來看,已初步顯露出三大梯隊的態(tài)勢。

處在第一梯隊的是Neo4j和費馬科技等新興公司。其中Neo4j是開源軟件,它當(dāng)前應(yīng)用最廣泛。費馬科技成立時間相對較晚,但技術(shù)上更先進。

第二梯隊的主要由JanusGraph等開源項目,以及Virtuoso等公司。這些公司往往都和圖數(shù)據(jù)庫領(lǐng)域知名的開源項目Titan相關(guān)。好多國內(nèi)外有圖數(shù)據(jù)庫產(chǎn)品的公司,最早的代碼都是源自于Titan。

第三梯隊的主要是一些巨頭推出的產(chǎn)品,以及一些初創(chuàng)公司。例如,百度、騰訊云、阿里云、華為、AWS等都有相關(guān)產(chǎn)品。這些巨頭或基于開源、或收購,或自己研發(fā)推出了一些產(chǎn)品,但基本上都屬于探索期,現(xiàn)在還沒有真正大規(guī)模投入。

國內(nèi)知名的數(shù)據(jù)庫廠商南大通用副總裁杜國旺在授受中國軟件網(wǎng)采訪時說,他非??春脠D數(shù)據(jù)庫市場的前景。他認(rèn)為,無論是圖數(shù)據(jù)庫廠商,還是依托圖數(shù)據(jù)庫提供知識圖譜等增值服務(wù)的廠商,都大有發(fā)展前途,完全有可能產(chǎn)生獨角獸。

不過,也有業(yè)內(nèi)人士對圖數(shù)據(jù)庫的前景不那么看好。例如,國內(nèi)大數(shù)據(jù)領(lǐng)域的知名專家、柏睿數(shù)據(jù)創(chuàng)始人劉睿民就告訴中國軟件網(wǎng),他不那么看好圖數(shù)據(jù)庫的市場潛力。他認(rèn)為,圖數(shù)據(jù)庫的應(yīng)用場景目前比較窄,有一定的市場空間,關(guān)系型數(shù)據(jù)庫仍然會占主導(dǎo)地位。

不過,記者發(fā)現(xiàn),不管未來市場容量有多大,圖數(shù)據(jù)庫都引起了國產(chǎn)數(shù)據(jù)庫廠商的深厚興趣,并開始了大量的探索與實踐。

費馬科技在產(chǎn)品技術(shù)上的突破,讓我們看到了國產(chǎn)品牌在數(shù)據(jù)庫領(lǐng)域核心技術(shù)的希望。

費馬科技官網(wǎng):https://fma-ai.cn/

作者:中國軟件網(wǎng) 曹開彬

編輯:費馬科技

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
數(shù)據(jù)庫

相關(guān)文章