大多數數據科學家使用諸如R,Python和C / C ++之類的分析工具進行研究。這些工具很難與當前的數據庫系統(tǒng)集成,從而導致數據分析緩慢而麻煩。北京軟件開發(fā)公司:“數據科學家選擇通過開發(fā)??一系列數據管理替代方案來重塑數據庫系統(tǒng),這些替代方案可以執(zhí)行與傳統(tǒng)數據庫管理系統(tǒng)相似的任務,但是存在許多數十年前在數據庫領域解決的問題。”
“數據庫研究界在開發(fā)功能強大的數據庫引擎方面取得了長足的進步,該引擎可進行有效的分析查詢處理。” 軟件開發(fā)公司嘗試將數據庫科學中的這些創(chuàng)新與數據科學家最常使用的分析工具相結合。北京軟件外包公司:“我們研究了如何促進分析工具與關系數據庫管理系統(tǒng)的高效,輕松集成。”
大型數據集
在計算機科學中使用標準數據庫系統(tǒng)的另一個問題是處理的數據大小。大多數數據庫系統(tǒng)并未針對使用遠程服務器的大型數據集和大規(guī)模數據分析進行優(yōu)化。要優(yōu)化數據庫系統(tǒng),可以考慮三種方法。
軟件公司:“我們將研究重點放在數據庫-客戶端集成的三種主要方法上:客戶端-服務器連接,數據庫內處理以及將數據庫嵌入客戶端應用程序中。” 對于每種方法,他研究了現有數據庫系統(tǒng)中的實現,并評估了它們對于數據科學中常見的大型數據集和工作負載的效率。
鴨數據庫
最終結果是一個名為DuckDB的新數據管理系統(tǒng),該系統(tǒng)專用于與R和Python(及其他分析工具)進行高效且輕松的集成。該管理系統(tǒng)旨在用作成熟的數據庫系統(tǒng),不僅用于研究目的。“在DuckDB中,我們將從研究數據庫-客戶端集成的所有課程中吸取教訓,并創(chuàng)建一個易于使用且高效的嵌入式數據庫。” 北京軟件外包公司將繼續(xù)擔任CWI的博士后,在那里他將繼續(xù)開發(fā)DuckDB。