雙向賦能：AI與數據庫的修行之道

2024-06-28 21:04
遠川研究所

在這個數據爲王的時代，數據是人工智能的三大支柱之一，其重要性不言而喻。最近，OpenAI收購了數據庫初創公司Rockset，迅速引起了業內外的廣泛關注。OpenAI早已在算法和計算能力方面遙遙領先，通過這次戰略性的收購，OpenAI將在其產品中融合Rockset的先進數據索引和查詢技術，幫助OpenAI將數據轉化爲“可操作智能”。

現代數據庫與人工智能（AI）的融合，正如同一場席捲全球的技術革命，深刻地重塑着技術與產業的格局。

一方面，數據庫技術的技術迭代需要更好地支持人工智能應用工作負責，比如向量數據庫，也就是DB for AI；另一方面人工智能技術也更好地讓數據庫運維更方便，實現自動化和智能化，也就是AI for DB。

在這一個變革過程中，數據庫產業正面臨諸多挑戰，比如海量數據高性能和大併發、大量數據庫實例智能優化、保障數據安全防篡改的防護等。面對這種情況，企業如何通過技術創新和生態協同應對挑戰並抓住其中的機遇呢？

作爲數據庫領域的領頭羊，東方國信、PingCAP、雲和恩墨通過自身的技術與產品實踐給出了他們的答案，同時他們與英特爾的協同創新，也讓我們看到了數據庫生態的蓬勃生機。

新需求催生新挑戰

在AI大模型時代，由於數據庫的使用人數和數據量的爆炸性增長，數據庫系統的併發度會極大提升。雲和恩墨聯合創始人兼CTO楊廷琨強調，數據量爆發性增長帶來壓力的同時，硬件技術的快速發展也促進了算力提升，爲提升處理能力和性能提供了可能性。這時候，數據庫廠商需從兩方面着手應對：一方面增強單機性能，另一方面通過架構設計實現平滑擴展，以滿足海量數據的處理需求。

同時，數據量的爆炸性增長也會帶來極大的數據冗餘。在此挑戰下，用戶從需求側又提出了很多新的要求，東方國信副總裁兼CTO查禮表示：用戶往往會希望數倉既能做數據加工，又能做分析和查詢，這要求數據庫系統具有高度靈活性和多功能性。

數據來源多樣化和用戶需求複雜化催生了對硬件越來越高的需求，數據庫要保持高性能、高穩定性，開發和運維人員又需要簡化數據庫的使用，這構成了一種“悖論”。

爲解決數據庫行業“既要、又要”的問題，越來越多的數據技術公司讓AI“入局”，讓數據庫越跑越“聰明”。PingCAP服務總經理林景旭表示，他們正探索利用AI技術增強數據庫功能，同時簡化用戶操作。作爲一家分佈式數據庫廠商，PingCAP提供的開源分佈式數據產品與解決方案，通過分佈式數據庫架構，實現計算和存儲的分離，以動態擴展滿足不同用戶需求，這其中便可以通過AI算法來優化資源使用和性能評判。

數據庫產業需要不斷創新，開發更加高效、可靠、智能的數據庫技術，才能滿足新需求的挑戰。同時，數據庫產業鏈也需要緊密合作，共同推動數據庫技術的發展，爲數字經濟的發展提供更加堅實的基礎。

生態協同推動產業變革

數據庫產業面臨的挑戰是多方面的，這些挑戰並非單個企業能夠獨自解決，需要整個產業的協同合作，才能共同應對挑戰，並抓住其中的機遇。

憑藉先進的處理器技術、開源合作策略以及對客戶需求的深刻理解，英特爾與數據庫領域的合作伙伴一起構建了一個開源開放、合作共贏的生態環境，助力數據庫技術的持續創新和應用落地。

英特爾中國雲創中心技術總經理張曉軍介紹說，第四代和第五代英特爾®️ 至強® 可擴展處理器內置了多項面向數據庫優化的技術，例如英特爾® QAT（英特爾® 數據保護與壓縮技術）用於數據壓縮解壓縮，以及英特爾® IAA（英特爾® 存內分析加速器）加速數據分析。在數據安全方面，英特爾也能通過英特爾® TDX（英特爾® 信任域擴展）和SGX（英特爾® 軟件防護擴展）爲使用中的數據提供端到端硬件級防護能力。

此外英特爾至強6處理器已於近期發佈，提供了兩種不同的 CPU 微架構版本，分別爲性能核 (P-core) 和能效核(E-core)，讓多種工作負載的性能和能效表現再創新高。其全新功能和內置加速器爲目標工作負載帶來進一步助力，實現了更高的性能和能效。

基於英特爾® 架構的加速器與軟件工具

衆多的合作伙伴正在藉助至強處理器和加速器及軟件工具增強自身的產品競爭力。

比如PingCAP推出的TiDB開源分佈式數據庫就得益於第四代英特爾® 至強® 可擴展處理器卓越的代際性能，其數據庫的只讀性能與讀寫性能分別達到基準配置的1.62倍與1.43倍。

此外TiDB利用至強®️ 可擴展處理器搭載的英特爾®️ IAA提供的出色吞吐量壓縮和解壓縮功能，在不影響性能的前提下，提升了數據壓縮率，節約了存儲空間。PingCAP採用英特爾®️ IAA代替LZ4之後，TiDB壓縮率爲LZ4無損壓縮算法的1.4倍。

並結合CPU的迭代，性能提升可達到原配置的1.56倍，有助於客戶化解數據壓縮所帶來的性能困擾。

雖然硬件性能的提升爲數據庫處理海量數據提供了基礎，但要真正發揮這些算力，需要對數據庫內核進行深度優化。雲和恩墨通過改進數據庫內核，使之更好地適應現代硬件，如多核CPU、大內存和高速IO子系統，從而實現單機性能的顯著提升。

根據其透露的測試結果，在一顆至強®️ 雙路服務器架構上，以50G內存配置，再加上一個NVMe的SSD閃存，雲和恩墨達到了700萬TPCC的指標，可以說是極大提高了單機能力。

東方國信適用於超大規模數據存儲和在線分析的大數據 BEH平臺企業版通過集成Gluten與Velox Backend向量化執行引擎，爲 Spark注入了原生矢量化執行的能力，同時結合第四代英特爾® 至強® 可擴展處理器，以及處理器集成的英特爾® QAT 加速器，顯著優化了Spark批處理計算、SparkSQL計算、SQL查詢服務的執行效率。經測試，在相同硬件環境下，配合英特爾® QAT 的加成，Spark計算性能可提升高達 2.9倍。

除了硬件之外，英特爾還強化了在軟件及數據庫生態方面的投入。張曉軍還強調了英特爾在開源領域的貢獻，如Apache社區的Gluten項目，已經在很多客戶系統裏得到了廣泛應用，相比傳統的Spark，性能可以提高2-3倍，如果其運行在英特爾的硬件上預計取得更優性能，顯著提升大數據處理效率。

數據庫與AI深度融合

隨着大數據時代的到來，數據量及系統數量都呈指數級增長，數據類型也由結構化數據逐漸演變成了非結構化數據和半結構化數據，這就對數據庫系統的穩定性和能力提出了更高的要求，數據庫技術和人工智能技術相結合成爲當前熱門的研究主題之一。

在AI時代，數據已成爲驅動企業發展的核心要素，而數據庫作爲存儲、管理和分析數據的重要基礎設施，與AI技術的深度融合將是大勢所趨。這種融合不僅能夠提升數據庫的性能和智能化水平，還能夠推動AI技術的應用落地。

數據庫廠商在不同維度上探索和應用AI，東方國信正在利用AI技術，尤其是在智能取數方面，通過自然語言處理生成SQL語句，提高數據提取的靈活性和效率。同時，他們也在探索智能建倉，嘗試通過AI技術自動化數據倉庫的構建和維護流程，旨在實現數據倉庫的自動化和智能化。

查禮表示，公司正積極研發解決方案，旨在通過AI輔助減少人工介入，提高效率，預計通過AI技術的引入，數倉維護成本能降低60%。

PingCAP利用AI算法進行資源管理，讓數據庫更適應複雜多變的業務場景。林景旭強調，通過集成AI技術，比如利用AI優化數據庫內部管理，提升數據庫本身的智能水平，使其在滿足複雜業務場景的同時，降低使用門檻。這意味着數據庫不僅要有強大的數據處理能力，還需具備自我管理和優化的能力，確保在面對日益複雜的業務需求時，能更加自主、高效地運行。

雲和恩墨則推動自身“AI for DB”和“DB for AI”的雙向促進，楊廷琨指出，雲和恩墨利用AI提升數據庫性能，尤其是在數據庫智能資源管理、智能監控、智能根因追蹤、智能參數調優、SQL智能優化以及自動駕駛等方面的應用潛能。

結語

現代數據庫與人工智能的結合不僅對處理能力、架構靈活性和用戶體驗提出了更高要求，也爲數據庫產業帶來了前所未有的發展機遇。

隨着技術的不斷進步和生態合作的深化，未來數據庫將更加智能、靈活和強大，爲數字經濟的發展提供堅實的基礎。英特爾與數據庫領域的合作伙伴將一起共同推動數據庫產業向智能化、高效化轉型，滿足客戶的業務創新需求。

文章來自至頂網，遠川研究所授權轉載