從Data到Data+AI數(shù)據(jù)基礎(chǔ)設(shè)施第三次演進(jìn)的觀察與思考_第1頁(yè)
從Data到Data+AI數(shù)據(jù)基礎(chǔ)設(shè)施第三次演進(jìn)的觀察與思考_第2頁(yè)
從Data到Data+AI數(shù)據(jù)基礎(chǔ)設(shè)施第三次演進(jìn)的觀察與思考_第3頁(yè)
從Data到Data+AI數(shù)據(jù)基礎(chǔ)設(shè)施第三次演進(jìn)的觀察與思考_第4頁(yè)
從Data到Data+AI數(shù)據(jù)基礎(chǔ)設(shè)施第三次演進(jìn)的觀察與思考_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)基礎(chǔ)設(shè)施第三次演進(jìn)的觀察與思考當(dāng)前數(shù)據(jù)平臺(tái)發(fā)展現(xiàn)狀綜述新一代數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)思路與驗(yàn)證面向未來(lái)的幾個(gè)發(fā)展趨勢(shì)和未解難題2.2000年代,大數(shù)據(jù)時(shí)代Google1.海量數(shù)據(jù)與低成本,分布式架構(gòu),通用處理能力(NotonlySQL)2.Hadoop、Snowflake、3.2022年,大模型時(shí)代2.2010年代深度學(xué)習(xí)奠基,2016AlphaGo萌芽過熱谷底攀升成熟:目時(shí)間者以外的用戶(:目時(shí)間初創(chuàng)公司第一輪風(fēng)投研發(fā)第三次革命開始有負(fù)面報(bào)道●供應(yīng)商兼并、倒閉第二輪、第三輪風(fēng)投少于5%的潛在目標(biāo)用戶已完全接受發(fā)展方法論和最好的實(shí)踐技巧二代產(chǎn)品分服務(wù)20%到30%的潛在品泡沫化的促動(dòng)期光明期高峰期2023,數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)的“變”與“不變”當(dāng)下的數(shù)據(jù)平臺(tái)架構(gòu)已經(jīng)完美了么?最大的挑戰(zhàn)/問題是什么?面向未來(lái),數(shù)據(jù)平臺(tái)發(fā)展趨勢(shì)是什么,下一代平臺(tái)是什么樣?監(jiān)控運(yùn)維監(jiān)控運(yùn)維用數(shù)據(jù)處理數(shù)據(jù)存儲(chǔ)文件文件主數(shù)據(jù)管理(Sensor、主數(shù)據(jù)管理(Sensor、數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)上述內(nèi)容來(lái)源于網(wǎng)絡(luò)公開信息Agenda0101020203031.存儲(chǔ)層,數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)尚未真正統(tǒng)一2.組裝式數(shù)據(jù)架構(gòu)仍然復(fù)雜,異構(gòu)存儲(chǔ),多套元數(shù)據(jù),帶來(lái)大量的計(jì)算和存儲(chǔ)冗余和管理成本。極高的數(shù)據(jù)管理成本和開發(fā)成本存儲(chǔ)系統(tǒng)3.組裝式數(shù)據(jù)架構(gòu)缺乏滿足業(yè)務(wù)變化的靈活性。典型的結(jié)構(gòu)化數(shù)據(jù)分析架構(gòu)圖◎云器科技版權(quán)所有結(jié)構(gòu)化數(shù)據(jù)分析演進(jìn)之一-湖倉(cāng)一體1.2023年,湖倉(cāng)一體成為“事實(shí)標(biāo)準(zhǔn)”(2019年提出)2023年先后宣布支持)3.湖倉(cāng)一體架構(gòu)仍然多樣,幾個(gè)普遍認(rèn)可的設(shè)計(jì):1.*—套*數(shù)據(jù),具備*一致*性(其他層次上的數(shù)據(jù)用Cache抽象)2.開放性,數(shù)據(jù)都可以被*所有*應(yīng)用訪問3.統(tǒng)一的元數(shù)據(jù)中心數(shù)據(jù)湖方法論靈活性事后建模存儲(chǔ)類型結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化向所有引擎開放各引擎有限優(yōu)化向特定引擎開放企業(yè)級(jí)能易獲得高度優(yōu)花力成本難啟動(dòng)易運(yùn)維管理(甚至免運(yùn)維管理)質(zhì)量低難管理使用_易管理使用(圖:數(shù)據(jù)湖與數(shù)倉(cāng)技術(shù)優(yōu)勢(shì)對(duì)比)第三代第三代Lakehouse湖倉(cāng)一體化平臺(tái)元數(shù)據(jù)、緩存和索引層第二代兩層一體化的湖倉(cāng)平臺(tái)第一代數(shù)倉(cāng)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)分析演進(jìn)之二-“云原生”變成架構(gòu)概念1.“云原生”從云的概念變成一個(gè)架構(gòu)概念。私有化部署也遵循“云原生”架構(gòu)。例如:2.存算分離3.計(jì)算資源共享(混部)4.應(yīng)用的微服務(wù)化和無(wú)服務(wù)化2.laaS層接口標(biāo)準(zhǔn)化,架構(gòu)層次上的解偶/分層進(jìn)一步發(fā)生,存儲(chǔ)、資源、網(wǎng)絡(luò)等架構(gòu)模塊進(jìn)一步解偶開,并在能力/效率/成本上進(jìn)化3.AGI對(duì)上述架構(gòu)提出更高的要求,架構(gòu)升級(jí)按經(jīng)典螺旋方式發(fā)展2.高密度訓(xùn)練帶來(lái)Scale-Up架構(gòu)的復(fù)興3.從高效的AI推理框架,到AICloudScaleable結(jié)構(gòu)化數(shù)據(jù)分析演進(jìn)之三-計(jì)算引擎的一體化一體化分析引擎架構(gòu)的設(shè)計(jì)目標(biāo)1.2.提供面向數(shù)據(jù)新鮮度、查詢性能和資源成本三方面的多種平衡點(diǎn)(而不是面向三個(gè)頂點(diǎn)的極致優(yōu)化)3.支持在平衡點(diǎn)之間做簡(jiǎn)單靈活的調(diào)節(jié)4.多種指標(biāo)達(dá)到/超過當(dāng)前主流產(chǎn)品的水平下一代的數(shù)據(jù)平臺(tái)架構(gòu)的推薦架構(gòu)一體化引擎。Al/ML,面向未來(lái)可擴(kuò)展的設(shè)計(jì)。作為數(shù)據(jù)底盤。下一代的數(shù)據(jù)平臺(tái)架構(gòu)的推薦架構(gòu)一體化引擎。Al/ML,面向未來(lái)可擴(kuò)展的設(shè)計(jì)。作為數(shù)據(jù)底盤。當(dāng)前數(shù)據(jù)平臺(tái)發(fā)展現(xiàn)狀綜述新一代數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)思路與驗(yàn)證面向未來(lái)的幾個(gè)發(fā)展趨勢(shì)和未解難題“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)1:數(shù)據(jù)平臺(tái)體系架構(gòu)從1:1到M:N“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)2:DataCentricAl-**數(shù)據(jù)**是AGI時(shí)代最大的Differentiator·AGI三要素:模型+算力+數(shù)據(jù),前兩者目前高度同質(zhì)化·海量+高質(zhì)量數(shù)據(jù),是預(yù)訓(xùn)練模型效果的前提(包含各種行業(yè)模型,比如BloombergGPT)·私有數(shù)據(jù),是模型最終落地的前提(構(gòu)建RAG的核心)“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)3:數(shù)據(jù)平臺(tái)架構(gòu)重回搜索時(shí)代115處678Vector78VectorAnswer⑥云器科技版權(quán)所有“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)3:數(shù)據(jù)平臺(tái)架構(gòu)重回搜索時(shí)代·達(dá)到一定水準(zhǔn)的RAG是大模型落地的必選項(xiàng)·面向未來(lái)看,所有數(shù)據(jù)都可以被抽象成知識(shí)庫(kù)(是個(gè)更大的概念)·面向AGI的知識(shí)庫(kù)構(gòu)建和服務(wù),有搜索引擎原理和流程非常類似·相似的流程:收集=>分片=>索引建立=>索引服務(wù)=>召回=>排序=>處理=>輸出·相關(guān)性、Precision和Recall等是最核心指標(biāo)(而不是僅僅性能)·大數(shù)據(jù)平臺(tái)又是搜索的底層支持Infra6Vector4“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)4:統(tǒng)一元數(shù)據(jù)管理,重要性提升10倍,構(gòu)建難度也提升10倍構(gòu)化數(shù)據(jù),有機(jī)會(huì)被理解和使用·StartedbyDeepLearning(但僅僅是識(shí)別,不是理解)Canbedisplayedinrows,columnsandrelationaldatabaseswordprocessingf田20%of20%ofRequireslessstorage疑問一:SQLVSPython,當(dāng)自動(dòng)代碼生成成為主流,贏家會(huì)是誰(shuí)?1.SQL最終成為數(shù)據(jù)庫(kù)和大數(shù)據(jù)的主流開發(fā)接口-聲明式編程(Declarative)天然的易用性和普適性2.隨著大模型/AGI發(fā)展,編程開始走到輔助編程(Copilot)階段k疑問二:數(shù)據(jù)平臺(tái)的“自動(dòng)駕駛”多久能實(shí)現(xiàn)?數(shù)據(jù)消費(fèi)部分,數(shù)據(jù)消費(fèi)部分,最優(yōu)的么數(shù)據(jù)生產(chǎn)(預(yù)計(jì)算)與數(shù)據(jù)在哪里?>用戶作業(yè)負(fù)載隨時(shí)間變化,動(dòng)態(tài)的調(diào)整?AIAI的么?上述問題,市面上的產(chǎn)品都是人工處理!

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論