




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)基礎(chǔ)設(shè)施第三次演進(jìn)的觀察與思考當(dāng)前數(shù)據(jù)平臺(tái)發(fā)展現(xiàn)狀綜述新一代數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)思路與驗(yàn)證面向未來(lái)的幾個(gè)發(fā)展趨勢(shì)和未解難題2.2000年代,大數(shù)據(jù)時(shí)代Google1.海量數(shù)據(jù)與低成本,分布式架構(gòu),通用處理能力(NotonlySQL)2.Hadoop、Snowflake、3.2022年,大模型時(shí)代2.2010年代深度學(xué)習(xí)奠基,2016AlphaGo萌芽過熱谷底攀升成熟:目時(shí)間者以外的用戶(:目時(shí)間初創(chuàng)公司第一輪風(fēng)投研發(fā)第三次革命開始有負(fù)面報(bào)道●供應(yīng)商兼并、倒閉第二輪、第三輪風(fēng)投少于5%的潛在目標(biāo)用戶已完全接受發(fā)展方法論和最好的實(shí)踐技巧二代產(chǎn)品分服務(wù)20%到30%的潛在品泡沫化的促動(dòng)期光明期高峰期2023,數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)的“變”與“不變”當(dāng)下的數(shù)據(jù)平臺(tái)架構(gòu)已經(jīng)完美了么?最大的挑戰(zhàn)/問題是什么?面向未來(lái),數(shù)據(jù)平臺(tái)發(fā)展趨勢(shì)是什么,下一代平臺(tái)是什么樣?監(jiān)控運(yùn)維監(jiān)控運(yùn)維用數(shù)據(jù)處理數(shù)據(jù)存儲(chǔ)文件文件主數(shù)據(jù)管理(Sensor、主數(shù)據(jù)管理(Sensor、數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)上述內(nèi)容來(lái)源于網(wǎng)絡(luò)公開信息Agenda0101020203031.存儲(chǔ)層,數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)尚未真正統(tǒng)一2.組裝式數(shù)據(jù)架構(gòu)仍然復(fù)雜,異構(gòu)存儲(chǔ),多套元數(shù)據(jù),帶來(lái)大量的計(jì)算和存儲(chǔ)冗余和管理成本。極高的數(shù)據(jù)管理成本和開發(fā)成本存儲(chǔ)系統(tǒng)3.組裝式數(shù)據(jù)架構(gòu)缺乏滿足業(yè)務(wù)變化的靈活性。典型的結(jié)構(gòu)化數(shù)據(jù)分析架構(gòu)圖◎云器科技版權(quán)所有結(jié)構(gòu)化數(shù)據(jù)分析演進(jìn)之一-湖倉(cāng)一體1.2023年,湖倉(cāng)一體成為“事實(shí)標(biāo)準(zhǔn)”(2019年提出)2023年先后宣布支持)3.湖倉(cāng)一體架構(gòu)仍然多樣,幾個(gè)普遍認(rèn)可的設(shè)計(jì):1.*—套*數(shù)據(jù),具備*一致*性(其他層次上的數(shù)據(jù)用Cache抽象)2.開放性,數(shù)據(jù)都可以被*所有*應(yīng)用訪問3.統(tǒng)一的元數(shù)據(jù)中心數(shù)據(jù)湖方法論靈活性事后建模存儲(chǔ)類型結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化向所有引擎開放各引擎有限優(yōu)化向特定引擎開放企業(yè)級(jí)能易獲得高度優(yōu)花力成本難啟動(dòng)易運(yùn)維管理(甚至免運(yùn)維管理)質(zhì)量低難管理使用_易管理使用(圖:數(shù)據(jù)湖與數(shù)倉(cāng)技術(shù)優(yōu)勢(shì)對(duì)比)第三代第三代Lakehouse湖倉(cāng)一體化平臺(tái)元數(shù)據(jù)、緩存和索引層第二代兩層一體化的湖倉(cāng)平臺(tái)第一代數(shù)倉(cāng)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)分析演進(jìn)之二-“云原生”變成架構(gòu)概念1.“云原生”從云的概念變成一個(gè)架構(gòu)概念。私有化部署也遵循“云原生”架構(gòu)。例如:2.存算分離3.計(jì)算資源共享(混部)4.應(yīng)用的微服務(wù)化和無(wú)服務(wù)化2.laaS層接口標(biāo)準(zhǔn)化,架構(gòu)層次上的解偶/分層進(jìn)一步發(fā)生,存儲(chǔ)、資源、網(wǎng)絡(luò)等架構(gòu)模塊進(jìn)一步解偶開,并在能力/效率/成本上進(jìn)化3.AGI對(duì)上述架構(gòu)提出更高的要求,架構(gòu)升級(jí)按經(jīng)典螺旋方式發(fā)展2.高密度訓(xùn)練帶來(lái)Scale-Up架構(gòu)的復(fù)興3.從高效的AI推理框架,到AICloudScaleable結(jié)構(gòu)化數(shù)據(jù)分析演進(jìn)之三-計(jì)算引擎的一體化一體化分析引擎架構(gòu)的設(shè)計(jì)目標(biāo)1.2.提供面向數(shù)據(jù)新鮮度、查詢性能和資源成本三方面的多種平衡點(diǎn)(而不是面向三個(gè)頂點(diǎn)的極致優(yōu)化)3.支持在平衡點(diǎn)之間做簡(jiǎn)單靈活的調(diào)節(jié)4.多種指標(biāo)達(dá)到/超過當(dāng)前主流產(chǎn)品的水平下一代的數(shù)據(jù)平臺(tái)架構(gòu)的推薦架構(gòu)一體化引擎。Al/ML,面向未來(lái)可擴(kuò)展的設(shè)計(jì)。作為數(shù)據(jù)底盤。下一代的數(shù)據(jù)平臺(tái)架構(gòu)的推薦架構(gòu)一體化引擎。Al/ML,面向未來(lái)可擴(kuò)展的設(shè)計(jì)。作為數(shù)據(jù)底盤。當(dāng)前數(shù)據(jù)平臺(tái)發(fā)展現(xiàn)狀綜述新一代數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)思路與驗(yàn)證面向未來(lái)的幾個(gè)發(fā)展趨勢(shì)和未解難題“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)1:數(shù)據(jù)平臺(tái)體系架構(gòu)從1:1到M:N“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)2:DataCentricAl-**數(shù)據(jù)**是AGI時(shí)代最大的Differentiator·AGI三要素:模型+算力+數(shù)據(jù),前兩者目前高度同質(zhì)化·海量+高質(zhì)量數(shù)據(jù),是預(yù)訓(xùn)練模型效果的前提(包含各種行業(yè)模型,比如BloombergGPT)·私有數(shù)據(jù),是模型最終落地的前提(構(gòu)建RAG的核心)“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)3:數(shù)據(jù)平臺(tái)架構(gòu)重回搜索時(shí)代115處678Vector78VectorAnswer⑥云器科技版權(quán)所有“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)3:數(shù)據(jù)平臺(tái)架構(gòu)重回搜索時(shí)代·達(dá)到一定水準(zhǔn)的RAG是大模型落地的必選項(xiàng)·面向未來(lái)看,所有數(shù)據(jù)都可以被抽象成知識(shí)庫(kù)(是個(gè)更大的概念)·面向AGI的知識(shí)庫(kù)構(gòu)建和服務(wù),有搜索引擎原理和流程非常類似·相似的流程:收集=>分片=>索引建立=>索引服務(wù)=>召回=>排序=>處理=>輸出·相關(guān)性、Precision和Recall等是最核心指標(biāo)(而不是僅僅性能)·大數(shù)據(jù)平臺(tái)又是搜索的底層支持Infra6Vector4“變化中的”AI新計(jì)算范式的四個(gè)趨勢(shì)趨勢(shì)4:統(tǒng)一元數(shù)據(jù)管理,重要性提升10倍,構(gòu)建難度也提升10倍構(gòu)化數(shù)據(jù),有機(jī)會(huì)被理解和使用·StartedbyDeepLearning(但僅僅是識(shí)別,不是理解)Canbedisplayedinrows,columnsandrelationaldatabaseswordprocessingf田20%of20%ofRequireslessstorage疑問一:SQLVSPython,當(dāng)自動(dòng)代碼生成成為主流,贏家會(huì)是誰(shuí)?1.SQL最終成為數(shù)據(jù)庫(kù)和大數(shù)據(jù)的主流開發(fā)接口-聲明式編程(Declarative)天然的易用性和普適性2.隨著大模型/AGI發(fā)展,編程開始走到輔助編程(Copilot)階段k疑問二:數(shù)據(jù)平臺(tái)的“自動(dòng)駕駛”多久能實(shí)現(xiàn)?數(shù)據(jù)消費(fèi)部分,數(shù)據(jù)消費(fèi)部分,最優(yōu)的么數(shù)據(jù)生產(chǎn)(預(yù)計(jì)算)與數(shù)據(jù)在哪里?>用戶作業(yè)負(fù)載隨時(shí)間變化,動(dòng)態(tài)的調(diào)整?AIAI的么?上述問題,市面上的產(chǎn)品都是人工處理!
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年航空航天零部件高精度加工技術(shù)智能設(shè)備市場(chǎng)前景預(yù)測(cè)報(bào)告
- 2025年高校創(chuàng)新創(chuàng)業(yè)教育課程體系與實(shí)踐教學(xué)融合創(chuàng)新研究報(bào)告
- 河南省開封五縣聯(lián)考2025屆化學(xué)高二下期末教學(xué)質(zhì)量檢測(cè)試題含解析
- 烏海市重點(diǎn)中學(xué)2025屆高二化學(xué)第二學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 2025屆河北省衡水市廊坊第十五中學(xué)高一化學(xué)第二學(xué)期期末教學(xué)質(zhì)量檢測(cè)模擬試題含解析
- 2025屆河北省石家莊市天長(zhǎng)中學(xué)高一下化學(xué)期末聯(lián)考試題含解析
- 安全生產(chǎn)辦公會(huì)議紀(jì)要
- 五一節(jié)前安全會(huì)議會(huì)議紀(jì)要
- 關(guān)于安全責(zé)任的保證書
- 安全生產(chǎn)標(biāo)準(zhǔn)化建設(shè)自評(píng)報(bào)告
- 呼吸閥行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及趨勢(shì)與投資分析研究報(bào)告
- 互聯(lián)網(wǎng)企業(yè)產(chǎn)品經(jīng)理聘用合同
- 課程委托協(xié)議合同范例
- 世界衛(wèi)生組織人類精液及精子-宮頸粘液相互作用實(shí)驗(yàn)室檢驗(yàn)手冊(cè)第五版
- 2023-2024學(xué)年廣東省深圳高級(jí)中學(xué)七年級(jí)(上)期中歷史試卷
- HGT20638-2017化工裝置自控工程設(shè)計(jì)文件深度規(guī)范
- 應(yīng)征公民體格檢查表
- JT-T-1178.2-2019營(yíng)運(yùn)貨車安全技術(shù)條件第2部分:牽引車輛與掛車
- 2024年公務(wù)員考試《言語(yǔ)理解與表達(dá)》題庫(kù)附參考答案【綜合卷】
- 24春國(guó)家開放大學(xué)《生活中的數(shù)學(xué)》形考作業(yè)1-4參考答案
- 剪叉式升降工作平臺(tái)作業(yè)專項(xiàng)施工方案24
評(píng)論
0/150
提交評(píng)論