AI時代的湖倉數(shù)據(jù)體系建設(shè)-劉巖_第1頁
AI時代的湖倉數(shù)據(jù)體系建設(shè)-劉巖_第2頁
AI時代的湖倉數(shù)據(jù)體系建設(shè)-劉巖_第3頁
AI時代的湖倉數(shù)據(jù)體系建設(shè)-劉巖_第4頁
AI時代的湖倉數(shù)據(jù)體系建設(shè)-劉巖_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

騰訊游戲數(shù)據(jù)工程的挑戰(zhàn)基于多智能體的需求構(gòu)造AI驅(qū)動的湖倉資產(chǎn)體系可持續(xù)優(yōu)化的工程平臺系統(tǒng)演示游戲業(yè)務(wù)發(fā)展數(shù)據(jù)平臺演進游戲業(yè)務(wù)發(fā)展數(shù)據(jù)平臺演進騰訊游戲以休閑品類進入市場2003~2007外部大廠紛紛投身網(wǎng)游,騰訊游戲基于繞道休閑品外部大廠紛紛投身網(wǎng)游,騰訊游戲基于繞道休閑品類打造QQ系列游戲,深耕社交流量數(shù)據(jù)應(yīng)用數(shù)據(jù)應(yīng)用G,數(shù)據(jù)分散在從零起步表數(shù)據(jù)治理1.0基礎(chǔ)功能完善階段一2008~20142015Now以“代理+自研”后來居上2008~20142015Now打造全品類矩陣,扶持游戲廠商,建立全球打造全品類矩陣,扶持游戲廠商,建立全球化發(fā)行平臺,全面出海,推動電競職業(yè)化、游戲IP化等重啟游戲代理,同步自主研發(fā)率先完成“端改手”移動化,全面升級自研體系2.02.0平臺構(gòu)建階段數(shù)據(jù)應(yīng)用數(shù)據(jù)治理架構(gòu)升級倉庫,完成數(shù)據(jù)3.0技術(shù)驅(qū)動創(chuàng)新對于數(shù)據(jù)資產(chǎn)集中管理的進一步加強,河圖數(shù)據(jù)治理平臺全面升級標(biāo)準(zhǔn)數(shù)據(jù)治理體系建設(shè):以業(yè)務(wù)應(yīng)用為導(dǎo)向,數(shù)據(jù)管理規(guī)范3.0發(fā)布逐步開始接入實時技術(shù):datamore投入應(yīng)用,決策對于數(shù)據(jù)時效性提出較高要求現(xiàn)存游戲業(yè)務(wù)的數(shù)據(jù)挖掘/提取類需求數(shù)萬個/年,數(shù)據(jù)挖掘是問題歸因、分析決策、干預(yù)經(jīng)營分析經(jīng)營分析1%的數(shù)據(jù)表資產(chǎn)離線計算+數(shù)倉數(shù)百個看板數(shù)百個看板精精細化運營數(shù)萬個/年數(shù)據(jù)提取服務(wù)基于明細數(shù)據(jù)動態(tài)分層流式計算+湖倉一體特征和畫像標(biāo)簽湖倉一體特征和畫像標(biāo)簽湖倉一體數(shù)十個算法服務(wù)輔助決策輔助決策數(shù)十個實時線上服務(wù)特征和畫像標(biāo)簽流式計算+數(shù)十個實時線上服務(wù)特征和畫像標(biāo)簽流式計算+實時計算驅(qū)動業(yè)務(wù)確定數(shù)據(jù)分層AI要解決的問題不是僅僅是寫SQL,而是從業(yè)務(wù)需求到數(shù)據(jù)結(jié)果的各個確定數(shù)據(jù)分層廠結(jié)果發(fā)送提交任務(wù)資產(chǎn)探查、廠結(jié)果發(fā)送提交任務(wù)資產(chǎn)探查、業(yè)務(wù)需求數(shù)據(jù)結(jié)果1243SQL代碼實現(xiàn)SQL驗證《ThePromptReport:ASystematicSurveyofPromptingTechniques》https:/2.2基于“需求標(biāo)準(zhǔn)”的人與AI需求對齊需求標(biāo)準(zhǔn)一個完備的SQL需求標(biāo)準(zhǔn)一個完備的SQL需求包括:“篩選”、“問題”、“結(jié)果”三段式提問,及“行業(yè)知識”2024.1.1-2024.2.2期間XX條件的玩家統(tǒng)計周、周活躍天數(shù)、玩家數(shù)」]玩家數(shù)需求對齊通過需求需求對齊通過需求Agent,匹配需求案例和行業(yè)知識,對進行需求整理與改寫,改寫成標(biāo)準(zhǔn)的需求格式2.3根據(jù)復(fù)雜度進行需求分解 是是是是 1.需求復(fù)雜度小于等于4準(zhǔn)確率>90%,5至7準(zhǔn)確率>60%,大于等于8準(zhǔn)確率<25%,復(fù)雜度大于等于15時正確率趨近于03.1LLM在SQL生成的能力瓶頸表。/t庫,總大小為33.4GB。它還涵蓋了區(qū)塊鏈、曲棍球、醫(yī)療保https://bird-bench.github.io/3.2如何提高SQL準(zhǔn)確率?參與率排名+次日留存排名+七日留存排名算一個總七留的數(shù)值,先需要按照這三個數(shù)值排名,然后按SQLSQLBIRD數(shù)據(jù)集的挑戰(zhàn)3.3從經(jīng)典數(shù)據(jù)中臺到AI+湖倉中臺++經(jīng)典數(shù)據(jù)中臺分層加工資產(chǎn)自助交付資產(chǎn)自助交付滿足率40%應(yīng)用數(shù)據(jù)層應(yīng)用數(shù)據(jù)層ADS匯總數(shù)據(jù)層DWS明細數(shù)據(jù)層DWD操作數(shù)據(jù)層ODS數(shù)據(jù)工程拆解指標(biāo)、維度至特征拆解指標(biāo)、維拆解指標(biāo)、維度至特征拆解指標(biāo)、維度至特征匹配已有指標(biāo)資產(chǎn)治理補充業(yè)務(wù)信息生成特征根據(jù)特征生成補充業(yè)務(wù)信息生成特征根據(jù)特征生成指標(biāo)、維度推薦已有看板根據(jù)特征生成新指標(biāo)、維度生成新看板生成新看板根據(jù)特征生成新指標(biāo)、維度生成新看板生成新看板資產(chǎn)覆蓋率存在天花板資產(chǎn)建設(shè)滯后于業(yè)務(wù)需求數(shù)據(jù)治理體系復(fù)雜邊際收益低非結(jié)構(gòu)化資產(chǎn)標(biāo)準(zhǔn)缺失語義資產(chǎn)語義層建模規(guī)范語義層建模規(guī)范按來源識別最小粒度按最小粒度建邏輯視圖按熱度進行物化&按來源識別最小粒度按最小粒度建邏輯視圖按熱度進行物化&冷熱策略資產(chǎn)成本運行效率++按特征識別指標(biāo)維度唯一按維度組合建按特征識別指標(biāo)維度唯一按維度組合建邏輯視圖按速度進行物化&冷熱策略3.4構(gòu)建“人和AI”都能理解的資產(chǎn)SQL開放式問答框架初始化特征初始化玩法域活躍域戶標(biāo)簽熱度分析特征聚類事前事后收斂群助手定期曝光資產(chǎn)治理AI用資產(chǎn)通過大模型,結(jié)合SQL本身復(fù)雜度,自動識別出通用特征框架初始化特征初始化玩法域活躍域戶標(biāo)簽熱度分析特征聚類事前事后收斂群助手定期曝光資產(chǎn)治理AI用資產(chǎn)通過大模型,結(jié)合SQL本身復(fù)雜度,自動識別出通用特征日志表ROI資產(chǎn)認(rèn)證!資產(chǎn)運營&效率工具資產(chǎn)知識圖譜特征資產(chǎn)化沉淀公共特征自動識別和轉(zhuǎn)化治理建議數(shù)據(jù)資產(chǎn)治理:資產(chǎn)下架(邏輯刪除、物理刪除…)、資產(chǎn)結(jié)構(gòu)優(yōu)化(指標(biāo)新增、邏輯調(diào)整…)、資產(chǎn)質(zhì)量提升(計算效率、穩(wěn)定性、異常恢復(fù)…)數(shù)據(jù)數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn):開發(fā)標(biāo)準(zhǔn)(命名、字根、邏輯…)、管理標(biāo)準(zhǔn)(唯一性、標(biāo)簽…)、運營標(biāo)準(zhǔn)(熱度、復(fù)用率、成本…)3.5領(lǐng)域模型技術(shù)架構(gòu)智能提數(shù)MysqlESFaissPytorchDeepSpeedvLLM微服務(wù)Neo4j預(yù)處理Query分詞Query歸一SFT模型蒸餾模型部署Query智能提數(shù)MysqlESFaissPytorchDeepSpeedvLLM微服務(wù)Neo4j預(yù)處理Query分詞Query歸一SFT模型蒸餾模型部署Query分域Term分析意圖解析樣本生成預(yù)訓(xùn)練推理加速文本索引語義索引知識圖譜資產(chǎn)熱度業(yè)務(wù)邏輯標(biāo)簽索引改寫詞庫Server接口數(shù)據(jù)庫表邏輯資產(chǎn)搜索日志反饋日志數(shù)據(jù)看板分析SOP監(jiān)控告警Query理解 L0粗排L1精排 文本召回圖譜召回語義召回iData報表iData報表DADA看板/探索分析實時表MySQL實時表MySQL倉(BE)資產(chǎn)表湖(CN)DruidDruid注冊、活躍、流水結(jié)果表對局、組活動、社交、行注冊、活躍、流水結(jié)果表對局、組活動、社交、行道具、渠賽季、模式...資產(chǎn)實時化時間修復(fù)維度提取傾斜打散動態(tài)分發(fā)監(jiān)控對賬自動修復(fù)TGArk預(yù)處理框架減少原有開發(fā)過程中的數(shù)據(jù)重跑檢驗離線數(shù)據(jù)倉庫TDWStormTGlog日志采集TDBankStormTGlog日志采集TGlogTGlog日志采集3.7基于StarRocks構(gòu)建湖倉一體解決方案建模與開發(fā)基于大模型的智能應(yīng)用建模與開發(fā)基于大模型的智能應(yīng)用騰訊云對象存儲(COS)虛擬數(shù)倉虛擬數(shù)倉冷熱分層冷熱分層API服API服務(wù)粒度目錄管理 粒度目錄管理 粒度重復(fù)判斷 創(chuàng)建物化視圖驗證物化視圖物化視圖動態(tài)變更 優(yōu)化策略制定 創(chuàng)建物化視圖驗證物化視圖物化視圖動態(tài)變更 優(yōu)化策略制定 視圖加速統(tǒng)計資產(chǎn)粒度3.9智能動態(tài)加速-StarRocks物化視圖資產(chǎn)粒度AI自助式交付ADSADS資產(chǎn)資產(chǎn)熱度DWD(規(guī)范化的明細數(shù)據(jù)表)f查詢改寫4.1多智能體架構(gòu),人與AI高度協(xié)同工作),), 業(yè)務(wù)需求資 業(yè)務(wù)需求資產(chǎn)運營拆分邏輯通過特征資產(chǎn)優(yōu)化匹配準(zhǔn)確率?特征資產(chǎn)的增刪改查;特殊邏輯說明;舉值、派生維度的計算規(guī)則;特征匹配需求運營通過庫表資產(chǎn)優(yōu)化計算效率括數(shù)據(jù)標(biāo)準(zhǔn)化、分層、打標(biāo)、表/字段描述;平臺運營功能平臺運營功能降低Al生成難度,通控的交付質(zhì)量降低Al生成難度,通控的交付質(zhì)量。確保穩(wěn)定可建立從業(yè)務(wù)需求、建立從業(yè)務(wù)需求、行業(yè)知識、確保資產(chǎn)能被Al理解和使用。基于資產(chǎn)熱度、執(zhí)行速度基于資產(chǎn)熱度、執(zhí)行速度、數(shù)優(yōu)化加速的資產(chǎn),通過資產(chǎn)整合、物化視圖等方式確保數(shù)據(jù)的高效獲取。覆蓋從業(yè)務(wù)需求到數(shù)據(jù)交付的全鏈路覆蓋從業(yè)務(wù)需求到數(shù)據(jù)交付的全鏈路,各節(jié)點Agent可與用戶行干預(yù)和修正,確保系統(tǒng)的可持續(xù)優(yōu)化。系統(tǒng)演示DemoUdata產(chǎn)品演示系統(tǒng)演示D

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論