




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2024騰訊云云原生提質增效實踐精選集【版權聲明】本報告版權屬于騰訊云計算(北京)有限責任公司和極客傳媒,并受法律保護。轉載、摘編或利用其違反上述聲明者,將追究其相關法律責任。【參與編寫單位】騰訊云計算(北京)有限責任公司極客傳媒22024騰訊云云原生提質增效實踐精選集卷首語在數字化浪潮洶涌澎湃的當下,云原生技術正以前所未有的速度重塑著整個IT行業的格局。從微服務架構的廣泛應用,到容器化技術的深入人心,再到服務網格、不可變基礎設施等概念的興起,云原生憑借其卓越的靈活性、可擴展性和高效性,成為推動企業數字化轉型的關鍵引擎。它不僅為數字原生企業提供了強大的技術支撐,更助力傳統企業突破既有束縛,實現業務創新與升級。憑借自身在云計算領域的深厚積累與技術實力,騰訊云從大規模自研上云的實踐出發,逐步將云原生技術成果向行業輸出,取得了顯著的成效與收益。歷經數年沉淀,騰訊自研業務如5000萬核,累計節省成本超30涌現出一大批提質增效的最佳實踐案例。為了將這些珍貴的實踐經驗分享給行業,我們精心梳理、提煉并整理成這本《2024騰訊云原生提質增效實踐精選集》。書中的每一個案例,都是企業在數字化轉型過程中真實經歷的挑戰與突破,涵蓋了容器服務、中間件、云開發、低代碼、可觀測等多個云原生關鍵領域。我們希望通過這些詳實的案例,為廣大同行提供參考與借鑒,助力大家更好地理解云原生技術的應用場景與價值,激發更多創新思維與靈感,攜手加速產業數字化轉型的進程!32024騰訊云云原生提質增效實踐精選集目錄01容器服務更高效能來自更優選擇,TKE助力貝殼提質增效07維穩降本,小鵝通容器集群計算資源的調控實踐10趣丸科技基于TKE集群的高效混部實踐1502中間件基于騰訊云消息隊列TDMQPulsar版在在線高并發場景的最佳實踐212.2騰訊云分布式消息隊列一站式搭建數據流轉鏈路,助力長城車聯網平臺降低運維成本262.3業務高速增長,如祺出行如何用騰訊云消息隊列應對挑戰3203云開發5天完成一個百萬級營銷活動?沃爾瑪、瑞幸咖啡、蒙牛都在用騰訊云開發!3942024騰訊云云原生提質增效實踐精選集04低代碼揭秘智慧浦東機場的低代碼創新建設與落地經驗444.2實現銷售業績增長,他用騰訊云微搭低代碼做了個樓盤SCRM小程序4705可觀測騰訊云可觀測平臺如何為新能源車企緩解焦慮505.2騰訊云撥測助力頭部跨境電商平臺優化用戶體驗635.3騰訊云和APM幫助微購建設前后端一體化監控平臺685.4騰訊云守護喜茶小程序75501容器服務2024騰訊云云原生提質增效實踐精選集更高效能來自更優選擇,騰訊云容器服務TKE
助力貝殼提質增效>公司簡介貝殼找房是國內領先的居住產業數字化服務平臺,致力于推進居住服務的產業數字化、智能化進程,通過聚合、助力優質服務者,為中國家庭提供包括二手房交易、新房交易、租賃、家裝、家居、家服等一站式、高品質、高效率服務。作為國內最大的房產中介平臺,貝殼一直對新的IT技術保持著非常高的熱情。相比于那些不敢用、不會用的企業,貝殼在做云原生技術架構的改造前,內部就已經進行了容器化改造,并且與騰訊云TKE有一些小規模合作。實際上,貝殼與騰訊云的合作最早可以追溯到2018年,在貝殼找房的前身,鏈家網在嘗試互聯網業務時,鏈家建立了自己層面,騰訊作為公有云供應商,幫助鏈家網解決計算虛擬機、存儲和帶寬等問題。>業務挑戰貝殼找房成立后,公司業務實現了井噴式增長,這也帶來了研發人員的大幅增加。隨著公司上市,人員和流量的進一步增長72024騰訊云云原生提質增效實踐精選集給基礎設施帶來了諸多挑戰。“因為我們在基礎設施做建設的時候,其實是有些預判,比如我們做運維的人經常說我們公司如果增長3倍,我們的架構應該怎么去適配?如果增長10倍,又該怎么適配?我不能拍腦袋去考慮增長十倍甚至二十倍甚至一百倍的方式,因為這本身也是一種成本浪費。基于此我們開始了跟騰訊云在容器化方面的合作。”貝殼云技術中心系統研發部高級經理楊菁偉提到。但一開始在容器化方面,貝殼用的是TKE普通節點,本質上是在虛擬機上部署一些托管的K8s能力,效果并不明顯。>解決思路2023年初,貝殼打響了云原生攻堅戰,提出了“4321”的技術口號,其中4指的是計算集群利用率提升到40%。“容器化和云原生,是提升利用率,尤其是提升在線業務利用率的一個技術達成路徑。”楊菁偉表示。很快,貝殼接入了騰訊云TKE的原生節點,其核心還是怎么彈性擴縮容,自動化部署以及提高已有資源的利用率。TKE原生節點幫助貝殼解決了三個核心問題:首先是配置。在創建K8s集群的工作負載時,通常需要配置合適的資源,Request是下限,指的是容器需要保留的最小資源量;limits是上限,一個容器使用的最大資源量。以前都是客戶根據經驗自己配置,很容易估不準,大家習慣將申請量設置得較大,造成資源閑置,這是一個非常普遍的現象。騰訊云TKE原生節點的“成本大師”推出了智能推薦工具,可以通過分析客戶業務實際利用率和歷史數據,給客戶推薦最合適的配置,確保資源得到合理利用。其次,在節點放大之后,容易遇到穩定性問題,考驗TKE資源如何調度。比如K8S集群有時會出現調度不均,某些節點負載過高,而其他節點負載又很低。人工調度往往不及時,也很麻煩。騰訊云TKE原生節點,支持根據客戶節點的實際負載進行智能調度。包括支持“節點動態放大”,根據實際需求,自動增加CPU和內存資源。三是在線和離線業務能否混合部署。在線業務對資源的要求高,但變化會比較明顯,離線業務便靜態,及時性不高。要想集群24小時運轉,就需要把在線和離線業務混在一起運行。同時,騰訊云TKE在內核層面實現資源隔離,允許高低優任務共存,高優任務可搶占低優資源,確保在線業務不受影響。82024騰訊云云原生提質增效實踐精選集>落地效果及未來展望最終,在TKE原生節點的支持下,貝殼的資源利用率從23年年初的峰值不到25%,到年底提升到了40%。“容器不是終點,它其實是一切的起點。”楊菁偉說,容器化為貝殼真正邁向云原生打下了基礎,未來將推進兩件事:一是讓自建的容器逐漸遷移到公有云的底座上,增加騰訊云TKE在貝殼的算力供給比重;二是針對應用以外的組件進行云原生的適配,實現數據的云原生和緩存的云原生等。92024騰訊云云原生提質增效實踐精選集維穩降本,小鵝通容器集群計算資源的
調控實踐>公司簡介小鵝通是一家以知識產品與用戶服務為核心的技術服務商,創始至今已服務逾百萬家客戶。現如今,私域運營正在逐漸成為數字化經營的重要手段,并助推企業的業務升級和組織建設升級。小鵝通作為私域運營的一站式工具,解決產品和服務交付、營銷獲客、用戶運營、組織角色管理、品牌價值輸出等痛點并形成閉環,扎根多個行業與生態,可在企業經營過程中發揮重要作用,成為企業數字化經營的好幫手。>業務挑戰多模型、高體量的業務場景給小鵝通帶來了極大的并發挑戰,如何在完成資源保障的基礎上進一步維穩降本成為難題。102024騰訊云云原生提質增效實踐精選集>解決思路集群資源調控:Serverless+常駐節點高效利用受業務場景(如直播)及龐大用戶量影響,小鵝通集群資源存在明顯規律的波峰波谷現象,集群資源差值達100%以上,集群閑時資源冗余明顯。為了解決這一問題,小鵝通開始嘗試與騰訊云合作。“因為我們的企業價值觀是客戶第一,所以在做云產品選型時,我們會優先選擇一些比較有實力的,之前有過相關場景落地的云廠商,這樣其實我們的接入成本會更低;另外一個考慮點是技術團隊實力以及服務支持響應的速度。像TKE它其實在業K8s版本在24年8月已經更新到小鵝通容器負責人張安哲表示。選擇跟騰訊云合作之后,小鵝通開始衡量騰訊云TKE常駐節點和Serverless超級節點如何選擇。第一階段,小鵝通將TKE常駐節點與超級節點進行了初步結合。CVM以上。后續就是基于騰訊這些的能力以及K8s能力在這個基礎上進一步降低了20%進行的,另外一部分能力是通過超級節點進行的。”“在容器里面首先是業務能穩定的運行,基于這個業務穩定的條件,那我們在想能不能業務穩定的情況下,我們能把云資源對應的一個成本進一步的壓縮。這其實是在我們完成容器化之后進一步思考的問題。”張安哲表示。在對超級節點與常駐節點的計費規則做了深入研究之后,小鵝通開始基于業務情況,尋找二者的黃金配比。Serverless核心計費規則a.較大原則:max(max(containerLimit),sum(containerRequest))升格原則(CPU為例):3C(使用)->4C(計費),6C(使用)->8C(計費)常駐節點核心計費規則(節點核數放大系數-系統組件核數)/CPURequest如何計算出二者的黃金配比”?112024騰訊云云原生提質增效實踐精選集最終,通過對常駐階段與超級節點進行黃金配比,想同用量之下,成本再降低12+%。調控解決成本問題場景1:直播帶貨?痛點:商家數字化轉型,將線下龐大流量帶到線上;直播間講解完商品后,發出商品鏈接搶購,都將導致瞬時間成百上千倍流量涌入系統,造成極大的壓力。?解決方案:通過固定HPC擴容回收,實現高峰期整體資源保障。場景保障?在B客戶時間段不固定,因此需要對客戶進行特殊保障,助力用戶體驗順暢。122024騰訊云云原生提質增效實踐精選集?解決方案:通過商家報備時間段HPC擴容回收,實現閑時資源保障。云資源成本陡增等問題。小鵝通結合業界經驗與生產經驗,經過大量背景搜集及多次試點后,最終落地容器計算資源標準并執行。張安哲表示:“其實小鵝通的直播場景、體量問題,更多還是要通過集群資源保障去解決,比如你的超級節點以及對應原生節點的配額能否滿足業務需求,另外就是底層DB是否支持。容器能支持到的能力,第一個是扛住它對應的類似秒殺場景,帶來的突刺。這種場景,如果說是放在傳統的下,它其實是不太適用的,我們之前也計算過,超級節點對應的一個擴容30針對這個問題,行業內通用做法是給它定時加對應的HPC。但是,這么多的HPC你要如何進行一個管理?因為我們不同的時間段有不同的高峰,如果全天按最高的需求量先給它去囤對應的資源,很明顯會帶來浪費。后面基于業務穩定的情況下,我們自研了一套能自動調控HPC對應的算法程序。進一步降低我們運維成本。”132024騰訊云云原生提質增效實踐精選集>落地效果及未來展望通過上述解決方案的落地與持續優化,小鵝通最終實現:?復合容器資源云成本降低20%+?集群整體利用率較上限提升20%?日常容器資源維護人力成本降低50%?冗余容器資源維護人力成本降低90%面向未來,小鵝通將持續探索容器化在特定場景的應用優化,如精細化HPC時間段調控、精細化規格/配置調控、引入事件驅動擴縮容、拓展更多實用場景等,以此更進一步助力業務降本增效。142024騰訊云云原生提質增效實踐精選集趣丸科技基于騰訊云容器服務TKE集群的
高效混部實踐>公司簡介趣丸科技成立于2014年,是中國領先的國家高新技術企業,形成了集興趣社交、人工智能、電子競技等業務于一體的多元業務矩陣。公司拳頭產品TT語音是國內領先的興趣社交平臺,累計注冊用戶已超2王者榮耀職業聯賽(KPL)、和平精英職業聯賽(PEL)等五大頭部電競職業賽事官方合作伙伴。趣丸科技堅持創新驅動,已構建全棧式AI交互技術產業生態,在數智人、智能視聽、三維生成、AI音樂等領域均有落地應用。聚焦興趣社交領域的深厚積累為核心優勢,積極瞄準全球數字技術基礎前沿領域和關鍵核心技術的研發和創新。>業務挑戰問題:趣丸科技全網主機CPU利用率不到10%。一方面,公司業務誕生于云且在云環境中發展,這使得底層能力的實現受到一定限制;同時,其直播業務對穩定性有著極高要求,與之對應的是,在這種情況下,系統的隔離能力必須足夠強大,以保障直播業務的穩定運行。另一方面,公司離線業務擁有獨立的Spark集群,這就需要在混部技術中兼容離線業務原有的模式,從而更好地優化整體資源利用,提升全網主機CPU利用率。>解決思路?依托于云,擁抱社區?調度優先、隔離為輔助的總體方案;?集群級調度優:TTSet混部調度系統?Server圖片:趣丸科技的混部三層架構152024騰訊云云原生提質增效實踐精選集TTSet架構tt-agent:以的方式部署到每一個Node節點上,主要功能有采集數據、上報數據、干預Pod。tt-scheduler:基于scheduler-framework開發,實現多種調度策略。tt-webhook:admissionwebhook,主要在Pod創建前修改參數,如資源壓縮、節流參數注入等TTSet資源模型調度策略基于真實負載感知的調度2.離線資源壓縮3.資源熱點遷移與過載干預4.基于優先級的驅逐算法5.基于最晚運行時間的調度162024騰訊云云原生提質增效實踐精選集黃金補充表示:“基于直播場景,我們其實遇到最多的就是流量峰值問題,很多時候做活動它可能在一瞬間就會把整個的用戶量涌進來,所以我們最開始選型的時候要考慮到極致的伸縮性能,我們會有一堆的伸縮策略,基于定時的或者基于消息隊列的、基于具體的信號的,比如在開播之前我能夠迅速的利用TKE集群直接彈出四五臺機器,這樣在結束之后我能迅速的去回收掉。這個里面就會遇到一些問題,除了我們在資源層做準備,其實如果你擴容了就意味著你的整個應用的面向DB中間件的這個連接池會大量的增長,對應的中間件和DB能不能扛住?這也是在做架構的時候或者是做這種伸縮的時候都要考慮的問題,有可能你把應用層彈起來了,但是整個DB層都崩了。”隔離能力“因為我們是直播業務,直播對這種時間、故障會比較敏感,尤其是在業務高峰期,很多業務,如果你告訴他你要做混部,他可能第一時間提的就是你會不會影響我,所以在這里你首要解決的就是你怎么保證好隔離性。”黃金表示。針對這一需求,趣丸科技基于騰訊云TKE原生節點與Server構建了強大的隔離能力:云原生節點是騰訊云TKE容器服務團隊面向為用戶提供原生化、高穩定、快響應的K8s節點管理能力。Server是騰訊云針對云的場景研發的Linux操作系統,提供特定的功能及性能優化,為云服務器實例中的應用程序提供更高的性能及更加安全可靠的運行環境172024騰訊云云原生提質增效實踐精選集超級節點超級節點是騰訊云全新升級的節點產品形態,向用戶提供可用區級別的、支持自定義規格的節點能力。相比節點池及伸縮組,按量計費的超級節點超級節點簡化了擴容和縮容流程提高了彈性效率:?擴容:按量計費超級節點將常規擴容流程縮短至秒級,擴容流程更高效。?縮容:按量計費超級節點的縮容流程短規避了CA流程、封鎖流程及Pod驅逐流程,完全做到了無損縮容,瞬時縮容。182024騰訊云云原生提質增效實踐精選集>落地效果及未來展望通過基于TKE集群的混部實踐,趣丸科技將全網主機CPU利用率從8%提升到50%以上,并且實現了離線集群完全復用在線資源。未來,趣丸科技將堅持“立足業務、依托于云、合作共贏”的技術路線,持續探索云原生在社交娛樂場景的創新應用。1902中間件2024騰訊云云原生提質增效實踐精選集基于騰訊云消息隊列TDMQPulsar版在
在線高并發場景的最佳實踐>關于FinancialTechnology)是騰訊公司提供移動支付與金融服務的綜合業務平臺。業務領域包括移動QQ錢包等移動支付產品中持續進行功能和服務創新。>業務挑戰過濾、延遲推送等場景。同時由于均是交易類場景,對消息產品的高并發、容災有非常高的要求。比如,在可預期的業務高峰期時,對消息隊列集群進行快速擴容;在非預期的可用區故障時,其余可用區可以正常提供服務,保障交易業務的流暢性。于是TDMQPulsar版進入了的消息隊列技術選型范疇。212024騰訊云云原生提質增效實踐精選集>解決思路騰訊云TDMQPulsar版是基于ApachePulsar自研的消息中間件,具備極好的云原生和Serverless特性,計算存儲分離的架構使其在擴縮容方面具備良好的底層優勢。在完全兼容社區版的基礎上,TDMQPulsar版還提供了重試&死信隊列、消息標簽過濾、消息軌跡等高級特性。TDMQPulsar版由于其存算分離的架構,對于計算密集型的業務場景,僅需要添加計算層,自動進行Rebalance;BKPulsar專業集群支持3AZ跨可用區部署,以確保發生可用區故障時,也能正常提供服務;同時還提供了跨地域冷備功能,支持快速切換接入點解析,實現無需客戶端修改接入點地址,而實現跨地域的容災方案,保障業務的延續性。在場景支撐方面,TDMQPulsar版承載了騰訊計費、中國銀行等金融場景下的核心交易鏈路。從各方面來說,都非常匹配的需求。基于Pulsar的消息中間件的具體實踐如下:標準模型-發布訂閱第一類使用場景,是標準的pub-sub模式,生產者生產一條消息,任意一個消費者成功消費即可。在部署方面,客戶端的生產者和消費者均解耦部署。222024騰訊云云原生提質增效實踐精選集限定模型-消息標簽過濾+自動創建訂閱第二類場景,限定模型,是使用了消息過濾的方式,限定消息只能在某一個客戶端消費。采用單元化(SET)架構。在該場景中的業務消息,會按照一定的規則(如UIN等)進行分片,并要求消息限定在某個目標SET中消費。如上圖所示,SET1中生產者生產消息時,給消息打上「SET1」的的消息。另外,Pulsar可以支持自動創建訂閱,FiT使用該能力實現了一套插件,將SET做為環境變量注入到啟動容器中,這樣實現方式極大的方便了業務自定義配置要消費的消息,僅需要調整環境變量即可,而不需要改動業務代碼。擴散模型232024騰訊云云原生提質增效實踐精選集消息(跨集群)復制在消息容災場景下,FiT基于消息復制組件,配置消息復制關系,自動將消息復制到對端的Pulsar集群。同一個復制對象,在不同地域的兩個集群中名稱需要保持一致,包括名稱、角色名稱及相應的密鑰等。如此,可保障當其中一個地域發生故障時,通過接入層的流量調度,將流量調度至另外一個集群。242024騰訊云云原生提質增效實踐精選集>落地效果及未來展望得益于TDMQPulsar版高吞吐、低延遲的能力,FiT金融產品業務遷移到TDMQPulsar版后,消息從生產者到消費者的耗時縮短了大約80%,消息積壓情況大大緩解,積壓數量減少了70%。TDMQPulsar版延遲消息作用于消息維度,方便業務根據自身場景對每條消息設置不同的延時時間,如延遲通知、延遲核對等。TDMQPulsar運維簡單,業務高峰期需要集群擴容時,在控制臺一鍵點擊升配即可,業務層無感。TDMQPulsar技術支持專業迅速,及時響應業務需求解決業務場景的痛點,如支持接入外部監控、支持靈活的消息過濾功能,較好地支撐了業務。下一步,FiT金融產品業務將繼續切量至TDMQPulsar,預計2024年基本完成遷移。并且由于承載了微信支付、銀行等國民級支付產品,計劃在未來實現多個自建機房的條帶化部署,屆時TDMQPulsar也將屬地化部署(私有化部署),并作為其交易業務的核心鏈路。同時,TDMQPulsar版將繼續打磨產品能力,服務好包含在內的廣大用戶,近期我們將推出以下新功能:?接入外部監控Prometheus:支持將專業集群的監控數據,接入自建的Prometheus,利于用戶觀測的同時,可以通過監控數據對業務?消息標簽過濾支持更靈活的表達式:提供更加靈活的消息標簽過濾表達式配置,簡化業務側的架構設計和數據鏈路。?更加豐富的應用觀測指標:提供更多更豐富的集群性能觀測指標,便于客戶及時排除業務鏈路風險,準確定位異常位置。252024騰訊云云原生提質增效實踐精選集騰訊云分布式消息隊列一站式搭建數據
流轉鏈路,助力長城車聯網平臺降低運維成本>企業簡介長城汽車是一家全球化智能科技公司,業務包括汽車及零部件設計、研發、生產、銷售和服務,旗下擁有哈弗、魏牌、歐拉、7年銷量超100綠色出行服務,加速向全球化智能科技公司進階,智能化車型滲透率達86.17%,車聯網作為智能化兩大應用方向之一,在這個過程中快速發展。長城車聯網平臺涵蓋車內總線數據上報、遠程、車機配置下發、推送文件、推送消息、運營關懷等全新車聯網業務,實現車機端和業務平臺解耦并高效完成業務對接整合。主要場景包括:?車端數據上報——電機、位置、發動機、整車數據、電池,報警等,通過上報車聯網平臺,針對上報數據進行實時數據處理、計算、推理,以便提供車況查詢、告警等智能化服務。?遠程控制——手機APP/智能設備集成車聯網平臺能力,實現遠控、診斷。以下是車聯網平臺架構圖(示意)。262024騰訊云云原生提質增效實踐精選集>業務挑戰車聯網平臺目前已接入數百萬輛車,峰值在線達百萬輛。車端上報信號數據量大、上傳頻率高,數據呈爆炸式增長,海量數據實時處理與分析面臨嚴重挑戰。對系統提出以下要求:1)處理時效要求高查詢時效性、分析決策、監控告警2)數據量大,穩定分布式、平行擴展、低耦合、高可用性、數據安全來去做消息的傳輸。但存在以下缺點:?只是排隊,而不是流處理?無法處理使用量激增(沒有緩沖)?大多數代理不支持高可伸縮性?異步處理(通常脫機很長時間)?缺乏與企業其他部分的良好集成?單一基礎設施(通常位于邊緣)?不能對事件進行再處理只有數據有可能來不及處理就被丟掉,同時也滿足不了海量數據實時處理與分析帶來的挑戰。>解決思路作為分布式消息隊列的Kafka,因多分區、零拷貝、批處理、順序讀寫等設計和特性能夠實現高吞吐量的數據處理。同時作為一個事件流平臺,它結合消息傳遞、存儲和數據處理來構建高度可伸縮、可靠、安全和實時的基礎設施。從車聯網的角度來看具有以下優點:272024騰訊云云原生提質增效實踐精選集?流處理,不僅僅是排隊?高吞吐量?大規模的?高可用性?長期存儲和緩沖?再處理的事件?與企業的其他部分良好集成和的結合是構建可伸縮、可靠和安全的車聯網基礎設施的天成之選,因此長城車聯網平臺選擇作為數據處理核心組件。的集群后對接集群,先通過從設備采集數據,采集后再轉儲到Kafka,供后續引擎分析處理。即使處理的速度沒有采集的速度快,數據也不會丟失,因為已轉儲到Kafka。長城正是用這種方式實現了車聯網設備狀態的持續監控和分析。但自建帶來日益加重的研發和運維成本:首先,解決問題的研發運維人員需要具備扎實的計算機功底(熟悉計算機網絡、IO等),需對的底層原理、各種配置參數項等具有深刻理解,可以進行集群參數調優,快速處理突發故障、恢復集群抖動和動態進行集群擴縮容等。最后,自建消息隊列在擴展性、可維護性能方面存在不足,當業務的消息數據量到達一定程度后,自建的消息隊列集群就會引發各種各樣的問題,問題的解決又帶來很大的挑戰。舉幾個簡單例子:?集群發生異常時,因為監控指標不全,日志輸出不合理等原因,排查定位問題困難,只能靠暫停業務、重啟集群解決問題,對業務影響較大。?的集群擴容復雜度高,在業務高峰進行遷移的時候,出現分區遷移卡死。?自建集群的ZK運維難度大,ZK負載高,導致ZK頻繁斷連。282024騰訊云云原生提質增效實踐精選集與騰訊云技術團隊溝通,CKafka(Cloud擴展性、業務安全保障、運維等方面具有很強優勢,可以在享受低成本、高性能、豐富功能的同時,免除繁瑣運維工作。車聯網平臺利用高性能、高吞吐、可拓展的分布式消息隊列引擎CKafka,實現業務解耦、削峰填谷、數據的異步處理,達到業務的高可靠性。數據上報場景車輛產生的實時數據(如GPS位置、速度、油耗等)通過進行收集、傳輸、分發,實現一份數據多個流向滿足多個場景需求。實時計算部分通過Flink提供的連接器,流數據經過Flink算子進行處理落入高性能列式數據庫Clickhouse,用于實時更新數據的分析。該流程可提供一次精確的處理語義,同時多分區提供更高的吞吐量,減少數據傾斜和熱點。車輛故障、異常行為等車輛的狀態數據,通過實時分析可以快速發現并處理車輛的問題。離線分析部分通過Flume等日志收集系統,可將中海量日志數據進行高效收集、聚合、移動,最后存儲到HDFS或者Hbase。結構以及采用Append追加數據,292024騰訊云云原生提質增效實踐精選集使具有優秀的吞吐能力;同時其擁有Replication結構,使具有很高的容錯性。車輛數據經過離線分析和挖掘,分析結果可以用于優化車輛性能、提高駕駛安全、降低能耗等。指令下發場景在指令下發場景中,CKafka承接遠程指令和響應結果,為上下游多個系統提供異步接耦、削峰填谷的能力,同時消息持久化及可回溯的產品特性能保障指令狀態的最終一致性。>落地效果及未來展望與自建有完善的監控告警系統和運維工單系統,CKafka研發專家隨時答疑解惑,迅速解決客戶問題,省心省力。當集群的流量和磁盤容量超過告警閾值,后端會及時擴容設備,對客戶端無感知。解決開源長期以來遷移數據的痛點,配置升級無感知,輕松應對業務高峰。支持同地域自定義多可用區部署,跨地域災備,提升業務容災能力。302024騰訊云云原生提質增效實踐精選集針對降低存儲成本、快速應對突發流量峰值的兩個核心訴求,CKafka將演進按量存儲形態,并推出彈性帶寬能力。按量存儲按照實際使用存儲空間彈性計費,無需考慮預留存儲空間,更加靈活易運維,且成本更低。彈性帶寬在既定帶寬規格上,提供一定范圍的上浮空間(即彈性能力)。若遇到突發的流量毛刺,集群不會觸發限流,而是在規定范圍內彈性擴縮容,超出原有帶寬部分的流量按量計費。通過合理的架構設計和靈活的產品能力,CKafka幫助用戶在云上以更低成本托管高吞吐、高可用、易用免運維的消息隊列服務,一站式搭建數據流轉鏈路。未來也期待與更多出行行業客戶展開深度合作,分享更多云上最佳實踐。312024騰訊云云原生提質增效實踐精選集業務高速增長,如祺出行如何用騰訊云消息
隊列應對挑戰>企業簡介如祺出行是廣汽集團旗下智慧出行平臺,致力于搭建全方位、立體化的出行科技解決方案與服務體系,提供出行服務(主要為網約車及服務)、技術服務(主要是人工智能數據及模型解決方案以及高精地圖)和生態服務(主要為司機及加盟商提供全套支持)。如祺出行上線四年時間,用戶規模和訂單量保持高速增長。在過去的2022年,如祺出行平臺累計注冊用戶突破1800萬,同比增長64%,年度訂單總量超7000萬,同比增長52%。>業務挑戰高速增長的用戶規模和訂單量,對技術平臺提出更高要求。隨著專快車業務的快速增長,越來越多業務需求與業務主流程耦合,導致調用鏈過長,接口延遲增加了數倍,整體架構無論是性能還是擴展性,都存在很大的風險,遇到節假日高峰,隨時都有崩潰的風險。>解決思路為了提升架構的穩定性,保障用戶體驗,如祺出行于2021年啟動架構升級。其中,引入消息隊列做異步化是整個分布式架構設計的核心手段之一。消息隊列是一種異步通信機制,可以將消息從發送方發送到接收方,而不需要立即處理。這種機制可以帶來以下好處:?異步化處理:消息隊列可以將不同組件或服務之間的通信異步化,使得用戶下單速度更快,體驗更好,提高系統的響應速度和吞吐量。?冗余處理:消息隊列可以將消息復制到多個副本中,確保即使某個節點出現故障,消息也不會丟失。322024騰訊云云原生提質增效實踐精選集?解耦合:消息隊列可以將不同組件或業務之間的通信解耦合,每個業務只需要關注自己訂閱的消息,從而將下單主流程跟其它業務流程解耦,保障了主流程的穩定和提升了運維的可觀測性。?流量控制:消息隊列可以對消息進行緩沖和限流,防止消息發送方發送過多的請求導致接收方處理不過來,從而提高系統的穩定性。>消息隊列選型2019CMQ高吞吐量、海量存儲和高并發能力等特點,可以幫助用戶在分布式系統中進行異步通信,提高應用程序的可用性和可擴展性,但由于CMQ協議和功能簡單,不支持事務消息,順序消息和大規模延遲消息等局限性,研發團隊決定采用作為升級方案,滿足日益復雜的訂單業務場景。介紹Apache是一個開源的分布式消息中間件,因其架構簡單、業務功能豐富、具備極強可擴展性等特點被眾多企業開發者以及云廠商采用,它具有高性能、高可用性、高可靠性和易于使用等優勢,尤其在互聯網、大數據、企業應用、金融交易等在線業務場景成為開發者首選的消息隊列產品。可以幫助業務實現異步通信、流量削峰、數據同步和日志處理等應用場景,還提供了豐富的高級特性,比如事務消息、定時消息、重試消息和死信消息等特色功能,騰訊云針對做了大量的優化增強,在完全兼容社區版的基礎上,提供了秒級定時消息、命名空間,消息軌跡和豐富的監控告警指標等企業級特性,可以很好地滿足如祺訂單系統等各種復雜的消息處理需求。如祺打車業務流程介紹332024騰訊云云原生提質增效實踐精選集在整個下單流程中,從預估到下單,再從派單到開始服務,最后到費用結算,一共要經過20+流程環節,其中計費訂單系統是所有系統的核心,從用戶輸入上下車地點,背后的業務系統就開始工作,比如營銷系統查詢用戶折扣和優惠、地圖系統開始做路徑規劃、安全監控系統做分控計算、預派單系統提前做派單分析等,業務系統需要完成大量的計算任務,對數據的實時性、準確性和一致性要求非常高,并且涉及大量的系統交互,這對整個系統的穩定性要求提出很大的挑戰。通過做異步化改造在沒有通過處理之前,各個系統之間的耦合度非常高,系統穩定性風險高,引入完成了下單異步化改造,大量任務異步通信處理,大大提升了訂單業務系統的可擴展性和可靠性,其主要體現在以下幾個方面:1)下單速度3-5(在運力充足的前提下,大約就能完成接單流程)。2)業務的擴展性風控、安全、營銷、派單有非常多復雜的業務邏輯,例如發券、動態折扣等,如果沒有用消息隊列做消息共享,就需要做342024騰訊云云原生提質增效實踐精選集N*N的遠程調用,增加了系統復雜度,現在只需要增加一個下游訂閱,就可以擴展新業務邏輯。3)業務可靠性由于業務的鏈條很長,因此需要做好各個環節的兜底處理,下單異步化后,可以做到關注點分離,下單主流程不會因為某個:就可以直接使用,保證了系統的可靠。>在訂單系統的應用定時消息場景定時消息是指消息發送方將消息發送到時,消息不是立即可以被下游訂閱者消費,而是指定消息在將來一段時間才可以被消費。開源社區版(4.x版本)沒有支持秒級精度的定時消息方案,只能指定幾個固定的延遲級別,騰訊云在社區版的基礎上,通過基于時間輪的調度引擎,先將定時消息暫存在內部定時消息隊列,再通過調度引擎按指定的定時時間,將消息調度到普通消息隊列,下游消費方才可以正常消費消息,默認最長可以支持40天的定時范圍(如果購買了專業版的客戶,可以通過工單申請更長的定時范圍)。在打車業務中,有大量的定時消息場景,比如訂單完成超過一定時間后其狀態自動流轉,訂單超過一定時間未接單自動提醒等業務場景,在未接入之前,要依賴輪詢數據庫來實現,對數據庫壓力非常大,接入后,不僅大大緩解了數據庫壓力,系統的依賴關系也大量簡化。352024騰訊云云原生提質增效實踐精選集事務消息場景事務消息是Apache提供的一種高級消息類型,支持在分布式場景下保障消息生產和本地事務的最終一致性,尤其是在對數據一致性要求高的交易場景有廣泛的應用,主要核心過程如下。生產者發送消息到中。2.服務端收到消息后將消息存儲到半消息中。3.當本地事務執行完成。4.生產者主動將事務執行結果發送到中。5.若本地事務執行結果超過一定期限還沒反饋,RocketMQ將執行回查邏輯。6.生產者收到消息回查后,需要檢查對應消息的本地事務執行的最終結果,并反饋事務狀態,有以下三種情況:?提交事務,消費者可以消費到該消息。?回滾事務,消息被丟棄,消費者不會消費到該消息。?無法判斷狀態,等待再次發送回查。7當事務執行成功,RocketMQ將事務消息提交到打車業務中,有多個業務系統涉及交易數據的一致性,通過事務消息和本地數據庫事務結合,確保了系統之間數據的一致性,并且簡化了業務開發的復雜度。順序消息場景順序消息可以保證同一分區順序的消息的消費順序和發送順序一致,常用于訂單交易,金融,電商等業務場景,將同一用戶或訂單的不同消息按照時序進行處理,避免處理消息亂序帶來的補償操作等復雜度。362024騰訊云云原生提質增效實踐精選集在如祺訂單系統中,上游將訂單ID作為ShardKey,同一個訂單的系統都會被發送到同一個分區中,下游系統訂閱消息時,>落地效果及未來展望當前已經完全兼容社區版本4.x系列版本,并且已經支持虛擬集群和專享集群等產品形態,滿足用戶的不同使用場景。2022年9社區已經發布了5.x5.x引入了全新的彈性無狀態代理模式,基于gRPC協議提供了新的更簡潔易用的SDK,并將當前的職責進行拆分,對于客戶端協議適配、權限管理、消費管理等計算邏輯進行抽離,獨立無狀態的代理角色提供服務,Broker則繼續專注于存儲能力的持續優化。2023年6月,騰訊云基于社區5.x版本推出新的Serverless產品形態,在以下幾個方面持續發力:?彈性計算和分層存儲帶來更低的使用成本。?新的SDK帶來更好的開發體驗和多語言生態支持。?大數據生態更好的對接,更好的支持實時和流計算的體驗。未來期待能夠充分利用云原生帶來的資源利用率的紅利,以更低的成本,為客戶帶來全新的產品體驗。3703云開發2024騰訊云云原生提質增效實踐精選集5天完成一個百萬級營銷活動?沃爾瑪、瑞
幸咖啡、蒙牛都在用騰訊云開發!>企業簡介票代碼2319.HK)。蒙牛專注于為中國和全球消費者提供營養、健康、美味的乳制品,形成了包括液態奶、冰淇淋、奶粉、奶酪等品類在內的豐富產品矩陣。>業務挑戰天來運動」營銷活動中,開發團隊只有短短2周的時間來完成從啟動到上線的全過程,首先快速整合釘釘用戶體系,此外還要對三方小程序進行快速改造,由于活動規劃了高達數百萬的獎金池和10萬QPS的并發訪問量,安全上還要防范黑產和黃牛的侵擾。>解決思路上線后,技術團隊順利成功應對此次緊迫挑戰,在回顧開發過程,技術團隊認為他們做對了以下四件關鍵事項的選擇:導入外部身份源用戶,加速用戶體系對接本次活動是蒙牛集團的內部員工活動,需要對接企業內部使用的釘釘用戶數據。借助云開發平臺導入外部標準身份源能力,開發者無需自行編寫復雜的鑒權代碼,更先進的安全標準協議也確保了用戶數據的安全性。在支持多端同步和社交賬號登錄基礎上,提升了用戶體驗,同時降低了應用的維護成本。392024騰訊云云原生提質增效實踐精選集靈活選用云模板,加速前端開發效率云開發的云模板功能提供了快速啟動的基礎,讓開發者能夠迅速部署各種模板示例項目,而無需從零開始。支持根據特定品牌風格進行個性化定制。技術門檻和開發成本被大幅降低,一名前端開發+非專業開發者制作出抽獎、排行榜頁面。402024騰訊云云原生提質增效實踐精選集借助云數據庫實時推送能力,快速實現互動玩法活動過程中,需要支持直播和彈幕等各類創新互動玩法,云開發實時推送產品能力,幫助技術團隊大大簡化了開發流程,在確保狀態變更和數據管理的即時性與準確性同時,讓開發過程更加高效。借助云開發網關的優勢,應對高并發,防黑產借助云開發網關強大的安全防護能力,實時安全監控。自動化防御機制,數據加密和安全存儲,有效防止黑產和黃牛的侵擾,同時支持超高并發,能夠快速響應10萬+的并發實例,確保活動在瞬時超高流量涌入時的系統穩定性,安全省心,數據安全無憂。412024騰訊云云原生提質增效實踐精選集>落地效果萬QPS的并發訪問也未造成系統卡頓,獎金發放準確,吸引大量全國用戶參與。從業務上看,活動提升了蒙牛品牌知名度與用戶好感,通過數據分析為后續業務提供依據。技術團隊應對復雜挑戰更加從容,積累經驗、提升能力,為創新業務筑牢技術根基,助力蒙牛在乳業競爭中憑技術創新占得先機,加速數字化轉型。云開發ALLINONE一站式解決方案,在新零售營銷領域顯著提升了開發效能和運營效率。不僅幫助技術團隊快速響應市場變化,還保障了用戶體驗的流暢性和安全性。通過云開發,開發人員也能夠專注于創新和優化用戶體驗,同時確保應用的穩定性和擴展性,為業務的快速發展提供強有力的技術支撐。4204低代碼2024騰訊云云原生提質增效實踐精選集揭秘智慧浦東機場的低代碼創新建設與
落地經驗>企業簡介上海浦東國際機場公司成立于1995年06月20日,經營范圍包括機場建設、施工、運營管理和航空運輸有關的場面服務,與機場建設相關的房地產開發經營業務,航空運輸業務代理、碼頭、倉儲、物資轉銷,提供航空運輸有關的技術合作、咨詢、服務。>業務挑戰上海浦東國際機場公司,作為國際航空樞紐,日常的信息化建設任務繁重,涉及業務范圍廣,包含設備運行管理、業務保障、人力外包等上百個業務合同項目。在缺少有效軟件系統監管的情況下,機場的四級監管體系大多依靠手工方式進行管理,效率低且容易出錯,并且機場日常生產作業的數字化需求與有限的信息化資源供給之間存在突出矛盾。機場已經處于非建設期,業務部門不會專門招聘技術開發團隊開發和維護應用,但是機場業務繁雜,部門差異大,核算下來改造設計的表單應用的數千個,外包時間長,成本不低。然后,技術局限,通用SaaS軟件和零代碼平臺無法支持機場特有的個性化應用開發,如路線導航、飛機零件倉儲等,無法解決部門間的開發數據隔離問題。浦東機場高層經過討論整理后,內部發布《上海機場集團有限公司關于開展降本增效專項工作的實施意見》,其中提到『避免多頭開發重復建設,防止相關系統無法互聯互通』,面對著機場內部30+部門的復雜業務流程,業務部門希望能夠建設統一的臺賬平臺,如何找到一條路徑,能夠快速實施,快速部署業務應用,多種不同業務共享同一個平臺能力,成為了浦東機場數字化轉型新的探索路線。>解決思路利用微搭平臺,浦東機場聯合合作伙伴開啟了創新迭代,合作伙伴開發人力2名,集團內30+個部門,每個業務部門抽調1~240442024騰訊云云原生提質增效實踐精選集業務填充內容”的新生產模式,將專業的技術標準和業務對接工作交給合作伙伴進行規劃搭建,構建下層統一管理平臺。業這些應用的上線過程中,浦東機場公司科技環保部作為主導部門,采取了以下步驟:與業務部門合作,明確應用的功能需求和業務流程。2.使用微搭的可視化設計工具,快速構建應用原型。3.將新應用與機場現有的IT系統進行數據對接,確保數據的一致性和準確性。4.在業務部門中進行用戶測試,收集反饋并優化應用。5.在測試通過后,將應用部署到生產環境,正式投入使用。6.為業務部門提供必要的培訓和技術支持,確保用戶能夠高效使用新應用。在三個月時間內,成功構建并上線了包含數百個電子臺賬類應用,實現了數據電子化管理,一鍵生成臺賬,無需開發能力。其中比較典型的應用有:進銷存類應用,支持機場內部的物流和庫存管理,內部導航小程序,提供機場內部路線導航,支持飛機零件倉儲管理。門戶應用,作為機場內部信息的統一入口。452024騰訊云云原生提質增效實踐精選集>落地效果及未來展望這些應用不僅實現了數據和應用的線上化,還使得各部門能夠自主快速響應需求變化,實現了業務的高效閉環管理。成本效益:相比傳統的外包開發,使用微搭平臺節省了百萬級的成本投入。效率提升:通過低代碼工具,交付時間縮短了50%,實現了快速部署和迭代。自主可控:各部門可以自主實現數據和應用的線上化,提高了對業務變化的響應速度。隨著我們AI能力的上線,后續浦東機場的業務人員在構建表單時可以依賴文字描述的方式快速生成電子臺賬應用,進一步提升開發效率。浦東機場公司計劃繼續使用微搭進行應用迭代,更加充分的使用微搭平臺,預計到2025年使用構建總應用數超過千級大關,實現業務和IT更加充分的融合,需求確認和迭代實現更加快速敏捷的閉環,進一步推動機場業務的數字化轉型,實現更高效的業務管理和服務創新。462024騰訊云云原生提質增效實踐精選集實現銷售業績增長,他用騰訊云微搭低代碼
做了個樓盤SCRM小程序>企業簡介六居地產,一家無錫專業的房地產中介公司,主要提供二手房買賣交易信息、房屋出租等服務,在房產銷售領域,團隊成員一直還在傳統的微信筆記分享方式傳遞房產資料。>業務挑戰隨著房地產銷售業績下滑,六居地產銷售團隊面臨著如何更有效地分發房產資源和持續運營客戶的挑戰,急需能夠豐富資源展示并獲取客戶聯系方式的解決方案。>解決思路六居公司以業務為重,客戶體量大,找開發預算太高。從事銷售運營人員的朱同學看到重重困難后,并沒有輕言放棄,把目光聚焦在了低代碼和無代碼開發工具。自學了一點前端,也不太精通css和代碼,對小程序開發流程的不熟悉,朱同學之前使用簡道云,氚云等產品制作h5的客戶需求問卷,但客戶留資轉化率只有10%~20%,而小程序的形態對于客戶端的轉發分享和信息留資有天然優勢,留資率保守統計可達到40%以上,而微搭是唯一能用低代碼方式開發原生小程序的工具,所以選擇了微搭。H5和的多端發布,更以其可視化搭建的簡便性,讓非技術人員也能輕松上手。微搭的云原生一體化服務,更確保了應用的高性能和高可用性,為六居地產的數字化轉型提供了堅實的技術支持。為公司銷售增長發展帶來了新的活力。目前,六居的所有銷售團隊和他們的人客戶都在使用這個小程序過程中,產生了更多連接互動。通過展示最新的樓盤情況、472024騰訊云云原生提質增效實踐精選集VR查看用戶的看房瀏覽記錄,并能夠發送消息提醒給到客戶。>落地效果及未來展望業務價值:資源展示:通過小程序豐富了房產資源的展示方式,提升了用戶體驗。客戶留存:獲取客戶聯系方式,玩轉私域流量,為幾千看房用戶提供了更好的服務。開發效率:不到一個月,自學完成了小程序的開發迭代。未來展望:展望未來,朱同學計劃繼續使用微搭進行應用迭代,也打算豐富后臺管理系統,以進一步提升業務效率。同時,銷售團隊也對微搭的AI能力表示出了濃厚的興趣,六居地產小程序將在未來進一步智能化,實現更快的客戶響應和更高效的服務。4805可觀測2024騰訊云云原生提質增效實踐精選集騰訊云可觀測平臺如何為新能源車企
緩解焦慮>導語在新能源汽車行業的快速發展中,企業面臨著日益復雜的運維挑戰。可觀測性技術的引入,不僅提供了更先進的監控工具,更成為現代互聯網軟件基礎設施的重要組成部分,幫助企業迅速識別潛在問題、優化資源配置,并降低運維成本和風險。云上業務在IT外呼平臺和線上簽約等。在這些業務中,大數據驅動,尤其是實時分析場景,是客戶使用騰訊云的核心——相關云產品的消耗量占總體的30%以上EMR大數據平臺(基于云原生和泛Hadoop生態構建的彈性MapReduce),它承載著客戶的智能營銷等關鍵業務,幫助客戶從海量數據中提取有價值的洞察,實現數據驅動的實時決策。監控體系為了提升對上述系統的可觀測性,客戶在本地數據中心構建了統一監控平臺,該平臺基于開源技術Prometheus和實現。針對關鍵業務的有效監控,客戶還依托騰訊云的可觀測平臺,采集EMR、TKE、CLB等云產品的監控指標,并在云上配置相應的告警策略。這些監控指標將通過騰訊云的Prometheus遠程寫入客戶本地的Prometheus,從而支持客戶大盤的統一展示。>業務挑戰1)如何高效構建大數據平臺的可觀測性??現在客戶接入騰訊云EMREMRHadoop具眾多、數據異構、實時性要求高),導致構建可觀測性的技術難度大、實踐案例稀缺、運維成本高昂。?風EMR?挑戰:既要高效率、又要低成本,如何實現全面、實時的EMR可觀測性體系?502024騰訊云云原生提質增效實踐精選集2)在新車直播發布、或雙十一大促這類流量高峰時,如何保障對業務系統的有效監控??現狀:車企的業務流量和數據處理存在明顯的波峰時段,例如新車發布或大促期間。在這種波動性影響下,不僅業務系統要能彈性擴縮容,可觀測系統作為業務系統的“千里眼”和“順風耳”,自身也必須具備彈性擴縮容的能力,以確保監控和預警的實時性和有效性。?風險:客戶自建的Prometheus是開源版本,但其最常被詬病的問題是單機存儲擴展性差。當海量并發到來,很可能監控系統自身先被沖垮,則對業務系統的監控和預警更是無從談起。?挑戰:為了實現波峰擴容(應對洪峰)和波谷縮容(節約資源),在各種垂直/水平擴縮和遠端存儲等技術方案當中,該如何決策和實施,才能應對架構復雜度增加、運維成本陡增的問題?3)如何基于垂直領域知識,合理配置監控大盤和告警策略??現狀:術業有專攻、領域有壁壘。運維人員若要橫跨多個業務領域、有效監控不同對象,往往需先惡補相關背景知識。以EMR平臺為例,運維人員在實施監控前,首先需要梳理泛Hadoop生態20+個組件的關鍵指標及其監控意義;其次需要熟知Prometheus生態語言及各類面板的制作。?風險:缺乏相關經驗可能導致可視化效果不佳、數據匯總不合理,或面板維護和擴展困難。此外,告警指標、閾值或聚合方式的設定不當,可能引發告警過多或漏報現象。?挑戰:面對復雜業務的監控場景,如何基于垂直領域知識,方便、合理地配置監控大盤和告警策略?>解決思路為了解決客戶的上述痛點,騰訊云可觀測平臺結合了Prometheus開源生態、騰訊云基礎設施、和團隊的自研創新能力,設計的解決方案概要如下:1)EMR監控,一鍵集成。?目標:EMR?實現:將Prometheus開源社區針對泛Hadoop生態的27個核心組件的exporter全部集成到騰訊云Prometheus;與其同時,基于不同組件的特性,根據最佳實踐為其設計合適的采集模式,避免指標漏采、同時保證秒級實時性。2)彈性擴容,無懼洪峰。512024騰訊云云原生提質增效實踐精選集?目標:客戶監控能力平滑擴展上云,在業務波峰到來、訪問量級飆升時,借力騰訊云可觀測平臺,保證客戶統一監控平臺的可用性。?實現:一方面,騰訊云Prometheus+100%兼容開源版本,為客戶保證監控協議和監控體驗的一致性;另一方面,騰訊云可觀測平臺依托騰訊云底層海量算力及存儲,并且借助云原生技術的容器化和彈性伸縮等能力,自研了分布式、集群化、存算分離的高可用架構,以輕松應對流量波峰、合理適配流量波谷。3)專家知識,預設提供。?目標:高效的監控。?實現:騰訊云Prometheus為所監控對象提供了預設的大盤、和預設的告警策略,這些是基于各個垂直領域的專家知識和行業經驗沉淀而成,以預設模板、開箱即用的形式,內置提供給客戶參考和使用。>方案詳述1)EMR監控,一鍵集成在騰訊云Prometheus實現對EMR的一鍵監控集成之前,若要滿足對云上EMR對實時監控的需求,需由客戶自行實現對泛Hadoop生態的大數據組件的指標采集和獲取:在每個EMR節點上,手工部署agent、jmx-exporter等工具,再針對各個組件進行繁瑣的采集配置,后續還要持續投入對這批組件的維護和更新。而如今,騰訊云Prometheus已經實現了對EMR平臺的監控集成,只需控制臺幾次點擊,即可免去上述所有運維負擔,直接開啟對EMR組件的監控。針對同樣的EMR組件采集,兩種方案的運維工作量對比如下:所需組件/配置自建Prometheus騰訊云Prometheusjmx-exporter客戶自行搭建和維護已內置配置HDFS以暴露指標客戶自行配置和管理已內置配置以暴露指標客戶自行配置和管理已內置配置Zookeeper以暴露指標客戶自行配置和管理已內置配置HBase以暴露指標客戶自行配置和管理已內置配置以暴露指標客戶自行配置和管理已內置522024騰訊云云原生提質增效實踐精選集所需組件/配置自建Prometheus騰訊云Prometheus配置Flink以暴露指標客戶自行配置和管理已內置配置Ranger以暴露指標客戶自行配置和管理已內置配置以暴露指標客戶自行配置和管理已內置配置Oozie以暴露指標客戶自行配置和管理已內置配置Spark以暴露指標客戶自行配置和管理已內置配置Impala以暴露指標客戶自行配置和管理已內置添加Prometheus抓取任務客戶自行配置和管理自動批量配置創建大盤客戶自行配置和管理內置基于行業實踐和專家知識的
儀表盤創建告警策略客戶自行配置和管理內置基于行業實踐和專家知識的
告警模板Prometheus彈性擴縮容客戶自行選型和實現已內置鑒權管理客戶自行選型和實現騰訊云鑒權體系在騰訊云Prometheus一鍵集成EMR監控的背后,究竟托管了哪些監控組件,隱藏了哪些運維動作?下面將詳解借助Prometheus社區提供的開源方案,自行構建對EMR這類泛Hadoop大數據平臺的可觀測性——這也正是騰訊云Prometheus已替客戶“大包大攬”、從而節約客戶運維精力的核心所在。大數據組件的開源監控方案從下面EMR的架構圖可以看出,一個EMR集群建立在底層基礎設施之上,包含了多種數據接入和計算引擎組件,可與多種數據源交互吞吐數據,最終形成大數據驅動的分析決策。532024騰訊云云原生提質增效實踐精選集構建EMR這類泛Hadoop大數據平臺的可觀測性,旨在了解構成集群的全棧設施和組件的健康和性能狀況,手段是通過對下至基礎設施層、上至中間件和應用程序層的可觀測數據進行收集、關聯、聚合和分析,以探知系統的運行狀況和健康趨勢。542024騰訊云云原生提質增效實踐精選集基于Prometheus+這組開源可觀測領域的“最強cp”、結合豐富的社區生態組件,則能很好地為泛Hadoop大數據平臺提供立體全面的可觀測性解決方案。通過Prometheus相關組件將待監控的大數據組件的指標采集并存儲后,用戶就可以通過等可視化工具,對Prometheus中的指標數據進行查詢和展示;用戶還可通過設置告警規則,適時發送告警消息,以及時響應系統異常、減少故障恢復時間。指標暴露由于泛Hadoop生態各層設施和組件與Prometheus實現對各層次組件的指標采集。552024騰訊云云原生提質增效實踐精選集原生支持對于底層算力基礎設施中的TKE來說,作為容器平臺,它對Prometheus的支持力度是最高的,體現在其內置的服務發現、直接暴露指標的能力,以及與生態系統中其他組件(如kube-state-metrics和node-exporter)的良好集成。因此,使用TKE作為底層算力資源,用戶可以減少對額外exporter組件的依賴,大大簡化了監控的配置和管理過程。exporter方式exporter是Prometheus開源生態中一個非常強大的功能,它可用于將第三方系統中現有的指標導出為Prometheus指標。這在無法直接使用Prometheus指標監控特定系統的情況下,是非常有用的。例如:CVMexporter是一個用于收集和暴露CVM(CloudVirtualMachine,云虛擬機)相關指標的工具,它可以從云虛擬機中提取性能數據和狀態信息,并將這些數據轉換為Prometheus可以理解的格式,從而使用戶能夠監控云虛擬機的運行狀況和性能。562024騰訊云云原生提質增效實踐精選集Prometheus官方以及Github上開源的exporter非常豐富,可參考:https://prometheus.io/docs/instrumenting/exporters/騰訊云可觀測也集成了諸多exporter,可供客戶一鍵開啟對各類組件和云服務的集成。仍以CVM為例,只需一鍵,即可集成,免去服務發現和安裝exporter的負擔:agent+exporterManagementExtensions)是用來管理和監控應用程序和系統的一種標準方式,而Hadoop生態系統中的許多組件都支持通過JMX來采集指標,例如:HDFS:NameNode和都可通過JMX暴露其性能和狀態指標,如存儲使用情況、塊管理、請求處理等。2.ResourceManager和NodeManager也支持JMX3.作業的和可通過JMX應用。此外,還有一些基于平臺的中間件,也支持通過JMX暴露監控指標:支持JMX,提供有關主題、分區、消費者和生產者的性能指標。2.作為分布式協調服務,支持JMX監控其連接、會話、請求和節點狀態等指標。572024騰訊云云原生提質增效實踐精選集針對JMX,Prometheus開源社區提供了jmx-exporter,用于將JMX暴露的指標轉換成可通過JMX監控作業執行情況、任務狀態和資源使用。在最佳實踐中,我們可將jmx-exporter以agent模式運行在EMR的每個節點,暴露HTTP服務器,以提供本地JVM的指標。更多詳情可參考jmx-exporter文檔:直接暴露在Spark3.0之前,它也需通過上述agent暴露指標;但是Spark3.0之后,其節點能在現有端口以Prometheus格式暴露指標,而無需再像上述agent那樣,使用額外開放端口的代理方法。此外,業務應用也能以類似的方式,自行定義指標埋點,并以Prometheus協議暴露出去。指標獲取眾所周知,Promethes獲取指標,有推/拉兩種模式,其中又以拉模式最為常用:582024騰訊云云原生提質增效實踐精選集在EMRPull模式來收集的,即PrometheusNameNode、DataNode、ResourceManager、NodeManager等)拉取指標。然而,在某些特殊情況下,使用Push模式推送指標是有必要的。例如:某些Flink作業的生命周期可能非常短、在下一次拉取指標的間隔到來之前,任務就已經完成。這種情況下,使用Push模式,作業就可以先將其指標推送到組件,再由Prometheus從該組件拉取,以確保Prometheus能獲取到這些數據。2)彈性擴容,無懼洪峰如下圖所示的高可用架構,是騰訊云Prometheus的一大核心優勢:實現方式是在騰訊云底層的海量算力和存儲能力之上,又基于TKE的容器化、彈性伸縮等云原生能力,自研落地了一套分布式、集群化、存算分離的技術架構,以及高可用、高效率的采集節點調度方案和存儲節點分片方案。可擴展性優化?采集和存儲集群化,解決開源Prometheus單機大實例無法擴展的問題。?支持agent模式及自建Prometheus上報數據;支持Write和協議。?存儲后端基于分片機制寫入數據。?查詢組件對多個存儲節點的數據進行聚合計算,將最終結果返回給用戶。高可用優化592024騰訊云云原生提質增效實踐精選集?集群多節點,避免單點故障問題,且支持彈性擴縮容。?冗余和故障轉移:分布式和集群化的輕量采集器,可以在多個節點上運行,確保即使某個節點發生故障,其他節點仍然可以繼續采集數據,避免單點故障。?對采集target的負載均衡,基于一致性哈希實現分發targets分片至各個采集agents。存儲優化?落盤云存儲,可支持存儲15天/30天/45天/90天/180天/1年/2年存儲周期。?基于用量大小,支持獨占或共享集群,以滿足不同需求。正是借助上述彈性伸縮等高可用能力,客戶在新車發布直播、雙十一大促等流量高峰期,使用自建Prometheus+和云上Prometheus+進行雙重保障,大大降低了在重大活動時的運維風險。3)專家知識,預設提供通過預設的大盤和基于業務場景的告警模板,騰訊云可觀測平臺不僅簡化了客戶的監控配置流程,還確保了關鍵指標的精準覆蓋。預設大盤騰訊云除了兼容開源外,還提供了對常見云產品及組件的開箱即用、一鍵集成的監控功能。此外,針對不同業務場景,騰訊云預設了多種大盤模板。借助這些集成能力和預設大盤,客戶可以快速實現從基礎設施到應用和服務的監控可視化,顯著減少指標梳理和面板制作的工作量。如下圖所示,在騰訊云Prometheus的集成中心,當客戶一鍵安裝EMR監控集成后,即可開箱即用相關EMR組件的大盤:602024騰訊云云原生提質增效實踐精選集預設告警模板騰訊云可觀測平臺提供了強大的告警能力,預設了針對不同產品和組件的業務場景告警模板。這些模板幫助客戶快速配置告此外,預設的告警模板降低了客戶在告警配置上的復雜性,使得即使是缺乏專業知識的用戶也能輕松上手,從而顯著提高了運維效率和決策能力。如下圖所示,當客戶想要新建一條告警策略,可以直接從列表里選中某個云產品例如EMR,則系統會自動彈出針對EMR各個組件所預設的各種告警規則,供客戶直接使用,或在此基礎上自主修改:612024騰訊云云原生提質增效實踐精選集沉淀專家知識仍以客戶對EMR的監控為例,預設告警策略不僅基于行業實踐提供通用模板,還結合騰訊云EMR+騰訊云Prometheus雙方的專家知識,共同定制升級了一些告警策略,以提高告警效率,幫助客戶“避坑”。例如:EMR原生指標service_status在服務異常或者用戶手動停止這兩種情況下,都會顯示,因此無法針對異常服務精準告警。于是,騰訊云Prometheus在預設告警模板時,新增了輔助指標emr_additional_service_status來代表用戶手動停止服務的信息,以跟原生指標組合,實現對異常服務的精確告警。servicePrometheus提原生指標輔助指標是否告警service狀態異常是用戶手動停止的否service狀態異常不是用戶手動停止的是由上表很容易看出,結合輔助指標后,該告警模板能過濾掉手動停止造成狀態異常所導致的無效告警,大大節約了客戶對EMR的運維精力。>落地效果EMR監控,一鍵集成:騰訊云Prometheus對EMR大數據平臺的一鍵集成,大大提升了為大數據平臺構建可觀測性的效率,從天級接入降為分鐘級接入。且全托管、一站式,徹底免去為27個EMR組件搭建和運維采集代理的成本。2.彈性擴容,無懼洪峰:在客戶的新車發布直播和雙十一大促時,流量比平時高出數倍。而借力騰訊云Prometheus+的彈性擴容能力,就能避免自建的Prometheus+觸及性能瓶頸,從而保證重大活動期間監控的流暢性,保證在流量洪峰下極大降低運維風險。3.開箱即用預設的提高關鍵指標的覆蓋率、降低系統異常的誤報漏報,尤其是針對服務狀態異常的告警,為客戶降低了約50%的誤報率。客戶監控平臺依托騰訊云可觀測平臺的及告警功能,不僅實現了對EMR大數據平臺等云產品和組件的高效監控,還落地了應對流量洪峰的云上云下一體化方案,并借力各領域專家知識優化了可視化大盤和告警策略。這一系列舉措顯著提升了監控效率、節約了運維成本、降低了系統風險,為客戶的業務穩定性提供了堅實保障。騰訊云可觀測平臺已覆蓋出行行業幾乎所有頭部車企,積累了豐富的行業案例和最佳實踐,為客戶提供Prometheus+指標監控、APM分布式鏈路追蹤、前端/終端性能監控,以及云撥測、云壓測等全棧多維度可觀測能力。622024騰訊云云原生提質增效實踐精選集騰訊云撥測助力頭部跨境電商平臺優化
用戶體驗>導語平臺的使用體驗在競爭激烈的電商行業中是影響客戶粘性的一個非常重要的因素。如何讓后端服務保障可用,使得電商平臺上的文字,圖片,視頻等資源都能夠正確且低延遲的呈現給其終端用戶,讓用戶在平臺上的操作順暢,是每一個電商平臺面對的挑戰。通過騰訊云撥測產品,電商平臺對于網絡質量、文件傳輸、頁面性能、端口協議等方面都可以進行指標量化,從而做出優化,達到提升全球各個區域C端用戶體驗,增強用戶粘性的目的。>公司簡介客戶是在世界范圍內領航跨境購物的電商平臺,近年在世界多個地區獲得購物類App年度總下載量、平均月活數、安卓用戶使用總時長上獲得冠軍。如今業務覆蓋了十余個國家,在中國地區的深圳、上海等地亦設立了跨境業務辦公室。為了保障業務平穩流暢,拓展更多的全球市場,客戶接觸騰訊云撥測之前已經自行購買了友商的主動撥測產品,但是因為撥測點覆蓋不足以及服務響應不及時,一些問題排查緩慢。>業務挑戰平臺的使用體驗在競爭激烈的電商行業中是影響客戶粘性的一個非常重要的因素。如何讓后端服務保障可用,使得電商平臺上的文字,圖片,視頻等資源都能夠正確且低延遲的呈現給其終端用戶,讓用戶在平臺上的操作順暢,是每一個電商平臺面對的挑戰。作為跨境電商,客戶的業務大量布置于海外,對于客戶端海外可用性的檢測擁有強需求,而他們的痛點也十分明晰:撥測點覆蓋不夠客戶計劃在印度擴展業務,對于印度的撥測需求非常強烈。現有撥測供應商海外撥測點不足以覆蓋客戶的需求。632024騰訊云云原生提質增效實踐精選集CDN選型難電商業務對于CDN強依賴,需要測試不同CDN服務商在使用中的加速效果,支撐業務對CDN服務商選型。深度撥測使用指引需求客戶對于友商的撥測使用不深入,對撥測場景理解不全,希望可以有全流程的輔佐讓團隊的產品使用都有據可依。>解決思路數量龐大的撥測點資源云撥測擁有遍布全球200+城市的近2000機房資源及C端設備,覆蓋不同終端,不同網絡條件,不同IP類型的撥測點。其中包括東南亞、歐洲、美洲等地,補齊了對于客戶當前業務發展階段所急需的印度及歐洲的撥測需求。僅僅是在印度的C端測試點就有50+,遍布主要城市及主要運營商,實現廣闊的數據覆蓋。豐富的多維分析指標詳細數據可下載做二次分析。642024騰訊云云原生提質增效實踐精選集[報告中對客戶所使用的兩家廠商CDN各種性能,以及真實用戶訪問頁面的信息進行了呈現]在向用戶展現報告之后,針對客戶對撥測使用理解不深的困境,團隊亦對產品能力進行了詳細的闡述:?散點圖、地圖等多種方式的BI分析,給客戶提供了各種維度的數據呈現方式。?下鉆到每一個撥測任務的指標呈現,讓客戶對于測試點的操作系統、版本、IP地址等一覽無余,精確把握問題原因。經過了深入的產品交流,客戶很快決定全量使用騰訊云為其制定的撥測方案,為他們的業務做啟動前的質量檢測、日常維護,以及cdn選型及后續監控的保障。>落地效果在使用騰訊云撥測平臺之后,客戶不僅解決了之前存在的痛點,還在團隊的幫助下意外發現了一些之前沒有預料到的問題,其中包括:解決了不同維度的量化監測業務搭建上,客戶可以對CDN性能、運營商、頁面性能、流媒體等不同維度進行量化監測;地理上,印度各個區域的訪問情況有更全面的了解;對于電商平臺新興起的直播,視頻等流媒體內容的播放指標,通過云撥測均擁有了更好的量化。652024騰訊云云原生提質增效實踐精選集海外撥測點運行測試伊始,就發現了數據的異常情況,通過騰訊云撥測,客戶:發現路由錯誤,避免上線后的大規模影響對印度撥測下發客戶新加坡站撥測任務后,發現在孟買測試點無法成功訪問目標頁面。通過多維分析,觀察到訪問失敗的點都集中于孟買的一個網絡運營商;通過指標下鉆,可以清晰看到出現了網絡不可達的節點信息。經過CDN及其他網絡設置的排查,很快發現是路由配置會導致對該區域部分用戶產生影響。發現節點繞行,降低訪問延遲通過數據在橫向(印度不同城市)、縱向(同個城市不同時間段)的分析,發現孟買在訪問加拿大站點時延不穩定的狀況,有時會時延明顯高于均值。經排查,發現一些其內部的網絡調度策略導致了數據繞行。經過分析,一定情況下孟買到加拿大的訪問竟
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論