大數據-工業和信息化部電信研究院-XXXX0724_第1頁
大數據-工業和信息化部電信研究院-XXXX0724_第2頁
大數據-工業和信息化部電信研究院-XXXX0724_第3頁
大數據-工業和信息化部電信研究院-XXXX0724_第4頁
大數據-工業和信息化部電信研究院-XXXX0724_第5頁
已閱讀5頁,還剩54頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據與應用

二Ο一三年七月二十四日何寶宏工業和信息化部電信研究院什么是大數據2無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的大量而復雜的數據集合

——維基百科數量大、獲取速度快或形態多樣的數據,難以用傳統關系型數據分析方法進行有效分析,或者需要大規模的水平擴展才能高效處理 ——美國NIST體量大、快速和多樣化的信息資產,需用高效率和創新型的信息技術加以處理,以提高發現洞察、做出決策和優化流程的能力 ——Gartner公司主要內容大數據的“熱”大數據的“大”大數據的“數”大數據的顛覆性大數據的隱私保護大數據的實踐3大數據引發全球高度重視2025/6/52000年以來,搜索、廣告和電商利用大數據獲得豐厚回報2011年麥肯錫總結大數據現象并發布報告,點燃大數據熱潮2012年初世界經濟論壇討論大數據一題引起政商界高度關注2012年,美國、英國、日本等政府積極開放數據,并資助大數據研發IBM、沃爾瑪等傳統企業大規模并購大數據公司,進軍大數據領域大數據=戰略資源共識互聯網咨詢公司IT和其他行業經濟界政府大數據的產業熱據Wikibon公司測算,2011年全球大數據產值已經達到51億美元。預計到2017年將達到534億美元,年均增速達到58%,是同期IT產業增速的7倍來源:Wikibon公司,2012年大數據的投融資熱6以數據為中心的時代ICT產業發展周期大數據主要內容大數據的“熱”大數據的“大”大數據的“數”大數據的顛覆性大數據的隱私保護大數據的實踐8“信息化”浪潮13語言印刷術互聯網文字保存與傳承口耳相傳大范圍傳播與持久保存距今5000年前距今10萬年前公元1000年公元2000年硅介質數字化網絡化古登堡印刷術發明后,50年書籍增加了800萬冊,增長1倍,是之前西方數據量的總和史上的大數據:政府最先遇到10稅收!約前2200年大禹“平水土分九州數萬民”公元2年,漢書.地理志:全國103個郡國,人口是59,594,978人1909年,秦政府頒布調查戶口章程1086年,英國《末日審判書》人口、土地、財產登記古羅馬,每5年一次美國憲法規定10年一次人口普查1880年統計用了8年,預計1890年要13年穿孔卡片制表機的發明,要1年史上的大數據:天文學制造了數據大爆炸11第谷人肉的“大數據”資源開普勒突破性的“處理”算法伽利略工具的“大數據”資源牛頓劃時代先進的理論數據量的增速12全球數據量預測(單位ZB)1980以來,每40個月翻一番數據量增速,是GDP增速的4倍數據處理能力,是GDP增速的9倍2000年人類信息75%是模擬數據,2007年是6%,現在1%?計算能力的加速134V/3V:只是在說“大”!14“大”是相對的2012年的“大”從幾個TB(1TB=1,024GB)到多個PBGoogle,1000PB2013年的“大”數PB(1PB=1,024TB)百度1000PBHadoop開源模仿GoogleMapReduce,2003年的技術Google

Dremel2012年,新的編程框架15不同企業,大的概念不同引爆此輪大數據的原因2025/6/5194619611970199020002003200820131960年代,數據與應用分離,數據庫技術蓬勃發展,但重視事務處理2000年后,互聯網公司開啟數據分析挖掘新時代1946年,電腦誕生,數據與應用緊密捆綁在文件中,彼此不分1990年代,提出數據分析挖掘數據耦合時代數據分析時代數據庫時代大數據時代從流程電子化到數據資產化1)數據更加豐富,有分析價值,從TB到PB2)分析工具更加強大,成本夠低,MapReduce3)互聯網商業上的成功,引起重視,麥肯錫報告主要內容大數據的“熱”大數據的“大”大數據的“數”大數據的顛覆性大數據的隱私保護大數據的實踐17數據的內涵可被量化、分析和再使用的信息通常是測量獲得的可用圖形圖像可視化模擬數據和數字數據是最底層的抽象?18知識信息數據史上數據理論的重大突破19復式記賬法:商業、貿易、金融等的基礎

市場經濟復式記賬法伽利略:實驗科學牛頓:物理世界數學化量子力學:從宏觀到微觀

物理學圖靈:讓通用自動計算成為可能

計算機香農:信息論

通信不斷量化的宇宙Web1.0被動Web2.0主動碎片移動互聯網隨時隨地云計算全部20人口天體長度重量面積體積時間空間顏色電流電壓聲音圖像社會關系輻射能量信息上帝是數學家嗎?21大數據物理世界精神世界量化量化哲學宗教主要內容大數據的“熱”大數據的“大”大數據的“數”大數據的顛覆性大數據與隱私保護大數據的實踐22思維的三大轉變23相關關系紛繁復雜全體數據從樣本到總體統計學的理論基礎用盡可能少的數據,證實盡可能大的事實樣本分析精確性隨著隨機性的增加而大幅提高精確性不樣本空間數量的增加關系不大樣本分析的缺陷絕對的隨機性不適合考察子類別事先設計好的問題24從樣本到總體:信不信由你“樣本”的統計,2003-2012年房價:全國143%,北京256%收入:上漲180%CPI:中國漲幅34%,美國36%“總體”的大數據貨幣發行量:+500%,超過美國,占全球50%GDP增長4倍,CPI應是100%漲幅!股市:“上浮零”淘寶TCPI指數:6.9%全國工業用電量指數:4.7%25從精確到效率:用概率說話大量信息和精確性,存在矛盾錯誤數據的混入,不準確性關系數據庫是數據稀缺時代設計的“電信化”是短缺經濟的產物算法的進步快于芯片,大數據優于算法用簡單算法替代小數據的精確算法簡單算法+海量數據?26從精確到效率:自然語言處理的發展史27飛鳥派新派要讓機器翻譯或語音識別,就需要先讓機器理解自然語言從基于規則到對大數據的統計數據比算法更重要反例:中國的英語教學正例:TCPI,大眾點評,Google翻譯從因果到相關:Why—>Related哲學爭論:因果關系存在嗎?如果是,人的自由意志存在嗎?機器會告訴是什么,而不是為什么語義網絡人工智能人類認知水平相關“丁蟹效應”凡是播出由鄭少秋主演的電視劇,恒生指數或A股已有32個明顯下跌巧合?自我實現?大數據分析?28手機會致癌,相關嗎?對比丹麥1990-2007年所有手機數據庫(358403人)10729個中樞神經系統腫瘤患者數據庫研究目的是否手機使用者更容易致癌?是否通話時間長更容易會致癌?結論:沒有關系29大數據讓社會學成為科學?30人類的行為是隨機的,不可預測的人的行為是小概率事件,人類需要的是隨機的智慧人類工作娛樂等活動具有間歇性,總是在長時間休息后突然爆發,然后沉寂人類93%的行為是可預測的自然界人類世界,符合冪律假如人類的行為可以預測…31認知大自然農耕文明定居生活階級社會認知物理世界工業文明資本主義毀了自然認知信息世界XX文明?信息革命毀了時間?認知人類行為技術生物?毀“三觀”?大數據,經過1000年的發展后…32烏龜殼前14-11世紀

普通CD20-50年磁盤3-4年磁帶30年《妙法蓮花經》南北朝羊皮圣經4世紀

壁畫1.1萬年前U盤8-10年如何保存如何打開如何檢索如何甄別永恒的忘記…33將隱私的討論,擴展到時間維度對于人類而言,遺忘一直是常態,記憶才是例外,而現在記憶卻成了常態大數據將所有人置于數字圓形監獄的中央主要內容大數據的“熱”大數據的“大”大數據的“數”大數據的顛覆性大數據的隱私保護大數據的實踐34大數據是一種新資源你不可能再造Google,Facebook,騰訊百度阿里

你在讀書,書在讀你35農業社會土地人口工業時代資本技術,機器,能源信息時代用戶數據可被消費,但沒法被耗盡可被創造,而不會被銷毀,除非丟失或遺忘大數據消耗的是注意力每“滴”數據的價值不同疊加效應不是加法的,而是指數的多國政府的戰略36國家/地區時間內容美國2012年3月啟動由聯邦政府六個部門組織的大數據研究計劃,投資兩億美元,力圖鞏固領先地位歐盟2012年9月聯合歐洲整體力量,制定大數據戰略,作為歐盟Horizon2020戰略一部分,加速追趕英國2013年1月英國把大數據作為八大關鍵技術領域之一,計劃兩年內向大數據關鍵技術投入1.89億英鎊,搶占先機日本2012年7月《面向2020年的ICT綜合戰略》將“通過大數據應用促進社會發展經濟增長”作為五大重點之一,并提出活力數據戰略,提升日本競爭力澳大利亞2013年3月發布大數據戰略報告,宣布將于2013年7月前完成政府大數據制定,促進大數據在政府中的應用美國政府大數據計劃2012年3月29日,奧巴馬政府宣布“大數據的研究和發展計劃(BigDataResearchandDevelopmentInitiative)”。首批共有包括美國科學基金會、衛生福利部/國家衛生研究所、能源部、國防部、國防部高級研究計劃局、地質調查局等六個聯邦政府的部門和機構宣布新的2億美元的投資。共同提高從大量數字數據中訪問、組織、收集發現信息的工具和技術水平;擴大大數據技術開發和應用所需人才的供給;了解更多正在進行的聯邦政府的計劃,解決由大數據帶來的機遇和挑戰;計劃與工業界、大學研究界、非營利性機構與管理者一起利用大數據所創造的機會。國防部XDATA計劃:旨在開發用于分析大量的半結構化和非結構化數據的計算技術和軟件工具。能源部HPSS:是對磁盤和磁帶系統上PB級數據進行管理的數據管理軟件。衛生福利部生物傳感2.0:是第一個考慮到區域和國家協調的情況下,通過互操作的網絡系統對公眾健康意識的可行性分析的系統。開放政府數據聯盟截止2012年12月,美國的“開放政府計劃”共有54個國家加入了由美國發起的“開放政府計劃”。網站D公開的數據類別(不涉及隱私和國家安全)超過400項,且數量仍在增加。智利、愛沙尼亞、以色列、意大利、約旦、秘魯、羅馬尼亞、西班牙等國家建立了網站,向公民公布各類公共數據,包括犯罪統計數字以及政黨資金、地方財政預算和政府采購數據。加入“開放政府聯盟”的門檻39財政透明能及時公開政府財政預算和支出的信息和文件信息自由有專門的法律保證公民獲取政府信息和數據的權力財產公開有專門的制度規定如何公開高級政府官員的收入和財產公民參與允許公民參與公共政策的制定、保護民權大數據對技術的顛覆與組合40大數據與傳統數據庫41采集環節存儲環節分析環節應用環節傳統數據分析大數據分析擴展到傳感、互聯網、交易等多來源多類型數據來源單一,以內部結構化數據為主主要是面向結構化數據和事務處理的關系型數據庫擴展到面向非結構化數據和分析處理的非關系型數據庫依賴高性能計算機,主要利用統計和機器學習算法需用分布式并行計算,Scaleout

能力,以機器學習算法為主局限在金融、保險、零售、電信等少數領域,以決策支撐為主有望滲透到政府、醫療、交通等各個領域,嵌入到業務流程中來源廣,3V非結構化和面向分析為主分布式并行架構結合機器學習算法更廣的領域,更深入的嵌入業務流大數據系統的特點大數據資源大數據工具大數據理念大數據&云計算42“嵌入式”的大數據61目前大數據的應用的主要形態是“嵌入式”的,即內嵌在信息化平臺中,高度差異化。相應的技術、解決方案和服務是IT和云計算的一部分,還未形成獨立產業。主要內容大數據的“熱”大數據的“大”大數據的“數”大數據的顛覆性大數據的隱私保護大數據的實踐44隱私保護的歷史變遷4519世紀,住宅為重心20世紀,人為重心21世紀,數據為重心個人控制、編輯、管理和刪除關于他們自己的信息,并決定何時何地、一何種方式公開這種信息的權利。傳統隱私保護的“三板斧”就像印刷業的發展促成了保護言論自由的立法,大數據也需要新的法律46告知與許可匿名模糊法棱鏡門與大數據47是運營商在云計算與大數據方面一個戰略性機遇忘記的權力:數字遺忘48大數據使得網絡匿名變成數學上不可能的事你沒有隱私,忘了這事吧20年前,“性別+郵編+出生年月日”,識別出87%的人大數據時代,通過分析用戶4個曾經到過的位置點,就可以識別出95%的用戶“你不能在擁有100%安全的情況下,同時擁有100%隱私和100%便利”-奧巴馬,2013.6解除個人信息的價值:從收集到使用世界經濟論壇沒有壞數據,只有對數據的不合理使用49大型機,《公平信用報告法》互聯網大數據所有數據的收集都應該通過密碼所有對于數據的使用都應該登記對于那些違反規定的人要采取處罰措施主要內容大數據的“熱”大數據的“大”大數據的“數”大數據的顛覆性大數據的隱私保護大數據的實踐50互聯網企業引領全球大數據應用51大數據關鍵技術與產業研究第51頁互聯網和移動互聯網快速產生的各類數據用戶行為數據系統日志數據……網頁數據用戶交易數據互聯網企業大數據應用場景互聯網企業大數據應用基本特點滿意度分析定向廣告提升服務質量社會服務個性化推薦其它……如Twitter對提到產品的文本進行搜集并按規則打分,得到客戶對產品的滿意度評價如Facebook對用戶基本屬性、行為習慣和興趣等進行語義分析,為廣告商提供基于數據挖掘的自助式廣告下單服務系統如亞馬遜利用大數據技術為用戶提供社會化推薦、廣播式個性化推薦等服務,加快了產品傳播的速度如Facebook對大量用戶產品使用狀況的數據進行分析,優化產品設計及服務,改善用戶的使用體驗如谷歌基于用戶搜索數據推出的產品谷歌流感趨勢,可以迅速、準確的對流感進行預報定向廣告和個性化推薦簡單的大數據應用已在互聯網領域廣泛開展,且大部分企業具備自行實施應用的技術能力掌握有大量用戶行為數據的互聯網巨頭可以較好提供社會化服務淘寶案例5210億商品、交易額過萬億每天30億瀏覽、數千萬交易集群規模3000臺,每年擴大50%50PB數據交易數據用戶數據商品數據社交數據數據:系統:我要買關鍵詞搜索語音搜索語音理解關鍵詞匹配挑選物品索引數據評論/交易商家信譽用戶行為數據商戶行為數據購買推薦其他你歷史數據買家服務行業分析店鋪基礎經營分析商品優化分析買家分析營銷效果分析售后/運營支撐分析需求挖掘訂單分析供應鏈分析信用評估賣什么怎么賣賣給誰我要進貨我要貸款買家服務衍生服務:金融、保險…搜索、電商、廣告、SNS等數據驅動的互聯網服務取得巨大成功,激發了大數據應用的想象力!其它行業普遍仍在探索…53零售業沃爾瑪零售數據商業智能分析系統,可以了解到全球4000多家門店每天的銷售情況并輔助制定銷售策略。美國DNAnexus為醫療機構和用戶提供了基因數據的管理、分析和可視化能力。醫療能源能源機構Vestas綜合考慮溫度、降水、風速、濕度、氣壓等因素,確定鋒利渦輪機的最佳安置地。制造業日本小松公司根據挖掘機工作情況進行大數據分析,判斷下一年度的市場需求。金融美國征信所Equifax對海量信息進行交叉分析,推出70余項新服務。其它:農業、氣象……傳統行業傳統行業大數據應用基本特點數據源主要來自企業內部、類型較少、實時要求較低企業逐漸重視大數據,但當前應用相對簡單,處于探索階段掌握大數據技術的企業較少,主要由ICT企業提供技術支持電信運營西班牙電信“智慧足跡”產品可提供基于位置的大數據分析。互聯網與傳統行業融合創新大數據應用和產品金融與互聯網融合交通與互聯網融合阿里小貸:基于對用戶交易行為的大數據分析,為阿里面向中小企業實施信用貸款提供支撐德國電信利用大數據技術實施德國政府的無擁塞交通研究項目其它:……互聯網與傳統產業不斷融合,將催生新的大數據創新機會融合創新的大數據應用案例目前較少,應用處于起步階段。融合發展能夠將互聯網的在線、數據快速積累和獲取等優勢帶至傳統行業,為實體經濟發展帶來新的突破,將是未來大數據發展的重要方向。我國大數據的挑戰:來源和開放我國數字化的數據資源總量遠遠低于美歐,每年新增數據量僅為美國的7%,歐洲的12%全球2010年新增數據量分布我國已有數據資源還存在標準化、準確性、完整性低,利用價值不高我國政府、企業和行業信息系統建設缺少統一規劃和標準,形成眾多“信息孤島”,數據跨部門整合與開放程度低54國外電信運營商大數據應用模式551、對內:優化自身業務不易獲得用戶互聯網或其他行業某一維度的深度行為信息用戶行為的全維度信息:訪問記錄、位置用戶身份的錨點:用戶身份、用戶賬戶優勢資源應用模式劣勢資源應用模式智能管道:基于用戶、業務及流量分級的多維管控機制。精準的客戶分析及營銷:離網預警、套餐適配、廣告精準投放等。大多數電信運營商已踐行。4、對外:出售加工數據智慧城市:利用位置和軌跡信息服務社會,為智慧城市提供海量數據預測服務。人口流量模型、城市人口流量等。例:西班牙電信、中國電信、中國移動等為其他行業提供API或加工后的用戶行為特征信息。例:Verizon推出的PrecisionMarketInsights,包括位置和Web瀏覽信息在內的用戶分組信息,并非用戶原始信息,然后賣給體育場館、商場等需要做營銷的公司。如太陽隊就用它來了解觀眾賽后是否更有意愿光顧比賽的贊助商。2、對外:應用于社會服務基本應用最新應用3、對外:與互聯網合作與互聯網企業合作,引入用戶的深度行為信息。例:Orang

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論