非結(jié)構(gòu)化數(shù)據(jù)來(lái)襲_第1頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)來(lái)襲_第2頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)來(lái)襲_第3頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)來(lái)襲_第4頁(yè)
非結(jié)構(gòu)化數(shù)據(jù)來(lái)襲_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、非結(jié)構(gòu)化數(shù)據(jù)來(lái)襲有人說(shuō),人類僅僅開(kāi)發(fā)使用了自己大腦容量的 10%,要能夠利用其他的 90%,人類的洞悉力和成就將會(huì)無(wú)比驚人;這種說(shuō)法的精確性可能有待爭(zhēng)辯確定,但與之類似,的確屬實(shí)的情形是企業(yè)始終在分析應(yīng)用的是只占數(shù)據(jù)總量 20%的那些跑在 ERP等系統(tǒng)里的結(jié)構(gòu)化數(shù)據(jù);假如再能結(jié)合利用其余80%的非結(jié)構(gòu)化數(shù)據(jù),那成效就可想而知了;基礎(chǔ)技術(shù)在不斷進(jìn)展,而電子商務(wù)、移動(dòng)應(yīng)用、社交網(wǎng)絡(luò)等日益活躍,這導(dǎo)致大量的像影像資料、辦公文檔、掃描文件、 Web 頁(yè)面、電子郵件、微博、即時(shí)通信以及音視頻等非結(jié)構(gòu)化數(shù)據(jù)迎面而來(lái),企業(yè)目不暇接;結(jié)構(gòu)化 vs 非結(jié)構(gòu)化相對(duì)于儲(chǔ)備在關(guān)系型數(shù)據(jù)庫(kù)里,用二維規(guī)律表來(lái)表現(xiàn)的結(jié)構(gòu)化

2、數(shù)據(jù)而言,那些不便利用數(shù)據(jù)庫(kù)二維規(guī)律表來(lái)表現(xiàn)的數(shù)據(jù)就是所謂的非結(jié)構(gòu)化數(shù)據(jù),包括報(bào)表、賬單、影像、辦公文檔、 掃描文件、 Web 頁(yè)面、 電子郵件以及多媒體音頻和視頻信息等;據(jù)統(tǒng)計(jì),企業(yè)中20%的數(shù)據(jù)是結(jié)構(gòu)化的,80%就是非結(jié)構(gòu)化或半結(jié)構(gòu)化的; 當(dāng)今世界結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率大致是 32%,而非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)就是63%,至 2022 年,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的 75%以上;而非結(jié)構(gòu)化 數(shù)據(jù)中 50%75%的數(shù)據(jù)都來(lái)源于人與人的互動(dòng),都是以人為 中心產(chǎn)生的;我們都很熟識(shí)結(jié)構(gòu)化數(shù)據(jù),典型的就是事務(wù)數(shù)據(jù)、定量 的數(shù)據(jù); 企業(yè)收集、 儲(chǔ)備、查詢、利用它們來(lái)制定商業(yè)戰(zhàn)略、預(yù)判趨勢(shì)、運(yùn)行報(bào)表

3、、進(jìn)行分析、優(yōu)化運(yùn)營(yíng);企業(yè)在結(jié)構(gòu)化 數(shù)據(jù)的利用方面已經(jīng)做得很好,通過(guò)它能供應(yīng)重要的業(yè)務(wù)洞 察力,更有效率和有效益地服務(wù)于客戶,遵循監(jiān)管法規(guī),為 決策制定者供應(yīng)所需的即時(shí)的、連續(xù)的關(guān)鍵信息以優(yōu)化業(yè)務(wù);但今日,很多企業(yè)已經(jīng)意識(shí)到,結(jié)構(gòu)化數(shù)據(jù)僅僅是企業(yè) 所擁有數(shù)據(jù)的一小部分;與業(yè)務(wù)信息系統(tǒng)中大量用于交易記 錄、流程把握和統(tǒng)計(jì)分析的結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù) 具有某種特定和連續(xù)的價(jià)值,這種價(jià)值在共享、檢索、分析 等使用過(guò)程中得以產(chǎn)生和放大,并最終對(duì)企業(yè)業(yè)務(wù)和戰(zhàn)略產(chǎn) 生影響;比如在醫(yī)療行業(yè),逐步普及的電子病歷的建設(shè)中,既存 在結(jié)構(gòu)化的電子病歷數(shù)據(jù),也存在非結(jié)構(gòu)化的電子病歷數(shù)據(jù),而非結(jié)構(gòu)化的電子病歷數(shù)據(jù)

4、的重要性并不比結(jié)構(gòu)化數(shù)據(jù)低;由于描述病人病情的自然語(yǔ)言要比患者基本信息等結(jié)構(gòu)化 數(shù)據(jù)更豐富形象,而臨床產(chǎn)生的大量影像文件對(duì)醫(yī)生的診斷也具有很強(qiáng)的幫忙作用;對(duì)此感受頗深的是中國(guó)人民解放軍 總醫(yī)院( 301 醫(yī)院)的信息中心主任史鴻飛;史鴻飛在接受記者采訪時(shí)表示,由于醫(yī)院自身的特點(diǎn),像心電圖、 波形圖、 CT片等診斷依據(jù)信息都讓醫(yī)院自開(kāi)展數(shù) 字化以來(lái)不得不面對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)的治理;不止醫(yī)院,保險(xiǎn)公司也不例外;華泰人壽 CIO楊李在接 受記者采訪時(shí)就介紹,華泰人壽的非結(jié)構(gòu)化數(shù)據(jù)來(lái)源于以下 幾個(gè)方面:第一是由于全部業(yè)務(wù)的原始憑證都被要求存檔,所以像保險(xiǎn)申請(qǐng)書(shū)、審查過(guò)程資料和保單等紙質(zhì)原始資料都會(huì)被掃

5、描存成電子文檔, 比如保單就都是以PDF格式儲(chǔ)存的;其次是保險(xiǎn)公司呼叫中心的服務(wù)錄音依據(jù)保監(jiān)會(huì)的要求需 要永久儲(chǔ)存,由此產(chǎn)生了大量的音頻文件;第三是一些會(huì)議 等的視頻資料;她說(shuō),隨著業(yè)務(wù)進(jìn)展,保險(xiǎn)公司對(duì)風(fēng)險(xiǎn)管控要求越來(lái)越 高,傳統(tǒng)的紙質(zhì)介質(zhì)不足以應(yīng)對(duì)這種要求;保險(xiǎn)公司需要借 助電子化手段,實(shí)現(xiàn)更快的查詢調(diào)閱,這導(dǎo)致越來(lái)越多種類 型和數(shù)量的非結(jié)構(gòu)化數(shù)據(jù)顯現(xiàn);價(jià)值幾何沒(méi)有人會(huì)看輕非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值;史鴻飛告知記者,非結(jié)構(gòu)化數(shù)據(jù)治理對(duì)于醫(yī)院來(lái)說(shuō)意義重大:第一,它可以促進(jìn)數(shù)據(jù)的交換,無(wú)論是在醫(yī)院內(nèi)部仍 是在不同醫(yī)院之間;試想,假如大量的病例、拍的片子都可 以被有效儲(chǔ)備成非結(jié)構(gòu)化數(shù)據(jù),以電子方式儲(chǔ)備、傳

6、遞、交換,那這對(duì)于醫(yī)院流程治理、便利患者就醫(yī)等是多么有價(jià)值;其次,非結(jié)構(gòu)化數(shù)據(jù)在臨床診斷方面,可以做更全面的 顯現(xiàn),更高效地幫忙醫(yī)生診斷;醫(yī)生在臨床就診時(shí),不僅可 以調(diào)出患者基本信息和以往診斷書(shū),仍可以直接調(diào)病人所拍 的像胸透、腸鏡等檢查的影像資料,再加上現(xiàn)場(chǎng)望聞問(wèn)切病 人的病情,醫(yī)生把握了更加全面、直觀的病情資料,就可以 提高診斷成效和效率;另外,在醫(yī)院科研方面, 非結(jié)構(gòu)化數(shù)據(jù)治理也頗具價(jià)值;試想,假如某位醫(yī)生要想鉆研肺癌的爭(zhēng)辯治療,那么過(guò)去他 只有抱著厚厚的書(shū)和筆記本學(xué)習(xí),而要爭(zhēng)辯個(gè)案時(shí),需要去 病案室在一堆封存已久的片子中查找想找的那張,其難度和 效率可想而知;現(xiàn)在有了電子版的影像資料,

7、醫(yī)生就可以根 據(jù)病人的索引找到其電子病歷來(lái)爭(zhēng)辯;更遙遠(yuǎn)的設(shè)想是,如 果將來(lái)能對(duì)同一患者的不同片子或者是同一病種不同患者 的片子都可以通過(guò)數(shù)字技術(shù)做比對(duì)分析,那就更有價(jià)值了;而治理好非結(jié)構(gòu)化數(shù)據(jù)對(duì)保險(xiǎn)公司同樣也意義重大;楊 李以理賠為例向記者進(jìn)行了介紹,她說(shuō),一個(gè)理賠案子會(huì)涉 及理賠對(duì)象、理賠數(shù)據(jù)等,像個(gè)人基本資料等理賠人屬性和 賠付金額、日期等理賠數(shù)據(jù)都可以做成關(guān)系型數(shù)據(jù)存入數(shù)據(jù)庫(kù),但仍會(huì)有些資料,比如理賠對(duì)象住院時(shí)醫(yī)院的單據(jù)、其 他說(shuō)明資料等非結(jié)構(gòu)化數(shù)據(jù)就會(huì)以文件形式儲(chǔ)備起來(lái);當(dāng)理 賠員做賠案的時(shí)候,他會(huì)把理賠對(duì)象的信息等關(guān)系型數(shù)據(jù)和 原始單據(jù)、資料等都調(diào)出來(lái),綜合考察,衡量定奪;這實(shí)際 上

8、就是結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)把客戶、案子資料全面展 示給理賠員,支撐其業(yè)務(wù)操作,提高業(yè)務(wù)效率的實(shí)例;由于 之前沒(méi)有這些電子版的非結(jié)構(gòu)化數(shù)據(jù),對(duì)理賠的判定,理賠 員只能從客戶申請(qǐng)數(shù)據(jù)得到一些信息,需要憑體會(huì)判定,否 就假如要求看其他原始資料,那就需要走十天半月甚至更長(zhǎng) 的紙質(zhì)流程,業(yè)務(wù)辦理時(shí)間會(huì)很長(zhǎng),效率很低;如何治理?xiàng)罾罱榻B,華泰人壽目前對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的治理仍比 較簡(jiǎn)潔,就是以文件的形式儲(chǔ)備起來(lái),按索引查詢;但由于 權(quán)限治理的要求,比如某個(gè)崗位的人只能看部分文檔甚至是 部分文檔的一部分,公司治理要求越來(lái)越細(xì),讓華泰人壽開(kāi) 始考慮是不是需要上一套專業(yè)的內(nèi)容治理系統(tǒng);另外,非結(jié) 構(gòu)化數(shù)據(jù)的量、種

9、類越來(lái)越多,要做到快速的查詢調(diào)閱需要 占用系統(tǒng)大量的 I/O 資源,這也從另一個(gè)方面增強(qiáng)了對(duì)內(nèi)容 治理系統(tǒng)的需求;史鴻飛也介紹,現(xiàn)在301 醫(yī)院對(duì)于非結(jié)構(gòu)化數(shù)據(jù)接受的也是文檔服務(wù)的治理模式,就是為影像、波形圖等建立不同的服務(wù)器儲(chǔ)備起來(lái),用唯獨(dú)的 ID 號(hào)為這些資料建立索引,以備查詢、顯現(xiàn);但對(duì)于更深化的治理應(yīng)用,史鴻飛坦言,仍 并沒(méi)有有效推動(dòng);他說(shuō),的確國(guó)外有先進(jìn)的醫(yī)院在探究用不 同的模型(如 CDA)來(lái)統(tǒng)一各種非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行治理,但 國(guó)內(nèi)的各家醫(yī)院仍都得依據(jù)自己的情形來(lái)做預(yù)備;雖然對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值頌揚(yáng)有加,但史鴻飛認(rèn)為 現(xiàn)階段對(duì)于醫(yī)院來(lái)說(shuō)最主要的仍是流程的問(wèn)題,是做好基礎(chǔ)的 HIS系

10、統(tǒng)及其應(yīng)用;他說(shuō),現(xiàn)在301 醫(yī)院有五大方面的信息化應(yīng)用,一是 HIS系統(tǒng),實(shí)現(xiàn)醫(yī)院的高效運(yùn)行治理;二是 醫(yī)療業(yè)務(wù),更有效地采集、儲(chǔ)備、顯現(xiàn)、共享病歷信息,推 進(jìn)電子病歷,但這也是醫(yī)院流程的一部分;三是實(shí)現(xiàn)醫(yī)院的 精細(xì)化治理,利用信息手段進(jìn)行科學(xué)治理、降低醫(yī)院成本,從而降低患者看病成本,據(jù)悉301 新近也在引入ERP,期望借助先進(jìn)的企業(yè)治理工具,實(shí)現(xiàn)精細(xì)化治理;四是提升患者 服務(wù),提高主動(dòng)醫(yī)療;五是區(qū)域醫(yī)療,協(xié)同互聯(lián);杰出觀點(diǎn) 像心電圖、 波形圖、 CT片等診斷依據(jù)信息讓醫(yī)院自開(kāi)展 數(shù)字化以來(lái),始終都得面對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)的治理;非結(jié) 構(gòu)化數(shù)據(jù)在資料傳遞交換、臨床全面顯現(xiàn)和醫(yī)學(xué)科研等方面 有著

11、重要價(jià)值; 現(xiàn)在,301 醫(yī)院是接受文檔服務(wù)的治理模式,建立不同的服務(wù)器儲(chǔ)備各種非結(jié)構(gòu)化數(shù)據(jù),建立索引,以供 查詢顯現(xiàn),對(duì)其更深化的分析應(yīng)用仍無(wú)法開(kāi)放;目前最主要的仍是搭建、應(yīng)用好HIS系統(tǒng),解決好流程的問(wèn)題; 301 醫(yī)院 CIO史鴻飛 像申請(qǐng)書(shū)、保單等業(yè)務(wù)原始憑證都要被掃描存成電子文 檔,呼叫中心的服務(wù)錄音文件和一些視頻資料,讓保險(xiǎn)公司 擁有越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù);以理賠為例,結(jié)合結(jié)構(gòu)化和 非結(jié)構(gòu)化數(shù)據(jù)可以把資料全面顯現(xiàn)給理賠員,支撐其業(yè)務(wù)操 作,提高業(yè)務(wù)效率;華泰人壽目前對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的治理 仍比較簡(jiǎn)潔,就是以文件的形式儲(chǔ)備起來(lái),按索引查詢,但 權(quán)限治理等方面的要求就讓華泰人壽開(kāi)頭考慮上馬一套專 業(yè)的內(nèi)容治理系統(tǒng);華泰人壽 CIO 楊李 eBay 的非結(jié)構(gòu)化數(shù)據(jù)主要來(lái)自使用者行為分析數(shù)據(jù)和 網(wǎng)站點(diǎn)擊率的分析,這比過(guò)去更復(fù)雜、多變;以追蹤點(diǎn)擊率 來(lái)說(shuō),近年來(lái)大部分的網(wǎng)頁(yè)都是動(dòng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論