




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講:張義目錄0102指定cache方法指定persist(持久化)方法指定cache方法1指定cache方法cache方法可以將RDD緩存在內存中,如下例所示:vallogs=sc.textFile("path/to/log-files")valerrorsAndWarnings=logsfilter{l=>l.contains("ERROR")||l.contains("WARN")}errorsAndWarnings.cache()指定cache方法valerrorLogs=errorsAndWarningsfilter[l=>l.contains("ERROR")}valwarningLogs=errorsAndWarningsfilter{l=>l.contains("WARN")}valerrorCount=errorLogs.countvalwarningcount=warningLogs.count指定cache方法RDD是否正在被緩存?testRdd.cache()testRdd.count()testRdd.collect()由于RDD是在執行第一個操作之前被緩存的,而不是之后,因此,只有collect操作可以使用緩存的值。指定cache方法如果應用程序不會多次讀取數據集,則緩存實際上會使作業更慢。使用緩存是需要付出代價的。如果由于緩存導致的內存壓力成本大于避免重新計算RDD所帶來的好處,在該情況下,緩存并不是一個合適的機制。如果可以輕松地重新計算數據集,且應用程序不會多次訪問它,則重新計算可能更快。指定persist(持久化)方法2指定persist(持久化)方法將RDD存儲在內存中以使后續的計算使用的第二種方法是調用persist方法。可以將持久化視為緩存RDD的一種更通用的方法,因為其不僅僅允許指定內存類型的存儲來存儲RDD如果調用persist方法時不附加任何參數,其工作方式與cache方法相似,即存儲RDD到內存中。例如:vallines=sc.textFile(/data/examples/datal.txt)lines.persist()指定persist(持久化)方法cache(緩存)和persist(持久性)都在做同樣的事情,即臨時存儲RDD,兩種方法默認的存儲類型都是內存。這兩種方法的區別在于persist方法允許指定特定的存儲類型來存儲RDD。如果你比較關心內存的使用且認為當前使用了過多的內存,則除了內存之外,還有其他存儲類型可選。如果決定存儲RDD且其與當前JVM內存不匹配,則可以指定其他存儲級別,如下所示。指定persist(持久化)方法MEMORY_ONLY:默認存儲級別,將RDD作為反序列化的Java對象進行存儲,如果內存中沒有足夠的空間用于RDD存儲,在需要時會對無法緩存的RDD分區進行重新計算,例如:vallines=sc.textFile(/data/examples/datal.txt)lines.persist(MEMORY_ONLY)MEM_AND_DISK:將RDD作為反序列化Java對象存儲在內存中,如果沒有足夠的內存空間,則將分區存儲在磁盤上以供將來讀取。例如:testRdd.persist(StorageLevel.MEMORY_AND_DISK)指定persist(持久化)方法MEMORY_ONLY_SER;將RDD作為序列化Java對象存儲在內存中(默認情況下,以反序列化形式存儲),這樣可以提高空間使用效率。但是,這也意味著后期在讀取這些數據時,需要更多的CPU來進行序列化文件的解析。指定此存儲級別的方法如下所示:testRdd.persist(StorageLevel.MEMORY_ONLY_SER)MEMORY_AND_DISK_SER:與MEMORY_ONLY_SER級別類似,但使用磁盤存儲不適合存儲于內存中的分區。例如:testRdd.persist(StorageLevel.MEMORY_AND_DISK_SER)指定persist(持久化)方法DISK_ONLY:跳過內存,將所有的RDD分區存儲于磁盤上,例如:testRdd.persist(StorageLevel.DISK_ONLY)MEMORY_ONLY_2,MEMORY_AND_DISK_2等:這些存儲層級的工作方式與前面描述的相應存儲級別類似,不同之處在于每個分區都存儲在兩個節點上以實現彈性恢復。設置此存儲級別的方式如下所示:指定persist(持久化)方法testRdd.persist(StorageLevel.MEMORY_ONLY_2)testRdd.persist(StorageLevel.MEMORY_ONLY_SER_2)testRdd.persist(StorageLev
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇淮安2024~2025學年高一下冊期末調研測試數學試題學生卷
- 加固材料在地下結構中的應用研究考核試卷
- 古典文學中的自然景觀與人文情懷交融研究考核試卷
- 健身步道施工冬季施工技術考核試卷
- 部編人教版五年級語文上學期全冊期末綜合復習訓練附答案
- 保險代理業務風險防范技術創新研究考核試卷
- 2025年中國POS計費終端機數據監測報告
- 2025年中國MINIDAS數據采集器數據監測報告
- 2025年中國EVA薄膜數據監測報告
- 2025年中國BMC玻璃纖維增強塑料數據監測報告
- 初++中數學設計學校田徑運動會比賽場地+課件++人教版七年級數學上冊
- 《衛星導航系統》全套教學課件
- 職業道德完全題庫附有答案
- 初高中物理銜接講座(初高中物理對比)
- 施工現場平面布置及臨時設施、臨時道路布置
- 小學六年級課后服務:scratch少兒編程 四階第19課:BMI指數(上)
- 科技人才評價規范
- 《短視頻編輯與制作(第2版)》-第9章
- 醫院無菌操作知識培訓
- 年產500噸40gL煙嘧磺隆可分散油懸浮劑農藥項目環境影響評價報告表樣本
- 介紹方志敏(修訂版)
評論
0/150
提交評論