大數據分析與應用知到智慧樹章節測試課后答案2024年秋西安理工大學_第1頁
大數據分析與應用知到智慧樹章節測試課后答案2024年秋西安理工大學_第2頁
大數據分析與應用知到智慧樹章節測試課后答案2024年秋西安理工大學_第3頁
大數據分析與應用知到智慧樹章節測試課后答案2024年秋西安理工大學_第4頁
大數據分析與應用知到智慧樹章節測試課后答案2024年秋西安理工大學_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據分析與應用知到智慧樹章節測試課后答案2024年秋西安理工大學第一章單元測試

大數據泛指巨量的()。

A:數組集

B:數據集

C:數字集

D:字符集

答案:數據集

數據分析指的是用適當的()對收集來的大量數據進行分析,提取有用信息并形成結論。

A:定性與定量方法

B:系統分析方法

C:統計分析方法

D:概率分析方法

答案:統計分析方法

瀏覽數據這一步驟可以通過對大數據進行()來實現。

A:分析化

B:可視化

C:簡易化

D:流程化

答案:可視化

Gartner將大數據定義為是需要新處理模式才能具有更強的()以及高增長率和多樣化的信息資產。

A:流程優化能力

B:洞察發現力

C:數據處理能力

D:決策力

答案:流程優化能力

;洞察發現力

;決策力

我們通常用“4V”來反映大數據的特點,4V是指()。

A:Variety

B:Velocity

C:Valid

D:Various

答案:Variety

;Velocity

大數據分析可以應用在那些領域()。

A:醫療衛生領域

B:交通運輸領域

C:農業領域

D:商業領域

答案:醫療衛生領域

;交通運輸領域

;農業領域

;商業領域

大數據分析的過程包括()。

A:數據優化

B:數據理解

C:數據處理

D:數據準備

答案:數據理解

;數據準備

數據只要有足夠的規模就可以稱為大數據。()

A:錯B:對

答案:對大數據分析是大數據到知識,再到信息的關鍵步驟。()

A:錯B:對

答案:錯大數據分析模型用于描述數據之間的關系。如確定自變量、因變量,進而通過聚類、回歸等方法確定其關系。()

A:錯B:對

答案:對

第二章單元測試

數據倉庫的定義于哪一年提出()。

A:1991

B:2015

C:1902

D:2002

答案:1991

符合選擇建立數據倉庫平臺的公認標準的是()。

A:是否支持串聯操作

B:數據庫對大數據量的支持能力

C:是否支持對數據庫的管理

D:是否提供支持少量數據的數據加載

答案:數據庫對大數據量的支持能力

建立數據倉庫的首要步驟是()。

A:數據預處理

B:構建模型

C:數據倉庫管理

D:確認主題

答案:確認主題

數據倉庫的數據模型進行邏輯建模的分析角度是()。

A:業務分析

B:經濟分析

C:政治分析

D:邏輯分析

答案:業務分析

建立數據倉庫的選擇平臺是()。

A:維度表

B:建模工具

C:分析工具

D:數據庫

答案:建模工具

;分析工具

;數據庫

建立數據倉庫的步驟是()。

A:選擇平臺

B:確認主題

C:數據清洗

D:數據傳輸

答案:選擇平臺

;確認主題

;數據清洗

;數據傳輸

符合多維度數據模型構成的是()。

A:事實表

B:電子表

C:維度表

D:測量表

答案:事實表

;維度表

屬于衡量業務性能指標的是()。

A:時間

B:銷售量

C:地點編號

D:銷售額

答案:銷售量

;銷售額

數據倉庫的邏輯數據模型是一維結構的數據視圖。()

A:對B:錯

答案:錯元數據是對數據倉庫中數據的描述信息。()

A:錯B:對

答案:對

第三章單元測試

下列哪項屬于隨機抽樣的缺點?()

A:抽樣方法不具有科學性

B:需要將樣本分為不同類別

C:樣本不具有代表性

D:樣本中個體數量過多,效率低下

答案:樣本中個體數量過多,效率低下

整群抽樣中將總體各單位歸并成若干個()的集合,成為群,然后以群為單位抽取樣本。

A:可以交叉,可以重復

B:可以交叉,互不重復

C:互不交叉,可以重復

D:互不交叉,互不重復

答案:互不交叉,互不重復

數據抽樣和過濾的相似之處是它們的目的都是為了減少要處理的數據量。()

A:錯B:對

答案:對以下哪種方法適用于原始數據的取值范圍已經確定的情況?()

A:Z-score標準化

B:反正切函數

C:0-1標準化

D:log函數轉換

答案:0-1標準化

數據有那些性質?()

A:精確性

B:一致性

C:時效性

D:完整性

答案:精確性

;一致性

;時效性

;完整性

數據缺陷有哪些類型?()

A:缺失數據

B:噪聲數據

C:非規范化數據

D:錯誤數據

答案:缺失數據

;噪聲數據

;非規范化數據

先將總體的觀察按某一順序號分為n個部分,再從每一部分各抽取一定數量的觀察組成樣本,屬于哪種抽樣方式?()

A:按比例抽樣

B:整群抽樣

C:隨機抽樣

D:系統抽樣

答案:系統抽樣

數據清洗浪費時間,是沒有意義的。()

A:錯B:對

答案:錯數據標準化就是為了方便數據的下一步處理,而對數據進行的等比例縮放。()

A:對B:錯

答案:對下列屬于邏輯錯誤清洗的是()

A:去除不合理值

B:修正矛盾內容

C:去重

D:改正格式錯誤

答案:去除不合理值

;修正矛盾內容

;去重

第四章單元測試

關于經濟計量模型進行預測出現誤差的原因,正確的說法是()。

A:只有系統因素

B:既有隨機因素,又有系統因素

C:只有隨機因素

D:其他三個選項都不正確

答案:既有隨機因素,又有系統因素

在多元線性回歸模型中,若某個解釋變量對其余解釋變量的判定系數接近于1,則表明模型中存在()。

A:多重共線性

B:異方差性

C:序列相關

D:高擬合優度

答案:多重共線性

Logistic回歸系數與優勢比OR的關系為()。

A:β>0等價于OR>1

B:β=0等價于OR=1,β>0等價于OR>1

C:β<0等價于OR<1

D:其他三個選項均正確

答案:其他三個選項均正確Logistic回歸可用于()。

A:其他三個選項均正確B:預測

C:校正混雜因素

D:影響因素分析

答案:其他三個選項均正確Logistic回歸中自變量如為多分類變量,宜將其按啞變量處理,與其他變量進行變量篩選時可用()。

A:軟件自動篩選的逐步法

B:軟件自動篩選的后退法

C:軟件自動篩選的前進法

D:應將幾個啞變量作為一個因素,整體進出回歸方程

答案:應將幾個啞變量作為一個因素,整體進出回歸方程

在由n=30的一組樣本估計的、包含3個解釋變量的線性回歸模型中,計算得多重決定系數為0.8500,則調整后的多重決定系數為()。

A:0.8327

B:0.8603

C:0.8655

D:0.8389

答案:0.8327

半對數模型中,參數1的含義是()。

A:Y關于X的邊際變化

B:Y關于X的彈性

C:X的絕對量變化,引起Y的絕對量變化

D:X的相對變化,引起Y的期望值絕對量變化

答案:X的相對變化,引起Y的期望值絕對量變化

回歸變差,或回歸平方和是指()。

A:解釋變量變動所引起的被解釋變量的變差

B:被解釋變量的總變差與剩余變差之差

C:被解釋變量的回歸值與平均值的離差平方和

D:被解釋變量的實際值與平均值的離差平方和

答案:解釋變量變動所引起的被解釋變量的變差

;被解釋變量的總變差與剩余變差之差

;被解釋變量的回歸值與平均值的離差平方和

剩余變差是指()。

A:被解釋變量的變差中,回歸方程不能做出解釋的部分

B:隨機因素影響所引起的被解釋變量的變差解釋變量的實際值與平均值的離差平方和

C:被解釋變量的總變差與回歸平方和之差

D:被解釋變量的實際值與回歸值的離差平方和

答案:被解釋變量的變差中,回歸方程不能做出解釋的部分

;隨機因素影響所引起的被解釋變量的變差解釋變量的實際值與平均值的離差平方和

;被解釋變量的總變差與回歸平方和之差

;被解釋變量的實際值與回歸值的離差平方和

參數的估計量具備有效性是指()。

A:Var()=0

B:為最小

C:Var()為最小

D:

答案:Var()為最小

第五章單元測試

以下不屬于數據挖掘軟件的是()

A:Weka;

B:ApacheSpark;

C:SPSSModeler;

D:Knime;

答案:ApacheSpark;

購物籃分析中,數據是以()的形式呈現

A:布爾變量;

B:自變量;

C:對稱二元變量;

D:不對稱二元變量;

答案:不對稱二元變量;

一個關聯規則同時滿足最小支持度和最小置信度,我們稱之為()

A:弱規則;

B:簡潔規則;

C:強規則;

D:關聯規則;

答案:強規則;

在回歸與相關分析中,因變量值隨自變量值的增大(減小)而減小(增大)的現象叫做()

A:間接相關;

B:正相關;

C:負相關;

D:直接相關;

答案:負相關;

給定關聯規則A-B,意味著:若A發生,B也會發生。()

A:錯B:對

答案:錯不滿足給定評價度量的關聯規則是無趣的()

A:對B:錯

答案:錯頻繁閉項集可用來無損壓縮頻繁項集。()

A:對B:錯

答案:對下面購物籃能夠提取的最大項集和最小項集的數量是多少()。ID購買項:1.牛奶,啤酒、2.面包,黃油,牛奶、3.牛奶,尿布,餅干、4.面包,黃油,餅干、5.啤酒,餅干,尿布、6.牛奶,尿布,面包,黃油、7.面包,黃油,尿布、8.啤酒,尿布、9.牛奶,尿布,面包,黃油、10.啤酒,餅干

A:2;

B:1;

C:4;

D:3;

答案:4;

;3;

關聯規則的評價度量主要有()

A:置信度;

B:頻繁度;

C:支持度;

D:飽和度;

答案:置信度;

;支持度;

關聯分析中表示關聯關系的方法主要有()

A:項集;

B:強關聯規則;

C:單項集;

D:關聯規則;

答案:項集;

;關聯規則;

第六章單元測試

樸素貝葉斯算法是貝葉斯算法中最簡單的一個算法,假設它里邊的各個類條件是()。

A:相同的

B:相似的

C:獨立的

D:交叉的

答案:獨立的

關于樸素貝葉斯算法,下列說法正確的是()。

A:對數據的缺失值不敏感,所需估計的參數也比較少

B:假設樣本各屬性之間是相互獨立的

C:有著堅實的數學理論基礎,分類效果比其他分類器好

D:通過先驗概率的結果,對后驗概率不斷地調整

答案:假設樣本各屬性之間是相互獨立的

隨機森林的訓練過程分為?()。

A:生成過程

B:決策過程

C:投票過程

D:生長過程

答案:投票過程

;生長過程

影響隨機森林分類性能的主要因素()。

A:單顆決策樹的分類強度

B:森林中決策樹的相關度

C:決策樹的數量

D:決策樹的分類算法

答案:單顆決策樹的分類強度

;森林中決策樹的相關度

隨機森林結合策略有哪些?()。

A:投票法

B:簡單平均法

C:迭代法

D:加權平均法

答案:投票法

;簡單平均法

;加權平均法

人工神經網絡的結構包括?()。

A:隱含層

B:輸出層

C:隱藏層

D:輸入層

答案:隱含層

;輸出層

;輸入層

單層神經網絡有幾層?()。

A:3

B:4

C:1

D:2

答案:2

神經網絡的各層之間的初始參數是如何設定的?()。

A:算法設定

B:隨機產生

C:模型規定

D:人為設定

答案:隨機產生

深度學習模型有哪些?()。

A:循環神經網絡

B:生成-對抗神經網絡

C:卷積神經網絡

D:深度神經網絡

答案:循環神經網絡

;生成-對抗神經網絡

;卷積神經網絡

;深度神經網絡

神經網絡模型構思來源于對人腦的模擬。()

A:錯B:對

答案:對

第七章單元測試

聚類分析是將樣品或變量按照它們在性質上的什么進行分類的()。

A:親疏程度

B:距離

C:簇

D:密度

答案:親疏程度

哪個方法不是類間距離的度量方法()。

A:最近距離法

B:最遠距離法

C:重心距離

D:歐式距離

答案:歐式距離

閔可夫斯基距離λ可以取哪些值()。

A:無窮大

B:負數

C:正數

D:其他三個選項均正確

答案:其他三個選項均正確關于聚類分析下列說法正確的是()。

A:系統聚類屬于有監督分類

B:K-means屬于無監督分類

C:系統幾類并不適合數據量很大的情形

D:通過K-means聚類和系統聚類,可以直接輸出分為n類和數值n

答案:K-means屬于無監督分類

;系統幾類并不適合數據量很大的情形

根據簇之間的關系,聚類分析可以分為()。

A:重疊聚類

B:劃分型聚類

C:指數聚類

D:層次型聚類

答案:重疊聚類

;劃分型聚類

;層次型聚類

哪些屬性可以通過取值的差來衡量相異度()。

A:對稱屬性

B:比率屬性

C:非對稱屬性

D:區間屬性

答案:比率屬性

;區間屬性

聚類與分類一樣,具有預測功能。()

A:對B:錯

答案:錯K-Means算法需要用初始隨機種子點來做,不同起點結果不同,可能導致算法陷入局部最優。()

A:錯B:對

答案:對DBSCAN是基于密度的噪聲應用空間聚類。()

A:錯B:對

答案:對緊密度和分離度是聚類分析評價的兩個原則。()

A:錯B:對

答案:對

第八章單元測試

待定系數a稱為灰色作用量()。

A:錯B:對

答案:錯馬爾科夫過程是具有馬爾科夫性質的離散隨機過程。()。

A:對B:錯

答案:對在馬爾科夫過程中,在給定當前信息或知識時,過去對于預測未來是有關的。()。

A:錯B:對

答案:錯馬爾科夫分析法是研究隨機事件變化趨勢的一種方法。()。

A:對B:錯

答案:對預測分析的基本思路為:列出并分析現有數據-尋找計算手段-得出結論。()。

A:錯B:對

答案:對預測的方法可以分為定性預測方法和定量預測方法。()。

A:對B:錯

答案:對在諸多的灰色模型中,哪種模型最常用?()。

A:GM(1,1)

B:GM(2,1)

C:GM(1,2)

D:GM(2,2)"

答案:GM(1,1)

馬爾科夫性中,n+1時刻的狀態的條件概率只依存哪種時刻的狀態()。

A:n+1

B:n

C:n-1

D:n+2

答案:n

以下哪幾點是預測分析的關鍵點()。

A:數據的數量

B:數據的相關性

C:數據在時間上的持續性

D:數據的全面性

答案:數據的數量

;數據在時間上的持續性

;數據的全面性

預測分析主要對以下哪些方面的作用()。

A:成本控制

B:自適應管理

C:績效管理

D:決策管理

答案:成本控制

;自適應管理

;績效管理

;決策管理

第九章單元測試

基于聚類的離群點檢測可以分為幾類?()。

A:兩類;

B:三類;

C:四類;

D:五類

答案:兩類;

基于聚類的離群點檢測有什么缺點?()。

A:產生的離群點集非常依賴所用的簇的個數;

B:空間復雜度是線性或接近線性的;

C:時間復雜度是線性或接近線性的;

D:可能同時發現簇和離群點;

答案:產生的離群點集非常依賴所用的簇的個數;

基于密度的離群點檢測優點是?()。

A:不會忽視基于簇的離群點的存在

B:可以處理擁有不同密度區域的數據集;

C:參數選擇容易;

D:計算的時間復雜度一直很低;

答案:可以處理擁有不同密度區域的數據集;

在基于聚類的離群點檢測中,對象是否被認為是離群點可能高度依賴于簇的個數。()

A:錯B:對

答案:對基于聚類的離群點分析方法,在已有聚類結果的基礎上,計算量小,效率高,但是它的有效性也非常依賴聚類的結果。()

A:錯B:對

答案:對對于基于原型的聚類,評估對象屬于簇的程度主要有兩種方法:一是度量對象到簇原型的距離,二是考慮到簇具有不同的密度,可以度量簇到原型的相對距離。()

A:對B:錯

答案:對對于基于距離的離群點分析方法,其基本思想是一個對象如果遠離大部分其它對象,那么它是離群的。()

A:錯B:對

答案:對基于距離的離群點分析可以處理多維數據。()

A:對B:錯

答案:對當數據集包含不同密度的區域時,基于距離的離群點檢測方法不能很好地識別離群點。()

A:錯B:對

答案:對基于距離的離群點檢測方案簡單,不必知道數據的分布,計算量大。()

A:錯B:對

答案:錯

第十章單元測試

用于提取主題的文本分析方法包括()。

A:PLDA

B:LSA

C:LDA

D:PLSA

答案:PLDA

;LSA

;LDA

;PLSA

可以通過詞匯來判斷文檔之間的相似度。()

A:對B:錯

答案:對以下哪些屬于文本分析模型?()

A:主題模型

B:TextRank

C:TF-IDF

D:統計語言模型

答案:主題模型

;TextRank

;TF-IDF

;統計語言模型

中文分詞的難點是什么?()

A:未登錄詞問題

B:計算問題

C:歧義問題

D:規范問題

答案:未登錄詞問題

;計算問題

;歧義問題

;規范問題

詞的同義和多義現象是文本分析中存在的問題。()

A:對B:錯

答案:對詞嵌入方法將詞表示為數值向量。()

A:對B:錯

答案:對主題抽取使得文本的處理大大簡化。()

A:對B:錯

答案:對某詞的IDF值越高,說明該詞越不常見。()

A:對B:錯

答案:對網絡上的信息錯綜復雜,沒有辦法對文本進行分析。()

A:錯B:對

答案:錯基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論