問題詳情
28. 對於 k-均值(k-means)聚類演算法的敘述,下列何者有誤?
(A) k-均值中update的程序,將更新聚類中心
(B) k-均值中assign的程序,將比較各資料點之間的距離,並將各資料點以隨機方式分配至其中一個聚類
(C) k-均值中的k值表示資料將分成幾類,需事先給定
(D)每一次執行的k-均值演算法,其結果可能會不一樣
(A) k-均值中update的程序,將更新聚類中心
(B) k-均值中assign的程序,將比較各資料點之間的距離,並將各資料點以隨機方式分配至其中一個聚類
(C) k-均值中的k值表示資料將分成幾類,需事先給定
(D)每一次執行的k-均值演算法,其結果可能會不一樣
參考答案
答案:B
難度:計算中-1
書單:沒有書單,新增
內容推薦
- 下列何者不是Apache Hadoop之特色?(A)使用MapReduce程式框架(B)支援Java語言(C) Apache Mahout是一種用來支援Apache Hadoop分散式工作程序
- 二個互斥事件A、B,機率分別是0.0.6,則Pr { Ac ∪ Bc }的值為何?(註:Ac,Bc分別表示A、B的餘集合)(A) 0.7 (B) 0.8 (C) 0.9 (D) 0
- 為 了 解 房 屋 售 價 (X) 與 面 積 (Y) 之 間 的 關 係 , 隨 機 選 取 12 戶 已 成 交 房 屋 , 所 得 資 料 為 ,X與Y的相關係數為下列何者?(A) 0.
- 已知 服從常態分配N(µ , σ),設µ的95 %信賴區間為(L1 , U1),µ的90 %信賴區間為(L2 , U2),下列敘述何者正確?(A) L1 < L2 < U2 < U1 (B)
- 為了解台灣人民的網路使用情形,隨機抽取600位年滿15歲以上的國民調查,其中有360位每天都使用網路,據此估計台灣15歲以上的國民每天使用網路的比率為0.6,則在信賴係數(信心水準)為95 %
- 已知某股票的報酬率服從期望值為µ,標準差為σ 的對數常態分配,則該股票報酬率的期望值為下列何者?(A) µ (B) eµ(C) (D)
- 棒球教練想要透過假說檢定確認某選手的打擊率是否超過3成,乃蒐集過去50次的打擊紀錄做為樣本,得到的打擊率為0.33。假設該選手的每次打擊都是獨立事件,請問在設定顯著水準為5 %的條件下,p值(
- 令(X1 , X2 , X3)為由常態母體N(µ , σ2)抽出的一組隨機樣本,TTTT4均為µ的估計量,T1 = (3X1 + 3X2 + 4X3)/10,T2 = (X1 +
- 從台灣全省抽樣1,000家公司,調查其去年的業績,發現結果如下:業績成長的有150家,業績衰退的有550家,業績不變的有300家,而其中服務業所佔的比例分別為45 %,30 %,50 %。若從
- 1磅精心調配的綜合咖啡豆當中包含了非洲、美洲、亞洲等3地生產的咖啡豆,假設X與Y分別代表這1磅的綜合咖啡豆之中非洲豆和美洲豆的重量,已知X與Y的聯合機率密度函數為f ( x , y ) = 2
內容推薦
- 對監督式學習(supervised learning)的說明,下列何者有誤?(A)監督式學習需要使用標記過類別的資料(labeled data)進行訓練(training)(B)監督式學習可以
- 以機器學習對於巨量資料進行分析後,通常會使用混淆矩陣(confusion matrix),對於所產生的分類器進行評估,其中將分析結果分為true positive (TP)、true nega
- 對於大量資料分析的技術,下列敘述何者有誤?(A) PageRank是用來對於數值資料進行資料壓縮的演算法(B)支持向量機(support vector machine)的核函式(kernel
- 使用MapReduce框架來設計一個字數統計(word count)程式,其程式所進行的常用標準程序應為下列何者?(A) Input → Splitting → Mapping → Shuff
- CAP定理可用來分析NoSQL資料庫的特性,下列對於NoSQL資料庫及CAP定理之敘述,何者有誤?(A) CAP定理的「C」代表的是一致性(consistency)性質(B) CAP定理的「A
- 下列工作何者適合在一般資料庫進行,但不適合在NoSQL環境?(A)維持保證多方同時交易一致性的管理機制(concurrency control)(B)複雜度高的加總計算(C)有時效性的趨勢分析
- 下列何種計算方法原則是先綜觀全局,再分層深化處理的廣度優先策略?(A) Apriori原則找所有frequent patterns (B) FP-growth計算association rul
- 對關聯規則(association rule) X → Y 的理解,下列何者較為正確?(A) X的值決定Y的值 (B) X是因,Y是果(C) X之後的下一階段是Y (D) X出現時,也容易見到
- 文字探勘(text mining)常見的TF-IDF處理,IDF是以甚麼為單位的值?(Document--D代表文件,Term--T代表字詞,Weight--W代表加權比重)(A) IDF (
- 下列何者為公有區塊鏈(block-chain)的特性?(A)由鏈外仲裁者驗證資料 (B)由認證金融組織負責Bitcoin(比特幣)運作(C)已上鏈資料無法更改 (D)不支援智能合約的數位服務
- 有關巨量資料的多類(variety)特性,下列敘述何者正確?(A)一般感知器(sensor)所回傳的資料為無結構性資料(unstructured data)(B)監視器所錄下的視訊(video
- 關於Hadoop分散式檔案系統HDFS的檔案文件儲存,下列敘述何者有誤?(A)檔案內容將被切割為區塊(chunk)儲存(B)檔案區塊大小不一,視檔案內容而定(C)檔案區塊大小通常為64 MB以
- 資料倉儲設計會希望是主題導向(subject-oriented),下列敘述何者正確?(A)主題不應被期待在倉儲系統運作後自然浮現(B)分析維度的準備與主題制定是分別獨立的設計工作(C)資料倉儲
- 資料立方(data cube)是由資料倉儲綱要所建立的多維度數值統計資訊,若決策者希望獲得某單一維度的部分條件之統計量來分析資料時,可以用下列何種 OLAP 的運算來達成?(A) roll u
- 對Hadoop Distributed File System (HDFS)的敘述,下列何者有誤?(A)提供容錯功能 (B)至少包含一台data node(C)至少包含一台name node
- 有關MapReduce程式的執行,下列敘述何者正確?(A)工作追蹤器(job tracker)主要是回報資料節點中 Map 或 Reduce 任務的執行情況(B)主節點(master node
- 以資料分析為目的構建資料倉儲(Data Warehouse)時,其資料特性將不包括下列何者?(A)主題導向性(subject-oriented) (B)資料異動性(volatile)(C)多重
- 當在具有數值屬性(numerical attribute)的資料集中探勘關聯式規則(association rule)時,必須預先對屬性資料完成何種處理?(A)補值處理(missing val
- 巨量資料分析前進行屬性特徵選擇(Feature-Selection)時,下列何種方法不適合用來做為選擇的標準依據?(A)資訊增益(Information Gain) (B)均方根誤差(Root
- 深度神經網路(deep neural networks)的神經元中通常輸出時會經過激發函數(activation function)的轉換,下列針對常用激發函數的敘述何者有誤?(A) ReLU
- 集成式分類方法是將弱分類器(weak classifiers)集合起來用以增強分類的準確率與穩定度。請問下列何者不是集成式分類方法?(A) AdaBoost (B) Gradient Boos
- 下列何者是等差數列?(A)3,3,3,3(B)1,2,4,8 (C)1,4,7,11 (D)
- People tend to feel unhappy because someone has something that they like but do not have; however
- We should not eat a wild mushroom unless we are absolutely sure that it is harmless and _____.(A)
- AIDS is _____. If you have contracted it, you must avoid having sex with others or donating blood