數據科學 - 統計的影響

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

數據分析與知識產業

數據科學 - 統計的影響

國立中興大學生物產業機電工程學系陳加忠

來源出處:

Claus Weihs1 · Katja Ickstadt2

International Journal of Data Science and Analytics (2018) 6:189–194

https://doi.org/10.1007/s41060-018-0102-5

摘要：

在本文中，我們證實了我們的前提，即統計學是最重要的學科之一，可以提供工具和方法來查找數據結構並深入了解數據，也是分析和量化不確定性的最重要學科。

我們概述了數據科學的不同提議結構，並解決了統計對數據採集和豐富、數據探索、數據分析和建模、驗證以及表示和報告等步驟的影響。此外指出忽略統計推理時謬誤。

關鍵詞數據科學的結構 · 統計學對數據科學的影響 · 數據科學的謬誤

1 、引言與前提

數據科學作為一門科學學科受到資訊學、電腦科學、數學、運籌學、統計學以及應用科學的影響。

1996 年，數據科學一詞首次被列入統計會議（國際分類協會聯合會 (IFCS) “數據科學、分類和相關方法”）的標題中。儘管該術語是由統計學家創立的，但在數據科學的公眾形像中，電腦科學和商業應用的重要性往往更加強調，尤其是在大數據時代。

早在 1970 年代，John Tukey的想法就改變了統計學的觀點，從純粹的數學設置（例如統計檢驗）轉向從數據中推導出假設（探索性設置），即在假設之前嘗試理解數據。

數據科學的另一個根源是數據庫中的知識發現(KDD)及其子主題數據挖掘。KDD已經匯集了許多不同的方法來知識發現，包括歸納學習，（貝葉斯）統計，查詢最佳化，專家系統，資訊理論，模糊集。因此，KDD 是促進不同領域之間交互的重要組成部分，以實現識別數據知識的總體目標。

如今，這些想法結合在數據科學的概念中，導致了不同的定義。其中的數據科學的最全面的定義，最近給出的公式：數據的科學=（統計學+資訊學計算+計算 +通信+社會學+管理| （數據+環境+思維）。

在這個公式中，社會學代表社會方面和 | （數據+環境+思維）意味著所有提到的科學都基於數據、環境和所謂的數據到知識到智慧的思維。

最近，全面OV數據科學的評論提供由多諾霍在2015年重點對進化的數據科學統計從。事實上，早在 1997 年，就有更激進的觀點建議將統計重命名為數據科學。2015 年，許多 ASA領導人發佈了一份關於統計在數據科學中的作用的聲明，稱“統計和機器學習在數據科學中發揮著核心作用”。

在我們看來，統計方法在數據科學的大多數基本步驟中都至關重要。因此，我們貢獻的前提是：

統計學是最重要的學科之一，它提供工具和方法來查找數據結構並深入了解數據，也是分析和量化不確定性的最重要學科。

本文目的在解決統計對數據科學中最重要步驟的主要影響。

2 、數據科學的步驟

從結構角度來看，數據科學的先驅之一是著名的 CR ISP-DM（數據挖掘跨行業標準流程），它分為六個主要步驟：業務理解、數據理解、數據準備、建模、評估、和部署。

在我們看來，數據科學的主要步驟受到 CRISP-DM 的啟發並不斷發展，導致例如我們將數據科學定義為以下步驟的序列：數據獲取和豐富、數據存儲和訪問、數據探索、數據分析和建模、演算法最佳化、模型驗證和選擇、結果的表示和報告以及結果的業務部署。請注意，小寫的主題表示較少涉及統計的步驟，如表1。

通常，這些步驟不只執行一次，而是在循環中迭代。此外在兩個或多個步驟之間交替是很常見的。這尤其適用於數據採集和豐富、數據探索和統計數據分析等步驟，以及統計數據分析和建模以及模型驗證和選擇。

表 1 比較了數據科學中步驟的不同定義。術語的關係由水準塊表示。CRISP-DM 中缺失的數據採集和豐富步驟表明該方案僅處理觀測數據。此外我們的提案中，將數據存儲和訪問以及演算法最佳化步驟添加到 CRISP-DM 中，其中涉及的統計數據較少。

數據科學的步驟列表甚至可以被放大，例如表 1 ，中間列，用於以下最近的列表：特定領域的數據

應用與問題、數據存儲與管理、數據品質提升、數據建模與表示、深度分析、學習與發現、模擬與實驗設計、高性能處理與分析、網路、通信、數據到決策和行動。

原則上，我們的步驟數據分析和建模對應於數據建模和表示、深度分析、學習和發現。此外詞彙略有不同，這取決於各自的背景是電腦科學還是統計學。在這方面請注意實驗

在接下來的內容中，我們將重點討論統計在Sects 中討論所有步驟的作用，這裡涉及大量的步驟。2.1–2.6。這些與我們在表 1 中建議的所有步驟一致，除了小寫字母的步驟。相應的條目數據存儲和訪問和演算法最佳化主要涵蓋資訊學和電腦科學，而業務部署結果的業務管理涵蓋。

2.1 數據獲取與豐富

當必須識別噪聲因素的影響時，實驗設計 (DOE ) 對於系統生成數據至關重要。儘管過程變數會發生變化，但受控實驗是穩健過程工程生產可靠產品的基礎。在一方面，即使是可控的因素包括AC無法控制的ERTAIN量變化影響重新反應。另一方面，一些因素，如環境因素，根本無法控制。儘管如此，至少這些嘈雜的影響因素的影響應該受到例如 DOE 的控制。可以使用 DOE，例如，

-到系統地生成新的數據（數據採集），

–用於系統地減少數據庫，以及

–用於調整（即最佳化）演算法參數，即用於改進數據分析方法（參見第2.3 節）本身。模擬也可用於生成新數據。一種豐富數據庫以填補數據空白的工具是缺失數據的插補。

這種用於數據生成和豐富的統計方法需要成為數據科學支柱的一部分。該專用觀測的數據，而無需任何噪音控制明顯削弱了合格的數據分析結果的TY和甚至可能導致錯誤的結果解釋。對於希望“論的終結：在數據洪水使科學方法已過時”出現是錯誤的歸因於噪聲的數據。

因此，實驗設計對於我們結果的可靠性、有效性和可重複性至關重要。

2.2 數據探索

探索性統計對於數據預處理以了解數據庫內容至關重要。在某種程度上，對觀測數據的探索和可視化是由John Tukey發起的。從那時起，數據分析中最費力的部分，即數據理解和轉換，成為統計科學的重要組成部分。

數據探索或數據挖掘是在數據科學中正確使用分析方法的基礎。在最統計的重要貢獻是分配的概念。

它允許我們表示數據的可變性以及參數的（先驗）知識，這是貝葉斯統計背後的概念。數據分配也使我們能夠選擇適當的後續分析模型和方法。

2.3 統計數據分析

在數據中尋找結構並進行預測是數據科學中最重要的步驟。特別是統計方法是必要的罪惡他們能夠處理許多不同的分析任務。進出口統計重要t實例數據分析方法有以下幾種。

a) 假設檢驗是統計分析的支柱之一。

在出現問題的數據驅動的問題通常被翻譯為假設。此外假設是基礎理論和統計學之間的自然聯繫。

由於統計假設與統計檢驗相關，因此可以針對可用數據對問題和理論進行檢驗。

在不同的測試中多次使用相同的數據通常導致需要校正顯著性水準。在應用統計學中，正確的多重檢驗是最重要的問題之一，例如在藥物研究中。忽略這些技術會導致比合理結果更重要的結果。

b) 分類方法是從數據中發現和預測亞群的基礎。在所謂的無監督情況下，將從數據集中找到此類子群，而無需先驗了解此類子群的任何情況。這通常稱為聚類。

在所謂的監督情況下，當只有影響因素可用時，應該從標籤主導的數據集中找到分類規則，用於預測未知標籤。

如今，有過多的對無監督方法一報還為受監管的情況下。在大數據時代，似乎有必要重新審視經典方法，因為在大多數情況下，複雜分析方法的計算效果隨著觀察數n 或特徵數的增加而變得強於線性p 。在大數據的情況下，即如果 n 或 p 很大，這會導致計算時間太長和數值問題。這導致兩者在復出與ER化演算法低的時間複雜度和在重新審視傳統的統計和機升方法賺了大數據。

c) 迴歸方法是在測量目標變數時發現特徵之間全局和局部關係的主要工具。根據基礎數據的分佈假設，可以應用不同的方法。在常態性假設下，線性迴歸是最常用的方法，而廣義線性迴歸通常用於指數族的其他分佈。更先進的方法包括功能迴歸對功能數據，位數迴歸，迴歸和基於損失函數S以外的比平方誤差損失等，例如套索迴歸。

在大數據的背景下，挑戰類似於給定大量觀察 n（例如，在數據流中）和/或大量特徵 p 的分類方法。為了減少 n ，壓縮感知、隨機投影方法或基於採樣的程序等數據減少技術可以實現更快的計算。為了將數量p減少到最有影響力的特徵，可以採用變數選擇或收縮方法，如套索，保持特徵的可解釋性。(spar e) 主成分分析也可以使用。

d) 時間序列分析目的在理解和預測時間結構。時間序列在觀測數據的研究中非常普遍，而預測是此類數據最重要的挑戰。典型的應用領域是行為科學和經濟學以及自然科學和工程。例如，讓我們看看信號分析，例如語音或音樂數據分析。在這裡，統計方法包括時域和頻域中的模型分析。的主要目的是預測上的時間的未來值的系列本身或其的性質。例如，可以對音頻時間序列的顫音進行建模，以便真實地預測未來的音調，並且可以通過從過去的時間段中學習的規則來預測樂音的基頻。

在計量經濟學，多個時間系列和他們的合作-整合經常分析。在技術應用中，過程控制是時間序列分析的共同目標。

2.4 統計建模

(a)因素之間複雜的相互作用可以通過圖或網路來建模。在這裡，兩個因素之間的相互作用由圖形或網路中的連接建模。這些圖可以是無向的，例如在高斯圖形模型中，或者是有向的，例如在貝葉斯網路中。

網路分析的主要目標是推導網路結構。有時，有必要分離（取消混合）特定於子群的網路拓撲。

(b) 隨機微分方程和差分方程可以表示來自自然科學和工程科學的模型。求解此類方程的近似統計模型的發現可為例如此類過程的統計控制提供有價值的見解，例如在機械工程中。這種方法可以在應用科學和數據科學之間架起一座橋樑。

在時間序列中，通常存在越來越多的全局結構的層次結構。例如，在音樂，一個基本的局部結構給出的音符，越來越多的酒吧，主題，短語，零件等全球那些為了找到一個全球性的時間序列的性質本土車型可結合更多的全球特色。

混合模型也可用於將局部模型推廣到全局模型。模型組合對於真實關係的表徵至關重要，因為標準數學模型通常太簡單而無法用於異構數據或更大的感興趣區域。

2.5 模型驗證和模型選擇

在多於一個模型，提出了的情況下，例如，預測，統計檢驗˚F或比較模型是有幫助的，以結構模型，即是關於他們的預測能力。

預測能力通常通過所謂的重採樣方法進行評估，其中通過人為改變用於學習模型的子群來研究功率特性的分佈。這種分佈的特徵可用於模型選擇。

擾動實驗提供了另一種評估模型性能的可能性。以這種方式，評估了不同模型對噪聲的穩定性。

元分析以及模型平均是評估組合模型的方法。

模型選擇在過去幾年變得越來越重要，因為文獻中提出的分類和迴歸模型的數量隨著速度越來越快而增加。

2.6 代表和報告

以易於更新的形式解釋發現的結構和存儲模型的可視化是統計分析中非常重要的任務，以交流結果和保護數據分析部署。部署對於在數據科學中獲得可解釋的結果是決定性的。這是最後的CRISP-DM的步驟和基本數據到決策中曹和行動步驟。

除了可視化和足夠的模型存儲，對於統計，主要任務是報告不確定性和審查。

3、謬論

節中描述的統計方法。2是在數據中尋找結構和獲得對數據的更深入洞察的基礎，因此，對於成功的數據分析。忽視現代統計思維或使用簡單的數據分析/統計方法可能會導致可避免的謬誤。這尤其適用於分析大數據和/或複雜數據。

如節末所述。2.2，分佈的概念是統計的主要貢獻。不考慮數據探索和建模中的分佈限制了我們報告沒有相應可變性的值和參數估計。只有分佈的概念使我們能夠用相應的誤差帶進行預測。

此外，分佈是基於模型的數據分析的關鍵。對於為例E，無監督的學習可以用來找到DAT集群一個。如果像額外的結構上的空間或時間相關性是存在，它往往是重要的推斷喜歡群集參數半徑及其時空演變。這種基於模型的分析在很大程度上取決於應用於蛋白質簇的分佈概念）。

如果感興趣的參數不止一個，建議將單變數假設檢驗方法與多個程序進行比較，例如在多元迴歸中，並通過變數選擇來選擇最合適的模型。將自己限制在單變數測試中，會忽略變數之間的關係。

更深入的了解數據可能需要更複雜的模型，像，例如，混合物模型探查異質在數據組。當忽略混合時，結果通常代表無意義的平均值，並且可能需要通過分解成分來學習子組。在貝葉斯框架中，這通過例如狄利克雷混合模型中的潛在分配變數來實現。有關在分子生物學中的異質細胞群中分解不同網路的混合物的應用，請參閱。

甲混合物模型可能組分的表現混合物非常不相等的大小的，用小分量（離群值）是特別重要的。在大數據的背景下，樸素的抽樣程序通常用於模型估計。

然而，這些都有丟失小混合物成分的風險。因此，根據採樣模型驗證或到一個更合適的分佈以及重採樣方法用於預測能力是重要的。

4、結論

根據以上對統計學的能力和影響的評估，我們的結論是：統計學在數據科學中的作用被低估了，例如，與電腦科學相比。這尤其適用於數據採集和豐富領域以及預測所需的高級建模領域。

在這一結論的刺激下，建議統計學家在這個現代且廣為接受的數據科學領域中更積極地發揮他們的作用。

只有補充和/或將數學方法和計算演算法與統計推理相結合，特別是對於大數據，才會產生基於合適方法的科學結果。最終，只有所有相關科學的平衡相互作用才能在數據科學中獲得成功的解決方案。