International Journal of Data Science and Analytics (2018) 6:189–194
https://doi.org/10.1007/s41060-018-0102-5
Data Science: the impact of statistics
Claus Weihs1 · Katja Ickstadt2
1.Computational Statistics, TU Dortmund University, 44221 Dortmund,
Germany
2 Mathematical Statistics and Biometric Applications, TU Dortmund
University, 44221 Dortmund, Germany
摘要
在本文中,我們證實了這樣一個前提:統計學是最重要的學科之一,它提供工具和方法來發現數據的結構並提供對數據的更深入的了解,並且是分析和量化不確定性的最重要的學科。我們對數據科學的結構不同提議進行了概述,並討論了統計對數據收集和充實,數據探索,數據分析和建模,驗證和表示以及報告等步驟的影響。另外,我們指出在推理時忽略統計會出現的謬誤。
1、引言與前提
數據科學作為一門科學學科,受到資訊學,電腦科學,數學,運籌研究,統計學以及應用科學的影響。
1996年,數據科學一詞首次被納入統計會議的標題國際船級社聯合會(IFCS)“數據科學,分類及相關方法”)[37]。即使該術語是由統計學家創立的,但在數據科學的公眾形像中,電腦科學和商務應用的重要性通常需要更加強調,特別是在大數據時代。
早在1970年代,John Tukey
[43]的想法就將統計學的觀點從原來純粹的數學環境(例如統計檢定)轉變為從數據中得出假設(探索設定),即試圖在假設之前理解數據。
數據科學的另一個根源是數據庫中的知識發現(KDD)[36]及其子主題數據挖掘。KDD已經匯集了許多不同的知識發現方法,包括歸納學習,(貝葉斯)統計,查詢最佳化,專家系統,資訊論和乏晰子集。因此,KDD是促進總體目標的重要組成部分為在不同領域之間進行交互識別數據與知識。
如今,這些思想已與數據科學概念結合在一起,從而產生了不同的定義。Gao曹最近以公式[12]給出了最全面的數據科學定義之一:數據科學=(統計+資訊學+計算+通訊+社會學+管理)| (數據+環境+思維)。在這個公式中,社會學代表社會學範圍,而(數據+環境+思考)表示所有提到的科學都是基於數據,環境和所謂的“從數據至從知識到智慧”的思想。
Donoho在2015年提供了有關數據科學的最新全面概述[16],重點是數據科學從統計學的演變。確實早在1997年,就出現了一種更為激進的觀點,建議將統計學重命名為數據科學[50]。2015年,許多ASA領導人[17]發表了關於統計在數據科學中的作用的聲明,稱“統計和機器學習在數據科學中有著核心作用。”
我們認為,統計方法在數據科學的最基本步驟中十分重要。因此,我們的提出前提是:統計學是提供數據結構和對數據進行更深入了解的工具和方法的最重要學科之一,也是分析和量化不確定性的最重要學科。本文目的在解釋統計學對數據科學最重要步驟的重大影響。
數據科學的2個步驟
從結構的角度來看,數據科學的先驅之一是著名的CRISP-DM(跨行業數據收集標準流程),它由六個主要步驟組成:業務理解,數據理解,數據準備,建模,評估和部署[10
],請參閱表1左欄。CRISP-DM之類的想法現在已成為應用統計的基礎。
我們認為,數據科學的主要步驟是受CRISP-DM的啟發而發展起來的。例如我們將數據科學定義為以下步驟的序列:數據採集和充實,數據存儲和存取,數據探索,數據分析和建模,最佳化演算法,模型驗證和選擇,結果表示和報告以及結果業務部署。請注意,在此小寫字母的主題表示較少涉及統計的步驟。顯示於表1,右欄。
通常,這些步驟不僅執行一次,而且會循環。另外,通常在兩個或多個步驟之間交替。這尤其適用於數據收集和充實,數據探索和統計數據分析以及統計數據分析和建模以及模型驗證和選擇的步驟。
表1比較了數據科學中步驟的不同定義。術語的關係由水平框指示。CRISP-DM中缺少數據採集和充實步驟,表明該方案僅處理觀測數據。此外在我們的建議中,將“數據存儲和存取以及演算法最佳化”步驟添加到CRISP-DM中,其中不涉及統計資訊。甚至可以放大數據科學的步驟列表,例如,參見[12]中的Cao的圖6,cp。以及表1的中間欄,用於以下近期列表:特定領域的數據應用和問題,數據存儲和管理,數據品質增強,數據建模和表示,深度分析,學習和發現,模擬和實驗設計,高性能加工和分析,網路,通信,數據決策和操作。
表1數據科學中的步驟:CRISP-DM(跨行數據挖掘標準流程),Gao的定義和我們的建議的比較
---------------------------------------------------------------------------------------------------------
CRISP-DM Cao’s definitionOur proposal
--------------------------------------------------------------------------------------------------------
Business UnderstandingDomain-specific Data, Data Acquisition and
Enrichment (cp. Sect. 2.1)
Applications and Problems
Data
Storage and ManagementData Storage and Access
Data
Understanding, Data QualityEnhancement Data Exploration (cp. Sect. 2.2)
Data
Preparation
Modeling DataModeling and Representation,Data Analysis and Modeling (cp.
Sects. 2.3, 2.4)
Deep
Analytics, Learning and Discovery
High-performance Processing and AnalyticsOptimization of Algorithms
Evaluation Simulation and Experiment DesignModel Validation and
Selection (cp. Sect. 2.5)
Deployment Networking, CommunicationRepresentation and Reporting of
Results (cp. Sect. 2.6)
DeploymentData-to-decision and ActionsBusiness Deployment of Results
----------------------------------------------------------------------------------------------------------------
原則上,我們建議涵蓋相同的主要步驟。但是在某些方面,Gao的表述更為詳盡。例如我們的數據分析和建模步驟對應於數據建模和表示,深度分析,學習和發現。同樣,詞彙表也略有不同,這取決於各自的背景是電腦科學還是統計學。在這方面請注意實驗Gao的定義中的設計是指模擬實驗的設計。
在下面的內容中,我們將重點介紹統計數據在討論中涉及很多步驟的所有步驟中的作用。在2.1–2.6,這些步驟與我們在表1中的建議中的所有步驟一致,除了小寫字母的步驟。資訊和電腦科學主要覆蓋了相應的條目數據存儲和存取以及演算法最佳化,而結果管理的業務部署則由業務管理包括在內。
2.1數據採集與充實
實驗設計(DOE)對於系統地生成數據至關重要, 而且必須確定噪聲因素的影響。儘管過程變數有所變化,但受控實驗是強韌過程工程生產可靠產品的基礎。一方面,即使是可控因素也包含一定數量的無法控制的變化,從而影響反應。另一方面某些因素(例如環境因素)根本無法控制。然而,至少這些噪聲影響因素的影響應該由例如DOE控制。可以使用DOE,例如,–系統地生成新數據(數據獲取)[33],–系統地減少數據庫[41],以及–調整(即最佳化)演算法的參數[1],即自身改進數據分析方法(請參見第2.3節)。模擬[7]也可以用於生成新數據。可使用數據差距填補工具是彌補缺少的數據[31]。
這種用於數據生成和充實的統計方法必須成為數據科學的一部分。在獨家使用觀測數據沒有任何噪音控制,明顯減少數據分析結果的品質,甚至可能導致錯誤的結果解釋。對於一種終結論。〝海量數據可使科學的方法已過時”[4]這似乎是錯誤的歸因於有噪聲的數據。因此,實驗設計對於我們的結果的可靠性,有效性和可複制性至關重要。
2.2數據探索
探索性統計資訊對於數據預處理以了解數據庫內容至關重要。在某種程度上,John Tukey發起了對觀測數據的探索和可視化[43]。從那時起,數據分析中最費力的部分,就是即數據理解和轉換,成為統計科學中的重要組成部分。
數據探索或數據挖掘對於正確使用數據科學中的分析方法至關重要。在最統計的重要貢獻是分配的概念。它使我們能夠表示數據的變異性以及參數的先驗知識,這些知識是貝葉斯統計的基本概念。數據分佈還使我們能夠選擇適當的後續分析模型和方法。
2.3統計數據分析
在數據科學中尋找數據的結構和做出預測是最重要的步驟。特別是統計方法在這裡十分重要,因為它們能夠處理許多不同的分析任務。統計數據分析方法的重要示例如下。
(a)假設檢定是統計分析的支柱之一。
數據驅動問題中出現的問題通常可以轉化為假設。同樣,假設是基礎理論與統計之間的自然聯繫。
由於統計假設與統計檢定有關,因此可以對問題和理論進行檢定以獲取可用數據。在不同的測試中多次使用相同的數據通常會導致需要校正顯著性水準。在應用統計中,正確的多重測試是最重要的問題之一,例如在藥物研究中[15]。忽略這樣的技術將導致遠遠超過合理的結果。
(b)分類方法是從數據中尋找和預測亞群的基礎。
在所謂的無監督情況下,將在沒有先驗知識的情況下從數據集中找到此類亞群。這通常稱為群集。在所謂的監督情況下,當只有影響因素可用時,應從標記的數據集中找到分類規則,以預測未知的標記。
如今,對於無監督[22]以及有監督案例[2]有很多方法。在大數據時代,似乎有必要對經典方法進行重新審視,因為在大多數情況下,隨著觀察次數n或特徵數量p的增加,複雜分析方法的計算工作變得越來越強於線性。在大數據的情況下,即,如果n或p大,則會導致計算時間過長並導致數值問題。這不僅帶來了更簡單的,具有低時間低複雜度的最佳化算法的捲土重來[9],而且還重新審視了大數據統計和機器學習中的傳統方法[46]。
(c)迴歸方法是在量測目標數量時尋找因素之間的全部和局部關係的主要工具。
根據基礎數據的分佈假設,可以採用不同的方法。在常態性假設下,線性回歸是最常用的方法。而通用線性回歸通常用於指數族的其他分佈[18]。更高級的方法包括功能數據的功能回歸[38],分位數回歸[25]和基於平方誤差損失以外的損失函數的回歸,例如Lasso回歸[11,21]。
在大數據的情況下,給定大量觀察值n(例如,在數據流中)和/或存在大量特徵p時,挑戰與分類方法的挑戰相似。對於n的減少,數據壓縮技術(例如壓縮感測,隨機投影方法[20]或基於採樣的過程[28])可實現更快的計算。為了將數量p減少到最有影響力的特徵,可以採用變量選擇或收縮方法(如Lasso
[21]),以保持特徵的可解釋性。主成分分析[21]也可以使用。
(d)時間序列分析目的在理解和預測時間結構[42]。
時間序列在觀測數據的研究中非常普遍,而預測是此類數據最重要的挑戰。典型的應用領域是行為科學和經濟學以及自然科學和工程。例如,讓我們看一下信號分析,例如語音或音樂數據分析。在這裡,統計方法包括時域和頻域中模型的分析。其主要目的是在原來時間預測系列本身或其屬性的。例如可以對音頻時間序列的顫音進行建模,以便現實地預測未來的音調[24],並且可以通過從經過的時間段學習的規則,來預測音樂音調的基本頻率[29]。
在計量經濟學中,經常分析多個時間序列及其協整性[27]。在技術應用中,過程控制是時間序列分析的共同目標[34]。
2.4統計建模
(a)因子之間的複雜相互作用可以通過圖形或網路建模。在這裡,兩個因素之間的相互作用是通過圖形或網路中的連接來建模[ 26,35 ]。這些圖在高斯圖形模型中是無向的,或者在貝葉斯網路中是有向的。網路分析的主要目標是推導網路結構。有時,有必要分離(UNMIX)亞群的特定網路拓撲結構[49]。
(b)隨機微分和差分方程可以代表自然科學和工程學的模型[ 3,39 ]。尋找解決這些方程的近似統計模型可以為例如機械工程中此類過程的統計控制提供有價值的見解[48]。這樣的方法可以在應用科學和數據科學之間架起一座橋樑。
(c)局部模型和全球化通常,統計模型僅在所涉及變數領域的子區域中有效。然後,可以使用局部模型[8]。結構斷裂的分析對於確定時間序列中的局部建模區域可能是一個基礎[5]。同樣,概念漂移的分析可用於調查模型隨時間的變化[30]。
在時間序列中,通常存在越來越多的全球結構性的層次結構。例如在音樂中,基本的局部結構由音符給出,而越來越多的全局結構由條,主題,短語,聲部等給出。為了找到時間序列的全局特性,可以將局部模型的特性進行組合以更具有全球特色[47]。
混合模型也可以用於將局部模型推廣到全局模型[ 19,23 ]。模型組合對於表徵真實關係至關重要,因為標準數學模型通常過於簡單,以至於無法用於異構數據或更大的目標區域。
2.5模型驗證和模型選擇
在為預測而建議使用多個模型的情況下,用於比較模型的統計測試有助於構建模型,例如涉及其預測能力[45]。
預測檢定力功率通常通過所謂的重新採樣方法進行評估,其中通過人為地改變用於學習模型的子種群來研究檢定力特性的分佈。這種分佈的特徵可以用於模型選擇[7]。
攝動實驗提供了另一種評估模型性能的可能性。這樣,評估了不同模型對噪聲的穩定性[ 32,44 ]。
Meta分析以及模型平均方法可來評估組合模型[13 ,14 ]。近年來,由於文獻中提出的分類和回歸模型的數量以越來越高的速度增長,因此模型選擇變得越來越重要。
2.6代表和報告
以可視化可以易於更新的形式解釋找到的結構和模型存儲,這是統計分析中非常重要的任務,以傳達結果並保護數據的分析部署。部署對於獲得數據科學中可解釋的結果至關重要。這是CRISP-DM
[10]中的最後一步,也是Cao [12]中數據決策和行動步驟的基礎。除了可視化和適當的模型存儲外,統計的主要任務是報告不確定性並進行評論[6]。
3、謬誤
第2節中描述的統計方法。是可以找到數據結構,並獲得對數據的更深入了解,從而成功進行數據分析的基礎。忽略現代統計思維或使用簡單的數據分析/統計方法可能會導致可避免的謬誤。這尤其適用於分析大數據和/或複雜數據。
如2.2末尾所述,分佈的概念是統計的關鍵貢獻。在數據探索和建模中如果未考慮分佈,這就限制了我們所報告數值和其參數估計值,沒有相應的可變性。只有分佈的概念才能使我們能夠預測相應的誤差帶。
此外,分佈是基於模型的數據分析的關鍵。例如可以採用無監督學習來查找數據中的聚類。如果像額外的結構上,其空間或時間相關性是存在,往往是重要的推斷,例如集群半徑和參數時空演變。這種基於模型的分析在很大程度上取決於分佈的概念。
如果感興趣的參數不止一個,建議將單變量假設檢定方法與多個變量過程進行比較,例如多元迴歸中,然後通過變數選擇,選擇最合適的模型。將自己限制為單變量測試,將忽略變數之間的關係。
對數據的更深入了解可能需要更複雜的模型,例如用於檢測數據中異質性的混合模型。當忽略混合時,其結果通常只是代表毫無意義的平均值。而可能需要通過分解成分來學習亞組。在貝葉斯框架中,這可以通過例如Dirichlet混合模型中的潛在分配變數來實現。對於在分子生物學中分解異質細胞群體中不同網路混合物的應用,請參見[49]。
一個混合模型可能代表非常不相等的大小的混合物成份。用作為小部件(離群值)特別重要的。在大數據的背景下,通常採用原始(naive)的抽樣程序進行模型估計。但是,它們有丟失少量混合成分的風險。因此,根據採樣模型驗證或到一個更合適的分佈以及再採樣方法,應用於預測能力是十分重要。
4、結論
根據以上對統計學功能和影響力的評估,我們的結論是:
與電腦科學相比,統計學在數據科學中的作用被低估。這尤其適用於數據收集和充實領域以及預測所需的高級建模領域。受此結論的啟發,建議統計學家在這個現代且廣為接受的數據科學領域,更積極地發揮自己的作用。
只有將數學方法,計算算法與統計推理進行補充和/或結合,特別是針對大數據,才能得出基於適當方法的科學結果。最終,只有所有相關科學之間的平衡相互作用,才能導致數據科學的成功解決方案。 |