logo821.gif (10572 bytes) 首頁          新增資料與公告

   

最新消息  :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

 

 

生醫研究之統計方法

首頁
上一層
BSE LAB 介紹
非洲產業研究中心
授課資料
人文關懷
無官御史台
武漢肺炎與產業
智能生物產業
活動公告區
數據分析與知識產業

 

 
應用統計與機器學習之間的密切關係
 

中興大學 生物系統工程研究室 陳加忠

 
 

資料來源:

https://machinelearningmastery.com/relationship-between-applied-statistics-and-machine-learning/

機器學習者俱有演算法傳統,並且注重結果和模型技能,而不是模型的可解釋性等其他問題。

統計學家以應用統計和統計學習的名義,研究幾乎相同類型的建模問題。來自數學背景,他們更關注模型的行為和預測的可解釋性。對於解決同一問題的兩種方法之間有非常密切的關係,代表著這兩個領域都可以相互學習。在經典的兩種文化論文中,統計學家需要考慮演算法方法。機器學習者也必須注意,保持開放的心態,從應用統計學中學習術語和相關方法。

 在這篇文章中,您會發現機器學習和統計學習是兩個密切相關,但是對同一個問題不同的觀點。

看完這篇文章,你會知道:

 “機器學習預測建模是電腦科學對數據建模的觀點,側重於演算法方法和模型技能。

統計統計學習是對數據建模的數學視角,側重於數據模型和最佳適配度。

機器學習從業者必須保持開放的心態,善用方法並理解應用統計和統計學習密切相關領域的術語。

機器學習

機器學習是人工智慧的一個子領域,與更廣泛的電腦科學領域相關。在開發機器學習模型以進行預測時,重點關注演算法、代碼和結果。機器學習比開發模型以進行預測要廣泛得多,正如 Tom Mitchell 1997 年經典教科書中的定義:。

機器學習領域關注的問題是,如何建立能夠隨著經驗自動改進的電腦程序。

xv 頁,機器學習1997 

在這裡,我們可以看到,從研究的角度來看,機器學習實際上是用電腦程序進行學習的研究。碰巧的是其中一些學習程序對預測建模問題很有用,而有些實際上是從其他領域借來的,例如統計學。

線性迴歸就是一個很好的例子。這是一種來自統計領域的一個多世紀以來的方法。用於將線或平面適配到實值數據。從機器學習的角度來看,我們將其視為一個學習權重(係數)的系統,以反應來自領域的示例。

在人工智慧和機器學習領域,由統計學家開發了許多方法,這些方法被證明對預測建模任務非常有用。一個很好的例子是分類和迴歸樹。它與統計學中的經典方法沒有相似之處。

在機器學習統計方面需要幫助?

預測建模

機器學習對從業者有用的部分可以稱為預測建模。這樣明確地忽略了統計和機器學習之間的區別。它還擺脫了統計(理解數據)和機器學習(對於軟體的學習)的更廣泛目標,並且只關心自己,正如它的名字所暗示的那樣,開發出預測的模型。

預測建模一詞可能會激起諸如機器學習、模式識別和數據挖掘之類的聯想。事實上這些關聯是適當的,並且這些術語所暗示的方法是預測建模過程的一個組成部分。但預測建模不僅僅包含用於顯示數據模式的工具和技術。預測建模的作業,以可以理解和量化模型定義了開發模型的過程。對未來尚未看到的數據的預測準確性的方式。

vii 頁,應用預測建模2013 

預測建模專注於開發模型,目的是在衡量某種模型技能方面獲得最佳結果。這種務實的方法,通常代表著以犧牲幾乎所有其他東西為代價,來尋求最大技能或最小錯誤形式的結果。

我們所說的過程、機器學習或預測建模並不重要。從某種意義上說,它是營銷和群體識別。獲得結果和交付價值對從業者來說更重要。

統計學習

使用數據集和開發預測模型的過程也是統計學中的一項任務。統計學家傳統上將此活動稱為應用統計。統計學是數學的一個子領域,而這一遺產重點關注定義明確、精心挑選的方法。不僅需要了解為什麼選擇特定模型,還需要了解如何以及為什麼做出特定預測。

從這個角度來看,模型技能很重要,但不如模型的可解釋性重要。然而,現代統計學家已經形成了一個新的視角。作為應用統計學的一個子領域,稱為統計學習。在模型技能很重要的情況下,它可能是預測建模統計的等價物。但可能更強調仔細選擇和引入學習模型。

統計學習是指一組用於建模和理解複雜數據集的工具。它是統計領域最近發展起來的一個領域與電腦科學,特別是機器學習的平行發展相融合。

vii 頁, R中應用統計學習簡介2013 年。

我們可以看到統計領域和子領域之間存在思想分歧。機器學習從業者必須了解解決問題的機器學習和基於統計的方法。對於在這兩個領域使用不同的術語,這一點尤其重要。

在他的統計課程中,統計學家Rob Tibshirani也涉足機器學習,他提供了一個詞彙表,將統計術語映射到機器學習術語,轉載如下。

將統計中的術語映射到機器學習中的術語。這凸顯了機器學習者更深層次的需求,即專注於預測建模並保持對於方法、想法和術語的開放,而不管起源領域如何。這可能適用於生物資訊學和計量經濟學等現代領域。但也更適用於密切相關且更古老的統計學領域。

兩種文化

最近,也許仍然是現在,應用統計學家看不起機器學習領域,和不惜一切代價進行預測模型的作業。這兩個領域都提供了巨大的價值,但也許對於預測建模的同一普遍問題,有微妙不同。

從機器學習的電腦科學角度(例如上面提到的決策樹和人工神經網路,最近重新標記為深度學習),對建模做出了真實而有價值的貢獻。正如機器學習者必須關注應用統計和統計學習一樣,統計學家也必須關注機器學習。

Leo Breiman 2001 年發表的題為統計建模:兩種文化的論文中明確提出了這一呼籲。在其中,他將統計學家的數據建模文化與機器學習所屬的所有其他領域的演算法建模文化進行了對比。他強調這些文化是思考如何將輸入映射到輸出的相同問題的方式。其中統計方法專注於適配最佳度測試,演算法方法專注於預測準確性。

他認為,由於忽略演算法方法,統計領域將因失去相關性和方法的脆弱性而受到影響。他將經典方法稱為數據模型,這是一種微妙但重要的焦點轉移。從業者選擇並關注模型的行為(例如邏輯迴歸),而不是可能產生它的數據和過程。這可能被描述為這是不公平的。專注於使得數據適合模型,而不是選擇或調整模型以適合數據。

統計界幾乎一直致力於獨占使用數據模型。這種承諾導致了不相關的理論和有問題的結論,並使統計學家無法研究大量有趣的當前問題。如果我們作為一個領域的目標是使用數據來解決問題,那麼我們需要擺脫對數據模型的排他性依賴,並採用更多樣化的工具集。

這是一篇重要的論文,在 15 年多之後仍然具有相關性並且值得一讀。統計學家提出的統計學習等子領域的出現,表明正在取得進展。

總結

具體來說,您了解到:

機器學習預測建模是電腦科學對數據建模的觀點,側重於演算法方法和模型技能。

統計統計學習是對數據建模的數學視角,側重於數據模型和適配最佳度。

機器學習從業者必須保持開放的心態,利用方法,理解應用統計和統計學習密切相關領域的術語