原文出處:
https://www.northeastern.edu/graduate/blog/statistical-modeling-for-data-analysis/
統計建模是將統計分析應用於數據集的過程。一個統計模型是觀測數據的數學表示,或稱數學模型。
當數據分析師將各種統計模型應用於正在調查的數據時,他們能夠更有策略的理解和解釋訊息。這種做法不是篩選原始數據,而是識別變數之間的關係。對於未來的數據集進行預測,並將該數據可視化,以便其他分析師和利益相關者可以使用和利用。當你分析數據時,你正在尋找模式。您正在使用樣本對整體進行推斷。
學習統計建模的 3 個理由
雖然數據科學家最經常負責構建模型和編寫演算法。但是數據分析師有時也會在工作中與統計模型進行交互。出於這個原因,希望出類拔萃的分析師應該致力於深入了解是什麼讓這些模型成功。
隨著機器學習和人工智慧變得越來越普遍,越來越多的公司和組織正在利用統計建模,以根據數據對未來進行預測。如果你在數據分析領域工作,你需要了解底層模型是如何工作。無論你在做什麼類型的分析,或你正在使用什麼類型的數據,你都需要使用藉由某種方式進行統計建模。
對統計建模的透徹理解所帶來的一些好處如下:
1.
您將更有能力選擇適合您需求的模型
有許多不同類型的統計模型。一個有效的數據分析師需要對它們有全面的了解。在每種情況下,您不僅應該能夠確定哪種模型最有助於回答手頭的問題,而且還應該能夠確定哪種模型最適合您正在處理的數據。
2.
您將能夠更好地準備用於分析的數據
數據很少已經以原始形式準備好可進行分析。為確保您的分析準確可行,必須首先清理數據。這種清理通常包括組織整理收集的訊息,並從樣本中刪除不良或不完整的數據。
在完成任何統計模型之前,您需要探索與理解數據。如果數據沒有品質,那麼你就無法真正從中獲得任何見解。
一但您了解了各種統計模型的工作原理,以及它們如何利用數據,您就可以更輕鬆地確定哪些數據與您要回答的問題最相關。
3.
你會成為一個更好的溝通者
在大多數組織中,數據分析師需要與兩個不同的聽眾交流他們的發現。第一類群眾包括業務團隊中不需要了解您的分析細節,而只想了解關鍵要點的人。第二個群眾包括那些對更細程度細節感興趣的人。這個小組既需要廣泛的結論清單,也需要解釋你是如何得出這些結論的。
對統計建模有透徹的了解,可以幫助您更好地與這兩種聽眾進行溝通,因為您將更有能力得出結論,從而生成更好的數據可視化,這有助於向非分析師傳達複雜的想法。同時,對這些模型如何在後端工作的複雜理解將使您能夠在必要時生成和解釋那些更精細的細節。
數據分析中的重要統計技術
在建立任何統計模型之前,分析師需要收集或獲取數據庫、雲端、社交媒體或普通 Excel
文件中的數據。為此分析師還必須確實掌握數據結構和管理,包括數據的存儲、提取和維護方式和位置。因此在該領域工作的人應該對事實和數據充滿熱情,並了解數據操作的基礎知識。
一旦需要分析數據,分析師可以選擇使用一系列統計模型。最常見的技術將分為以下兩組:
1.監督學習,包括迴歸和分類模型。
2.無監督學習,包括聚類算法和關聯規則。
迴歸模型
數據分析師使用迴歸模型來檢查變數之間的關係。組織經常使用迴歸模型來確定哪些自變數(Xi)對因變數(yi)的影響最大。這些訊息可用於做出重要的業務決策。
長期以來使用的最傳統的迴歸模型是邏輯迴歸、線性迴歸和多項式迴歸。迴歸模型的其他示例可以包括逐步迴歸、ridge迴歸、Lasso迴歸和彈性網絡(elastic
net)迴歸。(註解:
這些迴歸技術已太陳舊)。
分類模型
分類是使用演算法分析已知點的現有數據集的過程。然後利用通過該分析獲得的理解,作為對數據進行適當分類的一種手段。分類是機器學習的一種形式,特別有助於分析非常龐大、複雜的數據集。以幫助做出更準確的預測。
分類模型是一種有監督的機器學習形式,當分析師需要了解他們如何到達某個點時,通常會使用它。他們給的不僅僅是一個輸出他們為您提供更多訊息,您可以使用這些資訊向您的老闆或利益相關者解釋預測結果。
一些最常見的分類模型包括決策樹、隨機森林、最近鄰和Naïve
Bayes。
還有一些在人工智慧中使用較多的神經網絡模型。這些是非常強大的模型,它們可以很好地做出準確的預測,但通常無法解釋幕後發生的事情。
深入挖掘
這個模型發生的未知過程可以比作將生麵團放入黑盒子的一側,然後從另一側取出新鮮出爐的麵包。因為您了解輸入(麵團)和輸出(麵包),您可以對盒子內部發生的事情做出某些假設,麵團最後是煮熟的,但無法知道這些情況發生的確切機制。
學習統計建模技術
對於那些準備探索統計建模技術並在分析職業中取得進步的人而言,獲得分析碩士學位是獲得這些技能的最有效方法之一。然而,並非所有的分析程序都是平等建立的,所以專業人士在選擇程序時有選擇性是很重要的。
為了最好地將在研究學院的經歷,與你作為分析師的職業目標相結合,建議尋找將機器學習納入課程的課程。隨著這一趨勢的不斷發展,預計越來越多的組織將聘請了解這些系統基礎的數據分析師。事實上機器學習的需求量如此之大,以至於那些對機器學習有透徹了解的人的平均年薪可能接近113,000美元。
此外那些擁有數學、電腦科學或工程學學士學位並且對統計建模,以及支持各種模型的演算法和機器學習,有深刻理解的人,可能能夠將這種理解運用到數據科學家的職業生涯中。這是增加薪資潛力的策略方法。
並非所有數據分析項目都會涵蓋機器學習,但我們這樣做是因為它可以為畢業生提供更多的機會。”
選擇要學習分析學程時要記住的其他注意事項包括:
1.體驗式學習機會:該計劃是否為您提供了充足的機會,可以通過真實的、動手的情況將您的課程付諸實踐,從而幫助您培養技能?
2.相關課程:由於數據分析是一個快速發展的領域,因此您正在考慮的任何程序都必須能夠跟上行業趨勢,這一點很重要。
3.來自行業的教職員工:直接向具有行業經驗的教職員工學習,為學生提供了寶貴的社交機會,這在求職過程中可能會有所幫助。向行業領導者學習還可以讓學生接觸直接從現實世界經驗中開發的前沿教學。 |