一個非常簡單的定量數據分析指南

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

數據分析與知識產業

一個非常簡單的定量數據分析指南

國立中興大學生物產業機電工程學系陳加忠

Peter Samuels

Birmingham City University

Technical Report · April 2020

DOI: 10.13140/RG.2.2.25915.36645

這個指南是什麼？

本指南的目的是幫助大學部學生、教職員工和研究人員了解分析他們在學習、教學或研究過程中，可能收集或遇到的典型定量數據的基本原則。

什麼是統計？

統計學是一門學術科目，涉及對從數據集中得出的數量進行呈現、解釋和推理。常見的統計量是中間值的度量，例如平均值、眾數和中位數，以及散佈的度量，例如範圍和標準差。

該學科有五個主要子領域：

1.描述性統計（也稱為探索性數據分析），這不涉及任何決策

2.數據挖掘。在大型數據集中尋找事先未預料到的關係的系統方法。此外數據分析應用在組織內的決策制定中使用數據挖掘。

3.時間序列分析，一種分析時間相關事件的系統方法，這些事件依賴於先前的事件（例如脈搏率或股價）。

4.統計檢驗（也稱為推論統計），這涉及對從總體樣本得出的統計量進行推理，假設事件是獨立的，並以一定的信賴度做出決策。

5.概率論，它提供了支持統計分析和決策推理的理論。

儘管統計學是數學的一個分支，但它的大部分推理都與數學非常不同。因為它不是定性，就是涉及基於概率的決策，而不是精確的數學證明。

定量研究過程

本指南偏重於描述性統計和統計測試，因為這些是大學和研究生級別所需的常見定量數據分析形式。在涉及以下階段的研究項目的背景下分析數據：

1.確定你的目標和研究問題。

2.進行文獻綜述。

3.對於原始數據研究：建立概念框架，並使用它來設計數據收集工具來收集您的原始數據。

4.對於二手數據研究：確定數據來源並評估其有效性和可靠性。

5.處理您的數據集，使其為分析做好準備。

6.使用描述性統計和非正式解釋進行探索性數據分析。

7.進行推論分析。

8.報告您的發現。

大學和研究等級數據分析

在大學和研究所的統計學經驗，通常與在學校教授統計學的方式大不相同。學校的統計教育通常涉及關於人為問題的摘要資訊，使用簡單、乾淨的數據和一種正確的分析方法。大學和研究所研究的數據經常被應用。這些數據集往往龐大、複雜和混亂，有些數據缺失。有些數據的有效性有問題。

需要提出一個可信的分析計劃，而以一種正確的方法來分析此類數據集。但是您應該願意在進行過程中修改您的計劃，這取決於您所發現的情況。如有必要，執行替代方案分析。這需要一種稱為啟發式或原始認知的額外技能，這代表著控制過程。

什麼是定量數據？

從本質上講，定量數據是涉及數字和類別的事實資訊。類別通常是指選項之間的選擇，例如您最喜歡的食物類型或您的意見，範圍從非常不同意到非常同意。這導致了三種基本類型的數據：

1.數值數據（可以是整數或小數）。

2.具有自然排序的類別（如非常同意、同意、中立、不同意、非常不同意），這被稱為序數數據。

3.沒有任何約定順序的類別（如蛋白質、乳製品、碳水化合物、水果和蔬菜），這被稱為名義數據。

統計分析中最好的定量數據是數值型，其次是有序型，最後是名義型。了解您計劃收集或分析的數據類型很重要，因為這會影響您的分析方法。

定量數據分析的 12 步方法

第 1 步：從目標和研究問題開始

大多數研究都是從這些開始的。模糊的調查內容是危險的，因為它們沒有重點，並且可能無法系統地進行。還有一個更大的風險是你會發現一些只是隨機事件的東西。

第 2 步：收集與您的目標和研究問題一致的數據

假設您已經開始進行一個研究問題，您需要考慮需要收集哪些數據才能調查此問題。然後還有一些問題：你將從哪裡獲得這些數據？你將如何處理這個過程？以及你應該獲得多少數據？

其中數據收集被稱為你的樣品，這是假定來自一個更大的群體。如何取樣，這是你的抽樣方法，是隨機的還是非隨機的？大多數統計檢定假設數據是隨機抽樣的。對於問卷，您還應該考慮如何最大化您的回覆率以減少偏差。

基本上，你應該盡可能收集多的數據。它也應該是盡可能有好的品質。關於可接受的最小數據量是多少，以及稱為樣本量計算的正式過程有一些經驗公式。然而，這兩種方法都存在弱點。

第 3 步：處理您的數據並創建原始數據電子表格

這一步經常被忽視。數據分析應從電子表格開始，其中列中收集的數據類型和行中的實例，而不是源自原始數據的匯總統計。如果您從線上調查問卷中下載數據，通常會非常混亂，需要先進行整理。

第 4 步：通過描述性分析了解您的數據

描述性分析涉及從原始數據創建表格、圖表和匯整統計。這可能從收集到的各種類型的數據（稱為變數）開始，但是將一個變數與另一個變數進行比較通常更有用。選擇要相互比較的變數，應該以您的目標和研究問題為指導。不要隨意執行此操作，也不需要報告所有內容。

此外，表格或圖表的選擇應基於最能解釋內容的形式。如果表格包含太多數字，讀者可能難以處理。在解釋其含義時，數據的形式通常比具體的數值更重要。

第 5 步：非正式地解釋和報告您的分析

現在你可以寫一個敘述來配合你的描述性統計數據。這應該通過對描述性統計數據的含義，進行非正式解釋，來尋求回答您的研究問題。不要同時使用圖表和表格來表示同一件事。選擇最好的，並始終寫一個敘述來配合它。注意不要使用不恰當的統計語言，例如在您沒有進行任何統計測試時就使用“顯著”一詞。

描述性分析到此結束：其餘步驟與統計測試相關。

第 6 步：決定是分析數據集中的變數組還是僅分析單個變數

例如，問卷通常包含關於同一事物的問題組，稱為數量表。這使得分析更容易並且可能更準確，因為您只需分析量表的值（數字），而不是來自構成量表（通常是有序的）的單個問題（稱為項目）的數據。

如果您選擇使用其他人的問卷並希望使用其量表，您首先需要評估有關它的已發表文獻，以確保其量表有效且可靠量測他們應該準確量測的內容。如果您設計了自己的問卷並希望使用您設計的量表，您首先需要進行可靠性分析，但準備刪除您建立的大約一半的項目。還有一個介於兩者之間的選項，您可以使用他人問卷的一部分或對其進行修改，但這超出了本指南的範圍。

第 7 步：了解您的統計設計

統計測試主要做兩件事：調查組之間的差異和探索變數之間的關係。稱為關聯性或相關性。還有一個問題是是否多次量測相同的對象，或是否正在量測不同的對象。最後有兩種主要類型的測試，稱為參數測試和非參數測試。

參數測試通常更敏感，但它們有一些假設，您首先需要檢查，然後才能運行它們。下圖顯示了選擇簡單測試的決策樹。

第 8 步：生成高級描述性統計數據並檢查測試假設

大多數參數檢驗的假設是數據呈常態分佈。這可以通過生成具有擬合常態曲線的直方圖來檢查。還有常態性檢驗，例如 Shapiro-Wilk 檢驗。其他假設是：獨立樣本 t 檢驗的差異數相等，可以使用 Levene 檢驗進行評估。以及用於線性相關和迴歸的散點圖的橢圓分佈形狀，可以用以定性評估。

信賴區間是一種有用的高級描述性統計數據，可以彌補探索數據和統計檢驗之間的差距。這些通常顯示在誤差條形圖上。

第 9 步：了解虛無假設統計檢驗過程

雖然它經常受到批評，但虛無假設統計檢驗過程提供了一種明確的方法，來做出關於組間或變數之間比較的決定。想像一下，您是法庭上的一名法官，您的數據正在接受審判。您的數據是無辜的，此假設被稱為虛無假設。這通常是指兩組之間沒有差異或兩個變數之間沒有關係。您的工作是評估以決定，是否有足夠的證據證明您的數據存在差異或存在關係，或宣告您的數據無罪。超出合理懷疑水平通常設置為 95% 的信賴度。證據通常有兩種形式 - 一個統計值代表您的樣本中發生的事件，一個相關的概率值（稱為顯著性值）衡量您的事件發生的可能性或可能性。如果顯著性值小於 0.05，則拒絕虛無假設。例如如果您擲硬幣 20 次並且您擲出 6 個正面（您的統計值），則此事件的概率約為 0.037，但其顯著性值為 0.115，因為它是通過將正面較少的事件的概率相加（即從 0 到 5 次）。因此在 20 次拋硬幣中得到 6 次正面並不是什麼重大事件。您會得出結論，沒有足夠的證據來確定您的硬幣有偏見。

第 10 步：運行並解釋適當的測試

通常使用 Excel 或 SPSS 等統計軟體來運行統計測試。這些測試的輸出需要解釋。例如，右表是 SPSS 的輸出，用於進行卡方檢驗，以確定騷亂的原因與警察使用的警察之間是否存在關聯。要解釋的數字是 Pearson 卡方行 (0.172) 的漸近顯著性（兩側）。但是，Exact sign可以解釋 Fisher 精確檢驗 (0.214) 的（兩側）。由於這兩個值都高於 0.05 臨界值。我們會得出結論，沒有足夠的關聯證據。

第 11 步：報告結果

結果需要在解釋後報告。這需要引用相關的概率值，將它們與顯著性臨界值進行比較，以便做出關於虛無假設的決定，並將此決定返回到您的研究問題。將軟體輸出直接複製並粘貼到您的發現報告中通常是不合適的，但這可以在附錄中提供。您可能還需要將您的發現與文獻中其他人的發現進行比較，並討論任何差異或影響。

第 12 步：準備好使用大量認知，重新分析您的數據

如前所述，在應用統計學中，數據集複雜而混亂，可以通過多種方式對其進行分析。有鑑於此，您應該考慮是否進行額外的分析，以進一步調查您的研究問題。但是請注意，每次運行統計測試時，都會引入偽陽性結果（稱為第一類錯誤）的可能性。如果您決定運行多個測試，您可能希望增加您的信賴度臨界值，例如從 95% 到 99%。並尋找相應較低的顯著性數值，例如小於 0.01 而不是小於 0.05。