METODE Science Studies Journal, 5 (2015): 143-149. University of
Valencia.
DOI: 10.7203/metode.83.3590ISSN: 2174-3487.
David Rossell. Professor at the Department of Statistics. University of
Warwick (United Kingdom).
大數據為解決科學、經濟和社會問題帶來了前所未有的力量,但也可能放大了某些陷阱。這些包括使用純粹的數據驅動方法,忽略對正在研究的現象的理解針對動態移動的目標,忽略關鍵的數據收集問題,不充分地總結或預處理數據以及將噪聲誤認為是信號。我們回顧了一些成功案例,並說明了統計原理如何幫助,從數據中獲取更可靠的資訊。我們在當前的挑戰是需要積極的方法論研究,例如高效率計算的策略、異構數據的整合、將基礎理論擴展到日益複雜的問題。也許最重要的是,訓練新一代科學家來開發和部署這些策略。
關鍵詞:大數據、統計、案例研究、陷阱、挑戰。
什麼是大數據?
近年來,我們收集、存儲和共享數據的能力顯著提高。據IBM 稱,世界上
90% 的數據是在過去兩年中產生的(IBM,2011)。這些數據來自互聯網(搜索,社交網路,blog,圖片),智慧手機,科學研究(基因組學,腦功能影像,流行病學,環境研究),企業(客戶記錄,交易,財務指標),政府(人口,醫療,氣象,自動感測器)和其他來源。
大數據的戰略重要性不在於在數量上而是品質。例如對於複雜疾病的特性在分子水準與醫療相結合的治療歷史,診斷或影像學檢查提供了前所未有的個人化用藥。大型Hadron碰撞機每秒可記錄4000
萬次數據以檢驗物理理論。網站每天都會提出數百萬條推薦並研究新產品及其價格。數據可以幫助管理城市或自然資源、研究氣候變化或幫助發展中地區。在blog和社交BP網路提交的內容被用來設計政治策略,與研究思路如何傳播的。由於這個影響深遠的潛力,大數據已經被摻進媒體,學術界和企業中,以一種熱情方式呈現,有時甚至煽情。
數據氾濫或海嘯等術語很常見。在2012年世界經濟論壇宣布的數據作為一類新的經濟資產,如同貨幣或黃金(世界經濟論壇,20 12)。與數據相關的職業一貫成為最上面的排名。此文章從炒作中後退一步,回顧成功案例和局限性,指出感知得到的經驗教訓和未決的挑戰。雖然大數據需要多學科方法,但我採用統計觀點。統計學是完全致力於收集、分析和解釋數據的領域。也就是說,讓我們從問題到數據,從數據到資訊,從資訊到知識和決策。這似乎驚人地,統計學家一直處於相對謹慎以處理對於擁抱大數據作為一個全能的力量。我相信這種解釋很簡單。經驗告訴統計學家,數據可能會產生誤導。更糟糕的是,會錯誤地給人以客觀的印象。
除了權力之外,大數據還帶來了大量誤解的機會。這是由於應用的多樣性(大數據通常定義為3V's: Volume、Velocity和
Variety)。因為全面審查所有觀點是無望的。因此,我將討論主題限制在一些主要問題和例子。
數據和底層過程
棒球經理Billy
Beane使用性能指標和數據分析,以建立一個競爭球隊(Lewis,2003年)成為經典成功數據的故事,甚至拍成了重大好萊塢電影。值得注意的壯舉是,他的球隊比由棒球專家組成的高預算競爭對手其表現得更好。在英國和美國選舉預測,大大擊敗了政治分析家,這是其他直接的證據。其他案例包括預測重大災難的天氣預測(Silver,
20 12),或Omic技術的爆炸式發展,這些都是生物醫學最新進展的基礎。
這些故事可能給人一種錯誤的印象,即數據可以單獨作業。例如,紐約時報的受訪者聲稱,數據可以代替經驗和直覺,這是一個導致了更科學的方法(Lobr,2012)。我完全不同意這種觀點,這說明了大數據的潛在陷阱。
雖然未經檢驗的意見可能會導致錯誤的結論,但是盲目分析也經常這樣做。數據和實質性專業知識的價值不是相反對立而是相輔相成。在上面的例子中,預測是成功的,因為它們從根本基礎上研究了可重複的系統,並且它們結合了對所研究現象的理解。選擇的變數以預測棒球性能有一個自然主題的事項解釋。Silver的選舉預測納入了美國政治的知識。天氣預報基於電腦模擬和物理定律,氣象學家隨後對系統誤差進行校正。除非傑出的科學家提出相關的問題,並在上下文中解釋結果,否則新技術是無用的。
統計咒語指出相關性並不代表著因果關係。Nathan Eagle
開創了根據手機移動數據預測盧旺達霍亂的工作(Shaw,2014
年)。他指出,霍亂與爆發流動相關,並可能因此幫助預測他們。他後來發現,流動性確實可以預測洪水,這會降低流動性,並增加霍亂爆發的短期風險。他現在在進行結合了對村莊中正在進行的活動的預測洞察力。此研究對於所研究的現象沒有實質的理解,對於數據產生的流程不理解,並且只將其帶入分析。
數據中的動態
美國疾病控制和預防中心(CDC)報告了醫生每週訪查流感樣疾病的數據,但由於數據處理報告滯後後面3週。Google流感趨勢(GFT)使用了流感查詢預測當前疾病預防控制中心報告一周內的數目,提供真實的流感情況,這是在同一監測時間聲稱是比CDC報告更準確。
雖然
GFT 並非如此,但它成為了大數據的旗艦標誌,用來取代了傳統方法。然而,Lazer等(2014
)等報告稱,GFT
預測並不是那麼好。儘管在早期非常準確,但後來的實際訪問量被系統性的高估了。簡單地根據三週前的 CDC報告,預測本週流行情況,就給出了更好的預測。Lazer等認為其準確性下降是主要是由於在Google的搜索引擎變化。這個例子說明了另一個重要的陷阱。在棒球與上述的實例,產生的數據大多恆定。棒球規則是固定的,政治民意調查偏見在短期內不會發生太大變化,自然法則是不變的。相比之下,搜索引擎的變化改變了生成輸入數據的過程,進而改變了它與我們打算預測的結果其相互關係。
這就是所謂的動態系統。在統計文獻和需要專門的技術將其與其獨特結構結合,切實反應不確定性。預測基於觀察到的數據;因此其一個隱含的假設是未來的數據將是相似的,或者至少會以可預測的方式發展。當突然改變是可能的,那麼我們對預測信心減少。考慮一下,大數據未能預測大衰退中的抵押貸款違約。違約風險是根據經濟普遍擴張期間收集的數據估算。在這種時期,個人
A 和個人 B的抵押貸款違約風險,兩者並不是特別相關。
因此,普遍違約的風險被認為很低。即使有些人沒有支付,其他人肯定會繼續有償付能力。然而在經濟危機時期,這些默認假定值具有很強的依賴性。如果經濟不景氣,房價下跌,許多人可能會立即違約,發生全面危機的可能性就會高得多(Gorton,2009)。這個例子說明了一個稱為外插的陷阱。即使我們的數據生成過程中有一些了解,在很少或沒有數據的情況下,進行預測是危險的。大多數的方法進行校正,以產生預測。但即使當大多數的預測是準確的,那些通過非常態的設置(例如病人患有罕見疾病的變體)可能會完全失敗。對手頭問題的仔細考慮是不能迴避的。
信號、噪聲和偏置
理論告訴我們,原則上,擁有更多數據總是好的。有新的數據來源,即是有潛力得到更多的資訊,如果不是這種情況,總是可以揚棄數據。擁有更多數據可能不會帶來任何傷害。上述這種推理的缺陷在於,在實際上,我們不會丟棄數據,而是嘗試尋找其中的模式。一個誘人的陷阱是折磨數據,直到它似乎支持某些先入為主的想法。這並不是說,數據分析不應該由預先指定的假設驅動,而是需要有一個足夠的策略,來減少不可再重複發現的機會。
在過去的
20 年裡,統計方法取得了令人振奮的進步,可以將海量數據中的信號與噪聲分開。但這些進展還沒有達到可以常規分析。Nuzzo (2014)
估計,當觀察時假設的 p 值為 0.01
時,偽陽性的概率為19 比 1。 得到偽陽性的概率為
0.89。使用大數據,我們經常記錄數據,因為我們能夠不需要期望有大量信號。機率然後遠高於
19 比 1,
和誤報的可能性向上高升。另一個關鍵問題是大數據通常來自不同的位置、技術或格式。這些不一定具有可以比較性或具有相同的品質,並且經常受到各種系統偏差的影響。例如,ENCODE
計畫是繼人類基因組項目之後最大的計畫之一。這些數據是在世界各地的實驗室中使用多種技術和實驗程序收集的。在開發一個系統可視化這些海量數據,我們發現微陣列和測序技術之間存在系統偏差,需要糾正這些偏差以避免誤導性解釋(Font-Burgada等,2013)。更一般地說,將異質數據可視化以便於同化會帶來挑戰,但是現在正在進行計畫。例如由
Michelle Borkin和她的主管設計的血流可視化,宣稱可將醫生診斷動脈阻塞的能力從
39% 提高到 91%(Shaw,2014
年)。過去,巨量分析方法(Meta analysis)被設計為可以有原則的結合來自多項研究的證據。大數據需要以進行可靠的數據整合和可視化新方法。
提前規劃
大數據正在改變我們收集證據的方式。與仔細設計一項研究不同,有一些趨勢是記錄盡可能多的數據,這樣是隱含地假設,其中觀察到的任何形式數據肯定是可靠的。這種誤解,又是一個很有問題的陷阱。數據的代表性不依賴於樣品的大小但是依賴其收集的方式。數據品質比數量更重要。
一個經典的例子是英國的一項研究,以20,000 名兒童評估了巴氏殺菌牛奶的好處。William Gosset ,更廣為人知的名字是Student。他指出,由於隨機化不充分,只有6對雙胞胎的研究數據會更可靠(Student,1931)。
導致對研究設計缺乏關注的一個因素,可能是對新技術的過度信任。例如,科學界對高通量序列的影響(HTS)的踴躍好評。我與知名研究人員進行了交流,他們認為以HTS研究進行單個樣本與採用早期技術的數十個樣本一樣好。
雖然
HTS 是準確的,但顯然單個樣本無法量測變異性以比較人群。另一個軼事是HTS
中心在不同的日期處理兩個樣品。而這兩個樣品本應同時並行處理以避免偏差。結果昂貴的實驗幾乎毫無用處。
由Ronald
Fisher 開創的實驗設計理論在大數據的擴展大多被忽視,但也有明顯的例外。隨著我們過渡向個性化醫療,Berry
(2012) 主張進行臨床試驗,以適應越來越小的患者亞組,並為每個患者做出個人決定。Muller等(2004)提出了大規模假設檢定研究的原則性設計。還提出了觀察性研究的成功設計。為了展示在墨西哥,其公共衛生保險的優勢,King等(2009)
設計了一項研究來比較投保和未投保的社區。由於這些具有相似的特徵,健康結果的差異可歸因於保險而非外部因素。
統計案例
就像Ronald
Fisher、William Gosset或
Harold Jeffreys等先驅為基於數據的科學、商業和公共政策奠定基礎一樣,大數據範式是由方法論貢獻推動的。Google引擎使用的頁面階層演算法
基於馬爾可夫鏈。Netfix電影建議法是使用平均107預測模型。決策理論可以幫助評估複雜演算法,以面對不確定性和競爭性的目標,如客戶滿意度也依賴於多樣性的推薦。
我們已經討論了需要研究新的方法將信號與噪聲分開、捕獲動態過程、實驗設計和整合異類數據。計算方法中結合處理能力與聰明的策略,來解決複雜的問題是另一個中心問題,作為強力(brute-force)的方法是不可能成功的。進一步的挑戰包括數據檢索和總結。自動掃描和格式化非結構化數據(例如圖片、blog)的方法可能會丟棄資訊或引起偏差。
此外,我們目前生成的數據比我們可以存儲的還要更多(Hilbert,2012)這就需要對數據進行總結。總結代表可能會丟失資訊。作為一個例子,我們最近報告說依據目前的策略,總結RNA測序數據時丟棄這麼多資訊,表示不能學到某些功能,即使在數據量增長到無窮大也如此(Rossell等,2014)。一個相關的問題是抽樣問題。從所有數據中儲存適當的足夠樣本可以提高速度和成本,但是忽略了精度損失可以忽略不計。參考Fom等(2014)和
Jordan (2013)對大數據的統計和計算問題的評論。
作為科學推理、概率論和數學的獨特結合,統計學是大數據革命充分發揮潛力的必要組成部分。然而,統計數據不可以存在孤立的,而是需要合作,對主題必須有專業背景,結合電腦科學及相關學科。最後要克服的主要障礙可能是缺乏具有充分技能組合的專業人員。招募和訓練願意參與這項激動人心的事業的年輕人應該是最重要的。 |