Source: Big Data,
Dataism and Measurement
Author: Dario Petri
IEEE
Instrumentation & Measurement Magazine, May 2020
關鍵重點:
數據主義:
看到數據就認為是完全正確,毫不猶豫的崇拜。
數據的大小是否值得慶祝,它們只有在決策中的有用才有價值。
計量學的原理,方法和技術對於確保在決策中正確有效地使用數據至關重要。
缺乏計量文化促進了數據主義的傳播(即對數據的無條件信仰)。
當前,人們在慶祝數據的大小,而實際上僅在決策中有用的數據才是最重要的。計量的原理,方法和技術對於確保正確有效地收集與使用數據是十分重要。不幸的是,計量學的基礎很少在教育學位課程,包括在科學和技術學科中被提供,因此,如果數據主義(即對數據的無條件信仰)正在蔓延,而數據使用不當的海嘯正在淹沒我們,我們就不會感到驚訝。在當今量測已經滲透到社會的各個領域和每個水準,並期望促進不可思議的社會經濟進步的時代,低估計量的相關性,很可能會導致許多嚴重的潛在負面後果。
量測與大數據
量測促進了人類社會,文明和生活品質的發展。自人類歷史開始以來,量測一直都是進行貿易,建造和製品生產的重要工具。在過去的幾個世紀中,基於量測的知識對於地理發現以及現代科學,工業化和醫學的發展至關重要。廣泛地講,它一直是知識前進和社會經濟進步的基本背景[1]。
在當前的信息社會中,衡量指標已滲透到社會的各個領域和各個層面。在人們一直認為數據將確保令人難以置信的進步,以及我們的工作,生活和思維方式的深刻變革[2]的信念,但是這些信念尚未得到充分討論。現代技術以越來越低的成本收集越來越多數據,這鼓勵了海量數據的積累。[2]
[3]。我們的目標是用無處不在的感測器提供或通過互聯網收集的信息處理來代替基於個人經驗和才智的判斷。其結果,因為驚人的速度和效率的提高。因此被期望所獲得的結論認為是公正可靠的,因為它們是使用正式程序和客觀數據所獲得的,而不是主觀判斷的結果,這些主觀判斷可能會為因個人意見或是個人利益而產生偏差。
遺憾的是,根據許多社會學家的觀察,為現代社會奠定基礎的經典意識形態(如自由主義和社會主義)正在減弱,但一種新的意識形態正在迅速傳播。而且大多數人沒有意識到,這個極端的數據主義[4]。極端的數據學家其特點:
1.將整個世界視為數據流;
2.相信數據可以真實,公正地代表現實;
3.對數據有無條件的信心,僅根據數據進行日常判斷;
4.相信人工智能將克服人類的智慧;
5.提倡處理無限數據的概念。並將活生生的生物體視為一個生化信息處理系統。
數據主義也在整個科學界迅速傳播。確實,一門學科之間往往會相互隔離。而且,學術研究與現實世界的需求之間通常存在很大的差距。由於數據科學似乎有可能打破不同學科之間的障礙,並有助於填補理論與實踐之間的空白,因此有希望成為一種能夠研究和解釋經驗世界的整體語言,從而促進見識和結果的域間擴展。按照這種意識形態,“貝多芬的第五交響曲,股票泡沫和流感病毒都只是可以使用相同的基本概念和工具,都可以進行分析的三種數據流模式”
[5]。這種觀點非常令人興奮:數據科學作為科學聖杯出現了,這已經使科學家們追尋了幾個世紀。
但是,由數據驅動的決策制定的信任程度並不是取決於數據量,而是取決於其對於當前問題的重要性和有用性。因此,我們不需要“大數據”,而是更明智地利用有用的數據。
數據的陰暗面
不幸的是,儘管考慮數據量非常容易,但認識到數據的實用性,卻並非如此簡單而直接。實際上,既需要適當的文化背景,也需要有關潛在問題的適當專業知識。
說到《星球大戰》電影傳奇的犀利語言,僅考慮數據量,我們就陷入了黑暗的一面。也就是說,一種看似容易且誘人,可以達到期望的目標的方式。但同時也是極度危險而且其選擇代價可能非常昂貴。
根據未嚴格分析的數據做出重要而復雜的決策可能會導致災難性後果。例如,讓我們考慮一下在最近的波音737
Max災難,對飛行中感測器數據可靠性進行不正確評估的災難性影響[6],[7]。同樣,即使沒有那麼悲慘和可怕。僅基於文獻計量學指標的研究品質評估,也不會避免的可能會產生嚴重後果。有興趣的讀者可以在參考文獻[8]和[9]中找到許多標誌性的情況,在這些情況下指標非嚴格的使用,會導致荒謬而有害的決策。
使用非關鍵數據的缺陷
即使出於最佳意圖的動機,對數據的錯誤使用也可能導致許多缺陷和功能失調,因而通常會導致欺騙性結論,尤其是在必須解決複雜問題時。使用非關鍵性地數據而導致的眾多缺陷與問題中,最常見的缺陷有以下幾種[9]:
1.可衡量性偏見:由於在考慮的問題上傾向於最容易衡量的因素,而不是最相關的因素。
2.目標錯位:人們的注意力和努力往往集中在可衡量的因素上。其他可能更重要的不可衡量的因素因為疏忽而付出為代價;
3.提倡短期效應:長期影響因為它們依賴於未知的事物,很難或甚至不可能從數據中獲得。因此數據可能只有促進短期目標,同時扼殺激進的創新和創造力。損失在大多數情況下的寶貴品質。不鼓勵冒險和長期投資,可能導致停滯和工作滿意度下降。
4.指標的操作:通過各種不正確的做法,例如:避免可能會對績效產生負面影響的情況(稱為“奶油”的做法),未能報告負面情況(遺漏),降低標準以提高分數,甚至改變捏造虛假證據(作弊)的數據;
5.合作和共同目的的惡化:數據傾向於促進競爭,而不是促進合作和達到共同目的,這兩者都是基於不可衡量的或無法衡量的動機。
還值得注意的是,錯誤使用的量測值可能會對明智的部門產生潛在的高度負面影響,尤其是在涉及社會相關目的時,例如教育或醫療保健[8],[9]。
正確有效地使用數據
為了確保正確有效地使用數據,我們需要掌握以下原則,方法和技術:
1.區分那些是相關的,那些是可以忽略不計,以此角度解決問題。要記住並非所有重要的東西都是可衡量的。反之,可以衡量的東西並不總是永遠值得衡量的。
2.對獲取的訊息進行批判性解釋
通過數據(顯性或隱性),對所引用的模型進行評估。實際上,模型總是提供對現實一部分的部分描述,這取決於模型設計者的評估目的,偏見和知識極限;
3.確定所有對量測有重大影響的不確定性來源,以便評估可用訊息的可信度,由其得出對結論的影響,並最終評估錯誤決策的風險。
因此,很明顯,除了在單一目標,完全結構化和充分知情的決策活動的簡單情況下[10]。一般而言,度量不能代替專家的判斷。實際上,當在自動決策標準中,非關鍵性地使用數據時,可能會出現嚴重的問題。相反,量測應用來支持專家判斷,該判斷需要適當考慮數據與尚未量測內容的相關性。此外,量測需要進行判斷:1.判斷是否量測,2.需要量測什麼,3.如何量測,4.如何評估所獲得結果的重要性,5.以及如何正確使用它們[9]。
核心計量的原理
上述原理,方法和技術是計量學,量測科學及其應用的核心[10]
– [12]。與數據專家不同,量測學家利用恆量並且計量知識體系,並且:
1.充分了解數據與決策的相關性,但他/她也知道信息數據提供的局限性,並且了解基於數據的結論,不被認為是無瑕疵的;
2.能夠量化可分配給數據和相關模型的信賴程度;
3.他/她的結論不僅基於數據,還基於經驗,先驗知識,批判性分析能力,直覺以及關注可能的認知偏差;
4.完全了解他/她用來解決實際問題並增強(而不是替代)人類智力能力的技術局限性。
因此,計量學的基本原理和概念應該設定為常識,並且對於參與關鍵決策過程的人們必須是對此熟知。不幸的是,計量學的基本知識很少包含在大學部和研究生學位課程中,包括科學和技術領域的課程。因此,如果大量使用不當的數據淹沒了我們,我們就不會感到驚訝。
我們可能想知道,儘管科學和教育界具有至關重要的意義。但是為什麼對度量衡學卻沒有這麼重視。也許可以在Popper的分類問題中找到動機[13],根據該動機,科學學科分為兩大類:經驗學科(目的在產生解釋經驗世界中,如何工作的理論)和形式學科(即正式學科)目的在從一組有限的公理中得出形式理論。計量學(其知識體系目的在在經驗學科和形式學科之間架起橋樑,由一組有組織的概念,原理和方法組成。但是未在此分類中被列入考慮。這可能就是為什麼許多學者不承認計量學具有自主學科的尊嚴,而僅將其視為獲取經驗數據的一套技術和手段。
在這樣一個時代,量測已經遍及社會的各個領域。從國家與大公司之間的關係到最簡單的日常行動。低估了計量的相關性可能會帶來嚴重且往往不可逆轉的後果。
References
[1]
W. Kula, Measures and Men. Princeton, NJ, USA: Princeton University
Press, 1986.
[2]
V. Mayer-Schönberger, K. Cukier, Big Data: A Revolution That Will
Transform How We Live, Work, and Think. London, UK: John Murray, 2014.
[3]
I. Goldin and C. Kutarna, Age of Discovery. London, UK: Bloomsbury,
2017.
[4]
Y. N. Harari, Homo Deus: A Brief History of Tomorrow. London, UK:
Vintage, Penguin Random House, 2016.
[5]
Y. N. Harari, “Big data, Google and the end of free will.” [Online].
Available:
https://www.ft.com/content/50bb4830-6a4c-11e6-
ae5b-a7cc5dd5a28c.
[6]
G. Travis, “How the Boeing 737 Max disaster looks to a software
developer,” IEEE Spectrum, Apr. 2019. [Online]. Available: https://spectrum.ieee.org/aerospace/aviation/how-the-boeing-
737-max-disaster-looks-to-a-software-developer.
[7]
A. Ferrero, “Imputato software: assolto,” Tutto Misure, (in Italian),
no. 1, pp. 43-44, 2019.
[8]
C. O’Neil, Weapons of Math Destruction: How Big Data Increases
Inequality and Threatens Democracy. New York, NY, USA: Broadway Books,
Penguin Random House, 2016.
[9]
J. Z. Muller, The Tyranny of Metrics. Princeton, NJ, USA: Princeton
University Press, 2019.
[10]
L. Mari and D. Petri, “The metrological culture in the context of big
data: managing data-driven decision confidence,” IEEE Instrum. Meas.
Mag., pp. 4-20, 2017.
[11]
“Data Science Research Area, Intelligent and Effective Use of Data,”
National Physical Laboratory. [Online]. Available: https://
www.npl.co.uk/data-science.
[12]
“Big Data at NIST,” NIST Big Data, National Institute of Standards and
Technology. [Online]. Available: https://bigdatawg.nist.gov.
[13]
L. Mari and D. Petri, “Measurement science: constructing bridges between
reality and knowledge,” IEEE Instrum. Meas. Mag., vol. 17, no. 6, pp.
6-11, 2014.
作者介紹:
Dario Petri is a Full Professor in Measurement Science and Electronic
Instrumentation at the Department of Industrial Engineering of the
University of Trento, Italy. He received the M.Sc. and Ph.D. degrees in
electronics engineering from the Universityof Padua, Italy, in 1986 and
1990, respectively. He is an IEEE Fellow member and the recipient of the
2020 IEEE Joseph F. Keithley Award for “contributions to measurement
fundamentals and signal processing techniques in instrumentation and
measurement.” Dr. Petri’s research activities are focused on digital
signal processing applied to measurement problems, data acquisition
systems, and fundamentals of measurement theory.
|