數據分析與知識產業

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

數據分析與知識產業

在大數據世界中採用智慧數據思維方式

國立中興大學生物產業機電工程學系陳加忠

資料來源:

https://www.mckinsey.com/industries/metals-and-mining/our-insights/adopting-a-smart-data-mindset-in-a-world-of-big-data

工業公司正在使用人工智慧來改善工廠營運。為了獲得成功，他們將需要此領域專家的幫助下轉換數據。

工業公司正在擁抱人工智慧（AI ），作為第四次數字革命的一部分。它有希望帶來新的見解。這些見解是通過將機器學習應用於具有更多變數，以更長的時間尺度和更高的粒度數據集而獲得的。利用數月甚至數年的資訊價值，分析模型可以根據可控變數（例如泵速）或干擾變數（例如天氣）以\來找出有效的運行機制。這些見解可以嵌入於現有控件系統，結合到單獨的諮詢工具中，或用於績效管理。

許多重工業公司花費了數年時間構建和存儲大數據，但尚未釋放其全部價值。事實上我們的研究表明，某種形式的AI超過75%的先導，但只有不到15%已經被意識到是有意義的，可擴展的影響。在這些公司中，分析團隊通常採用從外到內的方法來進行AI和機器學習，包括在流程數據之上使用各種隨機方法。而這些流程數據是經過精心設計的，具有最小的營運洞察力。

這種方法可以發生作用，但是通常會產生模型，顯示出其高度的參數依賴性，需要頻繁的重新訓練。輸入大量的資訊然而給出不真實或不切實際的結果。因此，在營運商和工程師對它們失去信心之前，這些模型很少能在生產中經受得考驗，或者很難產生有意義的影響。

為了使AI成功，公司應該擁有一個具有可靠歷史數據的自動化環境。然後，他們將需要將大數據調整為適合AI的形式。通常變數少得多，而智慧化後的工程。我們將後一種格式稱為“智慧數據”，以強調專注於以專家為主導的方法，該方法可提高預測準確性並有助於分析根本原因。

本文介紹的步驟建立智慧數據，隨著接近沿著以技能專家經驗一臂之力提高表明，在這兩個領域成功可以導致可用數據增加5％至15％。

1. 前兩次革命引入了可編程邏輯控制器(PLC)和分佈式控制系統，從而實現了全廠範圍的數據收集和自動化。第三次革命為先進的過程控制-進一步將自動化抽象到高級模型。從而使工廠的運行越來越動態。有關過程控制的最新創新的更多資訊，請參見Naman的Stephan Gorner ，Andy Luse ， Maheshwari ，Ravi Malladi ，Lapo Mori和Robert Samek ，“能源和材料中先進過程控制的潛力” ，麥肯錫，2020年11月23日。

2. 在領先的公司中，我們發現機器中心具有專用的可編程邏輯控制器，這些控制器具有額外的輸入和存儲容量。

這些公司擁有自動化工程師，他們會定期檢查控制邏輯以驗證其是否符合當前的操作環境和理念。還擁有儀器技術人員來確保感測器已校正並正常運行。在最好的示例中，我們發現時間序列歷史數據是可信的，具有最小的差異。並且包含描述性和正確性的原數據。如果不存在這樣的綜合環境，則可以與AI模型並行構建。

3 . Julio Gregorio，Ferran Pujol ，Richard Sellschop和Diego Zuniga，“讓員工參與使用分析：採礦公司如何應對採用挑戰” ，麥肯錫，2020年9月2日。com 。

4 . EBITDA是未計利息，稅項，折舊和攤銷的收益。

建立智慧數據

對於希望利用AI的公司來說，常見的失敗模式是將營運專業知識與數據科學流程整合程度很差。實際上，我們提倡僅在通過專家驅動的數據工程，對流程數據進行分析，豐富和轉換之後，才應用機器學習。在作業中，我們建議執行以下步驟

1.定義流程

與專家和工廠工程師一起概述該過程的步驟，並勾勒出物理變化（例如研磨和加熱）和化學變化（例如氧化和聚合）。確定關鍵的感測器和儀器，以及它們的維護日期，性能限制，量測單位以及是否可以對其進行控制。最後，注意控制過程的確定性方程式（例如熱力學關係或反應化學計量）以及涉及的變數。在後面的步驟中，應該進行文獻檢索，以將思想領域擴展到組織現有的知識之外。如果公司對流程專業知識有限，則必須聘請外部專家。

例如，一家北美礦業公司努力提高其磨礦作業的吞吐量，其中設備包括七台磨礦機和三台旋風“分級機” ，這些分級機根據尺寸將顆粒分開。專家和工程師對於數據科學說明的流程，將研磨和分離分為三個階段，各自大約裝設大約十幾台感測器。數據記錄器標籤紀錄包括了感測器的容易度和儀器準確度。冶金工程師提供題拉分離的Plitt方程式與研磨能量的Bond方程式。其結果是組成團隊，工廠專家了解影響結果方程式的因子，而數據科學家了解操做細節以及從何處改善數據品質。

2.豐富數據

原始的過程數據幾乎都包含缺陷。因此重點是造就高品質的數據集，而不是設法訓練的觀測最大數量。團隊應該先去除在不穩定狀態下得到的資訊，如設備的斜升和向下。去除與工廠配置或操作方式無關的數據。應避免使用一般的方法來處理丟失或異常的數據，例如使用平均值進行插補，"Cipping"至最大程度擬合假定其為常態分佈。代替的方法是團隊應該通過流程專家確定的關鍵感測器和精心使用感測器和物理上正確的公式，以修補數據缺口。

例如，一家歐洲化學公司目的在將機器學習應用於裂化火爐。專家指出，流量計對過程十分重要，但數據科學團隊認定這是有缺陷的，並且由於校正不當，有時數值也有錯誤。

營運團隊建議暫停該項目，直到安裝了新的流量計。通過使用品質平衡公式和使用上游的溫度和能源感測器數據，建立虛擬流量感測器，豐富現有值。通過設計虛擬感測器，分析團隊能夠對流量值進行三角分析和校正。總體而言，該項目將處理吞吐量提高了20％。

3.降低尺寸

AI演算法通過將輸出（稱為可觀察值）與一組輸入（稱為特徵值）進行匹配來建立模型，這些輸入由原始感測器數據或其衍生數據組成。一般來說，數值需要大大超過廣義模型產生特徵數量。一種通用的數據處理方法是設計輸入組合數據以產生新功能。當結合現代工廠中可用的大量感測器時，這需要進行大量觀察。相反，團隊應該減少功能列表，僅包括描述物理過程的那些輸入變數，然後應用確定性方程式，建立可以智慧地組合的感測器資訊特徵。例如將品質和流量組合到產量密度。通常，這是減少數據的維數並在數據中引入關係的極好方法，這可以最大程度地充分減少在訓練模型所需的數據觀測量。

例如，一家歐洲化學公司觀察到噴霧乾燥器進料管線中的壓力偶然升高，這使其連續過程必須停止或減慢速度。建立了一個模型來預測壓力累積值。即使包括所有相關的感測器數據，結果也不能令人滿意。為了反應此現象，該團隊將管道幾何形狀的詳細資訊與一些感測器資訊結合到了Darcy - Weisbach方程。其結果是減少模型輸入數目和增強的數據品質，這隨後增加了模型的性能。然後，營運商可以利用該模型幾乎消除此延遲現象，從而將吞吐量提高了8％。

4.應用機器學習

工業過程的特點是確定性和隨機性。在作業中，第一條原則是基於特徵應提供確定性的部分。機器學習模型捕獲統計部分來自由輔助感測器和數據。團隊應該通過檢查功能的重要性和來評估解釋力功能。理想情況下，由專家設計的功能，例如過程的物理特性，應列為是最重要的功能。總體而言，重點應放在建立模型以驅動工廠的改善，而不是調整模型來實現預測的最高準確性。團隊應該記得過程數據自然地呈現高度相關性。在某些情況下，模型性能可能會表現非常出色，但是最重要是隔離因果關係分量和可控制變數。這比單獨依賴相關性更重要。最後，應根據目標函數以評估基礎感測器數據中的錯誤。數據科學家為獲得更高的模型準確度而發現它受到感測器準確度的限制。這並不少見。只有實施或發現模型才能實現影響。採取行動十分重要。

例如，一家北美金屬生產商想要建立一個模型來預測熔化一批可回收材料所需的熱量。的團隊首先建立為一個確定性特徵“所需的熱量”，在基礎上的比熱方程式，利用質量，熱容量與各合金的熔化點。隨後添加了19個感測器的數據以捕獲隨機行為的功能，例如通過煙道散失的熱量或大氣溫度的變化。

所得模型顯示出優異的性能，確定性特徵的重要性顯示出超過80％。該模型的輸出關係到一個人機界面（HMI）。營運商可利用預測值，依序列進行熔化。總體而言，該模型兩年來每分鐘運行一次，熔融時間減少了10％，批料溫度更加一致。

5.實施和驗證模型

只有實現應用模型，才能實現其影響力。採取行動十分重要。團隊應通過檢查重要特徵以確保它們與物理過程相匹配，審查部分相關特性圖（Partial depedendence plot，PDP）。與專家連續審查模型結果以了解因果關係並確認內容可以實際控制。運作的同時應設立其他會議，了解應該可以實現，並同意基準性能。

在向產品等級的自動化解決方案進行投資之前，團隊通常會向控制室中的操作員即時傳達模型結果或進行開關測試，這種情況並不罕見。例如，一家歐洲生物科學公司試圖在缺乏數據的情況下，最佳化其發酵過程的產量。經過最初的建模工作，感測器數據和工程特性只能解釋吞吐量的40 ％的變化。該團隊利用模型中參數關係的了解，來設計工廠中的實驗，並將這些結果用於改進模型並告知操作人員在何處放置新感測器。結果是數據科學和營運同事之間達成了共識，並且收益增加了20％以上。

建立團隊

在重工業部署AI需要跨職能團隊。由營運商，數據科學家，自動化工程師和流程方面的專家。我們經常發現，公司具有數據科學家或正在招聘，但他們在過程專家方面面臨三大挑戰：1.在特定機構或整個公司中缺乏過程專業知識；2.有足夠的過程專家，但是他們對現代數字或分析工具並不滿意；3.或流程專家不知道如何在數字團隊中有效工作。

流程專家

工業公司正日益面臨流程專家的短缺。這在一定程度上，是由於員工已退休以及缺乏年輕的工程師可以彌補這一不足。結果，尋求實施AI的公司通常需要首先重建其專家渠道，通常是通過與大學的合作夥伴關係和實習計劃。在重新建立渠道的同時，可以使用OEM和外部顧問來擴大團隊。但是從長遠來看，“擁有專業”技能很重要，因為它是差異化價值的來源。

同時，公司應在分析工具和靈活的工作方式上，提高其現有流程專家的技能。專家通常具有工程或其他類似背景。他們習慣於利用公式來描述物理過程。這種思維方式對建立智慧數據可能會有所幫助，但也會對於基於AI的方法產生懷疑。專家提高技能的過程，共同結合教室內訓練和現場學習與跨功能AI團隊，可以打造舒適與方法和結果。有了這些技能，流程專家能夠更好地支持數字團隊，包括幫助數據科學家的夥伴關係，協助他們理解這個問題，建立智慧數據。以壓力試驗模型以確保模型已經學會了正確的第一原則，基於行為。而且根據我們的經驗，提高技能可以增加工作滿意度和保留率。

工業公司具有不同水準的過程專業知識

1.流程專家不足

通過與大學和實習生建立夥伴關係來建立專家渠道。通過OEM和外部顧問臨時增強能力，通過職業訓練提高相鄰角色的技能。

2.足夠的工藝專家

流程專家了解的數字或分析工具，將專家註冊為數據科學和數據工程在線課程。如何使用現有流程角色扮演或實施敏捷工作。

3.了解數字或分析工具的流程專家

將專家招募到數據科學和數據工程在線課程中，角色扮演或實施敏捷。

工作方式

由於方法的差異，使用具有交叉職能的角色來建立高績效團隊可能是一個挑戰。例如，操作員工通常遵循單向階段選擇流程（通常出於安全原因），而數據科學的同事通常熟悉迭代工作流程，例如敏捷方法。當部署AI，我們的經驗顯示，反覆的，包容性和Colocated敏捷團隊往往會實現的最大影響。作為一個結果，不熟悉這種方法的同事需要訓練。

開發計劃模型可能是一個很好的練習，可以鞏固一種工作方式並避免使用線性方法。線性方法是在進行下一步之前詳盡地完成一個階段（例如數據提取）。取而代之的是，每個階段的各個部分都應同時完成，以快速建立一個完整的工作模型，以期在將來的迭代中使各個組件先成熟。

實際上，這通常代表著從感測器數據的子集開始，建立有限的特徵列表，並使用更簡單的演算法。然後，團隊可以決定下一個階段需要投資什麼。作為每個迭代的一部分，應該討論“完成”的定義是什麼，以便與結果保持一致並避免蔓延範圍。

工業公司正在尋求AI來增強其工廠營運。減少停機時間，主動安排維護時間，提高產品品質等。但是，要從AI獲得營運影響並不容易。為了獲得成功，這些公司將需要設計他們的大數據，以包括操作知識（例如品質平衡或熱力學關係）。他們還需要建立跨職能的數據科學團隊，以包括能夠彌合機器學習方法與過程知識之間差距的員工。一旦這些要素與敏捷的工作方式相結合，從而促進了迭代的改進和實施發現的偏見，就可以實現真正的轉變。