資料來源:
https://www.precisionag.com/digital-farming/analytics/why-and-how-to-clean-agronomic-data/
管理種植者的數據會帶來很多挑戰。定義一個作物年何時結束,下一個作物年何時開始。建立界限。嘗試處理不一致、不準確或“髒”的數據位居榜首。
除草劑使用不足、缺乏肥力或即將發生的侵擾而導致作物面臨嚴重損失的危險,有很多關於救助處理的討論。同樣的對話也適用於農藝數據。
管理種植者的數據會帶來很多挑戰。定義一個作物年何時結束,下一個作物年何時開始。建立界限。嘗試處理不一致、不準確或“髒”的數據位居榜首。
雖然髒數據通常是指手動將其輸入電子表格或其他軟體時所犯的錯誤,但該概念也適用於設置不正確、記錄不正確或完成一致性等等不正確的數據。收集數據的全部目的是用它來做出更好的農藝決策。如果該數據不準確或看起來有問題,則無法自信地使用或充分發揮其潛力。
救援處理
好消息是,在某些情況下,清理或對髒數據應用“救援處理”可能是一種選擇。壞消息,或者我應該說,具有挑戰性的消息是,在任何數據搶救處理中都需要牢記幾件事。
首先,它們並不總是有效。很多時候,數據的品質不符合所必需的標準。尤其是在處理測試樣地或現場試驗等項目時,系統點數據的準確性和排列基礎層的能力十分重要。如果您無法將一個數據集覆蓋在另一個數據集上,則用於分析或決策的試驗的數字副本似乎沒有任何價值。
其次,它們並不總是適用於所有事情。不幸的是在處理農場數據方面沒有“萬靈藥”。有時問題與硬體有關。有時問題在於軟體或文件損壞。其他時候,問題完全出在操作員身上。在這些情況下需要改變收集數據的實際方法或作業。
知識庫
作為農場數據管理員的重要角色,需要了解的不僅僅是種植者土地的分佈情況,並且能夠在電腦中重新建立它。還需要了解他或她的配屬。
識別種植者文件的格式,並了解您自己的軟體需要什麼來處理它們的能力將進一步提高您對它們的價值,尤其是在導出處理文件。
如果種植者的車隊中有 John
Deere,了解GreenStar文件格式流程將很重要。
Case IH 最終用戶希望了解 Voyager 文件。
Precision Planting合作夥伴幾乎只與.dat文件具有
20/20 Seed Sense。但需要準備好處理與其配對的機器的各種其他文件類型。此外在跨多個軟體平台進行文件轉換和文件共享時,了解shapefile的工作原理將為您提供極大的幫助。
雖然救援處理不會對每一種髒數據情況都適用,但還是有一些可能性的。
如此收穫數據集中所示,流量延遲數據可以使用產量編輯器等工具修復。
救援情況 #1:收集數據
有許多情況可能需要清理產量數據。然而,其中許多原因需要了解聯合收割機的感測器如何將資訊發送到顯示器以計算和記錄產量。了解聯合收割機內穀物的移動如何導致文件延遲,可能會在解釋低產地區時提供有價值的見解。這些低產區實際上可能是數據錯誤,很容易清理,不需要進一步的農藝幫助。
在一些收成數據似乎不合適的情況下,像產量編輯器這樣的工具可能是救命稻草,可以幫助清理其中的一些差距。
通過USDA
ARS提供的免費工具Yield
Editor 提供了可視化傳遞和對數據集進行編輯的能力。該系統接受兩種文件格式,Ag
Leader Advanced Text 和 John Deere GreenStar
Text。如果使用其他格式的數據,則必須首先對其進行轉換。
該軟體用於刪除重疊並重新調整流動延遲的變化。流量延遲是聯合收割機接收器記錄 GPS
點與品質流量感測器記錄重量之間的時間間隔。
請記住,每次在數據集中刪除或重新調整數據時,都有丟失其他屬性(例如機器數據)的風險。此外修改或操縱的數據消除了該領域可能實際存在的一些現實。在某些情況下,額外的通過可能對於恢復未考慮的額外穀物非常必要,或者也許“零”值實際上是我們種植但沒有作物的區域。
GS3 2630
文件的示例,以及如果文件損壞是問題時需要查找的內容。
救援情況 #2:損壞的數據文件
如果數據文件的問題是它似乎已損壞或無法上傳和提取,則幾乎沒有什麼可看的。
首先,確保正在使用的軟體支持文件類型。有些軟體不支持較新(或較舊)的給定產品線,儘管有些程序可以幫助文件轉換。
其次,確保文件結構合適。如果軟體在讀取文件時遇到問題,可能會發生一些事情。
最簡單的“問題”並修復,可能是導入的文件只需要壓縮。
另一個需要評估的領域是文件結構。例如,
GreenStar 3(或 2630)文件只是文件夾(配置文件/RCD/EIC)的集合,其中包含在(在本例中)名為global.ver的
EIC 文件夾中的文件,用作“索引”文件.將此文件視為“目錄”。在某些情況下,無論出於何種原因,索引文件都會丟失,而糾正它所需要的只是建立一個替換文件,並將其保存在文件結構中的正確位置。這種情況非常普遍,但適用於許多機器文件格式。
救援情況#3:數據校准後
確保數據集準確性和品質的最佳方法,是確保所有機器和感測器在通過之前都已校準。當然這並不總是發生,或者並不總是可行的。在這些情況下,幾乎所有軟體都具有“後校準”數據集的內置功能。
這代表著文檔將通過將所有蒲式耳穀物或種子磅數相加來記錄“x”。但是,如果數字是已知的並且不匹配,則通過向電腦提供已知的最終結果,並告訴軟體重新計算所有數據點以使值匹配來“清理”數據集。
最後,每個軟體的“後校準”都不同。例如,一些實際上在導入時消除了所有數據集中的“零”值。在嘗試導出和“清理”數據之前了解這一點很重要。因為可以在
Yield Editor
中進行的一些轉變有可能過度強調,而不是改進不準確之處。通過軟體中的演算法了解幕後發生的過程,將大大有助於就如何為未來的決策。生成高品質數據集做出最佳決策。
某些數據問題,例如此處顯示的重疊,根本無法糾正。然而它們可以成為復健,為種植者在未來解決的時刻使用。
展望未來
也有一些數據無法挽救的情況。產量編輯器和後校準只能做這麼多。
在這些情況下,最好是減少損失並繼續前進。雖然這可能不是種植者想要聽到的,但好處是這可能是一個可教的時刻。藉此機會討論無法使用的領域,並解釋未來如何改進 |