日本文部科學省宣佈,自9月30日起將開放與共享通過材料尖端研究基礎設施(ARIM)收集並積累至今的約11萬條材料數據,這些數據已整理為便於在數據科學等領域利用的格式。
本圖由JST亞洲太平洋綜合研究中心根據文部科學省發佈的《構建和共享大規模材料數據基礎設施》(https://www.mext.go.jp/b_menu/houdou/mext_01556.html)翻譯製作
文部科學省正在推進材料領域的研究數位化轉型(DX),實現研究數據的生成、整合與管理、充分利用的一體化。在研究數據生成方面,以材料尖端研究基礎設施(ARIM)為核心;在從整合與管理方面,以物質與材料研究機構(NIMS)的數據核心基地(MDPF)為核心;在充分利用方面,以數據生成與活用型材料研究開發項目(DxMT)為核心,這三項事業共同構成了現行舉措的核心。其目標是通過實現一種能夠跨越機構框架對已生成的數據進行共享與充分利用的機制,並確立融入了數據驅動型研究的新一代研究方法,從而實現創新性材料的生成。
在ARIM中,已將各裝置差異化的測量數據及合成加工流程數據的格式統一化,並整理為形態易於機器學習等領域加以活用的結構化數據,事業啟動後的4年間,此類數據已積累超過100萬條。此次,針對已經積累的數據,將從非共享期(即數據生成者為獨立完成研究而僅限其研究團隊內部使用的期限,原則上最長為2年)已屆滿的數據開始,依次面向日本學術界與產業界開放共享。希望使用共享數據的研究人員,通過支付規定的使用費,即可下載並使用生成自利用ARIM內約1200台共有設備的研究的、與各類測量值、圖表及圖像等豐富的材料數據相關結構化數據。所提供的數據已實現不同裝置間的數據格式統一化,在AI及機器學習等領域也能充分利用。ARIM還積累了包含失敗數據在內的各類實驗數據。此外,針對各種材料,ARIM不僅積累了物性值、測量、分析數據,還將材料合成以及半導體和器件加工過程中的溫度、壓力等實驗情境、工藝數據等進行了關聯收錄。目前可供使用的結構化數據約為11萬條,但預計每年將以數十萬條的規模增加。
用戶從數據共享入口網站申請並註冊後,即可對希望使用的數據集進行檢索、下載及使用。收費方式為按「個人許可證」或「團體許可證」為單位計算的年度定額製(年會費製)。用戶需為日本人,在日外國人需在日本居住6個月以上,且隸屬於日本國內設立的法人機構,經申請並獲得許可後方可使用。使用方法等詳情將在網站(https://nanonet.go.jp/)上公佈。
此次開放共享的數據,由多種設備群組及利用該設備的眾多不同領域的研究人員生成。活用這些豐富多樣的數據特性,有望催生能夠助力研究活動中課題解決與新知識生成等方面的用例。
例如,通過充分利用共享數據中包含的測量結果等資訊,能夠對類似材料及目的相應的實驗情境進行整理、預測與提案,有望為高再現性的實驗提供支持。此外,通過分析測量的偏差及異常值,有望在可靠性評估等領域加以利用。
通過組合共享數據、用戶自身持有的數據、其他開放數據以及計算數據等,預計將實現實驗數據的補全及材料特性預測精度的提升,有望實現更高效的材料研發。
此外,共享數據還能作為視覺化及分析方法的學習教材使用,通過採用實際測量數據的實務訓練,有望在人才培養活動中加以利用,具體包括幫助年輕研究人員及學生掌握數據科學思維及測量技術的教育內容製作等。
原文:《科學新聞》
翻譯:JST客觀日本編輯部

