科學研究 - NII開源發佈新一代國產LLM：基於約12萬億詞元優質語料訓練

日本國立資訊學研究所（NII）的大規模語言模型研發中心（LLMC）開發出了兩款新一代國產LLM（大語言模型）：約86億參數量的「LLM-jp-4 8B模型」（以下簡稱「4 8B模型」）以及約320億參數量的MoE模型「LLM-jp-4 32B-A3B模型」（以下簡稱「4 32B-A3B模型」），並於4月3日以開源許可方式對外公開。

圖1 基於llm-jp-eval的代表性大語言模型分項評測（供圖：NII）

此次發佈的模型是在該中心主導的LLM研究開發社區「LLM-jp」的活動中，通過實施從零開始的完整訓練而開發出來的LLM，最大可處理約65,000個token（詞元）的輸入與輸出。

本次研發所用的算力資源為日本產業技術綜合研究所提供的AI橋接雲「ABCI3.0」。此外，「4 8B模型」採用Llama2架構，「4 32B-A3B模型」採用Qwen3MoE架構。

在訓練語料庫方面，研究團隊遵循開源AI定義（OSAID）的標準，在收集、篩選並構建了第三方亦可獲取的優質訓練語料庫的基礎上，構建了與該社區此前開發並發佈的「LLM-jp-3.1」系列相比規模擴大了約6倍的訓練語料。

在預訓練階段，研究團隊使用了由網際網路公開數據、政府及國會文件等構成的大規模預訓練語料庫。該語料庫總計約19.5萬億詞元，其中包含約7000億詞元的日語語料、約17.8萬億詞元的英語語料、約8500億詞元的其他語言（中文、韓文）語料，以及約2000億詞元的程序碼語料。

研究團隊通過實驗優化了各子語料庫在訓練中的使用權重，最終使用了合計約10.5萬億詞元的數據進行了預訓練。

在隨後的中間訓練階段，團隊使用了在預訓練語料庫基礎上添加了包含指令預訓練數據（Instruction Pre-training數據）在內的由大語言模型生成的合成數據，合計1.2萬億詞元的訓練語料庫。也就是說，前後兩個階段合計使用的訓練語料總量達到約12萬億詞元。

在微調階段，研究團隊使用了22種英語與日語的指令微調數據。這些訓練數據除具有開源許可證的數據外，還包含該社區開發的數據（計畫陸續公開）。

在對開發的模型性能評估方面，研究團隊採用了社區開發的評估框架「LLM-jp-judge」，並基於GPT-5.4進行了LLM-as-a-Judge評估。

結果顯示，在衡量日語理解能力的「日語MT-Bench」評測中，「4 8B模型」得分7.54，「4 32B-A3B模型」得分7.82，超越了「GPT-4o」的7.29、「gpt-oss-20b」的7.33以及「Qwen3-8B」的7.14。

在衡量英語理解能力的「MT-Bench」評測中，「4 8B模型」得分7.79，「4 32B-A3B模型」得分7.88，與「GPT-4o」的7.69、「gpt-oss-20b」的7.85以及「Qwen3-8B」的7.69相比，達到同等以上水平。

此外，研究人員依託基於該社區開發的現有日英雙語語言資源構建的涵蓋42項評測任務的跨向度綜合評測框架LLM-jp-eval v2.1.3進行了評估。

評估結果確認，此次發佈的兩款模型在日語性能方面均達到了與「gpt-oss-20b」和「Qwen3-8B」同等的水平。

該中心後續將利用此次開發的兩款模型，持續推進旨在確保LLM透明性與可信賴性的研究開發工作。此外，團隊正持續研發更大規模的模型，併計劃於本年度內陸續發佈。

原文：《科學新聞》
翻譯：JST客觀日本編輯部

NII開源發佈新一代國產LLM：基於約12萬億詞元優質語料訓練

相關閱讀

金澤大學,在保持取向軸對齊的同時控制金剛石中量子位元位置,有望推動量子器件的集成化

JST與G-Search簽訂「科學技術文獻資訊提供事業新服務」實施合同，助力AI時代的新型研究模式

東京大學與NTT成功開發出光量子電脳高性能化技術

名古屋大學開發AI工具，解析生物複雜行為

國際交流

專題報導

超連結集