客觀日本

國立情報學研究所開發出完全開源且性能超過GPT-3.5的大規模語言模型

2025年01月23日 資訊通信

日本國立情報學研究所大語言模型研發中心(LLMC)於2024年12月24日宣佈,該機構利用2.1萬億詞條訓練數據,全新訓練了一個參數規模與GPT-3的1720億參數相當的新型大規模語言模型「llm-jp-3-172b-instruct3」(https://llm-jp.nii.ac.jp/release),並已正式對外公開。

title

大規模語言模型「llm-jp-3-172b-instruct3」網頁截圖

該模型包括訓練數據在内的所有内容均全部開放,是目前全球規模最大的完全開源語言模型。在衡量語言模型日語理解能力的基準測試「llm-jp-eval」和用於NEDO項目GENIAC的「llm-leaderboard」評估中,該模型的性能均超過了GPT-3.5。

LLMC基於在數據利用了「社會建立平台」mdx上完成的130億規模的語言模型訓練,以及通過產綜研第二次大規模語言模型構建支援計劃,使用AI橋接雲(AI Bridging Cloud Infrastructure,簡稱ABCI)進行的參數規模達1750億的模型訓練試驗成果,從而開發出了該模型。

在開發過程中,首先利用由GENIAC項目支持的雲端計算資源(Google Cloud Japan)對約0.4萬億個標記數據進行了初步訓練。之後,又利用通過文部科學省補助金採購的雲端計算資源(Sakura Internet),進一步完成了約2.1萬億個標記的數據訓練與優化。

用於訓練的語料庫包括約5920億個日語詞條。内容來源包括從整個Web存檔CC(Common Crawl)數據中提取和過濾的日語文本、根據日本國立國會圖書館網際網路資料收集保存事業(WARP)中抓取的網頁數據、以及日語維基百科和科研經費數據庫的各研究項目概要文本。

此外,還使用了約9500億個英語詞條(如Dolma等)、約10億個中文和韓語詞條,以及1140億個程式設計碼詞條。總計訓練數據量約1.7萬億標記,額外對日語語料庫中的約0.4萬億標記進行了兩輪訓練。

所開發的模型約有1720億個參數,模型結構基於Llama2。為優化性能,使用了日語指令數據和13種英文指令數據的日文翻譯數據進行調整。

在「llm-jp-eval v1.4.1」基準測試中,該模型取得了0.613的分數,超過了GPT-3.5的0.590。此外,在「llm-leaderboard」評估中,也取得了0.669的分數,同樣超過了GPT-3.5的0.653。

雖然在現有技術條件下,該模型已儘可能地進行了安全性優化,但從技術上完全保證模型的安全性仍存在困難,因此模型有可能在特定輸入下輸出不合適的内容。

對此,LLMC計劃利用本次公開的模型及未來構建的模型,推進大規模語言模型透明性和可靠性相關的研究開發。

原文:《科學新聞》
翻譯:JST客觀日本編輯部