國內多數模型訓練使用中文數據佔比超60%

2025年08月19日08:42 來源：人民網－人民日報222

　　本報北京8月18日電（記者王雲杉）記者從國家數據局獲悉：中文數據在國內大模型的訓練性能提升方面發揮著重要作用。國內多數模型訓練使用的中文數據佔比已經超過60%，有的模型達到80%。中文高質量數據的開發和供給能力持續增強，推動我國人工智能模型性能快速提升。

　　在人工智能時代，Token（通常所說的詞元）是處理文本的最小數據單元。國家數據局局長劉烈宏介紹，2024年初，我國日均Token的消耗量為1000億，截至今年6月底，日均Token消耗量已經突破30萬億，1年半時間增長了300多倍，反映了我國人工智能應用規模的快速增長。

　　《人民日報》（ 2025年08月19日 06 版）

(責編：王瀟瀟、彭曉玲)

學習路上
時習之

習近平
系列重要講話數據庫
中央文件

跟著總書記學黨史
數據庫

言之有理
學習文選

微信“掃一掃”添加“學習大國”