現代快報訊(通訊員 杜建賓 記者 于露)日前,南京理工大學沈思教授團隊開源發布國內首個人文社會科學領域學術大語言模型——“蘭章”,標志著該校在“AI+人文社會科學”知識體系構建方面邁出重要一步。“蘭章”憑借百億詞元的堅實數據基礎以及兩階段深度優化訓練,較好地解決了當前通用AI工具在人文社科全文本挖掘、復雜概念和論證邏輯理解方面“盲域”和“幻覺”問題,不僅可以輔助用戶系統地獲取和梳理海量學術資源,還能夠幫助人文社會科學領域學者總體評價既有成果并敏銳發現新學術研究契機。
“蘭章”研發團隊歷時五年,構建了總規模116億詞元的人文社會科學學術語料庫,涵蓋CSSCI、CNKI人文社科期刊、人大復印報刊資料、教育部人文社科獲獎著作全文(1992~2025年)等中文學術資源以及SSCI、A&HCI期刊摘要及Project MUSE、Project Gutenberg(1992~2025年)等學術資源,保證了學科的均衡覆蓋以及期刊與著作的深度集成。“蘭章”憑借百億級詞元的堅實數據基礎,較好解決了通用AI工具主要依靠論文標題、摘要等簡單信息挖掘語料,難以理解完整文本中復雜概念和論證邏輯的難點痛點問題。
“蘭章”研發團隊選取人文社會科學全文本評測中表現較好的Qwen3-8B與Qwen3-32B基礎模型進行兩階段的深度優化訓練:在第一階段,運用116億詞元的學術資料系統融入人文社科學科知識和學術表達方式,提升基礎模型的全文本理解能力;在第二階段,團隊圍繞核心學術任務設計15697條訓練指令,在多學科專家驗證基礎上反復精細調優,形成并持續提升模型的專業推理能力。經過深度優化訓練,“蘭章”表現顯著優于多款通用模型,有效解決了跨語言環境下低頻專業術語的識別盲區問題和學術文本生成中的邏輯碎片問題,圖書自動分類準確率比通用模型高出30%。
![]()
團隊負責人沈思教授介紹,“大模型不是代替學者思考,而是立足實際學術研究,把自主知識體系的構建延伸到模型化和計算化的層面,從工具層面為人文社會科學學術創新提供持續支持。”目前,“蘭章”已上線魔搭社區試運行,15697條訓練指令數據已全部開源共享。
據了解,近年來,學校高度重視哲學社會科學工作,積極推進一般社會科學與學校優勢學科群的交叉融合,以數智技術賦能哲學社會科學研究。“蘭章”的發布,是學校積極推進精品化特色化哲學社會科學研究,加快構建中國哲學社會科學自主知識體系進程中的又一最新成果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.