為了應對這種情況,上海人工智能實驗室提出了“以人為本”的評測思路。上海人工智能實驗室大模型開放評測平臺司南正式發(fā)布“以人為本”(Human-Centric eval)的大模型評測體系,系統(tǒng)評估大模型能力對人類社會的實際價值,為人工智能應用更貼近人類需求提供可量化的人本評估標注。

上海人工智能實驗室提出“以人為本”的評測思路。
傳統(tǒng)大模型基準測試普遍采用結(jié)果導向的評價標準,這種評價方式雖然能夠直觀反映模型性能,卻忽略了人類實際需求。司南團隊提出的評測方案根據(jù)人類需求設(shè)計實際問題,讓人與大模型協(xié)作解決,再由人類對模型的輔助能力進行主觀評分,以此補充客觀評價的不足,使評估更貼合人類感知。
其中,“認知科學驅(qū)動”評估框架圍繞解決問題能力、信息質(zhì)量、交互體驗三大核心維度,構(gòu)建覆蓋多場景、多領(lǐng)域的主觀評測體系。通過模擬學術(shù)研究、數(shù)據(jù)分析、決策支持等真實人類需求,由用戶與大模型協(xié)作完成任務,并基于人類主觀反饋量化評估模型的實際應用價值,為下一步技術(shù)研發(fā)與產(chǎn)業(yè)落地提供科學參考。
為了驗證“以人為本”評估方式的有效性,同時評測大模型在研究生學術(shù)研究中的應用價值,司南團隊選取了當前公認的優(yōu)秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作為評測對象,組織有學術(shù)研究需求的研究生參與。團隊根據(jù)文獻綜述、數(shù)據(jù)分析、可行性研究等學術(shù)研究中的常見需求,設(shè)計了人工智能、法律、金融等8個領(lǐng)域的相關(guān)問題,研究生與大模型協(xié)作解決。實驗結(jié)果顯示,所有受測模型分析準確性、思考全面性、協(xié)助高效性維度能力均勢。DeepSeek-R1在解決生物、教育學科問題上表現(xiàn)突出;Grok-3在金融、自然領(lǐng)域優(yōu)勢明顯;GPT-o3-mini則在社會領(lǐng)域表現(xiàn)良好。