天津機(jī)器學(xué)習(xí)重點(diǎn)實(shí)驗(yàn)室負(fù)責(zé)人、天津大學(xué)胡清華教授表示,“基礎(chǔ)智能模型有望重塑人工智能的發(fā)展模式,國內(nèi)外大模型如雨后春筍般大量涌現(xiàn)。全面準(zhǔn)確評(píng)價(jià)此類模型是推動(dòng)和規(guī)范其健康發(fā)展的基礎(chǔ),為使用者在選擇和應(yīng)用大模型時(shí)提供參考。可以看到,百度文心一言在評(píng)測(cè)中展現(xiàn)了國產(chǎn)大模型的強(qiáng)大實(shí)力,中國的大語言模型在短期內(nèi)取得巨大發(fā)展,正在逐步趕超國際類似的模型,甚至在某些指標(biāo)上實(shí)現(xiàn)了局部超越。未來,期待國產(chǎn)大模型能夠取得更大突破,可以賦能社會(huì)經(jīng)濟(jì)發(fā)展,助力我國科技高質(zhì)量自立自強(qiáng)。”
參與本次評(píng)測(cè)的大模型包括GPT-4、ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo等國外大模型,以及百度文心一言、阿里通義千問、訊飛星火認(rèn)知大模型、ChatGLM-6B、360智腦、MOSS-16B、MiniMax、baichuan-7B等國產(chǎn)大模型。評(píng)測(cè)使用一套涵蓋知識(shí)問答、語言表達(dá)、邏輯推理、常識(shí)問答、文本問答、機(jī)器翻譯等不同領(lǐng)域知識(shí)、包含多種題型的綜合性試題,通過多維度得分結(jié)果,清楚了解不同模型的擅長領(lǐng)域和綜合能力優(yōu)劣。
天津大學(xué)方面發(fā)布,國產(chǎn)大模型以文心一言為代表,在知識(shí)問答、語言表達(dá)、邏輯推理、常識(shí)問答等方面表現(xiàn)出色。此外,本次評(píng)測(cè)中,文心一言在計(jì)算機(jī)、醫(yī)學(xué)、法律和教育等領(lǐng)域的得分率高,為大語言模型在相關(guān)行業(yè)的落地提供了技術(shù)基礎(chǔ)。