最資訊丨工聯院大模型測評:文心一言在工業領域表現超過GPT3.5
近期,中國工業互聯網研究院(簡稱“工聯院”)針對人工智能大模型在中文工業領域的知識問答能力進行系統性評測。結果顯示,百度文心一言表現超過GPT3.5,綜合評價指數在國內排名第一。
工聯院本次評測選取了工業領域典型的八大行業。百度文心一言在電子設備、裝備、鋼鐵、采礦、電力、石化、建材等七大行業均獲國內第一。
據悉,評測對象涵蓋GPT4、GPT3.5、文心一言、ChatGLM等國內外具有代表性的頭部大模型。評估結果選取性能前六名的模型進行公布。
(資料圖片)
百度文心一言測評表現超過GPT3.5
本次工業知識問答測試主要分為客觀題與主觀題兩大類,總計超過1100個問題。主觀題主要考察四大維度:基礎能力、語句能力、概括能力和邏輯能力。
評測結果顯示,GPT4表現最佳。國內頭部大模型表現亮眼,整體與GPT3.5相當。其中百度文心一言表現超過GPT3.5,在國內大模型中排名第一。
在客觀題環節,評測結果顯示,GPT4與文心一言表現好于其他大模型。但評測結果也同時指出,大模型普遍準確率有較大的提升空間。
主觀題方面,國內大模型的基礎能力、語句能力與GPT4接近,概括能力、邏輯能力與GPT4有一定差距。
在大模型的自我認知能力和污染問題分析能力上,GPT4相較于其他大模型表現出更好的能力。
大模型發展新熱點:豐富特定行業專業知識
雖然國內大模型在本次評測表現較好,甚至在部分行業趕超GPT3.5,但工聯院評測報告也指出,國內外通用大模型在工業知識問答領域探索仍處于初級階段,國內大模型與GPT4有差距,比如行業間的泛化能力有待加強。
實際上,工聯院評測報告揭示出通用大模型落地垂直行業的痛點,缺乏特定行業的專業知識。
關于解決難題的方法,工聯院評測報告給出的建議是,進一步豐富相關專業領域的數據訓練集,進一步進行專業化的微調。
當前,國內科技公司紛紛加強與工業企業合作,期望通過在實際場景中探索應用大模型,彌補差距,趕超GPT4.0。
比如百度文心一言與南方電網電力調度控制中心在電力調度場景探索使用調度AI大模型。在汽車行業,長安汽車基于百度文心大模型正在開發生成式人工智能產品,賦能一款量產車型,實現提升用戶體驗的目標。除了能源、汽車制造,百度智能云還在建筑、采礦、物流、紡織等領域,探索使用大模型提升運營效率和用戶體驗效果。
據悉,未來,工聯院將持續開展通用大模型在工業領域更多維度的性能評測,包括但不限于大模型的魯棒性、安全性以及人類大價值觀等。(肖智)
關鍵詞:
推薦
-
-
-
-
-
-
榮耀筆記本三叉戟首秀 榮耀MagicBook14系列2023上市
榮耀舉行榮耀MagicBook 14系列新品發布會,推出榮耀MagicBook 14 2023和榮耀MagicBook 14 Pro 202...
來源:TechWeb -
-
-
蘋果iPhone15Pro機模視頻展示新按鈕 USB-C等外觀設計
日前一個 iPhone 15 Pro 機模出現在抖音分享的視頻中,提供了對該設備傳聞中的設計的近距離觀察。預...
來源:TechWeb -
直播更多》
-
小米13Ultra發布:告別數碼味 回歸影像光學原點
小米集團在京召開新品發布會,正式發布...
-
小米13Ultra發布:告別數碼味 回歸影像光學原點
小米集團在京召開新品發布會,正式發布...
-
華為超聯接筆記本MateBookD14發布 這才是大學生與新銳白領的夢中情本!
在當代大學生和新銳職場人士的眼中,如...
-
庫克擔任蘋果CEO已4250天 成蘋果任職時間最長正式CEO
據外媒報道,自2011年8月25日接替喬布斯...
-
小米13Ultra將首發索尼IMX858傳感器:所有副攝與主攝嚴格拉齊
據官方日前確認,全新的小米13 Ultra將...
-
多款重磅新品及解決方案發布 中興通訊舉辦2023年度云網生態峰會
2023年度中興通訊云網生態峰會在深圳成...
資訊更多》
焦點
- Ella自曝童年被性騷擾,鄰居兒子把手伸進她褲子里,撫摸她的私密處
- qq注銷實名認證后防沉迷綁定也跟注銷_qq注銷實名認證_速讀
- 即時焦點:中國白酒出海及行業洞察(上)
- 安徽中醫藥大學2023年擬錄取碩士研究生體檢相關工作通知
- 火山視頻如何注銷?抖音和火山版怎么取消關聯?
- 天天熱推薦:新房、二手房房價倒掛,北京一“網紅項目”傳 2500 萬活期存款驗資才可搖號選房
- 全球實時:焦作金華整形診所口碑技術測評!含手術醫生推薦
- AGI龍頭云知聲遞表港交所:打造大模型商業化的新范式
- 曾是姚明“師弟”,如今在野球場降維打擊,他被CBA拋棄太可惜-全球報資訊
- 泰山新星中甲首秀就進球,崔康熙收獲本土強力中鋒,未來絕對主力_全球播資訊