化工儀器網手機版
移動端訪問更便捷OpenAI推出重磅o3推理模型!展現強大推理能力
2024年12月30日 11:34:03
來源:化工儀器網 點擊量:4848

12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。
12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。
o3能夠進行復雜任務的推理,在科學、編碼、數學等領域的表現要優于前一代o1模型,同時花費的處理時間也會更長。以一項評估AI高級數學推理能力的測試EpochAI Frontier Math為例,以往所有模型都未達到2%的準確率,而o3準確率達到了創紀錄的25%。
在2024年美國數學邀請賽中,o3模型的準確率高達96.7%,僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。
在對科學知識的掌握方面,o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現,涵蓋化學、物理和生物學方面的專業知識)基準測試中,o3的準確率達到87.7%,超過了人類博士的70%,也比之前o1表現高近10%。
此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上,o3的準確率約為71.7%,比o1高20%以上。在Codeforces編碼競賽平臺中,o3的得分為2727,相當于榜單上第175名人類編程員的水平,而o1得分僅為1891。
o3模型讓OpenAI在通往AGI的道路上又邁前了一步。在相關基準測試ARC-AGI中,高配版o3得分為87.5%,低計算設置下o3得分為75.7%,是o1模型的三倍。但高計算模式需要花費極其昂貴的成本,每個任務高達數千美元,低計算模式則需要20美元左右。
相關閱讀 Related Reading
查看更多+-
涉及1.3萬企業專利權人!2025年全國專利調查工作即將啟動
近日,國家知識產權局將組織開展2025年全國專利調查工作,為知識產權宏觀管理、政策制定、規劃實施和知識產權強國建設提供數據支撐。<...2025-05-10 10:00:00 -
近日,湖南省人民政府辦公廳印發《關于創新完善體制機制推動招標投標市場規范健康發展的實施意見》,旨在推動湖南形成高效規范、公平競爭、...2025-05-09 14:30:18
-
覆蓋19個細分領域 《中國再制造產業發展報告(2025)》發布
5月8日,由機械工業環保產業發展中心主辦的2025再制造產業發展大會在河北唐山舉行,會上發布了《中國再制造產業發展報告(2025)...2025-05-09 13:57:51 -
中國儀器儀表學會分析儀器分會發布《2025年朱良漪分析儀器創新獎申報通知》,其中申報時間明確為2025年1月1日-2025年6月3...2025-05-09 13:27:49
-
5月8日,工業和信息化部公布首批重點培育中試平臺初步名單。經自愿申報、地方推薦、形式審查、專家評審、征求意見等程序,共選出242家...2025-05-09 13:27:34
-
近日,國家市場監管總局印發了《市場監管總局關于試行特種設備安全沙盒監管制度的通告》《缺陷特種設備召回管理規則》等系列文件,以此來加...2025-05-09 13:16:05
版權與免責聲明
- ①凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其他方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- ②本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- ③如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。