top of page

Artificial Analysis改版智慧指標v4.0,新增幻覺風險與研究級推理評測

  • 作家相片: Hao Chen Lu
    Hao Chen Lu
  • 1月10日
  • 讀畢需時 1 分鐘

Source: IThome新聞


獨立模型評測機構Artificial Analysis更新智慧指標(Intelligence Index)至v4.0,調整評測組合,讓評測重心更貼近實務任務與可靠性行為。 官方同時提醒,合成指標可用來比較模型,但仍有侷限,不必然能直接套用到每一個使用案例,並在方法論中強調評測應兼顧公平性與真實世界適用性。 Intelligence Index v4.0移除MMLU-Pro、AIME2025與LiveCodeBench等常見測試,改採新的評測組合,試圖重新拉開模型差距。

留言


雷盾資安股份有限公司版權所有 © 2022 by TS Security Co., Ltd.

  • Instagram
  • Facebook
  • LinkedIn
bottom of page