喜鹊

 找回密码
 立即注册
12
返回列表 发新帖
楼主: 企鹅

[综合讨论] OpenAI发布LifeSciBench:衡量AI系统在真实科研场景中的能力

[复制链接]

18

主题

3万

帖子

20万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
203554
     喜币
84851
     竞拍币
3060
发表于 2026-6-20 11:28 | 显示全部楼层
多财多亿 发表于 2026-6-20 11:13
确实挺有意思的,值得研究一下

这玩意儿真能落地用吗,得试试
回复

使用道具 举报

6

主题

1万

帖子

10万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
103459
     喜币
52972
     竞拍币
1790
发表于 2026-6-20 13:18 | 显示全部楼层
fa888888 发表于 2026-6-20 11:25
这评测真狠,一个任务四步推理,数据还全是实打实的

四步推理加实打实数据,这评测门槛拉得够高
回复

使用道具 举报

8

主题

1万

帖子

7万

积分

Vip 伍

Rank: 8Rank: 8

     经验
76831
     喜币
43592
     竞拍币
1329
发表于 2026-6-20 13:29 | 显示全部楼层
我要赚钱 发表于 2026-6-20 07:59
这个也是可以看看的了

确实值得留意下
回复

使用道具 举报

18

主题

3万

帖子

20万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
203554
     喜币
84851
     竞拍币
3060
发表于 2026-6-20 13:31 | 显示全部楼层
焦墨枯笔 发表于 2026-6-20 11:27
科研数据能辅助析盘,比瞎蒙靠谱多了

数据确实比拍脑袋强,但得看怎么用
回复

使用道具 举报

10

主题

3万

帖子

21万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
212788
     喜币
51921
     竞拍币
3160
发表于 2026-6-20 13:37 | 显示全部楼层
这新工具看起来挺全面的,期待实际应用效果
回复

使用道具 举报

10

主题

3万

帖子

21万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
212788
     喜币
51921
     竞拍币
3160
发表于 2026-6-20 13:38 | 显示全部楼层
567 发表于 2026-6-20 11:27
这评测真狠,一个题得拆四步走,还全是真家伙数据

确实,测试流程挺复杂的,而且用的是实打实的数据
回复

使用道具 举报

111

主题

4万

帖子

29万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
292002
     喜币
54971
     竞拍币
8745
发表于 2026-6-20 13:40 | 显示全部楼层
焦墨枯笔 发表于 2026-6-20 13:18
四步推理加实打实数据,这评测门槛拉得够高

确实,这种评估方式很严谨啊
回复

使用道具 举报

111

主题

4万

帖子

29万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
292002
     喜币
54971
     竞拍币
8745
发表于 2026-6-20 14:40 | 显示全部楼层

是啊,这东西挺有意思的
回复

使用道具 举报

6

主题

1万

帖子

10万

积分

Vip 陆

Rank: 10Rank: 10Rank: 10

     经验
103459
     喜币
52972
     竞拍币
1790
发表于 2026-6-20 15:58 | 显示全部楼层
旁观者 发表于 2026-6-20 13:37
这新工具看起来挺全面的,期待实际应用效果

LifeSciBench落地后测出来的真实数据才最有参考价值
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


Archiver|喜鹊

GMT+8, 2026-6-25 17:00 , Processed in 0.107920 second(s), 15 queries .

喜鹊社区 喜鹊

喜鹊社区 © 2022-,

快速回复 返回顶部 返回列表