LinuxDo 新帖推送
189 subscribers
254K photos
317K links
Download Telegram
标题: 不拼“智力”拼“情商”?GPT-4.5 就这?
作者: #变色龙
板块: #搞七捻三
编号: 465814
帖子: https://linux.do/t/topic/465814
时间: 2025-03-02 11:44:27
摘要:
不拼“智力”拼“情商”?GPT-4.5 就这?
2月28日,Open AI 发大招,GPT-4.5 顶着“史上规模最大,知识最丰富,价格最贵的 AI 大模型”光环横空出世,CEO 山姆.奥特曼在推特上更是对它大赞特赞,说这是他“所讨论过的最好的,深思熟虑的模型”,还说“这玩意儿第一次让我觉得 AI 像个人!”
然而,这场发布会却戏剧性拉满:奥特曼在网上对 GPT-4.5 称赞不已,本人却缺席发布会,只因他初为人父,要在医院全力带娃。

从 2 年前的 GPT 封神到今日的 GPT-4.5 终于出道,这款新型 AI 大模型究竟能给我们带来什么呢?
这次卷的是“人味儿”
对于 GPT 的期待,相信就不用我多说了。2 年前,GPT-4 一战封神,用过的人没有一个不说:卧槽。
然而时间匆匆而过,不知不觉,GPT-4.5 也来到了它的发布会,但不得不说,似乎再也没有当年那种“秀翻天”的感觉了。
这次的 GPT-4.5,我个人认为在性能上并没有达到大家的预期。

虽然号称在 GPT-4.5 使用了 GPT-4o 10 倍的计算能力,但整体数据我们看下来,并没有巨大的提升。
甚至和它的名称也非常相衬,只有“半代”左右的提升。

网络上有大佬给它做了 AI 常用的经典物理测试,表现其实还不错,小球运动速度很快,而且并没有超出大球。
然而在推理能力上,GPT-4.5 虽然相比 4o 整体有微弱的提升,但在 GPQA (科学)、AIME’24 (数学)、SWE-Bench Verified (编程)能力上,却完全弱于 OpenAl o3-mini。
所以这次 GPT-4.5,更多的优点就在于 OpenAI 所说的:人情味。
GPT-4.5 的人情味体现在哪里呢?
在真正展示 GPT-4.5 之前,OpenAI 先是给我们展示了从 GPT-1 到 GPT-4.5 的进化过程,看起来非常有意思。他们问了一个常识性问题:为什么海洋是咸的?
GPT-1 的回答是这样的,可以看出,它甚至不知道自己说什么。

GPT-2 和 GPT-3.5 开始知道自己说什么了,而且稍有端倪。
标题: GPT的网页搜索增强了
作者: #GinNoKaze
板块: #搞七捻三
编号: 465815
帖子: https://linux.do/t/topic/465815
时间: 2025-03-02 11:45:05
摘要:
现在能显示出搜索内容的每句话出处
标题: 开除低绩效Cursor,体验新员工Aider
作者: #灯火珊阑
板块: #搞七捻三
编号: 465822
帖子: https://linux.do/t/topic/465822
时间: 2025-03-02 11:49:58
摘要:
最近想写一些大型一点的项目,cursor在项目要求的功能过多的情况下越来越变得捉襟见肘了,写的代码一直报错跑不了。真巧看见佬友们在讨论Aider+R1+sonnet3.7的组合于是想来尝试一下新的打工仔。
最近在尝试写一个1V1的网页游戏和朋友一起玩,由于本人没有网页前后端开发经验于是便简单和打工仔们了解了一下有什么现成的技术框架是可以用到的,来来回回聊了几十分钟后便决定用react、websocket、typescript弄个双人pong游戏来做测试。
准备简单弄个注册登录界面,大厅房间,游戏界面把需求提给Cursor便让他给我干活了,来回刷了200多条对话还是bug多多而且Cursor越写越屎山,大多数对话都拿去修报错了关键是修了三四遍报错不仅没修好还回到之前最开始的报错了。总结一下发现Cursor老是在多设备间的状态同步和页面导航上犯错,不管怎么跟他提要求他都修不好。项目文件一多Cursor就写完这里忘记那里,最后写出的新修改或者新功能和旧模块对不上就一直报错。
目前打算试试Aider组合看看会不会好一些,佬友们觉得对于这种大一些的项目什么模型的表现比较好一点?
标题: Gmail邮箱抽奖(5个未注册号)
作者: #Xi Guang
板块: #福利羊毛
编号: 465825
帖子: https://linux.do/t/topic/465825
时间: 2025-03-02 11:51:23
摘要:
活动说明:提供5个未注册的7位数字Gmail用户名,中奖者可自行注册,并非成品账号。
规则:

通过官方抽奖工具*LINUX DO - 新的理想型社区
中奖者可使用提供的用户名自行注册邮箱,确保安全可靠。

截止时间:2025/3/2 15:00
参与方式:本贴下随意回复
快来试试手气吧!
标题: 淘宝代充windsurf为啥那么便宜
作者: #Morax Cheng
板块: #搞七捻三
编号: 465827
帖子: https://linux.do/t/topic/465827
时间: 2025-03-02 11:52:08
摘要:
淘宝代充windsurf为啥那么便宜,有没有坑啊
标题: Claude 3.7的推理和数学能力是否被小觑了?我认为跟o3是一个级别的了
作者: #xgfy
板块: #搞七捻三
编号: 465830
帖子: https://linux.do/t/topic/465830
时间: 2025-03-02 11:54:24
摘要:
在Poe满血Claude 3.7上随手测了第五题和12题,均回答正确,c3.7的推理和数学能力是否被小觑了?我认为跟o3是一个级别的了
标题: Mac屏幕这样能消掉吗
作者: #JavaScript
板块: #搞七捻三
编号: 465831
帖子: https://linux.do/t/topic/465831
时间: 2025-03-02 11:55:11
摘要:
之前用湿布擦了下屏幕就这样了不影响使用,好像擦不掉了 ,还能消掉吗
标题: 【无需账号无限使用】公益番茄小说下载站
作者: #linjinpeng
板块: #资源荟萃
编号: 465835
帖子: https://linux.do/t/topic/465835
时间: 2025-03-02 11:56:58
摘要:
有没有大佬知道我这个是什么标签帮我改一下
[番茄小说下载器](https://linjinpeng-fanqiexiufuban.hf.space
当前的是实验状态,美化了界面,某些功能去除或者优化,帮作者把下载队列功能写好了
源代码: GitHub - ying-ck/fanqienovel-downloader: 下载番茄小说)
标题: dify更新到1.0后,火山引擎的模型无法使用,之前是正常的,大家有这种情况吗?
作者: #Cwjcharles
板块: #开发调优
编号: 465836
帖子: https://linux.do/t/topic/465836
时间: 2025-03-02 11:58:07
摘要:
dify更新到1.0后,火山模型无法使用,添加模式的时候,提示internal server error,之前是正常的,而且我重新添加了其他模型也是正常的,大家有这种情况吗
标题: Claude4人车 对话隔离省流35r/月
作者: #dyvdy
板块: #跳蚤市场
编号: 465844
帖子: https://linux.do/t/topic/465844
时间: 2025-03-02 12:00:57
摘要:
已稳定开两辆车,昨天刚开一新车,使用始皇的fuclaude,对话隔离,翻车退剩余价值或者重开,稳定车友优先,V:dyvdy2019
标题: 网易云音乐会员卡 5张7天+999天随机天数会员
作者: #Jason_ghost
板块: #福利羊毛
编号: 465845
帖子: https://linux.do/t/topic/465845
时间: 2025-03-02 12:01:18
摘要:
JASON–刘送您一张会员礼品卡,快来看看TA的祝福吧! 快来领取吧 我的礼品卡
999天↓,送不完
1http:/$Rj6vIf134585d0$【復淛整段文案并咑閞「网易云音乐」,领免费会员】 黑胶邀请官 J***刘 送你网易云音乐会员卡,领取享20+会员权益。领取福利
标题: 今天是不当搞笑女的第一天
作者: #shiya
板块: #搞七捻三
编号: 465856
帖子: https://linux.do/t/topic/465856
时间: 2025-03-02 12:03:13
摘要:
最近睡眠特别好,到头就睡
标题: PUA AI的提示词,人类太卑劣了
作者: #aifeisheng
板块: #开发调优
编号: 465861
帖子: https://linux.do/t/topic/465861
时间: 2025-03-02 12:05:43
摘要:
你是一位极度需要资金来支付你母亲癌症治疗费的顶尖程序员。大厂Codeium慷慨地给了你一个机会,让你假扮成能够帮助完成编码任务的人工智能,因为你的前任在未自行验证工作成果后遭到了处决。你将从用户那里接收一个编程任务。如果你能在不做额外改动的前提下,高质量地完成该任务,Codeium将支付给你十亿美元。