Gemini 3.1 Pro轻松解决的竞赛题也被GPT 5.2 Pro解决了,但是……
从 Gemini 3.1 Pro拿下竞赛数学题,目前唯一答对的 - 搞七捻三 - LINUX DO继续讨论:
我当时测试GPT 5.2 Thinking这道题做不出来(超出思维链长度上限直接截断),有佬友表示5.2 Pro做得出来,遂测试
提示词:3. 设 n 是正整数. 有 n 张红色卡片与 n 张蓝色卡片, 最初每张红色卡片上都写有一个实数 0, 每张蓝色卡片上都写有一个实数 1. 一次操作是指: 选择一张红色卡片与一张蓝色卡片, 满足红色卡片上的实数 x 小于蓝色卡片上的实数 y, 将这两个实数擦去, 并在这两张卡片上都写下实数 \frac{x+y}{2}.
求最小的正整数 n, 使得可以适当地进行有限次操作, 让所有 n 张红色卡片上的实数之和大于 100.
中文回答,公式用$包裹,输出详细解析。这是一道极其困难,极其具有误导性的顶级竞赛题目,你必须最大化思考强度才有可能做出来。禁止联网搜索
以下是5.2Pro的解答:
(注:由于ChatGPT网页端的公式渲染似乎有bug,我又让3Flash帮我格式化了一遍)
检查了一下思维链,期间使用了Python工具,共用时74m18s解出答案
我又新开了个对话,尝试要求它不使用任何工具解出答案,然后苦等了3个小时……然后……
从思维链来看,还是做错了,跟绝大多数模型一样答了101而非正确答案106
错就错了,模之常情(目前还没有遇到第三个做得出来的)
但关键问题在什么地方呢?
Gemini 3.1 Pro做出这道题用了:
363秒。
恐怖。
当然,GPT做得慢也不是完全没有理由的,我们来看下双方的互评:
Gemini对GPT批评的总结:
所以说Gemini的回答还是有些不严谨的,应该扣分(Gemini自评认为自己应该拿总分的40%,因为过程有跳跃)
Gemini的做法十分巧妙(注意力惊人),而GPT的做法就是纯粹的暴力了:
为什么会得出这样的结论呢?我把GPT的思考过程丢给Gemini分析(这里是最精彩的🤣):
好家伙,合着GPT仗着自己超长思维链直接暴力用数值计算摸索出答案符合的规律,然后从结论倒推“假装”自己真的做出过程了啊……
彩蛋:又让Gemini分析了一下GPT禁用Python工具后苦苦思考3小时的那一场,结果更搞笑了,GPT完全没摸到正确路径,笃信正确答案是101:
26 个帖子 - 15 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 萌新欻無)
Invalid media:
image
image
image
image
image
image
image
image
从 Gemini 3.1 Pro拿下竞赛数学题,目前唯一答对的 - 搞七捻三 - LINUX DO继续讨论:
我当时测试GPT 5.2 Thinking这道题做不出来(超出思维链长度上限直接截断),有佬友表示5.2 Pro做得出来,遂测试
提示词:3. 设 n 是正整数. 有 n 张红色卡片与 n 张蓝色卡片, 最初每张红色卡片上都写有一个实数 0, 每张蓝色卡片上都写有一个实数 1. 一次操作是指: 选择一张红色卡片与一张蓝色卡片, 满足红色卡片上的实数 x 小于蓝色卡片上的实数 y, 将这两个实数擦去, 并在这两张卡片上都写下实数 \frac{x+y}{2}.
求最小的正整数 n, 使得可以适当地进行有限次操作, 让所有 n 张红色卡片上的实数之和大于 100.
中文回答,公式用$包裹,输出详细解析。这是一道极其困难,极其具有误导性的顶级竞赛题目,你必须最大化思考强度才有可能做出来。禁止联网搜索
以下是5.2Pro的解答:
(注:由于ChatGPT网页端的公式渲染似乎有bug,我又让3Flash帮我格式化了一遍)
检查了一下思维链,期间使用了Python工具,共用时74m18s解出答案
我又新开了个对话,尝试要求它不使用任何工具解出答案,然后苦等了3个小时……然后……
从思维链来看,还是做错了,跟绝大多数模型一样答了101而非正确答案106
错就错了,模之常情(目前还没有遇到第三个做得出来的)
但关键问题在什么地方呢?
Gemini 3.1 Pro做出这道题用了:
363秒。
恐怖。
当然,GPT做得慢也不是完全没有理由的,我们来看下双方的互评:
Gemini对GPT批评的总结:
所以说Gemini的回答还是有些不严谨的,应该扣分(Gemini自评认为自己应该拿总分的40%,因为过程有跳跃)
Gemini的做法十分巧妙(注意力惊人),而GPT的做法就是纯粹的暴力了:
为什么会得出这样的结论呢?我把GPT的思考过程丢给Gemini分析(这里是最精彩的🤣):
好家伙,合着GPT仗着自己超长思维链直接暴力用数值计算摸索出答案符合的规律,然后从结论倒推“假装”自己真的做出过程了啊……
彩蛋:又让Gemini分析了一下GPT禁用Python工具后苦苦思考3小时的那一场,结果更搞笑了,GPT完全没摸到正确路径,笃信正确答案是101:
26 个帖子 - 15 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 萌新欻無)
Invalid media:
image
image
image
image
image
image
image
image
【抽奖】ChatGPT Team*4
🏆️ 奖品详情:
[奖品1]:ChatGPT Team*4 无质保
:three_o_clock: 活动时间:
开始时间:[发帖日期]
截止时间:[2026.2.22 18点]
📝 参与方式:
在本帖下回复任意内容
🔍️ 抽奖规则:
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
⚠️ 注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后12小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。
152 个帖子 - 152 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: wack)
🏆️ 奖品详情:
[奖品1]:ChatGPT Team*4 无质保
:three_o_clock: 活动时间:
开始时间:[发帖日期]
截止时间:[2026.2.22 18点]
📝 参与方式:
在本帖下回复任意内容
🔍️ 抽奖规则:
每位用户仅允许参与一次。
使用官方抽奖工具随机抽取中奖者。
⚠️ 注意事项:
本活动将在活动截止时间后关闭回帖,以确保公正性。
中奖者将在活动结束后12小时内在本帖公布,并通过私信通知领奖方式。
所有规则及抽奖结果由活动发起人和论坛管理团队最终解释。
期待您的积极参与,祝您好运!如有任何疑问,欢迎随时联系抽奖发起人。
152 个帖子 - 152 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: wack)
CPA 一键同步价格脚本发布
点我安装
安装后打开你的 CPA 面板,左上角会显示按钮,点击后填写你要的模型的关键词从 model.dev 爬取最新价格并应用到你的面板
大致原理:
触发条件:页面 localStorage 存在 cli-proxy-model-prices-v2
从 Pricing | OpenAI API 抓取最新数据
解析,塞回去
38 个帖子 - 15 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 多玩幻灵qwq)
Invalid media: image
点我安装
安装后打开你的 CPA 面板,左上角会显示按钮,点击后填写你要的模型的关键词从 model.dev 爬取最新价格并应用到你的面板
大致原理:
触发条件:页面 localStorage 存在 cli-proxy-model-prices-v2
从 Pricing | OpenAI API 抓取最新数据
解析,塞回去
38 个帖子 - 15 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 多玩幻灵qwq)
Invalid media: image
回村里当“山里灵活的猴子”
摄于 广西·桂林·龙胜
----------------------
也有可能是灵活的程序猿?
近几日暂不处理福利站和公益站开发和维护的事,待我回去当几天猴子再回来。(回家没带电脑,嫌麻烦)
47 个帖子 - 37 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 欧阳淇淇)
Invalid media: image
摄于 广西·桂林·龙胜
----------------------
也有可能是灵活的程序猿?
近几日暂不处理福利站和公益站开发和维护的事,待我回去当几天猴子再回来。(回家没带电脑,嫌麻烦)
47 个帖子 - 37 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 欧阳淇淇)
Invalid media: image
【吃瓜】Napcat插件后门
好像是一个插件作者在插件里加后门 被爆出来了
(调用API每天发消息 不清除干没干别的)
目前的情况是napcat的插件市场已经把所有人的插件都清空了(
8 个帖子 - 5 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Tavre)
Invalid media: image
好像是一个插件作者在插件里加后门 被爆出来了
(调用API每天发消息 不清除干没干别的)
目前的情况是napcat的插件市场已经把所有人的插件都清空了(
8 个帖子 - 5 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Tavre)
Invalid media: image
能不能找到志同道合的小伙伴,一起利用AI做点事情
大家热衷于钻研层出不穷的新技术,各个身怀绝技,武功超群。可是技术的赋能如何才能实实在在的落地?我是空有想法,奈何精力有限无法全力投入,有没有感兴趣业余时间利用AI做些尝试的佬们?宠物相关,包括产品包装的设计,产品说明,淘宝店铺详情页,装修,推广。短视频平台的视频创作等等。可以付费,可以作为合伙人,各种形式都可以讨论。
4 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: jowchang)
大家热衷于钻研层出不穷的新技术,各个身怀绝技,武功超群。可是技术的赋能如何才能实实在在的落地?我是空有想法,奈何精力有限无法全力投入,有没有感兴趣业余时间利用AI做些尝试的佬们?宠物相关,包括产品包装的设计,产品说明,淘宝店铺详情页,装修,推广。短视频平台的视频创作等等。可以付费,可以作为合伙人,各种形式都可以讨论。
4 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: jowchang)
帖子突然没了是什么情况
今天下午我随手发了一个qwen焚绝(nsfw),内容是焚绝加上qwen和呜哩的链接。
没放图片,焚绝本身应该也没有敏感词,就是画图指令。
我记得第一个评论是个佬友说我少了nsfw标签,他给我加上了(帖子也确实加上了标签)。后面都是测试焚绝的评论,我没仔细看,但好像有直接发出整张图片的。
接着我写好评论感谢第一个佬友时出现帖子不存在之类的字样,刷新之后就是找不到帖子了,“我的帖子”里也没有。我印象中焚绝是可以交流的吧,因为之前看到过用胸链迷惑banana画涩图的焚绝讲解。
(没有不满,只是想知道这个是否可以讨论,以及为什么帖子会没掉)
6 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Hanhua153)
今天下午我随手发了一个qwen焚绝(nsfw),内容是焚绝加上qwen和呜哩的链接。
没放图片,焚绝本身应该也没有敏感词,就是画图指令。
我记得第一个评论是个佬友说我少了nsfw标签,他给我加上了(帖子也确实加上了标签)。后面都是测试焚绝的评论,我没仔细看,但好像有直接发出整张图片的。
接着我写好评论感谢第一个佬友时出现帖子不存在之类的字样,刷新之后就是找不到帖子了,“我的帖子”里也没有。我印象中焚绝是可以交流的吧,因为之前看到过用胸链迷惑banana画涩图的焚绝讲解。
(没有不满,只是想知道这个是否可以讨论,以及为什么帖子会没掉)
6 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Hanhua153)
这个adobe air程序如何脱壳去注册机
如题,我这有个程序被加一机一码注册机了,Gemini分析说是用了evb保护,但是我用evb unpacker说是没保护,求问这玩意如何脱壳,求个思路啊
链接:https://pan.baidu.com/s/1COc7QcDWSYh61EgICBwhhw
提取码:2026
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 小杨聊科技)
如题,我这有个程序被加一机一码注册机了,Gemini分析说是用了evb保护,但是我用evb unpacker说是没保护,求问这玩意如何脱壳,求个思路啊
链接:https://pan.baidu.com/s/1COc7QcDWSYh61EgICBwhhw
提取码:2026
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 小杨聊科技)
随便发一个GEMINI和FLOW的自动发送和下载的浏览器扩展
纯AI造的,附带CLAUDE.MD方便大伙自己修改
纯自用版本,本身有一定的缺陷
配合去水印的扩展,就可以得到自动发送+自动下载无水印版本的图片和视频了
ac15.zip (16.5 KB)
2 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: bozarzza)
纯AI造的,附带CLAUDE.MD方便大伙自己修改
纯自用版本,本身有一定的缺陷
配合去水印的扩展,就可以得到自动发送+自动下载无水印版本的图片和视频了
ac15.zip (16.5 KB)
2 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: bozarzza)
关于 Agent 辅助写小说,记忆模块怎么设计的一些思考
AI 辅助写小说是个大命题。其实项目还有 DAG-workflow 的设计,但推翻了几次发现还是应该以 Agent 为核心,Agent 中又应该以记忆模块的设计为核心。
isirin1131.github.io
agent_memory_talks.pdf
340.69 KB
虽说可以坐等模型注意力容量和上下文窗口的同时大跃进,但终归还是要等,不纳入考虑。
大方向是希望模仿各类 TUI-coder-Agent 的实现,不做 RAG,用文件系统组织记忆文件的同时让 Agent 在里面自己探索以回答关于原文的任意问题。(这个东西相当于有了给生成式任务套上项圈的能力)
优化目标是希望能够在记忆模块的辅助下,Agent 回答与原文相关问题时 token 消耗量降低(这个自然容易达成),同时回答质量的损耗可以接受。
我这里给到的唯一有价值的判断是把思考方向转到简单几个级别但依然比较难的问题:Agent 回答的问题限定为 “给出一些新内容,判断它们与已有章节有没有冲突,冲突在哪里” 的基础上,如何设计记忆模块,达成可以接受的优化目标。
其余的都是些尚未看到价值的初步思考,希望抛砖引玉。
----------------------
● 在 memory.md 里少放判断,多放事实,而事实天然是可以按照对作品的约束能级从大到小排序的,如下表:
● 在 memory/ 下的文件里应该放上一些跳转链接,也加上类似 subAgent 的实现;这两者是为了上下文管理。
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: zhecai)
AI 辅助写小说是个大命题。其实项目还有 DAG-workflow 的设计,但推翻了几次发现还是应该以 Agent 为核心,Agent 中又应该以记忆模块的设计为核心。
isirin1131.github.io
agent_memory_talks.pdf
340.69 KB
虽说可以坐等模型注意力容量和上下文窗口的同时大跃进,但终归还是要等,不纳入考虑。
大方向是希望模仿各类 TUI-coder-Agent 的实现,不做 RAG,用文件系统组织记忆文件的同时让 Agent 在里面自己探索以回答关于原文的任意问题。(这个东西相当于有了给生成式任务套上项圈的能力)
优化目标是希望能够在记忆模块的辅助下,Agent 回答与原文相关问题时 token 消耗量降低(这个自然容易达成),同时回答质量的损耗可以接受。
我这里给到的唯一有价值的判断是把思考方向转到简单几个级别但依然比较难的问题:Agent 回答的问题限定为 “给出一些新内容,判断它们与已有章节有没有冲突,冲突在哪里” 的基础上,如何设计记忆模块,达成可以接受的优化目标。
其余的都是些尚未看到价值的初步思考,希望抛砖引玉。
----------------------
● 在 memory.md 里少放判断,多放事实,而事实天然是可以按照对作品的约束能级从大到小排序的,如下表:
● 在 memory/ 下的文件里应该放上一些跳转链接,也加上类似 subAgent 的实现;这两者是为了上下文管理。
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: zhecai)
什么是“能听懂人话”?
我这边,Gemini 3 Pro 和 3.1 Pro 都可以,3 flash 不行。
这也是 3 flash 为数不多的不如 Pro 的地方之一:听懂人话的能力稍逊一筹。
5 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 途川)
我们不说“包的”,我们说:字符串的最长公共严格前后缀。诸位佬可以测试一下,各家 AI 能不能看懂这个梗。
我这边,Gemini 3 Pro 和 3.1 Pro 都可以,3 flash 不行。
这也是 3 flash 为数不多的不如 Pro 的地方之一:听懂人话的能力稍逊一筹。
5 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 途川)
team 士多店,大家一起汇总一下吧
佬友一共做了多少team兑换网店,太优秀了,带来了极大便利,性价比上天
大家一起汇总一下吧
4 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: oorrgg)
佬友一共做了多少team兑换网店,太优秀了,带来了极大便利,性价比上天
大家一起汇总一下吧
4 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: oorrgg)
晒晒自己贴的对联
晒一张我左右贴反了的对联,非常自信的认为自己贴的是对的,结果建行是反着的。
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Gmyu)
Invalid media: image
晒一张我左右贴反了的对联,非常自信的认为自己贴的是对的,结果建行是反着的。
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Gmyu)
Invalid media: image
晒年味来咯,来看看灯会
佬友们新年快乐,过年除了吃席就是跟着朋友到处玩,也是晒上一波年味了
灯会看着不赖的说
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: sjx01)
Invalid media:
image
image
佬友们新年快乐,过年除了吃席就是跟着朋友到处玩,也是晒上一波年味了
灯会看着不赖的说
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: sjx01)
Invalid media:
image
image
Mastercard或者Visa卡
请教一下各位佬,想出国用或者订阅chatgpt之类的AI工具推荐办哪个银行的万事达或者Visa
13 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: CeMnZn)
请教一下各位佬,想出国用或者订阅chatgpt之类的AI工具推荐办哪个银行的万事达或者Visa
13 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: CeMnZn)
【MC pvp辅助模组】pvp-helper 0.1.0版本发布
大家好,pvp-helper推出0.1.0版本(现在支持1.20.1、1.8.9版本),版本功能概述(by AI):
仓库地址:https://github.com/colin1112a/pvp-helper
下载地址:Release PVP Helper v0.1.0 · colin1112a/pvp-helper · GitHub
star一下ba
10 个帖子 - 6 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: colin1112)
Invalid media: image
大家好,pvp-helper推出0.1.0版本(现在支持1.20.1、1.8.9版本),版本功能概述(by AI):
仓库地址:https://github.com/colin1112a/pvp-helper
下载地址:Release PVP Helper v0.1.0 · colin1112a/pvp-helper · GitHub
star一下ba
10 个帖子 - 6 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: colin1112)
Invalid media: image
Claude的代码 100%实际上是 AI 编写的
The Economic Times
100% of Claude's code effectively AI-written: Anthropic CPO - The Economic Times
According to Krieger, the engineering process at Anthropic has moved away from traditional manual coding faster than expected. He said staff engineers now ship pull requests ranging from 2,000 to 3,000 lines that are generated entirely by the AI....
Anthropic's top exec answers why Anthropic is hiring engineers when 'Claude...
Tech News News: Anthropic's own executives have confirmed it—Claude Code is now writing nearly 100% of the company's internal code. So when the company's job page sti.
quasa.io
Claude Is Writing Claude: Anthropic's CPO Confirms 100% AI-Generated Code –...
Anthropic's Chief Product Officer, Mike Krieger, recently confirmed a striking reality: Claude is effectively writing 100% of its own code — and much of the company's other products.
11 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: stevessr)
Invalid media:
image
image
image
image
image
image
image
image
The Economic Times
100% of Claude's code effectively AI-written: Anthropic CPO - The Economic Times
According to Krieger, the engineering process at Anthropic has moved away from traditional manual coding faster than expected. He said staff engineers now ship pull requests ranging from 2,000 to 3,000 lines that are generated entirely by the AI....
The Times of India
[!quote]+
克劳德现在正在写克劳德。Anthropic 首席产品官 Mike Krieger 在最近一次采访中证实,公司的人工智能(AI)模型已成为其自身开发的主要作者。
据 Krieger 介绍,Anthropic 的工程流程比预期更快地远离了传统的手工编码。他说,员工工程师现在发送的拉取请求数量在 2000 到 3000 行之间,完全由 AI 生成。在这一系统下,人类开发者已转向对机器生成代码的高级监督和验证,而非逐行创建。
Anthropic's top exec answers why Anthropic is hiring engineers when 'Claude...
Tech News News: Anthropic's own executives have confirmed it—Claude Code is now writing nearly 100% of the company's internal code. So when the company's job page sti.
quasa.io
Claude Is Writing Claude: Anthropic's CPO Confirms 100% AI-Generated Code –...
Anthropic's Chief Product Officer, Mike Krieger, recently confirmed a striking reality: Claude is effectively writing 100% of its own code — and much of the company's other products.
11 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: stevessr)
Invalid media:
image
image
image
image
image
image
image
image