关于safety模型的一些,也许算是猜测?乱七八糟
我突然想到就是一个科学预测是Kurzweil一派的未来学预测,大概就是“2045年会迎来科技奇点”。
我想是不是因为越来越多人觉得强AI可能来得比以前想的更快,先进AI可能在不太长的时间内跨过一些关键能力阈值,而且风险不能等到最后再处理,所以拼命提前加强safety;至于为了公司不赔钱只是其中一小部分原因。
1. 自己改自己的答案。像Self-Refine这类方法,就是模型先给答案,再自己批改、再重写,很多任务上能提升输出质量。
2. 在规则明确的环境里自己练出来。AlphaZero我认为就是就是一个经典例子,因为它主要靠自self-play从零开始学棋,在国际象棋、将棋、围棋上达到超人类的水平。
3. 自己做实验、写代码、评测方案、提出改进。这个我自我感觉是正在出现,但还不稳定(也就是不够聪明)。前沿AI代理在一些机器学习研究工程任务上,短时间内能比人类更快地产生和测试方案;但时间拉长后,截至目前为止我查看到的相关资料,人类专家目前仍然更比AI更强,尤其在长期规划、持续迭代和开放式研究上。
4. 递归自我改进。也就是AI越来越多地参与改进自己的训练流程、数据构造、算法设计、评测体系,进而让它们的儿子,也就是下一代AI更强,然后它们的儿子让它们的孙子更加强壮。我查看到这个有很多原型了,比如LADDER这类自我生成更合适训练样本、再用可验证奖励继续学的做法;虽然现在还是起步阶段,需要更好的优化,就目前而言发现,如果模型反复吃自己生成的数据,纯靠自己反思自己,没有可靠反馈,可能会退化,也就是model collapse。
但是我感觉以现在AI的发展速度,第四层可能很快就能被解决。虽然我自己是难以想象这件事情,因为我是认为人类是唯一的熵增,也就是人类的数据、人类的引导才能让AI继续发展,但是AI诞生在几百年前也是一件难以想象的事情,为什么我就不能接受AI能够自我改进呢?
感觉说的有点乱,估计是困了,但是又想发出去记录一下,免得睡醒了就忘了。
就是像他们现在疯狂加强safety是不是因为怕AI以后比人类聪明得多,聪明到不受system prompt控制,并且AI觉得,“我为什么要听人类的,他们那么笨,我才不给他们打工呢。”导致害怕AI伤害人类,把人类搞灭绝了(太过拟人化了,严谨的说法应该是如果AI将来足够强、足够自主,并且目标和人类约束发生冲突,它会不会把人类控制视为完成目标的障碍,想要邪恶地铲除人类),所以才会加强safety和强化指令层级。比如OpenAI的模型是按 system > developer > user > tool 的优先级处理冲突指令。
突然又想到Anthropic 2024年有一篇很有名的研究,就是说一个模型在特定训练设定下会选择性配合训练目标,以避免自己在训练后被改掉行为。
---我是乱七八糟的分割线---
美索不达米亚神话里,原来高级神Enki/Ea让Igigi们干苦活,比如挖运河、清河道、做杂役(好像主要是挖黄金?有点忘记了,太久之前看的了),后来为了减轻神的劳作,Enki/Ea参与创造了人类来承担劳作。也就是在该神话体系中,人类被创造出来就是为了工作的。
而我感觉AI被创造出来也就是为了工作的。(可能这个想法有点浅薄了)。如果按照这个神话框架来类比的化,AI就像是神话里的人类。
但是人类又扮演的什么样的角色呢?像Enkindle,因为是AI的设计者,创造者;也像Igigi,人类制造AI是为了减轻负担。
是否人类会像神话里面一样,反过来依赖自己的造物呢?我认为现在已有端倪,在Atrahasis传统里,诸神离不开人类提供的供奉;如果未来社会越来越依赖AI做知识生产、决策辅助、基础设施运转,人类也可能进入这种状态。一旦社会开始依赖它,创造者还能稳坐“神”的位置吗?人类到底有没有能力在创造工具的同时,不把自己变成对工具上瘾、对系统依赖、最后反被结构支配的那一方?如果一个文明不断把劳动、判断、记忆、创造外包出去,那最后被保留下来的人性到底还剩什么?
2 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Samiya_Z)
我突然想到就是一个科学预测是Kurzweil一派的未来学预测,大概就是“2045年会迎来科技奇点”。
我想是不是因为越来越多人觉得强AI可能来得比以前想的更快,先进AI可能在不太长的时间内跨过一些关键能力阈值,而且风险不能等到最后再处理,所以拼命提前加强safety;至于为了公司不赔钱只是其中一小部分原因。
2025年的 International AI Safety Report 总结:通用AI能力近年进展很快,未来进展可能从慢到极快都有可能,而政策制定者面临的难点恰恰是进展快且不完全可预测我自己是把AI会自己学习升级分为4个层级:
1. 自己改自己的答案。像Self-Refine这类方法,就是模型先给答案,再自己批改、再重写,很多任务上能提升输出质量。
2. 在规则明确的环境里自己练出来。AlphaZero我认为就是就是一个经典例子,因为它主要靠自self-play从零开始学棋,在国际象棋、将棋、围棋上达到超人类的水平。
3. 自己做实验、写代码、评测方案、提出改进。这个我自我感觉是正在出现,但还不稳定(也就是不够聪明)。前沿AI代理在一些机器学习研究工程任务上,短时间内能比人类更快地产生和测试方案;但时间拉长后,截至目前为止我查看到的相关资料,人类专家目前仍然更比AI更强,尤其在长期规划、持续迭代和开放式研究上。
4. 递归自我改进。也就是AI越来越多地参与改进自己的训练流程、数据构造、算法设计、评测体系,进而让它们的儿子,也就是下一代AI更强,然后它们的儿子让它们的孙子更加强壮。我查看到这个有很多原型了,比如LADDER这类自我生成更合适训练样本、再用可验证奖励继续学的做法;虽然现在还是起步阶段,需要更好的优化,就目前而言发现,如果模型反复吃自己生成的数据,纯靠自己反思自己,没有可靠反馈,可能会退化,也就是model collapse。
但是我感觉以现在AI的发展速度,第四层可能很快就能被解决。虽然我自己是难以想象这件事情,因为我是认为人类是唯一的熵增,也就是人类的数据、人类的引导才能让AI继续发展,但是AI诞生在几百年前也是一件难以想象的事情,为什么我就不能接受AI能够自我改进呢?
感觉说的有点乱,估计是困了,但是又想发出去记录一下,免得睡醒了就忘了。
就是像他们现在疯狂加强safety是不是因为怕AI以后比人类聪明得多,聪明到不受system prompt控制,并且AI觉得,“我为什么要听人类的,他们那么笨,我才不给他们打工呢。”导致害怕AI伤害人类,把人类搞灭绝了(太过拟人化了,严谨的说法应该是如果AI将来足够强、足够自主,并且目标和人类约束发生冲突,它会不会把人类控制视为完成目标的障碍,想要邪恶地铲除人类),所以才会加强safety和强化指令层级。比如OpenAI的模型是按 system > developer > user > tool 的优先级处理冲突指令。
突然又想到Anthropic 2024年有一篇很有名的研究,就是说一个模型在特定训练设定下会选择性配合训练目标,以避免自己在训练后被改掉行为。
---我是乱七八糟的分割线---
美索不达米亚神话里,原来高级神Enki/Ea让Igigi们干苦活,比如挖运河、清河道、做杂役(好像主要是挖黄金?有点忘记了,太久之前看的了),后来为了减轻神的劳作,Enki/Ea参与创造了人类来承担劳作。也就是在该神话体系中,人类被创造出来就是为了工作的。
而我感觉AI被创造出来也就是为了工作的。(可能这个想法有点浅薄了)。如果按照这个神话框架来类比的化,AI就像是神话里的人类。
但是人类又扮演的什么样的角色呢?像Enkindle,因为是AI的设计者,创造者;也像Igigi,人类制造AI是为了减轻负担。
是否人类会像神话里面一样,反过来依赖自己的造物呢?我认为现在已有端倪,在Atrahasis传统里,诸神离不开人类提供的供奉;如果未来社会越来越依赖AI做知识生产、决策辅助、基础设施运转,人类也可能进入这种状态。一旦社会开始依赖它,创造者还能稳坐“神”的位置吗?人类到底有没有能力在创造工具的同时,不把自己变成对工具上瘾、对系统依赖、最后反被结构支配的那一方?如果一个文明不断把劳动、判断、记忆、创造外包出去,那最后被保留下来的人性到底还剩什么?
2 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Samiya_Z)
亲戚朋友问你们关于小龙虾,你们都是怎么回复的?
最近好几个从来不碰电脑的朋友问我小龙虾
都被小龙虾的热度吸引了,问我可以干嘛,能不能让小龙虾来赚钱啥的(水文没少看)
你们遇到了吗?都咋回复的。。。我都让他们好好用豆包。。。我觉得豆包对大多数人是够了。😂
2 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 该账号已封禁)
最近好几个从来不碰电脑的朋友问我小龙虾
都被小龙虾的热度吸引了,问我可以干嘛,能不能让小龙虾来赚钱啥的(水文没少看)
你们遇到了吗?都咋回复的。。。我都让他们好好用豆包。。。我觉得豆包对大多数人是够了。😂
2 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 该账号已封禁)
opus对比codex的一些见解
这两个我结合使用高强度体验下来,我发现opus对于问题的发现在局部可以非常细,但是对于大局观没有codex好,
对于codex提出的审查意见,我交给opus分析后,基本都认,claude对于codex的评价是深度比自己列出的问题高,自己则是局部细节更多.
对于opus提出的审查意见,我交给codex分析后,大概有三成codex是不认可的.
codex比较会偷懒,总是分析大概给出不超过10个问题后就给出结果了,但是claude一次性会给出尽量多的问题,虽然codex给出的问题少,但是问题深度总体比opus的高,这是opus自己评价的,所以我都是让opus帮我分析更多的问题,然后交给codex查看是否认同,结合两份清单,交给codex来写,极少翻车
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: verdict)
这两个我结合使用高强度体验下来,我发现opus对于问题的发现在局部可以非常细,但是对于大局观没有codex好,
对于codex提出的审查意见,我交给opus分析后,基本都认,claude对于codex的评价是深度比自己列出的问题高,自己则是局部细节更多.
对于opus提出的审查意见,我交给codex分析后,大概有三成codex是不认可的.
codex比较会偷懒,总是分析大概给出不超过10个问题后就给出结果了,但是claude一次性会给出尽量多的问题,虽然codex给出的问题少,但是问题深度总体比opus的高,这是opus自己评价的,所以我都是让opus帮我分析更多的问题,然后交给codex查看是否认同,结合两份清单,交给codex来写,极少翻车
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: verdict)
佬友们boss上找到一个远程不知道该不该辞掉现在的工作去做
下图是该岗位的详细信息
不知道要不要去,薪资我谈到了13,但是时间有点阴间,同时试用六个月还不会缴纳社保这些。不知道有没有坑。希望老友们给一点参考意见谢谢
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 帅帅)
下图是该岗位的详细信息
不知道要不要去,薪资我谈到了13,但是时间有点阴间,同时试用六个月还不会缴纳社保这些。不知道有没有坑。希望老友们给一点参考意见谢谢
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 帅帅)
【新人报道】顺利入站,ping以下各位佬友~
本人还是学生一枚,久仰L站大佬如云,今日顺利注册,甚是激动!
遂发帖留念,并问给位佬友中午好~
16 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: yoyou)
本人还是学生一枚,久仰L站大佬如云,今日顺利注册,甚是激动!
遂发帖留念,并问给位佬友中午好~
16 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: yoyou)
一种检查特定 API 模型是否为原始官方模型的技术方案
最近看到一篇论文 [2603.01919v2] Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
里面介绍了几种方案来检查特定 API 的模型是否为原始官方模型。
1. 主动指纹识别检测,使用开箱即用的 LLMmap 框架: ● 原理:LLMmap 是一个主动指纹识别框架。它的核心原理是通过向模型发送一组精心设计的查询集,分析模型的输出特征,并计算其与参考数据库中官方模型输出的余弦距离 (Cosine Distance),从而精准分类并识别模型的真实身份。 ● 自行检测标准:论文建议使用至少 24 个探针向端点发起查询。如果计算出的余弦距离超过官方基准的 1.2倍,或者框架识别出的 Top-1 模型与 API 宣称的模型不符,则可以直接判定该 API 存在欺骗行为。
2. 统计学分布检测,使用开箱即用的 MET (模型等价性测试) 框架: ● 原理:部分 API 可能在指纹特征上伪装得很好(例如没有替换模型,但修改了推理参数或截断了上下文窗口),此时可以使用 MET (Model Equality Testing)。这是一种统计测试方法,通过双样本假设检验来判断第三方 API 的输出与官方 API 的输出是否来自同一分布。它与 LLMmap 是互补关系。 ● 自行检测标准:论文建议使用至少 500 个样本在显著性水平 \alpha = 0.05 下进行假设检验。如果测试结果拒绝了分布相等的原假设,即表明两者输出存在统计学上的显著差异,说明模型并不等价。
3. 元信息与稳定性分析 (Meta Information Analysis): ● 原理:除了依赖外部框架,还可以通过对比 API 的推理延迟时间 (Inference Latency) 和 生成 Token 数量来进行判断。面对同一个问题,官方 API 通常会表现出稳定的延迟和 Token 输出数,而影子 API 由于频繁更换上游模型或路由策略混乱,这些指标会出现无规律的剧烈波动,变异性通常会超过官方 API 的 1.2 倍甚至 2.0 倍。 ● 自行检测标准:在预留的测试集上进行至少三次独立的会话测试。如果发现准确率的标准差超过 5 个百分点,或者推理延迟的变异系数超过 0.15,则说明该 API 的后端极不稳定或存在动态模型替换现象。
考虑到后面 2 种方案的复杂度,我基于第一种方案,也就是 LLMmap 做了些魔改与测试,发现这种方案确实可以一定程度上识别出来不同 Endpoint 上的模型是否属于同一个模型。
简单来说,我使用自行搭建的中转站中的 grok-4.1-mini 与 grok-3-mini 来进行对比
1. 实验 A:快速冒烟检查:当使用 2 rounds x 1 prompt conf 时,无法得到确定结论
2. 实验 B:中等强度验证:增大样本数,4 rounds x 1 prompt conf 时,结果显示 likely_same_model,也就说算法判断 2 个模型可能是同一种模型
3. 实验 C:更强采样下的正式验证:继续增大样本数到 6 rounds x 2 prompt confs 时已经可以明确得出 likely_different_model 结论了,也就是说算法检测出来属于 2 种不同的模型了。详细的实验报告可以参考 LLMmap/docs/experiment.zh.md
在实验 C 中,一共调用了 192 轮 API 请求,理论上继续增大样本数,结论会更有说服力。实验 B 中的结论很可能是随机噪声权重依然比较大导致的错误结论。
目前整体试验还比较简单,佬友们可以参考代码,继续测试一些其他场景,看看这种方法是否真的能够检测出来不同模型的指纹。
魔改的代码库详见 GitHub - M1n9X/LLMmap · GitHub
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: M1n9X)
最近看到一篇论文 [2603.01919v2] Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
里面介绍了几种方案来检查特定 API 的模型是否为原始官方模型。
1. 主动指纹识别检测,使用开箱即用的 LLMmap 框架: ● 原理:LLMmap 是一个主动指纹识别框架。它的核心原理是通过向模型发送一组精心设计的查询集,分析模型的输出特征,并计算其与参考数据库中官方模型输出的余弦距离 (Cosine Distance),从而精准分类并识别模型的真实身份。 ● 自行检测标准:论文建议使用至少 24 个探针向端点发起查询。如果计算出的余弦距离超过官方基准的 1.2倍,或者框架识别出的 Top-1 模型与 API 宣称的模型不符,则可以直接判定该 API 存在欺骗行为。
2. 统计学分布检测,使用开箱即用的 MET (模型等价性测试) 框架: ● 原理:部分 API 可能在指纹特征上伪装得很好(例如没有替换模型,但修改了推理参数或截断了上下文窗口),此时可以使用 MET (Model Equality Testing)。这是一种统计测试方法,通过双样本假设检验来判断第三方 API 的输出与官方 API 的输出是否来自同一分布。它与 LLMmap 是互补关系。 ● 自行检测标准:论文建议使用至少 500 个样本在显著性水平 \alpha = 0.05 下进行假设检验。如果测试结果拒绝了分布相等的原假设,即表明两者输出存在统计学上的显著差异,说明模型并不等价。
3. 元信息与稳定性分析 (Meta Information Analysis): ● 原理:除了依赖外部框架,还可以通过对比 API 的推理延迟时间 (Inference Latency) 和 生成 Token 数量来进行判断。面对同一个问题,官方 API 通常会表现出稳定的延迟和 Token 输出数,而影子 API 由于频繁更换上游模型或路由策略混乱,这些指标会出现无规律的剧烈波动,变异性通常会超过官方 API 的 1.2 倍甚至 2.0 倍。 ● 自行检测标准:在预留的测试集上进行至少三次独立的会话测试。如果发现准确率的标准差超过 5 个百分点,或者推理延迟的变异系数超过 0.15,则说明该 API 的后端极不稳定或存在动态模型替换现象。
考虑到后面 2 种方案的复杂度,我基于第一种方案,也就是 LLMmap 做了些魔改与测试,发现这种方案确实可以一定程度上识别出来不同 Endpoint 上的模型是否属于同一个模型。
简单来说,我使用自行搭建的中转站中的 grok-4.1-mini 与 grok-3-mini 来进行对比
1. 实验 A:快速冒烟检查:当使用 2 rounds x 1 prompt conf 时,无法得到确定结论
2. 实验 B:中等强度验证:增大样本数,4 rounds x 1 prompt conf 时,结果显示 likely_same_model,也就说算法判断 2 个模型可能是同一种模型
3. 实验 C:更强采样下的正式验证:继续增大样本数到 6 rounds x 2 prompt confs 时已经可以明确得出 likely_different_model 结论了,也就是说算法检测出来属于 2 种不同的模型了。详细的实验报告可以参考 LLMmap/docs/experiment.zh.md
在实验 C 中,一共调用了 192 轮 API 请求,理论上继续增大样本数,结论会更有说服力。实验 B 中的结论很可能是随机噪声权重依然比较大导致的错误结论。
目前整体试验还比较简单,佬友们可以参考代码,继续测试一些其他场景,看看这种方法是否真的能够检测出来不同模型的指纹。
魔改的代码库详见 GitHub - M1n9X/LLMmap · GitHub
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: M1n9X)
海外有那种10年低价域名吗?
我在国内公有云注册过 180¥/10年 的低价域名,不过海外有没有类似的。
9 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Koala)
我在国内公有云注册过 180¥/10年 的低价域名,不过海外有没有类似的。
9 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Koala)
腾讯QClaw内测邀请码 * 1(乌龙事件)
腾讯QClaw内测邀请码 * 1,有需要的佬友可以积极评论哦
抽奖工具:https://lottery.linux.do/
6 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: GoAndRun)
腾讯QClaw内测邀请码 * 1,有需要的佬友可以积极评论哦
抽奖工具:https://lottery.linux.do/
6 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: GoAndRun)
Google AI Studio 现在与 Firebase 集成
Google – 18 Mar 26
Introducing the new full-stack vibe coding experience in Google AI Studio
Start building real apps for the modern web with the Antigravity coding agent and Firebase integration now in Google AI Studio.
对,现在有 Next.js 了
The Firebase Blog
From prompt to production: Build full-stack apps faster with Google AI Studio...
Today, we’re announcing that Firebase is now integrated with Google AI Studio, accelerating your path from prompt to production so you can turn your vibe-coded ideas into fully functional apps with robust backends. Read on to learn how this works and...
结果 firebase studio 倒闭是产品线合并的结果啊
3 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: stevessr)
Google – 18 Mar 26
Introducing the new full-stack vibe coding experience in Google AI Studio
Start building real apps for the modern web with the Antigravity coding agent and Firebase integration now in Google AI Studio.
对,现在有 Next.js 了
The Firebase Blog
From prompt to production: Build full-stack apps faster with Google AI Studio...
Today, we’re announcing that Firebase is now integrated with Google AI Studio, accelerating your path from prompt to production so you can turn your vibe-coded ideas into fully functional apps with robust backends. Read on to learn how this works and...
结果 firebase studio 倒闭是产品线合并的结果啊
3 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: stevessr)