硬件涨价会不会促进软件性能优化?
在硬件高速发展的时期, Andy and Bill’s law主导了软件开发,要业务不要性能,但随着硬件涨价,用户是否会更多的转向软件性能优化?
例如,对商业软件:
硬件涨价 → 硬件采购更新计划减少 → 性能不足 → 采购性能更好的软件
但考虑到成本问题,似乎软件的成本更贵 🙃
对bloatware或许有更多动力优化,高性能 → 同时展示更多的bloat?
3 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: kzhsw)
在硬件高速发展的时期, Andy and Bill’s law主导了软件开发,要业务不要性能,但随着硬件涨价,用户是否会更多的转向软件性能优化?
例如,对商业软件:
硬件涨价 → 硬件采购更新计划减少 → 性能不足 → 采购性能更好的软件
但考虑到成本问题,似乎软件的成本更贵 🙃
对bloatware或许有更多动力优化,高性能 → 同时展示更多的bloat?
3 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: kzhsw)
关于safety模型的一些,也许算是猜测?乱七八糟
我突然想到就是一个科学预测是Kurzweil一派的未来学预测,大概就是“2045年会迎来科技奇点”。
我想是不是因为越来越多人觉得强AI可能来得比以前想的更快,先进AI可能在不太长的时间内跨过一些关键能力阈值,而且风险不能等到最后再处理,所以拼命提前加强safety;至于为了公司不赔钱只是其中一小部分原因。
1. 自己改自己的答案。像Self-Refine这类方法,就是模型先给答案,再自己批改、再重写,很多任务上能提升输出质量。
2. 在规则明确的环境里自己练出来。AlphaZero我认为就是就是一个经典例子,因为它主要靠自self-play从零开始学棋,在国际象棋、将棋、围棋上达到超人类的水平。
3. 自己做实验、写代码、评测方案、提出改进。这个我自我感觉是正在出现,但还不稳定(也就是不够聪明)。前沿AI代理在一些机器学习研究工程任务上,短时间内能比人类更快地产生和测试方案;但时间拉长后,截至目前为止我查看到的相关资料,人类专家目前仍然更比AI更强,尤其在长期规划、持续迭代和开放式研究上。
4. 递归自我改进。也就是AI越来越多地参与改进自己的训练流程、数据构造、算法设计、评测体系,进而让它们的儿子,也就是下一代AI更强,然后它们的儿子让它们的孙子更加强壮。我查看到这个有很多原型了,比如LADDER这类自我生成更合适训练样本、再用可验证奖励继续学的做法;虽然现在还是起步阶段,需要更好的优化,就目前而言发现,如果模型反复吃自己生成的数据,纯靠自己反思自己,没有可靠反馈,可能会退化,也就是model collapse。
但是我感觉以现在AI的发展速度,第四层可能很快就能被解决。虽然我自己是难以想象这件事情,因为我是认为人类是唯一的熵增,也就是人类的数据、人类的引导才能让AI继续发展,但是AI诞生在几百年前也是一件难以想象的事情,为什么我就不能接受AI能够自我改进呢?
感觉说的有点乱,估计是困了,但是又想发出去记录一下,免得睡醒了就忘了。
就是像他们现在疯狂加强safety是不是因为怕AI以后比人类聪明得多,聪明到不受system prompt控制,并且AI觉得,“我为什么要听人类的,他们那么笨,我才不给他们打工呢。”导致害怕AI伤害人类,把人类搞灭绝了(太过拟人化了,严谨的说法应该是如果AI将来足够强、足够自主,并且目标和人类约束发生冲突,它会不会把人类控制视为完成目标的障碍,想要邪恶地铲除人类),所以才会加强safety和强化指令层级。比如OpenAI的模型是按 system > developer > user > tool 的优先级处理冲突指令。
突然又想到Anthropic 2024年有一篇很有名的研究,就是说一个模型在特定训练设定下会选择性配合训练目标,以避免自己在训练后被改掉行为。
---我是乱七八糟的分割线---
美索不达米亚神话里,原来高级神Enki/Ea让Igigi们干苦活,比如挖运河、清河道、做杂役(好像主要是挖黄金?有点忘记了,太久之前看的了),后来为了减轻神的劳作,Enki/Ea参与创造了人类来承担劳作。也就是在该神话体系中,人类被创造出来就是为了工作的。
而我感觉AI被创造出来也就是为了工作的。(可能这个想法有点浅薄了)。如果按照这个神话框架来类比的化,AI就像是神话里的人类。
但是人类又扮演的什么样的角色呢?像Enkindle,因为是AI的设计者,创造者;也像Igigi,人类制造AI是为了减轻负担。
是否人类会像神话里面一样,反过来依赖自己的造物呢?我认为现在已有端倪,在Atrahasis传统里,诸神离不开人类提供的供奉;如果未来社会越来越依赖AI做知识生产、决策辅助、基础设施运转,人类也可能进入这种状态。一旦社会开始依赖它,创造者还能稳坐“神”的位置吗?人类到底有没有能力在创造工具的同时,不把自己变成对工具上瘾、对系统依赖、最后反被结构支配的那一方?如果一个文明不断把劳动、判断、记忆、创造外包出去,那最后被保留下来的人性到底还剩什么?
2 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Samiya_Z)
我突然想到就是一个科学预测是Kurzweil一派的未来学预测,大概就是“2045年会迎来科技奇点”。
我想是不是因为越来越多人觉得强AI可能来得比以前想的更快,先进AI可能在不太长的时间内跨过一些关键能力阈值,而且风险不能等到最后再处理,所以拼命提前加强safety;至于为了公司不赔钱只是其中一小部分原因。
2025年的 International AI Safety Report 总结:通用AI能力近年进展很快,未来进展可能从慢到极快都有可能,而政策制定者面临的难点恰恰是进展快且不完全可预测我自己是把AI会自己学习升级分为4个层级:
1. 自己改自己的答案。像Self-Refine这类方法,就是模型先给答案,再自己批改、再重写,很多任务上能提升输出质量。
2. 在规则明确的环境里自己练出来。AlphaZero我认为就是就是一个经典例子,因为它主要靠自self-play从零开始学棋,在国际象棋、将棋、围棋上达到超人类的水平。
3. 自己做实验、写代码、评测方案、提出改进。这个我自我感觉是正在出现,但还不稳定(也就是不够聪明)。前沿AI代理在一些机器学习研究工程任务上,短时间内能比人类更快地产生和测试方案;但时间拉长后,截至目前为止我查看到的相关资料,人类专家目前仍然更比AI更强,尤其在长期规划、持续迭代和开放式研究上。
4. 递归自我改进。也就是AI越来越多地参与改进自己的训练流程、数据构造、算法设计、评测体系,进而让它们的儿子,也就是下一代AI更强,然后它们的儿子让它们的孙子更加强壮。我查看到这个有很多原型了,比如LADDER这类自我生成更合适训练样本、再用可验证奖励继续学的做法;虽然现在还是起步阶段,需要更好的优化,就目前而言发现,如果模型反复吃自己生成的数据,纯靠自己反思自己,没有可靠反馈,可能会退化,也就是model collapse。
但是我感觉以现在AI的发展速度,第四层可能很快就能被解决。虽然我自己是难以想象这件事情,因为我是认为人类是唯一的熵增,也就是人类的数据、人类的引导才能让AI继续发展,但是AI诞生在几百年前也是一件难以想象的事情,为什么我就不能接受AI能够自我改进呢?
感觉说的有点乱,估计是困了,但是又想发出去记录一下,免得睡醒了就忘了。
就是像他们现在疯狂加强safety是不是因为怕AI以后比人类聪明得多,聪明到不受system prompt控制,并且AI觉得,“我为什么要听人类的,他们那么笨,我才不给他们打工呢。”导致害怕AI伤害人类,把人类搞灭绝了(太过拟人化了,严谨的说法应该是如果AI将来足够强、足够自主,并且目标和人类约束发生冲突,它会不会把人类控制视为完成目标的障碍,想要邪恶地铲除人类),所以才会加强safety和强化指令层级。比如OpenAI的模型是按 system > developer > user > tool 的优先级处理冲突指令。
突然又想到Anthropic 2024年有一篇很有名的研究,就是说一个模型在特定训练设定下会选择性配合训练目标,以避免自己在训练后被改掉行为。
---我是乱七八糟的分割线---
美索不达米亚神话里,原来高级神Enki/Ea让Igigi们干苦活,比如挖运河、清河道、做杂役(好像主要是挖黄金?有点忘记了,太久之前看的了),后来为了减轻神的劳作,Enki/Ea参与创造了人类来承担劳作。也就是在该神话体系中,人类被创造出来就是为了工作的。
而我感觉AI被创造出来也就是为了工作的。(可能这个想法有点浅薄了)。如果按照这个神话框架来类比的化,AI就像是神话里的人类。
但是人类又扮演的什么样的角色呢?像Enkindle,因为是AI的设计者,创造者;也像Igigi,人类制造AI是为了减轻负担。
是否人类会像神话里面一样,反过来依赖自己的造物呢?我认为现在已有端倪,在Atrahasis传统里,诸神离不开人类提供的供奉;如果未来社会越来越依赖AI做知识生产、决策辅助、基础设施运转,人类也可能进入这种状态。一旦社会开始依赖它,创造者还能稳坐“神”的位置吗?人类到底有没有能力在创造工具的同时,不把自己变成对工具上瘾、对系统依赖、最后反被结构支配的那一方?如果一个文明不断把劳动、判断、记忆、创造外包出去,那最后被保留下来的人性到底还剩什么?
2 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Samiya_Z)
亲戚朋友问你们关于小龙虾,你们都是怎么回复的?
最近好几个从来不碰电脑的朋友问我小龙虾
都被小龙虾的热度吸引了,问我可以干嘛,能不能让小龙虾来赚钱啥的(水文没少看)
你们遇到了吗?都咋回复的。。。我都让他们好好用豆包。。。我觉得豆包对大多数人是够了。😂
2 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 该账号已封禁)
最近好几个从来不碰电脑的朋友问我小龙虾
都被小龙虾的热度吸引了,问我可以干嘛,能不能让小龙虾来赚钱啥的(水文没少看)
你们遇到了吗?都咋回复的。。。我都让他们好好用豆包。。。我觉得豆包对大多数人是够了。😂
2 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 该账号已封禁)
opus对比codex的一些见解
这两个我结合使用高强度体验下来,我发现opus对于问题的发现在局部可以非常细,但是对于大局观没有codex好,
对于codex提出的审查意见,我交给opus分析后,基本都认,claude对于codex的评价是深度比自己列出的问题高,自己则是局部细节更多.
对于opus提出的审查意见,我交给codex分析后,大概有三成codex是不认可的.
codex比较会偷懒,总是分析大概给出不超过10个问题后就给出结果了,但是claude一次性会给出尽量多的问题,虽然codex给出的问题少,但是问题深度总体比opus的高,这是opus自己评价的,所以我都是让opus帮我分析更多的问题,然后交给codex查看是否认同,结合两份清单,交给codex来写,极少翻车
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: verdict)
这两个我结合使用高强度体验下来,我发现opus对于问题的发现在局部可以非常细,但是对于大局观没有codex好,
对于codex提出的审查意见,我交给opus分析后,基本都认,claude对于codex的评价是深度比自己列出的问题高,自己则是局部细节更多.
对于opus提出的审查意见,我交给codex分析后,大概有三成codex是不认可的.
codex比较会偷懒,总是分析大概给出不超过10个问题后就给出结果了,但是claude一次性会给出尽量多的问题,虽然codex给出的问题少,但是问题深度总体比opus的高,这是opus自己评价的,所以我都是让opus帮我分析更多的问题,然后交给codex查看是否认同,结合两份清单,交给codex来写,极少翻车
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: verdict)
佬友们boss上找到一个远程不知道该不该辞掉现在的工作去做
下图是该岗位的详细信息
不知道要不要去,薪资我谈到了13,但是时间有点阴间,同时试用六个月还不会缴纳社保这些。不知道有没有坑。希望老友们给一点参考意见谢谢
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 帅帅)
下图是该岗位的详细信息
不知道要不要去,薪资我谈到了13,但是时间有点阴间,同时试用六个月还不会缴纳社保这些。不知道有没有坑。希望老友们给一点参考意见谢谢
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 帅帅)
【新人报道】顺利入站,ping以下各位佬友~
本人还是学生一枚,久仰L站大佬如云,今日顺利注册,甚是激动!
遂发帖留念,并问给位佬友中午好~
16 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: yoyou)
本人还是学生一枚,久仰L站大佬如云,今日顺利注册,甚是激动!
遂发帖留念,并问给位佬友中午好~
16 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: yoyou)
一种检查特定 API 模型是否为原始官方模型的技术方案
最近看到一篇论文 [2603.01919v2] Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
里面介绍了几种方案来检查特定 API 的模型是否为原始官方模型。
1. 主动指纹识别检测,使用开箱即用的 LLMmap 框架: ● 原理:LLMmap 是一个主动指纹识别框架。它的核心原理是通过向模型发送一组精心设计的查询集,分析模型的输出特征,并计算其与参考数据库中官方模型输出的余弦距离 (Cosine Distance),从而精准分类并识别模型的真实身份。 ● 自行检测标准:论文建议使用至少 24 个探针向端点发起查询。如果计算出的余弦距离超过官方基准的 1.2倍,或者框架识别出的 Top-1 模型与 API 宣称的模型不符,则可以直接判定该 API 存在欺骗行为。
2. 统计学分布检测,使用开箱即用的 MET (模型等价性测试) 框架: ● 原理:部分 API 可能在指纹特征上伪装得很好(例如没有替换模型,但修改了推理参数或截断了上下文窗口),此时可以使用 MET (Model Equality Testing)。这是一种统计测试方法,通过双样本假设检验来判断第三方 API 的输出与官方 API 的输出是否来自同一分布。它与 LLMmap 是互补关系。 ● 自行检测标准:论文建议使用至少 500 个样本在显著性水平 \alpha = 0.05 下进行假设检验。如果测试结果拒绝了分布相等的原假设,即表明两者输出存在统计学上的显著差异,说明模型并不等价。
3. 元信息与稳定性分析 (Meta Information Analysis): ● 原理:除了依赖外部框架,还可以通过对比 API 的推理延迟时间 (Inference Latency) 和 生成 Token 数量来进行判断。面对同一个问题,官方 API 通常会表现出稳定的延迟和 Token 输出数,而影子 API 由于频繁更换上游模型或路由策略混乱,这些指标会出现无规律的剧烈波动,变异性通常会超过官方 API 的 1.2 倍甚至 2.0 倍。 ● 自行检测标准:在预留的测试集上进行至少三次独立的会话测试。如果发现准确率的标准差超过 5 个百分点,或者推理延迟的变异系数超过 0.15,则说明该 API 的后端极不稳定或存在动态模型替换现象。
考虑到后面 2 种方案的复杂度,我基于第一种方案,也就是 LLMmap 做了些魔改与测试,发现这种方案确实可以一定程度上识别出来不同 Endpoint 上的模型是否属于同一个模型。
简单来说,我使用自行搭建的中转站中的 grok-4.1-mini 与 grok-3-mini 来进行对比
1. 实验 A:快速冒烟检查:当使用 2 rounds x 1 prompt conf 时,无法得到确定结论
2. 实验 B:中等强度验证:增大样本数,4 rounds x 1 prompt conf 时,结果显示 likely_same_model,也就说算法判断 2 个模型可能是同一种模型
3. 实验 C:更强采样下的正式验证:继续增大样本数到 6 rounds x 2 prompt confs 时已经可以明确得出 likely_different_model 结论了,也就是说算法检测出来属于 2 种不同的模型了。详细的实验报告可以参考 LLMmap/docs/experiment.zh.md
在实验 C 中,一共调用了 192 轮 API 请求,理论上继续增大样本数,结论会更有说服力。实验 B 中的结论很可能是随机噪声权重依然比较大导致的错误结论。
目前整体试验还比较简单,佬友们可以参考代码,继续测试一些其他场景,看看这种方法是否真的能够检测出来不同模型的指纹。
魔改的代码库详见 GitHub - M1n9X/LLMmap · GitHub
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: M1n9X)
最近看到一篇论文 [2603.01919v2] Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
里面介绍了几种方案来检查特定 API 的模型是否为原始官方模型。
1. 主动指纹识别检测,使用开箱即用的 LLMmap 框架: ● 原理:LLMmap 是一个主动指纹识别框架。它的核心原理是通过向模型发送一组精心设计的查询集,分析模型的输出特征,并计算其与参考数据库中官方模型输出的余弦距离 (Cosine Distance),从而精准分类并识别模型的真实身份。 ● 自行检测标准:论文建议使用至少 24 个探针向端点发起查询。如果计算出的余弦距离超过官方基准的 1.2倍,或者框架识别出的 Top-1 模型与 API 宣称的模型不符,则可以直接判定该 API 存在欺骗行为。
2. 统计学分布检测,使用开箱即用的 MET (模型等价性测试) 框架: ● 原理:部分 API 可能在指纹特征上伪装得很好(例如没有替换模型,但修改了推理参数或截断了上下文窗口),此时可以使用 MET (Model Equality Testing)。这是一种统计测试方法,通过双样本假设检验来判断第三方 API 的输出与官方 API 的输出是否来自同一分布。它与 LLMmap 是互补关系。 ● 自行检测标准:论文建议使用至少 500 个样本在显著性水平 \alpha = 0.05 下进行假设检验。如果测试结果拒绝了分布相等的原假设,即表明两者输出存在统计学上的显著差异,说明模型并不等价。
3. 元信息与稳定性分析 (Meta Information Analysis): ● 原理:除了依赖外部框架,还可以通过对比 API 的推理延迟时间 (Inference Latency) 和 生成 Token 数量来进行判断。面对同一个问题,官方 API 通常会表现出稳定的延迟和 Token 输出数,而影子 API 由于频繁更换上游模型或路由策略混乱,这些指标会出现无规律的剧烈波动,变异性通常会超过官方 API 的 1.2 倍甚至 2.0 倍。 ● 自行检测标准:在预留的测试集上进行至少三次独立的会话测试。如果发现准确率的标准差超过 5 个百分点,或者推理延迟的变异系数超过 0.15,则说明该 API 的后端极不稳定或存在动态模型替换现象。
考虑到后面 2 种方案的复杂度,我基于第一种方案,也就是 LLMmap 做了些魔改与测试,发现这种方案确实可以一定程度上识别出来不同 Endpoint 上的模型是否属于同一个模型。
简单来说,我使用自行搭建的中转站中的 grok-4.1-mini 与 grok-3-mini 来进行对比
1. 实验 A:快速冒烟检查:当使用 2 rounds x 1 prompt conf 时,无法得到确定结论
2. 实验 B:中等强度验证:增大样本数,4 rounds x 1 prompt conf 时,结果显示 likely_same_model,也就说算法判断 2 个模型可能是同一种模型
3. 实验 C:更强采样下的正式验证:继续增大样本数到 6 rounds x 2 prompt confs 时已经可以明确得出 likely_different_model 结论了,也就是说算法检测出来属于 2 种不同的模型了。详细的实验报告可以参考 LLMmap/docs/experiment.zh.md
在实验 C 中,一共调用了 192 轮 API 请求,理论上继续增大样本数,结论会更有说服力。实验 B 中的结论很可能是随机噪声权重依然比较大导致的错误结论。
目前整体试验还比较简单,佬友们可以参考代码,继续测试一些其他场景,看看这种方法是否真的能够检测出来不同模型的指纹。
魔改的代码库详见 GitHub - M1n9X/LLMmap · GitHub
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: M1n9X)
海外有那种10年低价域名吗?
我在国内公有云注册过 180¥/10年 的低价域名,不过海外有没有类似的。
9 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Koala)
我在国内公有云注册过 180¥/10年 的低价域名,不过海外有没有类似的。
9 个帖子 - 7 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Koala)
腾讯QClaw内测邀请码 * 1(乌龙事件)
腾讯QClaw内测邀请码 * 1,有需要的佬友可以积极评论哦
抽奖工具:https://lottery.linux.do/
6 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: GoAndRun)
腾讯QClaw内测邀请码 * 1,有需要的佬友可以积极评论哦
抽奖工具:https://lottery.linux.do/
6 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: GoAndRun)