linux.do

硬件涨价会不会促进软件性能优化？

在硬件高速发展的时期， Andy and Bill’s law主导了软件开发，要业务不要性能，但随着硬件涨价，用户是否会更多的转向软件性能优化？
例如，对商业软件：
硬件涨价 → 硬件采购更新计划减少 → 性能不足 → 采购性能更好的软件

但考虑到成本问题，似乎软件的成本更贵 🙃

对bloatware或许有更多动力优化，高性能 → 同时展示更多的bloat？

3 个帖子 - 3 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: kzhsw)

24 views05:06

linux.do

关于safety模型的一些，也许算是猜测？乱七八糟

我突然想到就是一个科学预测是Kurzweil一派的未来学预测，大概就是“2045年会迎来科技奇点”。

我想是不是因为越来越多人觉得强AI可能来得比以前想的更快，先进AI可能在不太长的时间内跨过一些关键能力阈值,而且风险不能等到最后再处理，所以拼命提前加强safety；至于为了公司不赔钱只是其中一小部分原因。

2025年的 International AI Safety Report 总结：通用AI能力近年进展很快，未来进展可能从慢到极快都有可能，而政策制定者面临的难点恰恰是进展快且不完全可预测

我自己是把AI会自己学习升级分为4个层级：

1. 自己改自己的答案。像Self-Refine这类方法，就是模型先给答案，再自己批改、再重写，很多任务上能提升输出质量。
2. 在规则明确的环境里自己练出来。AlphaZero我认为就是就是一个经典例子，因为它主要靠自self-play从零开始学棋，在国际象棋、将棋、围棋上达到超人类的水平。
3. 自己做实验、写代码、评测方案、提出改进。这个我自我感觉是正在出现，但还不稳定（也就是不够聪明）。前沿AI代理在一些机器学习研究工程任务上，短时间内能比人类更快地产生和测试方案；但时间拉长后，截至目前为止我查看到的相关资料，人类专家目前仍然更比AI更强，尤其在长期规划、持续迭代和开放式研究上。
4. 递归自我改进。也就是AI越来越多地参与改进自己的训练流程、数据构造、算法设计、评测体系，进而让它们的儿子，也就是下一代AI更强，然后它们的儿子让它们的孙子更加强壮。我查看到这个有很多原型了，比如LADDER这类自我生成更合适训练样本、再用可验证奖励继续学的做法；虽然现在还是起步阶段，需要更好的优化，就目前而言发现，如果模型反复吃自己生成的数据，纯靠自己反思自己，没有可靠反馈，可能会退化，也就是model collapse。

但是我感觉以现在AI的发展速度，第四层可能很快就能被解决。虽然我自己是难以想象这件事情，因为我是认为人类是唯一的熵增，也就是人类的数据、人类的引导才能让AI继续发展，但是AI诞生在几百年前也是一件难以想象的事情，为什么我就不能接受AI能够自我改进呢？

感觉说的有点乱，估计是困了，但是又想发出去记录一下，免得睡醒了就忘了。

就是像他们现在疯狂加强safety是不是因为怕AI以后比人类聪明得多，聪明到不受system prompt控制，并且AI觉得，“我为什么要听人类的，他们那么笨，我才不给他们打工呢。”导致害怕AI伤害人类，把人类搞灭绝了（太过拟人化了，严谨的说法应该是如果AI将来足够强、足够自主，并且目标和人类约束发生冲突，它会不会把人类控制视为完成目标的障碍，想要邪恶地铲除人类），所以才会加强safety和强化指令层级。比如OpenAI的模型是按 system > developer > user > tool 的优先级处理冲突指令。

突然又想到Anthropic 2024年有一篇很有名的研究，就是说一个模型在特定训练设定下会选择性配合训练目标，以避免自己在训练后被改掉行为。

－－－我是乱七八糟的分割线－－－

美索不达米亚神话里，原来高级神Enki/Ea让Igigi们干苦活，比如挖运河、清河道、做杂役（好像主要是挖黄金？有点忘记了，太久之前看的了），后来为了减轻神的劳作，Enki/Ea参与创造了人类来承担劳作。也就是在该神话体系中，人类被创造出来就是为了工作的。

而我感觉AI被创造出来也就是为了工作的。（可能这个想法有点浅薄了）。如果按照这个神话框架来类比的化，AI就像是神话里的人类。

但是人类又扮演的什么样的角色呢？像Enkindle，因为是AI的设计者，创造者；也像Igigi，人类制造AI是为了减轻负担。

是否人类会像神话里面一样，反过来依赖自己的造物呢？我认为现在已有端倪，在Atrahasis传统里，诸神离不开人类提供的供奉；如果未来社会越来越依赖AI做知识生产、决策辅助、基础设施运转，人类也可能进入这种状态。一旦社会开始依赖它，创造者还能稳坐“神”的位置吗？人类到底有没有能力在创造工具的同时，不把自己变成对工具上瘾、对系统依赖、最后反被结构支配的那一方？如果一个文明不断把劳动、判断、记忆、创造外包出去，那最后被保留下来的人性到底还剩什么？

2 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Samiya_Z)

23 views05:06

linux.do

抽一个QClaw内测资格邀请码

（话题已被作者删除）

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: GoAndRun)

25 views05:06

linux.do

亲戚朋友问你们关于小龙虾，你们都是怎么回复的？

最近好几个从来不碰电脑的朋友问我小龙虾

都被小龙虾的热度吸引了，问我可以干嘛，能不能让小龙虾来赚钱啥的（水文没少看）

你们遇到了吗？都咋回复的。。。我都让他们好好用豆包。。。我觉得豆包对大多数人是够了。😂

2 个帖子 - 2 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 该账号已封禁)

23 views05:06

linux.do

也许人只是需要温暖？

via LINUX DO - 最新话题 (author: stevessr backup)

Telegraph

也许人只是需要温暖？

也许你只是需要一个温暖的对象？[1] 人会感觉自己一世无成吗？怎么又是她…… 怎么还有实习的诱惑哦……也许该睡觉了？真是一对……啊但是对象哪里领取啊😭 ↩︎ 6 个帖子 - 3 位参与者阅读完整话题 Generated by RSStT. The copyright belongs to the original author. Source

22 views05:06

linux.do

opus对比codex的一些见解

这两个我结合使用高强度体验下来,我发现opus对于问题的发现在局部可以非常细,但是对于大局观没有codex好,
对于codex提出的审查意见,我交给opus分析后,基本都认,claude对于codex的评价是深度比自己列出的问题高,自己则是局部细节更多.
对于opus提出的审查意见,我交给codex分析后,大概有三成codex是不认可的.
codex比较会偷懒,总是分析大概给出不超过10个问题后就给出结果了,但是claude一次性会给出尽量多的问题,虽然codex给出的问题少,但是问题深度总体比opus的高,这是opus自己评价的,所以我都是让opus帮我分析更多的问题,然后交给codex查看是否认同,结合两份清单,交给codex来写,极少翻车

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: verdict)

25 views05:06

linux.do

minimaxi不地道啊.

一个月有效期, 直接给你调成1天.
有点玩不起了吧.
1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: XC W)

29 views05:06

linux.do

Telegram必备的搜索引擎，极搜JISOU帮你精准找到，想要的群组、频道、视频、音乐

👉 t.me/jisou?start=a_7387292324

30 views05:06

极搜🔍资源搜索

linux.do

佬友们boss上找到一个远程不知道该不该辞掉现在的工作去做

下图是该岗位的详细信息

不知道要不要去，薪资我谈到了13，但是时间有点阴间，同时试用六个月还不会缴纳社保这些。不知道有没有坑。希望老友们给一点参考意见谢谢
1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 帅帅)

35 views05:06

linux.do

[抽奖] TEST

（话题已被作者删除）

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: GoAndRun)

37 views05:06

linux.do

【新人报道】顺利入站，ping以下各位佬友~

本人还是学生一枚，久仰L站大佬如云，今日顺利注册，甚是激动！
遂发帖留念，并问给位佬友中午好~

16 个帖子 - 14 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: yoyou)

40 views05:27

linux.do

新人报道来学习

大家好，我是嗋玏，学生一枚，关注 AI 和 Linux，来社区学习交流。

5 个帖子 - 5 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: 喻琨)

39 views05:27

linux.do

一种检查特定 API 模型是否为原始官方模型的技术方案

最近看到一篇论文 [2603.01919v2] Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
里面介绍了几种方案来检查特定 API 的模型是否为原始官方模型。

1. 主动指纹识别检测，使用开箱即用的 LLMmap 框架： ● 原理：LLMmap 是一个主动指纹识别框架。它的核心原理是通过向模型发送一组精心设计的查询集，分析模型的输出特征，并计算其与参考数据库中官方模型输出的余弦距离 (Cosine Distance)，从而精准分类并识别模型的真实身份。 ● 自行检测标准：论文建议使用至少 24 个探针向端点发起查询。如果计算出的余弦距离超过官方基准的 1.2倍，或者框架识别出的 Top-1 模型与 API 宣称的模型不符，则可以直接判定该 API 存在欺骗行为。
2. 统计学分布检测，使用开箱即用的 MET (模型等价性测试) 框架： ● 原理：部分 API 可能在指纹特征上伪装得很好（例如没有替换模型，但修改了推理参数或截断了上下文窗口），此时可以使用 MET (Model Equality Testing)。这是一种统计测试方法，通过双样本假设检验来判断第三方 API 的输出与官方 API 的输出是否来自同一分布。它与 LLMmap 是互补关系。 ● 自行检测标准：论文建议使用至少 500 个样本在显著性水平 \alpha = 0.05 下进行假设检验。如果测试结果拒绝了分布相等的原假设，即表明两者输出存在统计学上的显著差异，说明模型并不等价。
3. 元信息与稳定性分析 (Meta Information Analysis)： ● 原理：除了依赖外部框架，还可以通过对比 API 的推理延迟时间 (Inference Latency) 和 生成 Token 数量来进行判断。面对同一个问题，官方 API 通常会表现出稳定的延迟和 Token 输出数，而影子 API 由于频繁更换上游模型或路由策略混乱，这些指标会出现无规律的剧烈波动，变异性通常会超过官方 API 的 1.2 倍甚至 2.0 倍。 ● 自行检测标准：在预留的测试集上进行至少三次独立的会话测试。如果发现准确率的标准差超过 5 个百分点，或者推理延迟的变异系数超过 0.15，则说明该 API 的后端极不稳定或存在动态模型替换现象。

考虑到后面 2 种方案的复杂度，我基于第一种方案，也就是 LLMmap 做了些魔改与测试，发现这种方案确实可以一定程度上识别出来不同 Endpoint 上的模型是否属于同一个模型。

简单来说，我使用自行搭建的中转站中的 grok-4.1-mini 与 grok-3-mini 来进行对比

1. 实验 A：快速冒烟检查：当使用 2 rounds x 1 prompt conf 时，无法得到确定结论
2. 实验 B：中等强度验证：增大样本数，4 rounds x 1 prompt conf 时，结果显示 likely_same_model，也就说算法判断 2 个模型可能是同一种模型
3. 实验 C：更强采样下的正式验证：继续增大样本数到 6 rounds x 2 prompt confs 时已经可以明确得出 likely_different_model 结论了，也就是说算法检测出来属于 2 种不同的模型了。详细的实验报告可以参考 LLMmap/docs/experiment.zh.md

在实验 C 中，一共调用了 192 轮 API 请求，理论上继续增大样本数，结论会更有说服力。实验 B 中的结论很可能是随机噪声权重依然比较大导致的错误结论。

目前整体试验还比较简单，佬友们可以参考代码，继续测试一些其他场景，看看这种方法是否真的能够检测出来不同模型的指纹。
魔改的代码库详见 GitHub - M1n9X/LLMmap · GitHub

1 个帖子 - 1 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: M1n9X)

25 views05:27

linux.do

海外有那种10年低价域名吗？

我在国内公有云注册过 180￥/10年的低价域名，不过海外有没有类似的。

9 个帖子 - 7 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: Koala)

19 views05:27

linux.do

腾讯QClaw内测邀请码 * 1（乌龙事件）

腾讯QClaw内测邀请码 * 1，有需要的佬友可以积极评论哦
抽奖工具：https://lottery.linux.do/

6 个帖子 - 4 位参与者

阅读完整话题

via LINUX DO - 最新话题 (author: GoAndRun)

21 views05:27

About

Blog

Apps

Platform