至知研究院发布开源代码模型 IQuest-Coder-V1,超越sonnet 4.5
2025年跨年之际,国内量化私募巨头九坤投资(Ubiquant)创始团队发起的 AI 研究机构——至知研究院(IQuest Research)正式发布其首代开源代码大模型系列 IQuest-Coder-V1。该系列模型在多项权威编程评测中表现强劲,尤其在反映真实软件工程能力的 SWE-bench 指标上,以 81.4% 的成绩刷新了开源模型纪录。
IQuest-Coder-V1 放弃了传统的静态代码训练模式,转而采用创新的 Code-Flow 训练范式。该模型通过学习代码库的历史演变和 Commit 记录,掌握了软件开发的动态逻辑。此外,研究院同步推出了 “Thinking”推理模型 与 “Loop”循环架构 模型,前者通过强化学习模拟人类程序员的思考过程,后者则在有限的参数规模下实现了性能的跨越式提升。
目前,IQuest-Coder-V1 已在 GitHub 和 Hugging Face 平台全面开源,涵盖从 7B 到 40B 不同参数规模的版本。技术社区普遍认为,IQuest-Coder-V1 的发布将直接挑战 DeepSeek-Coder 在开源代码界的统治地位,为开发者提供更具竞争力的自主编程助手。
介绍页demo
iquestlab.github.io
IQuest Coder
模型仓库
huggingface.co
IQuest-Coder - a IQuestLab Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
8 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: HCPTangHY)
Invalid media:
image
image
image
2025年跨年之际,国内量化私募巨头九坤投资(Ubiquant)创始团队发起的 AI 研究机构——至知研究院(IQuest Research)正式发布其首代开源代码大模型系列 IQuest-Coder-V1。该系列模型在多项权威编程评测中表现强劲,尤其在反映真实软件工程能力的 SWE-bench 指标上,以 81.4% 的成绩刷新了开源模型纪录。
至知研究院由九坤投资创始团队设立,是一个独立于量化交易业务的研究平台。继幻方量化旗下的 DeepSeek 在全球 AI 领域声名鹊起后,九坤背景的至知研究院此番动作被市场视为量化圈在 AGI 领域的又一次“降维打击”。至知研究院表示,其目标是致力于原创性 AI 技术研究,加速 AI 在垂直领域的工业化落地。技术突破:从“静态代码”到“动态流”
IQuest-Coder-V1 放弃了传统的静态代码训练模式,转而采用创新的 Code-Flow 训练范式。该模型通过学习代码库的历史演变和 Commit 记录,掌握了软件开发的动态逻辑。此外,研究院同步推出了 “Thinking”推理模型 与 “Loop”循环架构 模型,前者通过强化学习模拟人类程序员的思考过程,后者则在有限的参数规模下实现了性能的跨越式提升。
目前,IQuest-Coder-V1 已在 GitHub 和 Hugging Face 平台全面开源,涵盖从 7B 到 40B 不同参数规模的版本。技术社区普遍认为,IQuest-Coder-V1 的发布将直接挑战 DeepSeek-Coder 在开源代码界的统治地位,为开发者提供更具竞争力的自主编程助手。
介绍页demo
iquestlab.github.io
IQuest Coder
模型仓库
huggingface.co
IQuest-Coder - a IQuestLab Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
8 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: HCPTangHY)
Invalid media:
image
image
image
韩国发布自研大模型Solar Open 100B
Upstage 发布了其专有的人工智慧 (AI) 模型“Solar-Open-100B”,并表示它将建立“最了解韩国文化甚至韩语细微差别的韩国人工智慧”。
Solar Open 是 Upstage 的旗舰型 102B参数大规模语言模型,完全从零开始训练,并在 Solar-Apache 许可证 2.0(参见 LICENSE)下发布。作为一种专家混合(Mixture-of-Experts, MoE)架构,它在推理、指令遵循和代理能力方面提供企业级表现,同时优先考虑对开源社区的透明性和可定制性。
亮点
● MoE 架构(102B / 12B):基于专家混合架构,总参数量为 1020 亿 / 活跃参数为 120 亿。该设计在提供大型模型知识深度的同时,兼顾了更小模型的推理速度和成本效率。
● 大规模训练:在 19.7 万亿(19.7 trillion)Token 上进行了预训练,确保在多个领域具有广泛的知识覆盖和稳健的推理能力。
Upstage 首席执行官金成勋在 30 日于首尔三成洞 COEX 礼堂举行的独立人工智能基金会模式项目首次简报会上表示:“与大型企业不同,Upstage 在过去的五年里一直专注于一个目标:构建能够帮助每个人的人工智能。”
这次首发版本展示的Solar-Open模型是一个1000亿级(1000亿)的大型语言模型(LLM)。 Kim表示:“该模型已超越简单的实验阶段,并已完善到可以部署到实际服务和工作环境中的水平。”他还补充道:“我们同时注重验证其性能和效率。”
Upstage 强调了 Solar-Open 基于高品质数据的韩语理解能力是其竞争优势。 Kim 表示:「我们的目标不仅是精通韩语,而是要建构能够理解语境、情感和细微差别的 AI。」他着重强调了敬语和非正式用语之间的区别、根据情境变化的表达方式,以及对需要逐步推理的问题的回答。
在训练过程中,资源效率和训练稳定性被认定为核心任务。 Kim表示:“由于我们使用政府支持的GPU进行训练,因此我们优先考虑资源效率。”他补充道:“通过自动故障检测和故障转移系统以及训练优化,即使在大规模GPU环境下,我们也显著缩短了整体训练时间。”
Upstage也强调,该模式是透过联盟内部的角色分工来实现的。 Upstage联盟是五支菁英团队中唯一完全由新创公司组成的团队。
Upstage 也公布了下一代模型的计划。明年,该模型将扩展到 2000 亿级语言学习模型 (LLM),使用 15 兆个代币进行训练,支援 25.6 万个上下文,并新增韩语、英语和日语三种语言。最终,该公司计划专注于模型的泛化能力和普及性,将模型扩展到 3000 亿级,同时扩大训练资料和上下文的范围。
金补充道:“我们的目标只有一个,”他说,“我们将与众多联盟一起,利用太阳能LLM技术,帮助打造一个能够与谷歌和OpenAI竞争的全球人工智能三大巨头。”
明年1月,政府将对参与自主人工智慧基础模型计画的团队进行第一阶段评估,全面检视其表现和未来规划,并根据评估结果筛选出四支菁英团队。之后,每六个月进行一次评估,每次减少一支精英团队,最终在2027年选出两支球队。
huggingface.co
upstage/Solar-Open-100B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Bunn)
Invalid media:
image
image
Upstage 发布了其专有的人工智慧 (AI) 模型“Solar-Open-100B”,并表示它将建立“最了解韩国文化甚至韩语细微差别的韩国人工智慧”。
Solar Open 是 Upstage 的旗舰型 102B参数大规模语言模型,完全从零开始训练,并在 Solar-Apache 许可证 2.0(参见 LICENSE)下发布。作为一种专家混合(Mixture-of-Experts, MoE)架构,它在推理、指令遵循和代理能力方面提供企业级表现,同时优先考虑对开源社区的透明性和可定制性。
亮点
● MoE 架构(102B / 12B):基于专家混合架构,总参数量为 1020 亿 / 活跃参数为 120 亿。该设计在提供大型模型知识深度的同时,兼顾了更小模型的推理速度和成本效率。
● 大规模训练:在 19.7 万亿(19.7 trillion)Token 上进行了预训练,确保在多个领域具有广泛的知识覆盖和稳健的推理能力。
Upstage 首席执行官金成勋在 30 日于首尔三成洞 COEX 礼堂举行的独立人工智能基金会模式项目首次简报会上表示:“与大型企业不同,Upstage 在过去的五年里一直专注于一个目标:构建能够帮助每个人的人工智能。”
这次首发版本展示的Solar-Open模型是一个1000亿级(1000亿)的大型语言模型(LLM)。 Kim表示:“该模型已超越简单的实验阶段,并已完善到可以部署到实际服务和工作环境中的水平。”他还补充道:“我们同时注重验证其性能和效率。”
Upstage 强调了 Solar-Open 基于高品质数据的韩语理解能力是其竞争优势。 Kim 表示:「我们的目标不仅是精通韩语,而是要建构能够理解语境、情感和细微差别的 AI。」他着重强调了敬语和非正式用语之间的区别、根据情境变化的表达方式,以及对需要逐步推理的问题的回答。
在训练过程中,资源效率和训练稳定性被认定为核心任务。 Kim表示:“由于我们使用政府支持的GPU进行训练,因此我们优先考虑资源效率。”他补充道:“通过自动故障检测和故障转移系统以及训练优化,即使在大规模GPU环境下,我们也显著缩短了整体训练时间。”
Upstage也强调,该模式是透过联盟内部的角色分工来实现的。 Upstage联盟是五支菁英团队中唯一完全由新创公司组成的团队。
Upstage 也公布了下一代模型的计划。明年,该模型将扩展到 2000 亿级语言学习模型 (LLM),使用 15 兆个代币进行训练,支援 25.6 万个上下文,并新增韩语、英语和日语三种语言。最终,该公司计划专注于模型的泛化能力和普及性,将模型扩展到 3000 亿级,同时扩大训练资料和上下文的范围。
金补充道:“我们的目标只有一个,”他说,“我们将与众多联盟一起,利用太阳能LLM技术,帮助打造一个能够与谷歌和OpenAI竞争的全球人工智能三大巨头。”
明年1月,政府将对参与自主人工智慧基础模型计画的团队进行第一阶段评估,全面检视其表现和未来规划,并根据评估结果筛选出四支菁英团队。之后,每六个月进行一次评估,每次减少一支精英团队,最终在2027年选出两支球队。
huggingface.co
upstage/Solar-Open-100B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Bunn)
Invalid media:
image
image
学生包无法通过
6 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: goal-herring-vice)
Invalid media: image
申请学生包一直在Reason(s):上并没有给出任何原因,在新年之前使用edu并没有该问题一直是直接通过,也没有进入付费界面,今天申请就一直卡在这,也没进入付费就有不批准佬们这是什么原因6 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: goal-herring-vice)
Invalid media: image
2026 可口可乐 nano banana prompt
图像生成:{“质量”:“照片级真实感,4K 分辨率,电影级光照,杰作”,“面部”:{“保留原始面部”:true,“参考匹配”:true},“主体”:{“描述”:“一位面容姣好的时尚女性,身穿优雅的白色露肩婚纱,婚纱上饰有精致的蕾丝纹理。”,“姿势”:“这位女性亲密地依偎在一只巨大的、栩栩如生的北极熊身上;他们像老朋友一样站在一起。”,“表情”:“这位女性脸上带着一丝调皮的微笑;北极熊则流露出一种深情、聪明、快乐的拟人化表情。”},“角色元素”:{“名称”:“逼真的可口可乐北极熊”,“细节”:[“真实的北极熊解剖结构,拥有浓密、乳白色半透明的皮毛”,“毛发清晰可见,皮毛呈现柔和自然的色泽”,“湿润的黑色鼻子和逼真深邃的眼睛,眼角带有细微的鱼尾纹”,“脖子上围着一条磨损的红色针织围巾,上面绣有复古的可口可乐标志和‘2026’字样”,“这只北极熊俏皮地模仿着这位女性的姿势,一只爪子轻轻地搭在她的肩膀附近”]},“环境”:{“背景”:“简约干净的灰蓝色工作室背景,柔和的体积光和地面阴影,上方摆放着巨大的雪雕,构成数字‘2026’。”,“渲染风格”:“国家地理野生动物肖像与高端时尚杂志风格相结合,皮毛具有次表面散射效果,浅景深”},“负面提示”:“3D 渲染、卡通、毛绒玩具、填充动物、玩偶、塑料纹理、低分辨率、CGI、动画、插图、假皮毛”}
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Glorivuer Chou)
Invalid media:
image
image
图像生成:{“质量”:“照片级真实感,4K 分辨率,电影级光照,杰作”,“面部”:{“保留原始面部”:true,“参考匹配”:true},“主体”:{“描述”:“一位面容姣好的时尚女性,身穿优雅的白色露肩婚纱,婚纱上饰有精致的蕾丝纹理。”,“姿势”:“这位女性亲密地依偎在一只巨大的、栩栩如生的北极熊身上;他们像老朋友一样站在一起。”,“表情”:“这位女性脸上带着一丝调皮的微笑;北极熊则流露出一种深情、聪明、快乐的拟人化表情。”},“角色元素”:{“名称”:“逼真的可口可乐北极熊”,“细节”:[“真实的北极熊解剖结构,拥有浓密、乳白色半透明的皮毛”,“毛发清晰可见,皮毛呈现柔和自然的色泽”,“湿润的黑色鼻子和逼真深邃的眼睛,眼角带有细微的鱼尾纹”,“脖子上围着一条磨损的红色针织围巾,上面绣有复古的可口可乐标志和‘2026’字样”,“这只北极熊俏皮地模仿着这位女性的姿势,一只爪子轻轻地搭在她的肩膀附近”]},“环境”:{“背景”:“简约干净的灰蓝色工作室背景,柔和的体积光和地面阴影,上方摆放着巨大的雪雕,构成数字‘2026’。”,“渲染风格”:“国家地理野生动物肖像与高端时尚杂志风格相结合,皮毛具有次表面散射效果,浅景深”},“负面提示”:“3D 渲染、卡通、毛绒玩具、填充动物、玩偶、塑料纹理、低分辨率、CGI、动画、插图、假皮毛”}
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Glorivuer Chou)
Invalid media:
image
image
+86手机号只注册了1次Google就不能再注册了?
新手机号(电信的卡)上个月注册了1个google。
今天想再次注册个,结果提示手机号使用太多次。
用的是苹果手机,美国环境,美国自建ip(纯净度很高),gmail的app注册。
有佬知道咋回事吗?现在google政策这么严格了??
14 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: Daryl_Lee)
新手机号(电信的卡)上个月注册了1个google。
今天想再次注册个,结果提示手机号使用太多次。
用的是苹果手机,美国环境,美国自建ip(纯净度很高),gmail的app注册。
有佬知道咋回事吗?现在google政策这么严格了??
14 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: Daryl_Lee)
分享个今天看到Skills相关的网站等
Skills 聚合网站
● https://skillsmp.com/
● Claude Code Templates - Supercharge Your AI-Powered Development with Anthropic's Claude Code
● https://claudemarketplaces.com/
开源仓库
1. 官方出品
github.com
GitHub - anthropics/skills: Public repository for Agent Skills
Public repository for Agent Skills
ChatGPT/Skills
github.com
GitHub - eliasjudin/oai-skills: The contents of /home/oai/skills in ChatGPT's code...
The contents of /home/oai/skills in ChatGPT's code interpreter environment
2. 民间开源
● superpowers/skills at main · obra/superpowers · GitHub
● GitHub - ComposioHQ/awesome-claude-skills: A curated list of awesome Claude Skills, resources, and tools for customizing Claude AI workflows
● GitHub - BehiSecc/awesome-claude-skills: A curated list of Claude Skills.
● GitHub - VoltAgent/awesome-claude-skills: The awesome collection of Claude Skills and resources.
● GitHub - travisvn/awesome-claude-skills: A curated list of awesome Claude Skills, resources, and tools for customizing Claude AI workflows — particularly Claude Code
● claudekit-skills/.claude/skills at main · mrgoonie/claudekit-skills · GitHub
● GitHub - K-Dense-AI/claude-scientific-skills: A set of ready to use scientific skills for Claude
● my-skills/skills at master · bear2u/my-skills · GitHub
● GitHub - czlonkowski/n8n-skills: n8n skillset for Claude Code to build flawless n8n workflows
● GitHub - huggingface/skills
● GitHub - yusufkaraaslan/Skill_Seekers: Convert documentation websites, GitHub repositories, and PDFs into Claude AI skills with automatic conflict detection
如何写
先安装官方的 skill-creator 的元 Skill:
github.com
skills/skills/skill-creator at main · anthropics/skills
Public repository for Agent Skills. Contribute to anthropics/skills development by creating an account on GitHub.
然后在会话中,告诉 AI 自己要创建一个什么样的 Skill,它会自自动调用skill-creator 来和你一起创建一个初稿出来。
但是,但是,不要把初稿当成终稿,要自己多调试、测试使用效果,把效果再反馈给 AI,让他帮忙迭代优化 Skill。
5 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: 钟阮)
Invalid media:
image
image
image
今天刷微信公众号看到的
Skills 聚合网站
● https://skillsmp.com/
● Claude Code Templates - Supercharge Your AI-Powered Development with Anthropic's Claude Code
● https://claudemarketplaces.com/
开源仓库
1. 官方出品
github.com
GitHub - anthropics/skills: Public repository for Agent Skills
Public repository for Agent Skills
ChatGPT/Skills
github.com
GitHub - eliasjudin/oai-skills: The contents of /home/oai/skills in ChatGPT's code...
The contents of /home/oai/skills in ChatGPT's code interpreter environment
2. 民间开源
● superpowers/skills at main · obra/superpowers · GitHub
● GitHub - ComposioHQ/awesome-claude-skills: A curated list of awesome Claude Skills, resources, and tools for customizing Claude AI workflows
● GitHub - BehiSecc/awesome-claude-skills: A curated list of Claude Skills.
● GitHub - VoltAgent/awesome-claude-skills: The awesome collection of Claude Skills and resources.
● GitHub - travisvn/awesome-claude-skills: A curated list of awesome Claude Skills, resources, and tools for customizing Claude AI workflows — particularly Claude Code
● claudekit-skills/.claude/skills at main · mrgoonie/claudekit-skills · GitHub
● GitHub - K-Dense-AI/claude-scientific-skills: A set of ready to use scientific skills for Claude
● my-skills/skills at master · bear2u/my-skills · GitHub
● GitHub - czlonkowski/n8n-skills: n8n skillset for Claude Code to build flawless n8n workflows
● GitHub - huggingface/skills
● GitHub - yusufkaraaslan/Skill_Seekers: Convert documentation websites, GitHub repositories, and PDFs into Claude AI skills with automatic conflict detection
如何写
先安装官方的 skill-creator 的元 Skill:
github.com
skills/skills/skill-creator at main · anthropics/skills
Public repository for Agent Skills. Contribute to anthropics/skills development by creating an account on GitHub.
然后在会话中,告诉 AI 自己要创建一个什么样的 Skill,它会自自动调用skill-creator 来和你一起创建一个初稿出来。
但是,但是,不要把初稿当成终稿,要自己多调试、测试使用效果,把效果再反馈给 AI,让他帮忙迭代优化 Skill。
5 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: 钟阮)
Invalid media:
image
image
image
一觉醒来,我重生了,新的一年,我又登上了3级的宝座!
新年快乐佬们!时隔半年,终于又要重回三级了,这一次争取保持的久一点不掉下去哈哈!
13 posts - 10 participants
Read full topic
via LINUX DO - 最新话题 (author: zed)
Invalid media: image
新年快乐佬们!时隔半年,终于又要重回三级了,这一次争取保持的久一点不掉下去哈哈!
13 posts - 10 participants
Read full topic
via LINUX DO - 最新话题 (author: zed)
Invalid media: image
N26元旦放假吗?我在16点后申请视频验证提示说不在开放时间?
如题,我在16点之后进行视频验证,仍然提示我不在开放时间,
‘Our Opening Hours: Daily: 8:00 - 24:00’
换算北京时间就是16:00 - 次日7:00吧?为什么在这个时间段还不让视频验证呢
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Ken Wen)
如题,我在16点之后进行视频验证,仍然提示我不在开放时间,
‘Our Opening Hours: Daily: 8:00 - 24:00’
换算北京时间就是16:00 - 次日7:00吧?为什么在这个时间段还不让视频验证呢
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Ken Wen)
大佬们有人部署StoryMem了吗
效果咋样,小白想部署试试奈何没有说明文档
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: jesse)
效果咋样,小白想部署试试奈何没有说明文档
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: jesse)
分享个自己用的 Claude statusline 插件,方便查看token使用量以及使用额度
有小伙伴对使用量没有概念,我分享下自己用的,统计每日token使用量的statusline插件,适用于官方标准输出结构,有些2api结构不符合标准,响应缺少token使用量的字段,会导致无法统计。
Claude Pro 用量统计
一个五小时周期差不多可以使用15-20M的总token数,算上读写缓存的计费方式,一个五小时周期差不多可以使用8-12刀的用量
插件代码
文件路径以及文件名: ~/.claude/statusline-tokens.sh
插件代码 (click for more details)
⚙️ 配置方法
1. 设置状态栏脚本
在
2. 确保脚本可执行
3. 重启 Claude Code
配置完成后,重启 Claude Code 即可看到新的状态栏显示。
----------------------
🎯 显示效果
状态栏格式
各部分说明
----------------------
6 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: Fuller)
有小伙伴对使用量没有概念,我分享下自己用的,统计每日token使用量的statusline插件,适用于官方标准输出结构,有些2api结构不符合标准,响应缺少token使用量的字段,会导致无法统计。
Claude Pro 用量统计
一个五小时周期差不多可以使用15-20M的总token数,算上读写缓存的计费方式,一个五小时周期差不多可以使用8-12刀的用量
插件代码
文件路径以及文件名: ~/.claude/statusline-tokens.sh
插件代码 (click for more details)
⚙️ 配置方法
1. 设置状态栏脚本
在
~/.claude/settings.json 文件中添加以下配置:{
"statusLine": {
"type": "command",
"command": "bash ~/.claude/statusline-tokens.sh"
}
}
2. 确保脚本可执行
chmod +x ~/.claude/statusline-tokens.sh
3. 重启 Claude Code
配置完成后,重启 Claude Code 即可看到新的状态栏显示。
----------------------
🎯 显示效果
状态栏格式
➜ 项目名称 git:(分支名)
[📊 今日用量 | In:12.5K CW:5K CR:8K Out:6.3K Total:31.8K]
各部分说明
----------------------
6 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: Fuller)
哈吉米南北绿豆已到,严肃开箱并品尝
昨天刚到的哈吉米南北绿豆,刚和对象一起喝了一袋,分享一下味道。怎么说呢,我个人感觉就是很普通的豆浆味道,不算很甜,对我这种爱喝甜的人来说就普普通通,但是我对象觉得还不错,所以综合下来评价为:比较喜欢甜的可以尝试但是不要抱太大期望,不怎么喝甜的可以小小推荐一下 :distorted_face:
11 posts - 8 participants
Read full topic
via LINUX DO - 最新话题 (author: 烟火)
Invalid media: image
昨天刚到的哈吉米南北绿豆,刚和对象一起喝了一袋,分享一下味道。怎么说呢,我个人感觉就是很普通的豆浆味道,不算很甜,对我这种爱喝甜的人来说就普普通通,但是我对象觉得还不错,所以综合下来评价为:比较喜欢甜的可以尝试但是不要抱太大期望,不怎么喝甜的可以小小推荐一下 :distorted_face:
11 posts - 8 participants
Read full topic
via LINUX DO - 最新话题 (author: 烟火)
Invalid media: image
DeepSeek发布新论文mHC: Manifold-Constrained Hyper-Connections
arXiv.org
mHC: Manifold-Constrained Hyper-Connections
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding...
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Bunn)
Invalid media:
image
image
image
image
arXiv.org
mHC: Manifold-Constrained Hyper-Connections
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding...
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Bunn)
Invalid media:
image
image
image
image
为什么ChatGPT在Chrome会降智,在Edge中就不会?
同一个账号,图一是在Chrome中,图二是在Edge中。
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: ReReRe)
Invalid media:
image
image
同一个账号,图一是在Chrome中,图二是在Edge中。
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: ReReRe)
Invalid media:
image
image
DeepSeek团队发布新论文 mHC: Manifold-Constrained Hyper-Connections
原文链接
arXiv.org
mHC: Manifold-Constrained Hyper-Connections
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding...
以下为Gemini 3 Flash的论文导读,详细内容还请相关专业人士斧正
DeepSeek发布了一项底层架构创新——mHC(流形约束超连接)。这项技术解决了大模型在向更大规模进化过程中的一个核心难题:如何在把“路”拓宽的同时,不让车流乱套?
从“单行道”到“多车道”的烦恼
如果把大模型内部的信息流动比作交通,传统的 AI 架构(残差连接)像是一条笔直的单行道。为了让 AI 更聪明,科学家曾尝试开发“超连接(HC)”技术,把单行道扩建成“多车道高速公路”。
然而,这条“高速公路”此前有一个致命缺陷:缺乏交通规则。车流(信号)在车道间随意穿插,导致在深层网络中容易发生严重的“交通拥堵”或“追尾”,表现为模型训练不稳定,甚至直接崩溃。
mHC:给信息流装上“自动平衡仪”
DeepSeek 的研究员们巧妙地引入了一套名为“流形约束”的数学框架。这就像是为高速公路安装了一套极其精密的自动分流系统。
高性能,低损耗
实验数据显示,搭载了 mHC 架构的 27B 参数模型,在数学推理、常识问答等各项大考中表现优异,远超传统架构。更令人惊喜的是,尽管这种设计增加了内部连接的复杂性,但通过 DeepSeek 团队顶尖的工程优化,模型训练的速度几乎没有受到影响(仅变慢了 6.7%)。
未来意义
随着大模型进入“万亿参数时代”,底层架构的细微改良都会带来巨大的连锁反应。DeepSeek 的这一贡献,不仅为自家的模型进化铺平了道路,也为全球 AI 社区提供了一种更稳健、更高效的“建路方案”。
10 posts - 8 participants
Read full topic
via LINUX DO - 最新话题 (author: HCPTangHY)
Invalid media:
image
image
image
原文链接
arXiv.org
mHC: Manifold-Constrained Hyper-Connections
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding...
以下为Gemini 3 Flash的论文导读,详细内容还请相关专业人士斧正
DeepSeek发布了一项底层架构创新——mHC(流形约束超连接)。这项技术解决了大模型在向更大规模进化过程中的一个核心难题:如何在把“路”拓宽的同时,不让车流乱套?
从“单行道”到“多车道”的烦恼
如果把大模型内部的信息流动比作交通,传统的 AI 架构(残差连接)像是一条笔直的单行道。为了让 AI 更聪明,科学家曾尝试开发“超连接(HC)”技术,把单行道扩建成“多车道高速公路”。
然而,这条“高速公路”此前有一个致命缺陷:缺乏交通规则。车流(信号)在车道间随意穿插,导致在深层网络中容易发生严重的“交通拥堵”或“追尾”,表现为模型训练不稳定,甚至直接崩溃。
mHC:给信息流装上“自动平衡仪”
DeepSeek 的研究员们巧妙地引入了一套名为“流形约束”的数学框架。这就像是为高速公路安装了一套极其精密的自动分流系统。
高性能,低损耗
实验数据显示,搭载了 mHC 架构的 27B 参数模型,在数学推理、常识问答等各项大考中表现优异,远超传统架构。更令人惊喜的是,尽管这种设计增加了内部连接的复杂性,但通过 DeepSeek 团队顶尖的工程优化,模型训练的速度几乎没有受到影响(仅变慢了 6.7%)。
未来意义
随着大模型进入“万亿参数时代”,底层架构的细微改良都会带来巨大的连锁反应。DeepSeek 的这一贡献,不仅为自家的模型进化铺平了道路,也为全球 AI 社区提供了一种更稳健、更高效的“建路方案”。
10 posts - 8 participants
Read full topic
via LINUX DO - 最新话题 (author: HCPTangHY)
Invalid media:
image
image
image
nano banana是不是不支持上下文?
我在cherry studio里用,好像他只有一个上下文,我用的中转站。
在gemini web用好像他能看懂一些上下文
7 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: 任意)
Invalid media: image
我在cherry studio里用,好像他只有一个上下文,我用的中转站。
在gemini web用好像他能看懂一些上下文
7 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: 任意)
Invalid media: image
明天就是102回箱根驿传了,有没有佬友知道哪能看有中文解说的直播?
之前几个马拉松大赛都看到B站有一些跑步的UP主直接直播,不知道明天箱根驿传是不是也这样?我记得有一个是马拉圈,那个解说相当专业,超哥聊跑步吧?
前几个月的日本驿传也有这个号在直播?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: olikon)
之前几个马拉松大赛都看到B站有一些跑步的UP主直接直播,不知道明天箱根驿传是不是也这样?我记得有一个是马拉圈,那个解说相当专业,超哥聊跑步吧?
前几个月的日本驿传也有这个号在直播?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: olikon)
chrome-devtools-mcp真是好东西,自动化控制浏览器执行任务
github.com
GitHub - ChromeDevTools/chrome-devtools-mcp: Chrome DevTools for coding agents
Chrome DevTools for coding agents
测试了下自动访问网页、点击输入、截图都可以,就是任务准确度还是差,试了下cloudflare验证有时候能过,完全自动化还是有点差,不知道是不是模型太笨(token花费太高,没舍得用贵的模型测试)
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: deb)
Invalid media: image
github.com
GitHub - ChromeDevTools/chrome-devtools-mcp: Chrome DevTools for coding agents
Chrome DevTools for coding agents
测试了下自动访问网页、点击输入、截图都可以,就是任务准确度还是差,试了下cloudflare验证有时候能过,完全自动化还是有点差,不知道是不是模型太笨(token花费太高,没舍得用贵的模型测试)
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: deb)
Invalid media: image
新年第一天,免费送一个域名
上次送了两个域名,其中一个佬不要了,再拿出来送大家
域名:csszip.com
提醒一下,转入时要续费一年的,不想续费的佬就请不要举手,让给有需要的佬吧
另外,新年第一天,我在反重力的协助下制作了新年第一站
Unlimited Bingo
Unlimited Bingo Card Generator - Free & No Login
Generate unlimited custom bingo cards for free. 1-90 numbers, words, and pictures. Instant PDF download. No login required.
祝我自己2026年站站顺利吧!
6 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: double2)
Invalid media: image
上次送了两个域名,其中一个佬不要了,再拿出来送大家
域名:csszip.com
提醒一下,转入时要续费一年的,不想续费的佬就请不要举手,让给有需要的佬吧
另外,新年第一天,我在反重力的协助下制作了新年第一站
Unlimited Bingo
Unlimited Bingo Card Generator - Free & No Login
Generate unlimited custom bingo cards for free. 1-90 numbers, words, and pictures. Instant PDF download. No login required.
祝我自己2026年站站顺利吧!
6 posts - 6 participants
Read full topic
via LINUX DO - 最新话题 (author: double2)
Invalid media: image
域名和服务器不是同一个人购买的能进行备案吗?
A购买了域名进行备案,B的服务器,能进行备案吗?
例如我是A,服务器是B在阿里云买的香港服务器
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: 404)
A购买了域名进行备案,B的服务器,能进行备案吗?
例如我是A,服务器是B在阿里云买的香港服务器
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: 404)
及时消息推送服务
我做了一个监控网站,目前有
邮箱
Server
短信(感觉偶尔发送失败概率大)
电话语音(找了好几个都需要企业认证)
有打算做个app,企业微信在研究
佬们还有没有推荐的及时准时推送消息的方式?
5 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: lalalala121)
我做了一个监控网站,目前有
邮箱
Server
短信(感觉偶尔发送失败概率大)
电话语音(找了好几个都需要企业认证)
有打算做个app,企业微信在研究
佬们还有没有推荐的及时准时推送消息的方式?
5 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: lalalala121)