【AI Chat客户端】使用Tauri2.0开发了一款小巧简洁的AI Chat客户端,已开源
LINUX DO - 热门话题 (RSS)
佬友们好,我开发了一款轻量级的PC端AI聊天桌面客户端,chatless
我在上周发了一个预告帖说要开源这款PC端聊天客户端,帖子发出后就有很多佬友前来围观支持,于是我不敢怠慢,代码好好写,有bug好好改,终于传上来了,也很感谢这些当时前去给予支持和期待的佬友们~ 这是原帖
简单介绍这款应用
— 支持在Windows、MacOS、Linux上运行,安装包体积不大,安装简单
— 功能支持AI对话、文档解析、图片解析(vision模型)、本地文档知识库
— 主要风格是简洁易用,启动速度快,支持一些个性化调整和亮暗主题
— 支持Ollama/Deepseek/OpenAI/Gemini/Claude等的API和密钥配置(后续会继续增加和改善配置)
— AI对话记录和密钥配置等数据均存在本地数据库,无数据上传行为,代码开源,安全和隐私有保障
— 基于Tauri2.0+NextJs开发,界面使用React+tailwindcss完成,后端使用rust完成
界面预览
主界面
引用文档(图拿的之前的)
知识库聊天(图拿的之前的)
知识库详情
AI提供商配置
知识库设置
代码仓库
代码已在github开源,这是仓库:
github.com
GitHub - kamjin3086/chatless: 💻一款简洁实用轻量级的本地AI对话客户端,采用Tauri2.0和Next.js编写 A...
💻一款简洁实用轻量级的本地AI对话客户端,采用Tauri2.0和Next.js编写 A simple, practical, and lightweight local AI chat client, written in Tauri 2.0 & Next.js.
如果觉得这个项目对你有帮助或者有参考价值,欢迎给它点一个小小的Star 支持一下;如果佬友遇到使用问题可以在项目界面提issue;欢迎各路大佬参与交流和fork共建,感谢大家的支持!~
一些太长的补充.. (点击了解更多详细信息)
53 个帖子 - 21 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
佬友们好,我开发了一款轻量级的PC端AI聊天桌面客户端,chatless
我在上周发了一个预告帖说要开源这款PC端聊天客户端,帖子发出后就有很多佬友前来围观支持,于是我不敢怠慢,代码好好写,有bug好好改,终于传上来了,也很感谢这些当时前去给予支持和期待的佬友们~ 这是原帖
简单介绍这款应用
— 支持在Windows、MacOS、Linux上运行,安装包体积不大,安装简单
— 功能支持AI对话、文档解析、图片解析(vision模型)、本地文档知识库
— 主要风格是简洁易用,启动速度快,支持一些个性化调整和亮暗主题
— 支持Ollama/Deepseek/OpenAI/Gemini/Claude等的API和密钥配置(后续会继续增加和改善配置)
— AI对话记录和密钥配置等数据均存在本地数据库,无数据上传行为,代码开源,安全和隐私有保障
— 基于Tauri2.0+NextJs开发,界面使用React+tailwindcss完成,后端使用rust完成
界面预览
主界面
引用文档(图拿的之前的)
知识库聊天(图拿的之前的)
知识库详情
AI提供商配置
知识库设置
代码仓库
代码已在github开源,这是仓库:
github.com
GitHub - kamjin3086/chatless: 💻一款简洁实用轻量级的本地AI对话客户端,采用Tauri2.0和Next.js编写 A...
💻一款简洁实用轻量级的本地AI对话客户端,采用Tauri2.0和Next.js编写 A simple, practical, and lightweight local AI chat client, written in Tauri 2.0 & Next.js.
如果觉得这个项目对你有帮助或者有参考价值,欢迎给它点一个小小的Star 支持一下;如果佬友遇到使用问题可以在项目界面提issue;欢迎各路大佬参与交流和fork共建,感谢大家的支持!~
一些太长的补充.. (点击了解更多详细信息)
53 个帖子 - 21 位参与者
阅读完整话题
New Free Game Found - By Reddit Scraper
Kimchi: A Stars in the Trash Story
Platform: Steam
Game ID: 3835170
Game Url: Kimchi: A Stars in the Trash Story
free type: Keep Forever
start time: N/A
end time: N/A
Source Url: https://www.reddit.com/r/freegames/comments/1mk5h3d/today_were_releasing_a_small_free_game_called/
Kimchi: A Stars in the Trash Story
Platform: Steam
Game ID: 3835170
Game Url: Kimchi: A Stars in the Trash Story
free type: Keep Forever
start time: N/A
end time: N/A
Source Url: https://www.reddit.com/r/freegames/comments/1mk5h3d/today_were_releasing_a_small_free_game_called/
!addlicense asf a/3835170
idm 永久破解
LINUX DO - 热门话题 (RSS)
idm 永久破解
— 从官网下载idm;
2. 关闭电脑杀毒软件;
3. 从链接下载破解工具,执行即可。
https://pan.baidu.com/s/1nqOz6Spv9w0aS1rPMtpDTA?pwd=ksyf
目前可破解最新版idm,没发现弹窗。
25 个帖子 - 20 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
idm 永久破解
— 从官网下载idm;
2. 关闭电脑杀毒软件;
3. 从链接下载破解工具,执行即可。
https://pan.baidu.com/s/1nqOz6Spv9w0aS1rPMtpDTA?pwd=ksyf
目前可破解最新版idm,没发现弹窗。
25 个帖子 - 20 位参与者
阅读完整话题
【公益API】模型渠道调整。
LINUX DO - 热门话题 (RSS)
上午也打了下野,虽然大部分429,但是还有一些能用的。
接入了T佬的gptloader
github.com
GitHub - tbphp/gpt-load: 智能密钥轮询的多渠道 AI 代理。 Multi-channel AI proxy with...
智能密钥轮询的多渠道 AI 代理。 Multi-channel AI proxy with intelligent key rotation.
gemini改为使用官方api 不再使用2api,理论gemini模型支持了functioncall,但是还没测试。
兑换码领取地址
cdk.linux.do
LINUX DO CDK
Linux Do 社区 CDK 快速分享平台 - 让分享变得更简单
31 个帖子 - 22 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
上午也打了下野,虽然大部分429,但是还有一些能用的。
接入了T佬的gptloader
github.com
GitHub - tbphp/gpt-load: 智能密钥轮询的多渠道 AI 代理。 Multi-channel AI proxy with...
智能密钥轮询的多渠道 AI 代理。 Multi-channel AI proxy with intelligent key rotation.
gemini改为使用官方api 不再使用2api,理论gemini模型支持了functioncall,但是还没测试。
兑换码领取地址
cdk.linux.do
LINUX DO CDK
Linux Do 社区 CDK 快速分享平台 - 让分享变得更简单
31 个帖子 - 22 位参与者
阅读完整话题
【福利第一弹】全栈PaaS容器云平台公测,公测期平台功能&部署云资源全白嫖
LINUX DO - 热门话题 (RSS)
什么是 Leaflow?
Leaflow 是一个基于 K8s 的 PaaS 应用部署平台且具备高可用及弹性扩缩,让资源粒度更低,使用率更高。我们从源头上严格管控成本,压缩成本来实现大家所能看到比绝大部分 IaaS 供应商都便宜的价格且按分钟计费。Leaflow 兼容全栈开发环境,无论是各种应用都可以在 Leaflow 部署。目前也支援了 MCP 调用,可以轻松透过 MCP 来对平台内的資源(Pods,Workspace,决策&部署层面)进行操控,您可以 Leaflow 中搭建自己的一片天空。
我觉得佬友们应该不会关系基础功能,所以我们直接说点有意思的吧
1. MCP
我们第一时间支持了 Streamble HTTP,您可以用 MCP 来接入 Leaflow,可玩性非常高。
比如让 AI 帮你开个服。
2. 应用商店 & 市场
应用商店可以开箱即用,点一下即可一键部署的效果;应用市场则是让平台用户发布自己应用或者使用其他用户贡献的应用。
3. 奖励系统 & 签到
由于 Leaflow 和传统云服务器平台不一样,我们并不提供服务器和网络接入服务,上手难度可能较高。让初学者或者新手快速上手的奖励系统, 透过体验平台内的各类功能来获取奖励余额,任务会不定期更新。我们还提供每日签到功能可以让用户周期性的获取少量奖励额度。
更多使用方式,欢迎注册发掘一下
我们的 API 文档和使用文档正在完善中,我们保持开放态度,欢迎各位开发自己的应用接入我们平台,加入我们的生态系统,我们有完整的解决方案。如果您的应用优质,我们也可以加入到仪表盘/后台的合适的位置中。
Leaflow平台链接 → https://leaflow.net
鉴于平台刚完成不久,目前平台可能还存在一些不稳定因素
所以才来到 L站 让各位佬友测试一下平台的稳定性,功能。
PS. 尽量对敏感/重要数据做好备份,平台&节点功能更新可能会对数据造成影响
平台公测期预计至少开放1个月或者更长
这次公测期只会上线两个集群:
成都 &...
View original post
LINUX DO - 热门话题 (RSS)
什么是 Leaflow?
Leaflow 是一个基于 K8s 的 PaaS 应用部署平台且具备高可用及弹性扩缩,让资源粒度更低,使用率更高。我们从源头上严格管控成本,压缩成本来实现大家所能看到比绝大部分 IaaS 供应商都便宜的价格且按分钟计费。Leaflow 兼容全栈开发环境,无论是各种应用都可以在 Leaflow 部署。目前也支援了 MCP 调用,可以轻松透过 MCP 来对平台内的資源(Pods,Workspace,决策&部署层面)进行操控,您可以 Leaflow 中搭建自己的一片天空。
我觉得佬友们应该不会关系基础功能,所以我们直接说点有意思的吧
1. MCP
我们第一时间支持了 Streamble HTTP,您可以用 MCP 来接入 Leaflow,可玩性非常高。
比如让 AI 帮你开个服。
2. 应用商店 & 市场
应用商店可以开箱即用,点一下即可一键部署的效果;应用市场则是让平台用户发布自己应用或者使用其他用户贡献的应用。
3. 奖励系统 & 签到
由于 Leaflow 和传统云服务器平台不一样,我们并不提供服务器和网络接入服务,上手难度可能较高。让初学者或者新手快速上手的奖励系统, 透过体验平台内的各类功能来获取奖励余额,任务会不定期更新。我们还提供每日签到功能可以让用户周期性的获取少量奖励额度。
更多使用方式,欢迎注册发掘一下
我们的 API 文档和使用文档正在完善中,我们保持开放态度,欢迎各位开发自己的应用接入我们平台,加入我们的生态系统,我们有完整的解决方案。如果您的应用优质,我们也可以加入到仪表盘/后台的合适的位置中。
Leaflow平台链接 → https://leaflow.net
鉴于平台刚完成不久,目前平台可能还存在一些不稳定因素
所以才来到 L站 让各位佬友测试一下平台的稳定性,功能。
PS. 尽量对敏感/重要数据做好备份,平台&节点功能更新可能会对数据造成影响
平台公测期预计至少开放1个月或者更长
这次公测期只会上线两个集群:
成都 &...
View original post
分享一些极简而实用的claude code 使用经验
LINUX DO - 热门话题 (RSS)
首先默认本文读者是有claude code 使用基础的。所以关于cc的基础性的东西,这里会全部跳过。
只分享本人在使用cc的过程中认为比较实用且不易被发掘的一些经验。
claude code router(ccr)的使用
在我个人使用而言,ccr更像是一个switcher的角色而不是router。
我会把所有的支持cc或容易支持cc的渠道都录入进去,为什么要这么做呢,主要是为了切换模型。
我使用cc的场景主要有两个:
— 编码需求,claude4是无可争议的
— 文本处理需求,比如整理笔记,这时用gemini更好,免费还好用。
所以我需要灵活的切换,这时候ccr就很好用了。
这里一定要说一下ccr的transformer(转换器),说实话这个概念是有理解成本的,特别是加上ui的引导,就更有成本了。。。我配了好久,才终于配明白了。
这里说一下我目前的最简单的理解:
— 如果渠道已支持cc(一般api站都会说明的),那就渠道url+
— 如果渠道不支持cc,那就大致分两种,一种是原生gemini的api, 那就渠道url+
cc+编辑器
这里一定要提一下,在编辑器(vscode、cursor)中使用cc,和直接在命令行中使用cc,是两种体验。
编辑中使用cc是能联动的,cc是能获取到你当前聚焦的文件的,如果选中代码,也能获取到你选中的代码的。
所以非常推荐在编辑器中使用cc。使用体验基本能够平替甚至超越cursor。
最后一点个人看法
最后说一点个人近些日子的一个感受,不喜勿喷。
claude code作为效率工具,本质上一定是为了最大程度的减少用户的使用成本的。但是由于他们的各种对华策略,导致我们承担了很多很多产品之外的使用成本,哎,一言难尽了,这种滋味真的不好受。
但为什么还要腆着脸用他们的,很简单,还是目前咱们国产的干不过人家嘛。。。
希望国产当自强吧,早日追赶并超越他们!
25 个帖子 - 18 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
首先默认本文读者是有claude code 使用基础的。所以关于cc的基础性的东西,这里会全部跳过。
只分享本人在使用cc的过程中认为比较实用且不易被发掘的一些经验。
claude code router(ccr)的使用
在我个人使用而言,ccr更像是一个switcher的角色而不是router。
我会把所有的支持cc或容易支持cc的渠道都录入进去,为什么要这么做呢,主要是为了切换模型。
我使用cc的场景主要有两个:
— 编码需求,claude4是无可争议的
— 文本处理需求,比如整理笔记,这时用gemini更好,免费还好用。
所以我需要灵活的切换,这时候ccr就很好用了。
这里一定要说一下ccr的transformer(转换器),说实话这个概念是有理解成本的,特别是加上ui的引导,就更有成本了。。。我配了好久,才终于配明白了。
这里说一下我目前的最简单的理解:
— 如果渠道已支持cc(一般api站都会说明的),那就渠道url+
/v1/messages
,供应商转换器选Anthropic
,其他的什么也别动— 如果渠道不支持cc,那就大致分两种,一种是原生gemini的api, 那就渠道url+
/v1beta/models/
,供应商转换器选gemini
,其他的什么也别动。另一种是openai兼容模式api(大部分api站可能都是这种),那就渠道url+/v1/chat/completions
,供应商转换器选openrouter
,其他的什么也别动cc+编辑器
这里一定要提一下,在编辑器(vscode、cursor)中使用cc,和直接在命令行中使用cc,是两种体验。
编辑中使用cc是能联动的,cc是能获取到你当前聚焦的文件的,如果选中代码,也能获取到你选中的代码的。
所以非常推荐在编辑器中使用cc。使用体验基本能够平替甚至超越cursor。
最后一点个人看法
最后说一点个人近些日子的一个感受,不喜勿喷。
claude code作为效率工具,本质上一定是为了最大程度的减少用户的使用成本的。但是由于他们的各种对华策略,导致我们承担了很多很多产品之外的使用成本,哎,一言难尽了,这种滋味真的不好受。
但为什么还要腆着脸用他们的,很简单,还是目前咱们国产的干不过人家嘛。。。
希望国产当自强吧,早日追赶并超越他们!
25 个帖子 - 18 位参与者
阅读完整话题
LINUX DO
Where possible begins.
大语言模型的过去与未来——GPT-5 发布前夜杂谈
LINUX DO - 热门话题 (RSS)
注:本文纯手写,未使用任何 AI 技术生成。
序
可靠消息表明 GPT-5 将于 2025 年 8 月 8 日 1:00AM (UTC+8 i.e. 中国时间) 发布。
距离 ChatGPT 发布已经多长时间了呢?我并不时常问自己这个问题。偶尔想起来,只记得是某年末,至于是 2021 年还是 2022 年,又或是 2023 年,有几次都是查后才想起来,反复几次后,才比较清晰地记下了——2022年末,OpenAI 发布了 ChatGPT,这一切的起点。
无论是感觉上,还是客观来说,我想大多数人都不会否认——2022 年末到 2025 年下旬并不是一段很长的时间间隔。仔细一算,竟只有三年不到,只够一个大学生完成一半出头的本科生活,一个中学生甚至读不完一段完整的初中或是高中。
对于时常关注人工智能、LLM 领域的人来说,这可能更是一种奇妙的体验。人工智能在如此短暂的时间内取得了非常大的进展,可以开始部分地参与实际的生产、开发工作。大多数 AI 爱好者都认识到,人工智能正在重塑我们的生活。
巨大的进展激起了前所未有的浪花——人们开始讨论关于 AI 的一切;支持者、否定者,乐观者,悲观者纷纷加入一场永无休止(又或是并非如此?)的讨论当中。观点不绝于耳——「AI 替代人类」、「AI 不能替代所有工作」、「得算力者得天下」、「AI 只是概率机器,只会鹦鹉学舌」、「AI 永远无法创造」...
本文将就 LLM 的发展历程为关注点,做一些重点内容的讨论,主要聚焦于应用和社区观察,而不是技术性质的报告。本文的组织将较为松散——笔者想到什么就写点什么,没有严格的组织。
角逐与纷争——最好的模型 / 应用
LLM 社区最热衷于讨论的一个议题是——世界上最好的模型是什么。考虑到开源模型一直以来没有真正的 SOTA 能各方面超越闭源模型,本节暂且专注于讨论商业闭源模型。
从这短暂的 LLM 历史来看,我想下面是一个大多数人都会同意的概述:
— 早期:OpenAI 遥遥领先,其他模型看不见车尾灯。
— 中期:OpenAI 仍依靠 GPT-4 及其变体保持领先,但 Claude 和 Gemini 开始从 Claude 3 和 Gemini 2.0 依靠各自的特色展露头角。
— 偏后期:OpenAI 率先推出第一组具有思维链的模型 o1-preview / o1-mini,短暂地拉开了差距,但很快被 Claude 和 Gemini 效仿、追平甚至在某些方面超越——典型的例子是 Claude 在编码方面的特化。
— 现在——若是只论模型能力,OpenAI 已经不具有显著的领先地位。OpenAI, Anthropic, Google 三足鼎立,各家的模型有各自的特色和长处以及短处。
脱离应用谈模型能力是不太合理的,因此关注模型能力时也需要注重其应用,或者,更激进一点,我们不妨直接从公司入手进行讨论。具体来说:
OpenAI:C 端仍然具有极其强大的竞争力和巨大的市场份额,一方面是由于 OpenAI 确实很重视 C 端——例如,早期为 ChatGPT 微调专门的更适合交谈对话的模型
另一方面,也怪友商不给力——Gemini 的模型不错,但是 C 端就是做不好;Claude 模型已经成了编码特化的典型,后训练人类偏好不佳——从模型方面就已经与大部分的 C 端普通用户产生了隔阂;据称,OpenAI 在商业用途上份额也显著领先,不过笔者并不熟悉这一点,就不多谈。
然而,OpenAI 在 API 方面确实存在并不轻微的竞争力下降的问题,一方面是由于其定价太过自信,另一方面则是其旗舰模型确实不怎么具有领先优势了——o3 和 Gemini 2.5 Pro 最多也只能说互有胜负,甚至不少方面 Gemini 2.5 Pro 明显领先:o3 在世界知识、幻觉率、长上下文、多模态方面均相比 Gemini 2.5 Pro 有显著差距。
总体来说,在目前这个时间点,OpenAI 处于一种喜忧参半的状态——一方面,它们在 C 端的探索和积累确实能维持很长一段时间内可观的利润(考虑到 C 端用户粘性更大),另一方面,作为 AI 基础设施的提供商,模型能力仍然是不可忽视,重中之重的要素,而这方面,留给 OpenAI 的乐观因素并没有那么多了,观察 OpenAI 如何应对这一问题,也成为 GPT-5 发布会,以及后续观察的一大要点。
Google:Google 家大业大,自有硬件,加上长期培养的 DeepMind 团队也不是吃干饭的,能达到现在的水平可以说完全是预料之内的。然而 Google 目前似乎并不认真地对待 C 端——又或是确实做不到?一个典型的例子是——Deep Research 的结果,竟然完全无法复制原始的 Markdown 结果,无论如何导出,都会将公式转换为 Unicode 字符(至少前段时间是这样的,后来我有反馈,不知是否有改进),这明显是一个态度问题——不关心用户,或者说没有经过广泛测试就上线功能。
话又说回来,模型方面,Gemini 2.5 Pro / Flash 系列确实是非常优秀的——推理能力强,知识面十分广泛,加上 1M 上下文窗口和相对较低的上下文衰减,以及完全领先的多模态,合适的价格,成为综合能力最强的基底模型。
整体来说,笔者是很看好 Google 后续的进展的,主要原因是它们没有什么很明显的短板:硬件自有、团队扎实、有广泛的用户基础可以开发各式各样的应用,等等... Google 也在除了 LLM 的领域广泛地探索,例如最近发布的 Genie 3,包括视频生成、图片生成模型都很有。
Anthropic:Claude Code 可以说是近来讨论度非常高的一个工具。Anthropic 提前窥见 Agent 编码的热潮,在模型能力上对这一方面做强化,成就了现在开发者大量采用的编程模型之一。然而,对 Anthropic 的后续发展担忧更为明显——C 端方面,由于其模型后训练特别偏向编码和工具使用,并不适合普通人聊天,加上本身就没有什么 C 端用户积累,并且通用智能(例如数学、物理解题能力)也一般,Anthropic 在这方面的增长可以预见的乏力。
开发者、编码用户的粘性实际上很低,后续一旦像 Google 这样的巨鲸发力,不说超越,至少抹平差距是很容易预见的,再加上 Anthropic 其他方面的研究积累远不如其余两家,实际上可以说是危险的。Anthropic 也不怎么推动模型多模态能力的改进,也未见生图模型、视频生成模型等其余 AGI 相关领域的研究,总体模式较为贫瘠单一。后续的主要关注点是 Anthropic 能否转向更通用智能的研究,又或是继续在编码特化的道路上一路狂奔。
开源模型与社区
开源模型与社区是 LLM 世界不可忽视的一部分,特别是中国公司在其中的贡献成为了一个焦点。
首先笔者想关于「开源」、「本地运行」的基本概念和性质做一些讨论,然后再来详细说一说开源模型的进展。
很多人把「开源」和「本地运行」划等号,其实这里面有着不少可以说道的地方。
「开源」这一概念最初诞生于软件领域,而 LLM 显然不是传统意义的软件,因此,在 LLM 的语境下,「开源」实际上指的是「开放模型权重」。绝大多数「开源」LLM 并不公开自己的训练数据、训练代码,如果把训练类比为「编译/构建 (build)」,就更体现了 LLM 语境下「开源」概念的不同——用户事实上无法从头构建一个可以运行的 LLM,它们只是能够自己运行这些模型,如果它们有对应的硬件——类比到软件领域,相当于只是分发软件的二进制而非源码。
有很多人要问了——你看这个 DeepSeek R1, Kimi K2,那么大的模型,开源了大部分人本地也跑不动,那不是和不开源一样吗?为了解决这一问题,我们就需要从整个生态的角度看待问题:
— 模型开源(结合一定程度的技术披露)能减小行业与学术人员的信息差。例如 DeepSeek-R1 发布告诉了大家要训练思考模型,RL 是正道。很多学术实验室未必有这么多的资源去把实验 scale 到这个级别验证一些东西,但通过开源结合技术披露的方式能够一定程度上缓解这个问题,加强生态内对发展方向的总体认知。
— 模型开源能倒逼厂商提升其能力。这其实是 Kimi K2 的开发者之一的观点,很有道理——,对此的解释,推荐阅读原文: 写在 Kimi K2 发布之后:再也不仅仅是 ChatBot | K.I.S.S
— 模型开源并由多个提供商托管有助于避免对「降智」的担忧,即使用户从不在自己的机器上运行模型。「降智」是一个老生常谈的话题,可以确认的包括 ChatGPT 故意降智,Gemini 的 API 智商也不稳定等。模型开源,结合提供商托管的模式有助于用户交叉验证模型的可靠性。极端情况下。用户真正在自己本地部署模型可以彻底摆脱对降智的担忧。
— 模型开源有助于合成数据和社区微调。只通过 API 提供的模型通常禁止大规模的蒸馏行为,并且价格通常远高于成本。开源模型可以通过租用 GPU 等方式部署,结合大 batch 批量生成低成本、快速、合规地合成数据或进行蒸馏。
至于普通用户在本地运行模型是否有必要,笔者也反复思索、改变过观点,现在大体的看法如下:能力方面,在 API 上运行的 SOTA...
View original post
LINUX DO - 热门话题 (RSS)
注:本文纯手写,未使用任何 AI 技术生成。
序
可靠消息表明 GPT-5 将于 2025 年 8 月 8 日 1:00AM (UTC+8 i.e. 中国时间) 发布。
距离 ChatGPT 发布已经多长时间了呢?我并不时常问自己这个问题。偶尔想起来,只记得是某年末,至于是 2021 年还是 2022 年,又或是 2023 年,有几次都是查后才想起来,反复几次后,才比较清晰地记下了——2022年末,OpenAI 发布了 ChatGPT,这一切的起点。
无论是感觉上,还是客观来说,我想大多数人都不会否认——2022 年末到 2025 年下旬并不是一段很长的时间间隔。仔细一算,竟只有三年不到,只够一个大学生完成一半出头的本科生活,一个中学生甚至读不完一段完整的初中或是高中。
对于时常关注人工智能、LLM 领域的人来说,这可能更是一种奇妙的体验。人工智能在如此短暂的时间内取得了非常大的进展,可以开始部分地参与实际的生产、开发工作。大多数 AI 爱好者都认识到,人工智能正在重塑我们的生活。
巨大的进展激起了前所未有的浪花——人们开始讨论关于 AI 的一切;支持者、否定者,乐观者,悲观者纷纷加入一场永无休止(又或是并非如此?)的讨论当中。观点不绝于耳——「AI 替代人类」、「AI 不能替代所有工作」、「得算力者得天下」、「AI 只是概率机器,只会鹦鹉学舌」、「AI 永远无法创造」...
本文将就 LLM 的发展历程为关注点,做一些重点内容的讨论,主要聚焦于应用和社区观察,而不是技术性质的报告。本文的组织将较为松散——笔者想到什么就写点什么,没有严格的组织。
角逐与纷争——最好的模型 / 应用
LLM 社区最热衷于讨论的一个议题是——世界上最好的模型是什么。考虑到开源模型一直以来没有真正的 SOTA 能各方面超越闭源模型,本节暂且专注于讨论商业闭源模型。
从这短暂的 LLM 历史来看,我想下面是一个大多数人都会同意的概述:
— 早期:OpenAI 遥遥领先,其他模型看不见车尾灯。
— 中期:OpenAI 仍依靠 GPT-4 及其变体保持领先,但 Claude 和 Gemini 开始从 Claude 3 和 Gemini 2.0 依靠各自的特色展露头角。
— 偏后期:OpenAI 率先推出第一组具有思维链的模型 o1-preview / o1-mini,短暂地拉开了差距,但很快被 Claude 和 Gemini 效仿、追平甚至在某些方面超越——典型的例子是 Claude 在编码方面的特化。
— 现在——若是只论模型能力,OpenAI 已经不具有显著的领先地位。OpenAI, Anthropic, Google 三足鼎立,各家的模型有各自的特色和长处以及短处。
脱离应用谈模型能力是不太合理的,因此关注模型能力时也需要注重其应用,或者,更激进一点,我们不妨直接从公司入手进行讨论。具体来说:
OpenAI:C 端仍然具有极其强大的竞争力和巨大的市场份额,一方面是由于 OpenAI 确实很重视 C 端——例如,早期为 ChatGPT 微调专门的更适合交谈对话的模型
chatgpt-4o-latest
而不是直接用 API 上适合生产和开发者用途的 gpt-4o
,后续的 4o 生图更新,原生语音对话,记忆模块,Deep Research,Agent Mode 等等,无论其最终效果的好坏,都明确地体现出 OpenAI 乐于探索 AI 如何为不懂技术的普通人赋能的大方向;另一方面,也怪友商不给力——Gemini 的模型不错,但是 C 端就是做不好;Claude 模型已经成了编码特化的典型,后训练人类偏好不佳——从模型方面就已经与大部分的 C 端普通用户产生了隔阂;据称,OpenAI 在商业用途上份额也显著领先,不过笔者并不熟悉这一点,就不多谈。
然而,OpenAI 在 API 方面确实存在并不轻微的竞争力下降的问题,一方面是由于其定价太过自信,另一方面则是其旗舰模型确实不怎么具有领先优势了——o3 和 Gemini 2.5 Pro 最多也只能说互有胜负,甚至不少方面 Gemini 2.5 Pro 明显领先:o3 在世界知识、幻觉率、长上下文、多模态方面均相比 Gemini 2.5 Pro 有显著差距。
总体来说,在目前这个时间点,OpenAI 处于一种喜忧参半的状态——一方面,它们在 C 端的探索和积累确实能维持很长一段时间内可观的利润(考虑到 C 端用户粘性更大),另一方面,作为 AI 基础设施的提供商,模型能力仍然是不可忽视,重中之重的要素,而这方面,留给 OpenAI 的乐观因素并没有那么多了,观察 OpenAI 如何应对这一问题,也成为 GPT-5 发布会,以及后续观察的一大要点。
Google:Google 家大业大,自有硬件,加上长期培养的 DeepMind 团队也不是吃干饭的,能达到现在的水平可以说完全是预料之内的。然而 Google 目前似乎并不认真地对待 C 端——又或是确实做不到?一个典型的例子是——Deep Research 的结果,竟然完全无法复制原始的 Markdown 结果,无论如何导出,都会将公式转换为 Unicode 字符(至少前段时间是这样的,后来我有反馈,不知是否有改进),这明显是一个态度问题——不关心用户,或者说没有经过广泛测试就上线功能。
话又说回来,模型方面,Gemini 2.5 Pro / Flash 系列确实是非常优秀的——推理能力强,知识面十分广泛,加上 1M 上下文窗口和相对较低的上下文衰减,以及完全领先的多模态,合适的价格,成为综合能力最强的基底模型。
整体来说,笔者是很看好 Google 后续的进展的,主要原因是它们没有什么很明显的短板:硬件自有、团队扎实、有广泛的用户基础可以开发各式各样的应用,等等... Google 也在除了 LLM 的领域广泛地探索,例如最近发布的 Genie 3,包括视频生成、图片生成模型都很有。
Anthropic:Claude Code 可以说是近来讨论度非常高的一个工具。Anthropic 提前窥见 Agent 编码的热潮,在模型能力上对这一方面做强化,成就了现在开发者大量采用的编程模型之一。然而,对 Anthropic 的后续发展担忧更为明显——C 端方面,由于其模型后训练特别偏向编码和工具使用,并不适合普通人聊天,加上本身就没有什么 C 端用户积累,并且通用智能(例如数学、物理解题能力)也一般,Anthropic 在这方面的增长可以预见的乏力。
开发者、编码用户的粘性实际上很低,后续一旦像 Google 这样的巨鲸发力,不说超越,至少抹平差距是很容易预见的,再加上 Anthropic 其他方面的研究积累远不如其余两家,实际上可以说是危险的。Anthropic 也不怎么推动模型多模态能力的改进,也未见生图模型、视频生成模型等其余 AGI 相关领域的研究,总体模式较为贫瘠单一。后续的主要关注点是 Anthropic 能否转向更通用智能的研究,又或是继续在编码特化的道路上一路狂奔。
开源模型与社区
开源模型与社区是 LLM 世界不可忽视的一部分,特别是中国公司在其中的贡献成为了一个焦点。
首先笔者想关于「开源」、「本地运行」的基本概念和性质做一些讨论,然后再来详细说一说开源模型的进展。
很多人把「开源」和「本地运行」划等号,其实这里面有着不少可以说道的地方。
「开源」这一概念最初诞生于软件领域,而 LLM 显然不是传统意义的软件,因此,在 LLM 的语境下,「开源」实际上指的是「开放模型权重」。绝大多数「开源」LLM 并不公开自己的训练数据、训练代码,如果把训练类比为「编译/构建 (build)」,就更体现了 LLM 语境下「开源」概念的不同——用户事实上无法从头构建一个可以运行的 LLM,它们只是能够自己运行这些模型,如果它们有对应的硬件——类比到软件领域,相当于只是分发软件的二进制而非源码。
有很多人要问了——你看这个 DeepSeek R1, Kimi K2,那么大的模型,开源了大部分人本地也跑不动,那不是和不开源一样吗?为了解决这一问题,我们就需要从整个生态的角度看待问题:
— 模型开源(结合一定程度的技术披露)能减小行业与学术人员的信息差。例如 DeepSeek-R1 发布告诉了大家要训练思考模型,RL 是正道。很多学术实验室未必有这么多的资源去把实验 scale 到这个级别验证一些东西,但通过开源结合技术披露的方式能够一定程度上缓解这个问题,加强生态内对发展方向的总体认知。
— 模型开源能倒逼厂商提升其能力。这其实是 Kimi K2 的开发者之一的观点,很有道理——,对此的解释,推荐阅读原文: 写在 Kimi K2 发布之后:再也不仅仅是 ChatBot | K.I.S.S
— 模型开源并由多个提供商托管有助于避免对「降智」的担忧,即使用户从不在自己的机器上运行模型。「降智」是一个老生常谈的话题,可以确认的包括 ChatGPT 故意降智,Gemini 的 API 智商也不稳定等。模型开源,结合提供商托管的模式有助于用户交叉验证模型的可靠性。极端情况下。用户真正在自己本地部署模型可以彻底摆脱对降智的担忧。
— 模型开源有助于合成数据和社区微调。只通过 API 提供的模型通常禁止大规模的蒸馏行为,并且价格通常远高于成本。开源模型可以通过租用 GPU 等方式部署,结合大 batch 批量生成低成本、快速、合规地合成数据或进行蒸馏。
至于普通用户在本地运行模型是否有必要,笔者也反复思索、改变过观点,现在大体的看法如下:能力方面,在 API 上运行的 SOTA...
View original post
LINUX DO
Where possible begins.