linux.do
14K subscribers
47.3K photos
51 videos
53 files
64.3K links
linux.do最新话题和热议话题
Download Telegram
新人刚来,送三个 gemini 年度教育会员
LINUX DO - 热门话题 (RSS)

新人刚来,送三个 gemini 年度教育会员

261 个帖子 - 256 位参与者

阅读完整话题
大语言模型的过去与未来——GPT-5 发布前夜杂谈
LINUX DO - 热门话题 (RSS)

:本文纯手写,未使用任何 AI 技术生成。


可靠消息表明 GPT-5 将于 2025 年 8 月 8 日 1:00AM (UTC+8 i.e. 中国时间) 发布。

距离 ChatGPT 发布已经多长时间了呢?我并不时常问自己这个问题。偶尔想起来,只记得是某年末,至于是 2021 年还是 2022 年,又或是 2023 年,有几次都是查后才想起来,反复几次后,才比较清晰地记下了——2022年末,OpenAI 发布了 ChatGPT,这一切的起点。

无论是感觉上,还是客观来说,我想大多数人都不会否认——2022 年末到 2025 年下旬并不是一段很长的时间间隔。仔细一算,竟只有三年不到,只够一个大学生完成一半出头的本科生活,一个中学生甚至读不完一段完整的初中或是高中。

对于时常关注人工智能、LLM 领域的人来说,这可能更是一种奇妙的体验。人工智能在如此短暂的时间内取得了非常大的进展,可以开始部分地参与实际的生产、开发工作。大多数 AI 爱好者都认识到,人工智能正在重塑我们的生活。

巨大的进展激起了前所未有的浪花——人们开始讨论关于 AI 的一切;支持者、否定者,乐观者,悲观者纷纷加入一场永无休止(又或是并非如此?)的讨论当中。观点不绝于耳——「AI 替代人类」、「AI 不能替代所有工作」、「得算力者得天下」、「AI 只是概率机器,只会鹦鹉学舌」、「AI 永远无法创造」...

本文将就 LLM 的发展历程为关注点,做一些重点内容的讨论,主要聚焦于应用和社区观察,而不是技术性质的报告。本文的组织将较为松散——笔者想到什么就写点什么,没有严格的组织。

角逐与纷争——最好的模型 / 应用
LLM 社区最热衷于讨论的一个议题是——世界上最好的模型是什么。考虑到开源模型一直以来没有真正的 SOTA 能各方面超越闭源模型,本节暂且专注于讨论商业闭源模型。

从这短暂的 LLM 历史来看,我想下面是一个大多数人都会同意的概述:

早期:OpenAI 遥遥领先,其他模型看不见车尾灯。
中期:OpenAI 仍依靠 GPT-4 及其变体保持领先,但 Claude 和 Gemini 开始从 Claude 3 和 Gemini 2.0 依靠各自的特色展露头角。
偏后期:OpenAI 率先推出第一组具有思维链的模型 o1-preview / o1-mini,短暂地拉开了差距,但很快被 Claude 和 Gemini 效仿、追平甚至在某些方面超越——典型的例子是 Claude 在编码方面的特化。
现在——若是只论模型能力,OpenAI 已经不具有显著的领先地位。OpenAI, Anthropic, Google 三足鼎立,各家的模型有各自的特色和长处以及短处。

脱离应用谈模型能力是不太合理的,因此关注模型能力时也需要注重其应用,或者,更激进一点,我们不妨直接从公司入手进行讨论。具体来说:

OpenAI:C 端仍然具有极其强大的竞争力和巨大的市场份额,一方面是由于 OpenAI 确实很重视 C 端——例如,早期为 ChatGPT 微调专门的更适合交谈对话的模型 chatgpt-4o-latest 而不是直接用 API 上适合生产和开发者用途的 gpt-4o,后续的 4o 生图更新,原生语音对话,记忆模块,Deep Research,Agent Mode 等等,无论其最终效果的好坏,都明确地体现出 OpenAI 乐于探索 AI 如何为不懂技术的普通人赋能的大方向;

另一方面,也怪友商不给力——Gemini 的模型不错,但是 C 端就是做不好;Claude 模型已经成了编码特化的典型,后训练人类偏好不佳——从模型方面就已经与大部分的 C 端普通用户产生了隔阂;据称,OpenAI 在商业用途上份额也显著领先,不过笔者并不熟悉这一点,就不多谈。

然而,OpenAI 在 API 方面确实存在并不轻微的竞争力下降的问题,一方面是由于其定价太过自信,另一方面则是其旗舰模型确实不怎么具有领先优势了——o3 和 Gemini 2.5 Pro 最多也只能说互有胜负,甚至不少方面 Gemini 2.5 Pro 明显领先:o3 在世界知识、幻觉率、长上下文、多模态方面均相比 Gemini 2.5 Pro 有显著差距。

总体来说,在目前这个时间点,OpenAI 处于一种喜忧参半的状态——一方面,它们在 C 端的探索和积累确实能维持很长一段时间内可观的利润(考虑到 C 端用户粘性更大),另一方面,作为 AI 基础设施的提供商,模型能力仍然是不可忽视,重中之重的要素,而这方面,留给 OpenAI 的乐观因素并没有那么多了,观察 OpenAI 如何应对这一问题,也成为 GPT-5 发布会,以及后续观察的一大要点。

Google:Google 家大业大,自有硬件,加上长期培养的 DeepMind 团队也不是吃干饭的,能达到现在的水平可以说完全是预料之内的。然而 Google 目前似乎并不认真地对待 C 端——又或是确实做不到?一个典型的例子是——Deep Research 的结果,竟然完全无法复制原始的 Markdown 结果,无论如何导出,都会将公式转换为 Unicode 字符(至少前段时间是这样的,后来我有反馈,不知是否有改进),这明显是一个态度问题——不关心用户,或者说没有经过广泛测试就上线功能。

话又说回来,模型方面,Gemini 2.5 Pro / Flash 系列确实是非常优秀的——推理能力强,知识面十分广泛,加上 1M 上下文窗口和相对较低的上下文衰减,以及完全领先的多模态,合适的价格,成为综合能力最强的基底模型。

整体来说,笔者是很看好 Google 后续的进展的,主要原因是它们没有什么很明显的短板:硬件自有、团队扎实、有广泛的用户基础可以开发各式各样的应用,等等... Google 也在除了 LLM 的领域广泛地探索,例如最近发布的 Genie 3,包括视频生成、图片生成模型都很有。

Anthropic:Claude Code 可以说是近来讨论度非常高的一个工具。Anthropic 提前窥见 Agent 编码的热潮,在模型能力上对这一方面做强化,成就了现在开发者大量采用的编程模型之一。然而,对 Anthropic 的后续发展担忧更为明显——C 端方面,由于其模型后训练特别偏向编码和工具使用,并不适合普通人聊天,加上本身就没有什么 C 端用户积累,并且通用智能(例如数学、物理解题能力)也一般,Anthropic 在这方面的增长可以预见的乏力。

开发者、编码用户的粘性实际上很低,后续一旦像 Google 这样的巨鲸发力,不说超越,至少抹平差距是很容易预见的,再加上 Anthropic 其他方面的研究积累远不如其余两家,实际上可以说是危险的。Anthropic 也不怎么推动模型多模态能力的改进,也未见生图模型、视频生成模型等其余 AGI 相关领域的研究,总体模式较为贫瘠单一。后续的主要关注点是 Anthropic 能否转向更通用智能的研究,又或是继续在编码特化的道路上一路狂奔。

开源模型与社区
开源模型与社区是 LLM 世界不可忽视的一部分,特别是中国公司在其中的贡献成为了一个焦点。

首先笔者想关于「开源」、「本地运行」的基本概念和性质做一些讨论,然后再来详细说一说开源模型的进展。

很多人把「开源」和「本地运行」划等号,其实这里面有着不少可以说道的地方。

「开源」这一概念最初诞生于软件领域,而 LLM 显然不是传统意义的软件,因此,在 LLM 的语境下,「开源」实际上指的是「开放模型权重」。绝大多数「开源」LLM 并不公开自己的训练数据、训练代码,如果把训练类比为「编译/构建 (build)」,就更体现了 LLM 语境下「开源」概念的不同——用户事实上无法从头构建一个可以运行的 LLM,它们只是能够自己运行这些模型,如果它们有对应的硬件——类比到软件领域,相当于只是分发软件的二进制而非源码。

有很多人要问了——你看这个 DeepSeek R1, Kimi K2,那么大的模型,开源了大部分人本地也跑不动,那不是和不开源一样吗?为了解决这一问题,我们就需要从整个生态的角度看待问题:

模型开源(结合一定程度的技术披露)能减小行业与学术人员的信息差。例如 DeepSeek-R1 发布告诉了大家要训练思考模型,RL 是正道。很多学术实验室未必有这么多的资源去把实验 scale 到这个级别验证一些东西,但通过开源结合技术披露的方式能够一定程度上缓解这个问题,加强生态内对发展方向的总体认知。
模型开源能倒逼厂商提升其能力。这其实是 Kimi K2 的开发者之一的观点,很有道理——,对此的解释,推荐阅读原文: 写在 Kimi K2 发布之后:再也不仅仅是 ChatBot | K.I.S.S
— 模型开源并由多个提供商托管有助于避免对「降智」的担忧,即使用户从不在自己的机器上运行模型。「降智」是一个老生常谈的话题,可以确认的包括 ChatGPT 故意降智,Gemini 的 API 智商也不稳定等。模型开源,结合提供商托管的模式有助于用户交叉验证模型的可靠性。极端情况下。用户真正在自己本地部署模型可以彻底摆脱对降智的担忧。
模型开源有助于合成数据和社区微调。只通过 API 提供的模型通常禁止大规模的蒸馏行为,并且价格通常远高于成本。开源模型可以通过租用 GPU 等方式部署,结合大 batch 批量生成低成本、快速、合规地合成数据或进行蒸馏。

至于普通用户在本地运行模型是否有必要,笔者也反复思索、改变过观点,现在大体的看法如下:能力方面,在 API 上运行的 SOTA...

View original post
明天凌晨一点,OpenAI直播
LINUX DO - 热门话题 (RSS)

ithome.com

四种变体可选:OpenAI 最强模型 GPT-5 宣传文案遭偷跑,增强代码质量 / 用户体验 - IT之家

OpenAI将在北京时间周五凌晨1点发布GPT-5模型,宣传文案遭偷跑。GPT-5号称在推理、质量和体验方面有改进,并提供四种变体:标准版、轻量化版、高速版和对话版。#AI##GPT5#

YouTube

Introducing GPT-5

Join Sam Altman, Greg Brockman, Sebastien Bubeck, Mark Chen, Yann Dubois, Brian Fioca, Adi Ganesh, Oliver Godement, Saachi Jain, Christina Kaplan, Tina Kim, ...





27 个帖子 - 17 位参与者

阅读完整话题
关于ChatGPT 5系列模型你想知道的一切 参数、评测、可用性...
LINUX DO - 热门话题 (RSS)

官方参数评测(点击展开) (点击了解更多详细信息)

第三方测评 (点击了解更多详细信息)
定价
官方链接



模型API能力介绍 (点击了解更多详细信息)

注意:API调用需要KYC

在Openrouter上gpt-5-mini, gpt-5-chat直接可用,gpt-5需要KYC


官方模型升级方案



官方发布报告

cdn.openai.com



gpt5-system-card-aug7.pdf

4.62 MB

官方编码实例

github.com

GitHub - openai/gpt-5-coding-examples: GPT-5 coding examples

GPT-5 coding examples

关于ChatGPT用户的限制



新功能 - Beatbot



x.com

Sam Altman
@sama

when you get access to gpt-5, try a message like "use beatbot to make a sick beat to celebrate gpt-5".

it's a nice preview of what we think this will be like as AI starts to generate its own UX and interfaces get more dynamic.

it's cool that you can interact with the pic.x.com/Mm6FcFwpkn

6:52 PM - 7 Aug 2025

2.2K

170

佬友们的各种评测 (点击了解更多详细信息)

Cursor已经上线 gpt-5 系列 且所有用户首周免费*

Github Copilot 更新后可用*

PPLX 可用

ChatGPT Plus/Pro/Team 将于今天逐渐推送ChatGPT 5系列模型

Microsoft Copilot 中已经可用





剧透
21 个帖子 - 16 位参与者

阅读完整话题
始皇今天过生日吗?有小蛋糕了?
LINUX DO - 热门话题 (RSS)

始皇今天过生日吗?有小蛋糕了?

@neo

生日快乐!!!

始皇快发礼物

56 个帖子 - 52 位参与者

阅读完整话题
祝始皇生日快乐♪٩(´ω`)و♪
LINUX DO - 热门话题 (RSS)

@neo





人生年几今日,欢笑一时须尽欢!

同时,也祝以下佬友生日快乐♪٩(´ω`)و♪



131 个帖子 - 125 位参与者

阅读完整话题
开源啦!给Gemini CLI做的GUI终于做好了,佬友们快来尝尝鲜~😁 (AionUi v1.0.0)
LINUX DO - 热门话题 (RSS)


Hi 佬友们早,写了一周开发日记的Geimini CLI GUI App正式和大家见面啦!!感谢大家的耐心等待...和催促(不是

咳咳,让我再认真介绍一下她。她叫“AionUi”(读-爱Young),我们可以理解为AI on UI (为Ai而生的Ui),也可以理解为 Ai on You(为你而生的Ai)... 不论怎么样,强行浪漫一把

让我来给大家分享我和她的故事~(其实都记录在开发日记帖子里啦 不习惯命令行的我,给Gemini Cli做了个GUI(瓦砾的开发日记w) - #79,来自 waili


//以下内容纯原创、手敲,AIGC含量 0.000%,请放心食用~

我为什么想做这个?

— 受到LINUX DO的氛围影响,自己也想尝试一些有意思的事儿
— 7月初的时候被Gemini CLI的能力惊喜到了(当然也是因为Gemini 2.5 Pro免费用很快乐
— 非典型开发的我不太习惯命令行界面,但是又还想继续用Gemini CLI的功能(当然也有很多佬友爱CUI啦!

整体来说,做这个事情的初衷是为了满足自己的探索欲,以及让自己用Gemini CLI的时候顺手一些。当初我用CLI的时候有这些痛点:

— 有时候想让它专注某个文件,需要用@来选择文件,还挺麻烦的
— 我每次关掉命令行窗口后,就再也找不回之前聊天的记录了(尤其是有一次手误关掉了,里面好多结论忘了截图)
— 我不习惯命令行是输入/删除内容时的光标位置,老是错位...
— 我想要能同时进行多个对话,因为我一般是A对话在处理代码,B对话在聊天,C对话在吸收github上某个项目的开发思路。
— 我想要个文件修改前后的diff对比,我害怕它给我改坏咯,总是想要看看改了哪儿。

第一版有什么功能?
因此,AionUi (v1.0.0)就诞生啦,(是的我还想长期维护,连版本号都给安排上了),她有这些功能:

一个舒适的聊天界面:可以在里面随意的复制、粘贴和输入,我的消息和AI的回复也用消息气泡来承载了,会看上去更像一个Chat啦。
文件的交互更安全、舒适:可以通过上传文件来让Gemini...

View original post