今天户外 Gemini Live 爽了一把
LINUX DO - 热门话题 (RSS)
今天在户外散步,意外打开了Gemini,然后又不小心点到了 Gemini Live按钮,结果,就打开了Gemini Live,打开摄像头,一路沿途,边走边聊,从路边的花草树木,到奥迪、斯巴鲁的喜好,又看到路上的流浪狗和一个女人,继而讨论起宠物话题,接着又给我分析了一遍路上的行人,看到两个小姐姐穿着白色的连衣裙,过马路互相搀扶的老人......这一路是真不寂寞,走到人群密集处,还能假装跟人电话(跟Gemini Live聊着呢),摄像头开着各种拍......
17 个帖子 - 11 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
今天在户外散步,意外打开了Gemini,然后又不小心点到了 Gemini Live按钮,结果,就打开了Gemini Live,打开摄像头,一路沿途,边走边聊,从路边的花草树木,到奥迪、斯巴鲁的喜好,又看到路上的流浪狗和一个女人,继而讨论起宠物话题,接着又给我分析了一遍路上的行人,看到两个小姐姐穿着白色的连衣裙,过马路互相搀扶的老人......这一路是真不寂寞,走到人群密集处,还能假装跟人电话(跟Gemini Live聊着呢),摄像头开着各种拍......
17 个帖子 - 11 位参与者
阅读完整话题
浅谈ChatGPT的记忆实现机制 兼论工程端记忆设计
LINUX DO - 热门话题 (RSS)
你也可以在本博客查看本文的全部内容。
要想研究ChatGPT这个产品的“记忆”功能实现机制,我们就必须要从大模型本身的“记忆”到底是个什么东西开始说起。
在我们的传统的,人类视角的认知里,“记忆”意味着信息的持久储存和可随时调用,但这一常识在神经网络中往往并不成立。大语言模型(LLM)本身其实并不具备“记住某个具体事实”或“反复调用某段对话”的内建机制 。它们所谓的“记忆”,更多体现在参数记忆 的层面——即通过反复训练,将大量的语料信息固化在数百亿甚至万亿级的参数中,从而形成一种对语言结构、事实知识乃至人类行为模式的“潜在记忆”。
虽然这种参数记忆赋予了大模型前所未有的知识广度,但其本身的信息管理是静态的,只能反映训练阶段所接触到的信息,无法根据用户的即时输入动态调整,也无法在多轮对话之间保持状态。这也意味着,大模型在默认状态下是无记忆、无连续性的。为了让用户在使用中获得“ChatGPT 记得我说过什么”的体验,系统必须引入额外的机制来补全这种能力的缺失。最直接的方式,便是上下文管理(context management)。
所谓上下文管理,是指在一次交互过程中,将用户与模型之间的多轮对话,打包成一个“对话上下文窗口”(context window)一并输入模型,从而模拟出“记得过去对话”的效果。这种机制并非模型主动“记住”了内容,而是每一次调用模型时都“重新喂给它过去发生的事情”。
上下文管理是目前 LLM 实现短期记忆的核心方法,但它也存在明显的限制:窗口大小有限(目前主流模型支持的最大上下文为128k tokens),每次输入的上下文越长,推理成本也越高;同时它无法实现真正的“长期记忆”——例如跨会话的状态保留、用户偏好的追踪、个人资料的学习等。这就引出了 ChatGPT 的另一个核心设计:用户级的“记忆系统”。
为了给用户更好的,更智能、温情的对话体验,这个系统试图实现的是对用户信息的持久存储与调取,补上“上下文窗口”无法承担的那部分“跨会话记忆”。但它不是模型本身的能力,而是产品层的一项“外挂功能”,通过在后端数据库中记录“用户告诉过模型的信息”,并在合适的时候动态注入这些内容到上下文中,从而模拟出模型“记得你”的效果。
在下文中,我们将围绕 ChatGPT 的这一“类人记忆”系统展开分析,探讨其设计原则、实现逻辑与当前的能力边界。
一、发展演进梳理
我们可以通过下面这张表格来来一窥ChatGPT记忆系统的演进:
日期/时期
功能/更新
核心功能
用户层级
关键用户控制方式
2024年之前
仅上下文窗口
会话内回忆,受限于tokens数量
所有用户
除提示工程外基本无
2024年早期
自定义指令
用户定义的持久性指南
所有用户
管理自定义指令
2025年4月之前
“已保存的记忆” (显式)
用户明确告知的事实性信息存储
Plus, Pro, 免费版 (仅限此功能)
查看/删除已保存的记忆
2025年4月10日
“聊天历史”参考 (隐式)
自动从所有过去聊天中提取洞察以供回忆
Plus, Pro
切换“已保存的记忆”/“聊天历史”开关,临时聊天,存档聊天
2025年4月之后
双重记忆系统
结合显式用户指令和隐式AI学习的综合回忆机制
Plus, Pro
同上,并可询问“你记得关于我的什么?”
更新后,ChatGPT的记忆系统以双重方式运行:
— “已保存的记忆” (Saved Memories):用户明确要求ChatGPT记住的细节(例如,“记住我是素食主义者”)。这可视为先前显式记忆系统的演进。
— “聊天历史”参考 (Chat History Reference):ChatGPT从过去的对话中自动收集洞察,以改进未来的互动,即使这些信息未被明确保存。这是更新、更全面的记忆层。 OpenAI建议用户将关键信息通过“已保存的记忆”功能来固定,因为“聊天历史”并非逐字记录所有细节,而是综合提炼洞察。
底层机制
既然是 OpenAI 出品的功能,其实现方式自然不可能像早期开源项目那样简单粗暴——例如直接将上下文丢进向量数据库,待用时再暴力召回。相比之下,OpenAI 构建了一个由系统自动维护的动态用户画像机制,并在每次新对话开始时,将相关信息注入到系统提示中,以实现类人“长期记忆”的体验。
—
—
—
—
—
—
ChatGPT 会在持续使用中逐步形成对用户的抽象性理解与偏好建模。当用户输入新的请求时,模型并不会“无脑加载”所有历史内容,而是通过一系列筛选和匹配算法,挑选与当前上下文最相关的信息注入提示中。对于用户保存的记忆条目,系统采用语义索引机制,在嵌入向量空间中计算相关性,通常会检索出最相关的 5 到 20 条数据,用于增强模型当前的应答能力。
接下来,我将展示一份经过去敏处理的 ChatGPT 老用户档案(序号对不上是我删了那个条目),帮助大家直观了解这一用户画像系统究竟是如何“描绘”用户的。
1.模型设定上下文与助手回应偏好...
View original post
LINUX DO - 热门话题 (RSS)
你也可以在本博客查看本文的全部内容。
要想研究ChatGPT这个产品的“记忆”功能实现机制,我们就必须要从大模型本身的“记忆”到底是个什么东西开始说起。
在我们的传统的,人类视角的认知里,“记忆”意味着信息的持久储存和可随时调用,但这一常识在神经网络中往往并不成立。大语言模型(LLM)本身其实并不具备“记住某个具体事实”或“反复调用某段对话”的内建机制 。它们所谓的“记忆”,更多体现在参数记忆 的层面——即通过反复训练,将大量的语料信息固化在数百亿甚至万亿级的参数中,从而形成一种对语言结构、事实知识乃至人类行为模式的“潜在记忆”。
虽然这种参数记忆赋予了大模型前所未有的知识广度,但其本身的信息管理是静态的,只能反映训练阶段所接触到的信息,无法根据用户的即时输入动态调整,也无法在多轮对话之间保持状态。这也意味着,大模型在默认状态下是无记忆、无连续性的。为了让用户在使用中获得“ChatGPT 记得我说过什么”的体验,系统必须引入额外的机制来补全这种能力的缺失。最直接的方式,便是上下文管理(context management)。
所谓上下文管理,是指在一次交互过程中,将用户与模型之间的多轮对话,打包成一个“对话上下文窗口”(context window)一并输入模型,从而模拟出“记得过去对话”的效果。这种机制并非模型主动“记住”了内容,而是每一次调用模型时都“重新喂给它过去发生的事情”。
这也是为什么很多初次使用大模型api的用户会惊讶为啥每一轮对话所耗费的额度会呈现滚雪球式增长,因为如果你不限制上下文总窗口和轮数的话,系统需要在每一次请求中携带之前的全部对话内容,自然而然就会账单爆炸了。
上下文管理是目前 LLM 实现短期记忆的核心方法,但它也存在明显的限制:窗口大小有限(目前主流模型支持的最大上下文为128k tokens),每次输入的上下文越长,推理成本也越高;同时它无法实现真正的“长期记忆”——例如跨会话的状态保留、用户偏好的追踪、个人资料的学习等。这就引出了 ChatGPT 的另一个核心设计:用户级的“记忆系统”。
为了给用户更好的,更智能、温情的对话体验,这个系统试图实现的是对用户信息的持久存储与调取,补上“上下文窗口”无法承担的那部分“跨会话记忆”。但它不是模型本身的能力,而是产品层的一项“外挂功能”,通过在后端数据库中记录“用户告诉过模型的信息”,并在合适的时候动态注入这些内容到上下文中,从而模拟出模型“记得你”的效果。
在下文中,我们将围绕 ChatGPT 的这一“类人记忆”系统展开分析,探讨其设计原则、实现逻辑与当前的能力边界。
一、发展演进梳理
我们可以通过下面这张表格来来一窥ChatGPT记忆系统的演进:
日期/时期
功能/更新
核心功能
用户层级
关键用户控制方式
2024年之前
仅上下文窗口
会话内回忆,受限于tokens数量
所有用户
除提示工程外基本无
2024年早期
自定义指令
用户定义的持久性指南
所有用户
管理自定义指令
2025年4月之前
“已保存的记忆” (显式)
用户明确告知的事实性信息存储
Plus, Pro, 免费版 (仅限此功能)
查看/删除已保存的记忆
2025年4月10日
“聊天历史”参考 (隐式)
自动从所有过去聊天中提取洞察以供回忆
Plus, Pro
切换“已保存的记忆”/“聊天历史”开关,临时聊天,存档聊天
2025年4月之后
双重记忆系统
结合显式用户指令和隐式AI学习的综合回忆机制
Plus, Pro
同上,并可询问“你记得关于我的什么?”
2025年4月10日,OpenAI宣布,ChatGPT现在可以参考用户所有的过去聊天记录,以提供更加个性化和相关的回应。官方通过@OpenAI和萨姆·阿尔特曼的推文发布了这一消息 ,并在FAQ文档中提供了更多细节 。萨姆·阿尔特曼称之为一项“出人意料的强大功能”,并指出它预示着“AI系统将在你的一生中了解你,并变得极其有用和个性化” 。这一变革使得ChatGPT从主要依赖显式指令或会话内上下文,转变为一个能够基于用户全部互动历史持续学习和自我定制的模型 。
更新后,ChatGPT的记忆系统以双重方式运行:
— “已保存的记忆” (Saved Memories):用户明确要求ChatGPT记住的细节(例如,“记住我是素食主义者”)。这可视为先前显式记忆系统的演进。
— “聊天历史”参考 (Chat History Reference):ChatGPT从过去的对话中自动收集洞察,以改进未来的互动,即使这些信息未被明确保存。这是更新、更全面的记忆层。 OpenAI建议用户将关键信息通过“已保存的记忆”功能来固定,因为“聊天历史”并非逐字记录所有细节,而是综合提炼洞察。
底层机制
既然是 OpenAI 出品的功能,其实现方式自然不可能像早期开源项目那样简单粗暴——例如直接将上下文丢进向量数据库,待用时再暴力召回。相比之下,OpenAI 构建了一个由系统自动维护的动态用户画像机制,并在每次新对话开始时,将相关信息注入到系统提示中,以实现类人“长期记忆”的体验。
—
Model Set Context (模型设定上下文):包含用户明确“保存的记忆”,并附有时间戳。例如:“1. [2025-05-02]. 用户喜欢冰淇淋和饼干。”—
Assistant Response Preferences (助手回应偏好):基于过去互动风格,指示ChatGPT应如何组织其回应。例如,用户可能偏好XML、JSON等结构化格式。此部分通常带有一个Confidence (置信度)标签 。—
Notable Past Conversation Topic Highlights (过往对话主题重点):记录了以往对话中的高级别主题摘要,以保持未来讨论的连续性。例如,用户对AI漏洞或脚本编写的兴趣。此部分也包含Confidence标签 。—
Helpful User Insights (有用的用户洞察):聚合了关于用户的具体事实信息,如姓名、职业、研究兴趣、博客地址等。—
Recent Conversation Content (近期对话内容):存储数量有限(约40条)的近期聊天摘要,包含用户输入的消息,但不包括AI的回应,这可能是为了控制数据量和降低注入风险。时间戳的详细程度随对话的新近度而变化。—
User Interaction Metadata (用户互动元数据):自动生成的账户使用信息,包括不同模型使用比例、账户年龄、设备类型、平均对话深度、常用意图标签(intent_tags)以及 UI 偏好等。ChatGPT 会在持续使用中逐步形成对用户的抽象性理解与偏好建模。当用户输入新的请求时,模型并不会“无脑加载”所有历史内容,而是通过一系列筛选和匹配算法,挑选与当前上下文最相关的信息注入提示中。对于用户保存的记忆条目,系统采用语义索引机制,在嵌入向量空间中计算相关性,通常会检索出最相关的 5 到 20 条数据,用于增强模型当前的应答能力。
接下来,我将展示一份经过去敏处理的 ChatGPT 老用户档案(序号对不上是我删了那个条目),帮助大家直观了解这一用户画像系统究竟是如何“描绘”用户的。
1.模型设定上下文与助手回应偏好...
View original post
时歌的博客
浅谈ChatGPT的记忆实现机制 兼论工程端记忆设计 | 时歌的博客
本文系统梳理了 ChatGPT 的记忆系统实现机制,并探讨了工程实践中不同层次的“记忆”设计思路与权衡方法,兼具技术性与现实可操作性。
经典!花了2万多买的Python教程全套,现在分享给大家,入门到精通 Python全栈开发教程 (168个视频教程=2.1GB)
LINUX DO - 热门话题 (RSS)
我用夸克网盘分享了「花了2万多买的Python教程全套,现在分享给大家,入门到精通 Python全栈开发教程」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。
链接:夸克网盘分享
只发经典,关注我别错过!
15 个帖子 - 15 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
我用夸克网盘分享了「花了2万多买的Python教程全套,现在分享给大家,入门到精通 Python全栈开发教程」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。
链接:夸克网盘分享
只发经典,关注我别错过!
15 个帖子 - 15 位参与者
阅读完整话题
一套个人认为超级好看的 bandizip 的图标,设计感拉满
LINUX DO - 热门话题 (RSS)
之前还请论坛帮忙找个这套图片,今天拿到自己的旧电脑,第一件事就是赶紧备份一下,防止丢失了。
这套图标个人认为设计感实在是太好了,之后也是从一个网站上看到的,之后不知道是不是网站不在运营了,就无论如何都找不到了。
不知道有没有佬见过这套图的,因为实在是不知道作者是谁,也没办法附上原作者之类的了,有喜欢的佬友可以用起来,放论坛也是自己私心吧,怕出意外再弄丢了。
(始皇看到了不会生气吧,本来服务器资源就紧张,还拿论坛当网盘用。不要怪罪啊。哈哈哈哈哈哈)
分享链接附在下面:
解压缩软件图标.zip (518.2 KB)
更:
使用方法就是 解压出来之后,得到一个名字为 解压缩软件图标.iconpack 的文件,双击,就会提示你:
点击是就行了,灰常简单~~
16 个帖子 - 15 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
之前还请论坛帮忙找个这套图片,今天拿到自己的旧电脑,第一件事就是赶紧备份一下,防止丢失了。
这套图标个人认为设计感实在是太好了,之后也是从一个网站上看到的,之后不知道是不是网站不在运营了,就无论如何都找不到了。
不知道有没有佬见过这套图的,因为实在是不知道作者是谁,也没办法附上原作者之类的了,有喜欢的佬友可以用起来,放论坛也是自己私心吧,怕出意外再弄丢了。
(始皇看到了不会生气吧,本来服务器资源就紧张,还拿论坛当网盘用。不要怪罪啊。哈哈哈哈哈哈)
分享链接附在下面:
解压缩软件图标.zip (518.2 KB)
更:
使用方法就是 解压出来之后,得到一个名字为 解压缩软件图标.iconpack 的文件,双击,就会提示你:
点击是就行了,灰常简单~~
16 个帖子 - 15 位参与者
阅读完整话题
我用 v0 + cursor,给自己爽了一波,哈哈哈,用的社区白嫖
LINUX DO - 热门话题 (RSS)
耗时2个星期,断断续续,终于用cursor整了一个网站了:plgam
一个游戏站(iframe嵌入第三方游戏~~哈哈哈),参考的:game-website-template-v2
大致的思路是:
— json配置游戏信息
— mdx渲染游戏介绍信息
看了这个模板,直接给我一个后端整蒙蔽了,确实牛逼。
有什么bug,欢迎各位佬指出
碎碎念:AI 编程还是很牛逼的,界面是v0生成的,逻辑是cursor,满婚~~~
22 个帖子 - 14 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
耗时2个星期,断断续续,终于用cursor整了一个网站了:plgam
一个游戏站(iframe嵌入第三方游戏~~哈哈哈),参考的:game-website-template-v2
大致的思路是:
— json配置游戏信息
— mdx渲染游戏介绍信息
看了这个模板,直接给我一个后端整蒙蔽了,确实牛逼。
有什么bug,欢迎各位佬指出
碎碎念:AI 编程还是很牛逼的,界面是v0生成的,逻辑是cursor,满婚~~~
22 个帖子 - 14 位参与者
阅读完整话题
Plgam
PLGAM - Play Free Online Games
Discover and play hundreds of free online games on PLGAM. New games added daily!
免费的教育域名申请
LINUX DO - 热门话题 (RSS)
域名后缀为edu.deal,支持A、AAAA、NS,强烈建议修改NS到自己喜欢的DSN托管商。
先到先得
注册网址 用户注册 - 二级域名分发
50 个帖子 - 38 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
域名后缀为edu.deal,支持A、AAAA、NS,强烈建议修改NS到自己喜欢的DSN托管商。
先到先得
注册网址 用户注册 - 二级域名分发
50 个帖子 - 38 位参与者
阅读完整话题
三级啦,有点感动
LINUX DO - 热门话题 (RSS)
之前还在二级挣扎徘徊的时候,心里想着“升三级了一定要发个帖子庆祝一下”,这两天高强度刷L站,看了超级多帖子,看到Connect里的红色文字变成绿色,感觉并不是欢呼雀跃,而是有一些感动。
我算是过年那段时间了解到的L站,在开放注册期正式加入了L站,从起初的潜水刷帖,到现在大胆回复、开帖,感谢所有佬友的包容,让我从一个“萌新”的胆怯中逐渐脱离出来,开始享受L站的一切。现在,对我来说,L站已经是一个不可或缺的地方,无论获取新资讯、新知识,还是看到自己的知识能帮助佬友,都让我更有归属感
多的不说啦,庆祝自己三级,大家一起
49 个帖子 - 44 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
之前还在二级挣扎徘徊的时候,心里想着“升三级了一定要发个帖子庆祝一下”,这两天高强度刷L站,看了超级多帖子,看到Connect里的红色文字变成绿色,感觉并不是欢呼雀跃,而是有一些感动。
我算是过年那段时间了解到的L站,在开放注册期正式加入了L站,从起初的潜水刷帖,到现在大胆回复、开帖,感谢所有佬友的包容,让我从一个“萌新”的胆怯中逐渐脱离出来,开始享受L站的一切。现在,对我来说,L站已经是一个不可或缺的地方,无论获取新资讯、新知识,还是看到自己的知识能帮助佬友,都让我更有归属感
多的不说啦,庆祝自己三级,大家一起
真诚 、友善 、团结 、专业 ,共建你我引以为荣之社区。
49 个帖子 - 44 位参与者
阅读完整话题
👍1
无法理解科技发达的现在宗教还这么流行.
LINUX DO - 热门话题 (RSS)
以前看美剧那种科技发达到宇宙间旅行了还有宗教的成分一直不理解, 我认为宗教是在战乱饥荒年代给人慰藉流行就算了, 包括中国打战时候协和湘雅同济都是外国人来传教时候顺便救助了中国人也不失为一件好事.
但是在科技发展的今天, 我这几天在新加坡发达国家路上三天被含住了两次都是基督教徒传教, 一查吓一跳整个马来西亚都是伊斯兰教写进宪法了, 马来西亚人生下来就是, 华人不受影响但是如果和马来人通婚必须入教终身不得退出. 前几天刷到英国也都绿化了市长全是绿绿.
不得感叹还是中国治理这些东西好, 新加坡有个人说如果新加坡吧国旗上的月亮去掉明天伊斯兰就能造反.
113 个帖子 - 103 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
以前看美剧那种科技发达到宇宙间旅行了还有宗教的成分一直不理解, 我认为宗教是在战乱饥荒年代给人慰藉流行就算了, 包括中国打战时候协和湘雅同济都是外国人来传教时候顺便救助了中国人也不失为一件好事.
但是在科技发展的今天, 我这几天在新加坡发达国家路上三天被含住了两次都是基督教徒传教, 一查吓一跳整个马来西亚都是伊斯兰教写进宪法了, 马来西亚人生下来就是, 华人不受影响但是如果和马来人通婚必须入教终身不得退出. 前几天刷到英国也都绿化了市长全是绿绿.
不得感叹还是中国治理这些东西好, 新加坡有个人说如果新加坡吧国旗上的月亮去掉明天伊斯兰就能造反.
113 个帖子 - 103 位参与者
阅读完整话题
《我在L站当皇帝》爽文打算上架,统计一下佬友想法
LINUX DO - 热门话题 (RSS)
其实这个小说从上个月就开始策划了,目前写了十几章(加AI辅助的),准备一直连载下去。讲的是从zhile、PandoraNext到将来的一系列事件,参考了很多论坛史方面的内容,希望大家喜欢。
附几张创作照片:
点击以查看投票。
(当然了,佬友是免费看的哈
51 个帖子 - 48 位参与者
阅读完整话题
LINUX DO - 热门话题 (RSS)
其实这个小说从上个月就开始策划了,目前写了十几章(加AI辅助的),准备一直连载下去。讲的是从zhile、PandoraNext到将来的一系列事件,参考了很多论坛史方面的内容,希望大家喜欢。
附几张创作照片:
点击以查看投票。
(当然了,佬友是免费看的哈
51 个帖子 - 48 位参与者
阅读完整话题
250526 三花AI日报:MMaDA 多模态扩散模型;Visual Planning 纯视觉推理模型;Cua 基于 Docker 容器 Computer-Use Agents;还有更多...
LINUX DO - 热门话题 (RSS)
MMaDA 多模态扩散模型实现文本推理+视觉理解+文生图
MMaDA 是一款开源的多模态扩散模型,同时具有文字推理、图片理解、文字生成图片的能力。
感兴趣的佬们可以通过官方的在线演示体验。
Visual Planning:突破文本依赖的纯视觉推理模型
传统多模态大模型本质是视觉输入然后使用文本推理,而 Visual Planning 直接通过图像序列进行推理,不依赖于文本。
该方法实现了真正的纯视觉推理范式,目前相关论文已正式发布(但代码尚未开源)。
Cua:基于 Docker 容器的高性能 Computer-Use Agents
Cua 是一个开源项目,基于 Docker 容器技术构建的 AI 代理框架。它允许 AI 代理在隔离的 Docker 容器环境中运行,可以与 OpenAI、Anthropic 等主流大语言模型无缝配合使用。
非常看好 Cua,它解决了 AI 代理与操作系统交互的安全性问题,同时几乎不会造成性能损失。
Pixel Reasoner:像素空间推理的视觉语言模型
Pixel-Reasoner 是一个基于 Qwen2 的开源视觉语言模型,在像素级视觉理解和推理能力上实现了显著突破。
该模型不仅能全局理解整个画布内容,还能通过局部放大功能实现精细化的细节分析。
官方演示效果不错,强烈推荐佬们都去玩玩看。
Cutemorphic:基于 gpt-image-1 的免费 3D 风格头像生成器
Cutemorphic 是一个完全免费且无需登录的可爱 3D 风格头像生成器,基于 OpenAI Responses API 和 gpt-image-1 实现。
佬们只需上传头像点击生成即可获得个性化 3D 头像,还可以通过提示词编辑功能进行更精细的控制。
Anthropic 与 Rick Rubin 合作推出 Claude 生成的艺术代码展
Anthropic 与 Rick Rubin 合作推出了这个独特的艺术代码展示网站 - 所有展示的代码均由 Claude...
View original post
LINUX DO - 热门话题 (RSS)
MMaDA 多模态扩散模型实现文本推理+视觉理解+文生图
MMaDA 是一款开源的多模态扩散模型,同时具有文字推理、图片理解、文字生成图片的能力。
感兴趣的佬们可以通过官方的在线演示体验。
Visual Planning:突破文本依赖的纯视觉推理模型
传统多模态大模型本质是视觉输入然后使用文本推理,而 Visual Planning 直接通过图像序列进行推理,不依赖于文本。
该方法实现了真正的纯视觉推理范式,目前相关论文已正式发布(但代码尚未开源)。
Cua:基于 Docker 容器的高性能 Computer-Use Agents
Cua 是一个开源项目,基于 Docker 容器技术构建的 AI 代理框架。它允许 AI 代理在隔离的 Docker 容器环境中运行,可以与 OpenAI、Anthropic 等主流大语言模型无缝配合使用。
非常看好 Cua,它解决了 AI 代理与操作系统交互的安全性问题,同时几乎不会造成性能损失。
Pixel Reasoner:像素空间推理的视觉语言模型
Pixel-Reasoner 是一个基于 Qwen2 的开源视觉语言模型,在像素级视觉理解和推理能力上实现了显著突破。
该模型不仅能全局理解整个画布内容,还能通过局部放大功能实现精细化的细节分析。
官方演示效果不错,强烈推荐佬们都去玩玩看。
Cutemorphic:基于 gpt-image-1 的免费 3D 风格头像生成器
Cutemorphic 是一个完全免费且无需登录的可爱 3D 风格头像生成器,基于 OpenAI Responses API 和 gpt-image-1 实现。
佬们只需上传头像点击生成即可获得个性化 3D 头像,还可以通过提示词编辑功能进行更精细的控制。
Anthropic 与 Rick Rubin 合作推出 Claude 生成的艺术代码展
Anthropic 与 Rick Rubin 合作推出了这个独特的艺术代码展示网站 - 所有展示的代码均由 Claude...
View original post