大家认为在闲鱼卖邀请码违反社区规则吗?
最近社区关闭了开放注册只能通过三级用户邀请码注册,如果有人在咸鱼卖邀请码是否违反社区规则呢?看了faq没有提到这方面的内容,就我个人而言感觉这样会增加审核人员的负担,应当加以限制。
12.20更新:去咸鱼上看了一下,不少佬友按照官方指导价上了链接:tieba_025:
122 posts - 102 participants
Read full topic
via LINUX DO - 热门话题 (author: 西山小鬼)
Invalid media: image
最近社区关闭了开放注册只能通过三级用户邀请码注册,如果有人在咸鱼卖邀请码是否违反社区规则呢?看了faq没有提到这方面的内容,就我个人而言感觉这样会增加审核人员的负担,应当加以限制。
12.20更新:去咸鱼上看了一下,不少佬友按照官方指导价上了链接:tieba_025:
122 posts - 102 participants
Read full topic
via LINUX DO - 热门话题 (author: 西山小鬼)
Invalid media: image
【有感而发】中文技术社区的桃花源——新人进入L站数天有感
这几天在 L 站真给我逛爽了,之前看的都是些啥呀 😡 😡
初识 L 站
第一次遇见 L 站可以说是一场意外, 😇 😇不过也真是幸运——在 GPT-5.1 回复中的参考资料
问 GPT 问题时,它回复的消息会标明参考资料及其网址。当时看到某一段内容时,感觉写的特别好,非常符合我的需求,然后就点进了那个网站。第一眼,诶,居然还是中文网站;第二眼,我去,这文章写得可以啊;第三眼,看了看其他帖子,这是天堂吗?说真的,当时看到互联网上还有这种社区,直接看立了 😍 🤤 🤤(咳咳)
在此之前,我基本是一个对中文互联网内容失望的状态 😡 😡,有问题都是问 AI,不期望百度/CSDN 能给我解答。L 站真的是个例外,像插在牛粪上的花()
反正当时惊为天人,直接就开始注册了 🥰 🥰。半小时不到,一口气写下的100多字的入站申请。可能因为是真情实感吧,审核很快就放我进来的
自我介绍与入站小作文
先简单介绍一下自己:
● 国内在读计算机本科生
● 技术栈较浅,python+前端,目前研究方向为传统机器学习方法
● 热衷于 AI 技术,包括 AI 编程、创意内容生产(小说、图片、视频)、辅助学习,期待 AI 技术的发展能够落地,造福大众 👍️ 👍️ 👍️
● 尊重且向往开源理念,认为这是一种跨越分歧的宝贵精神,希望为开源社区做贡献
● 我的博客园主页,这里发布了一些我整理好的笔记分享,内容再充实一点后会搬运到 L 站来(因为 L 站三级以下不能随时编辑话题,担心发布在这里的话题出现笔误等)
这里摘取一段入站小作文的内容:
我相信,我在这种理念下产出的教程会对初学者会有很大的帮助,必将超越老式的教程(×)。我也将在自己达到足够的水平后,为中文技术教程做出自己的贡献
技术论坛现状
这里先简单谈一下我对现有国内相对大众的技术论坛的“刻板印象”:
● CSDN:在计算机相关论坛中,名气最大,资源丰富。但是运营吃相及其难看,各种逼氪,如把别人的文章强制转为会员,如付费下载资源。此外,在 CSDN 找资料,本来就是 shit 里淘金,现在加上 AI 内容更是看都不想看,想找资料就得化身粪海狂蛆
● 博客园:国内可能相对纯粹的技术论坛,以成篇的项目分项居多,对技术前沿的讨论少。似乎不怎么赚钱,担心运营不下去了
● 掘金:前端技术交流社区,不过现在似乎坠机了
对比来看,我也斗胆总结一下 L 站的独特之处 :
● 前沿技术交流,尤其是 AI 编程。比如孙佬的话题- 【自己动手,丰衣足食 04】一个更现代的 SKILLs 集合,一个更省时的并行化workflow。好的agent怎能局限于线性cc+codex+gemini?
● 技术内容,干货满满
● 气氛友好,可以答疑解惑
● 没有广告(软广),很多在外面一搜全是买量软广的问题都可以在这里找到真实的分享
● 有羊毛可以薅(咳咳)
对社区规则的阅读与理解
进站前已经观看了始皇指定的新人文档,正式注册后也阅读了站内规范。整体来看,社区的规范比起其他论坛/平台更加严格,不过均在合理范围内,能看出是为了维护社区而设。而且,这样的规范其实有助于筛选,pass 掉蠢人/坏人 😡 😡
比如社区规范里提到一段,不得使用任何 AI 生成的文字内容,AI 润色也不行。其实第一眼看到反而觉得有些严苛了,我觉得自己说的不到位,AI 帮我改一下也不行嘛。不过后面细细想来,一是互联网上的真人内容越来越少;二来语言组织、长文撰写也是个重要的技能,现实生活里也有不少人叽里咕噜啥,说了半天一件事事也说不明白;加上真有那种神人一点不改就猛猛复制粘贴的,严格一点也是好事,筛选掉这些不会说话、不认真说话的人。
还有一点,忘记在哪个有关社区规范的话题里看到的,L 站的管理更愿意把 L 站称为社区而不是其他名称,感觉这个称呼也反应出管理层的美好愿景,充满希望 👏 👏 👏
写在后面
在 L 站的数天里,我真的学到了很多,也非常幸运能遇见并加入这样一个相对纯净的中文技术社区。期望 LINUX DO 能在保持友好氛围的前提下,持久运营下去,不断吸纳新鲜血液,保持活力
手打一遍 L 站的口号吧——
Read full topic
via LINUX DO - 热门话题 (author: 废寝忘食)
这几天在 L 站真给我逛爽了,之前看的都是些啥呀 😡 😡
初识 L 站
第一次遇见 L 站可以说是一场意外, 😇 😇不过也真是幸运——在 GPT-5.1 回复中的参考资料
问 GPT 问题时,它回复的消息会标明参考资料及其网址。当时看到某一段内容时,感觉写的特别好,非常符合我的需求,然后就点进了那个网站。第一眼,诶,居然还是中文网站;第二眼,我去,这文章写得可以啊;第三眼,看了看其他帖子,这是天堂吗?说真的,当时看到互联网上还有这种社区,直接看立了 😍 🤤 🤤(咳咳)
在此之前,我基本是一个对中文互联网内容失望的状态 😡 😡,有问题都是问 AI,不期望百度/CSDN 能给我解答。L 站真的是个例外,像插在牛粪上的花()
反正当时惊为天人,直接就开始注册了 🥰 🥰。半小时不到,一口气写下的100多字的入站申请。可能因为是真情实感吧,审核很快就放我进来的
2025-12-17 站长 Neo 宣布关闭公开注册 😨 😨。现在看来,我上的还是末班车了
自我介绍与入站小作文
先简单介绍一下自己:
● 国内在读计算机本科生
● 技术栈较浅,python+前端,目前研究方向为传统机器学习方法
● 热衷于 AI 技术,包括 AI 编程、创意内容生产(小说、图片、视频)、辅助学习,期待 AI 技术的发展能够落地,造福大众 👍️ 👍️ 👍️
● 尊重且向往开源理念,认为这是一种跨越分歧的宝贵精神,希望为开源社区做贡献
● 我的博客园主页,这里发布了一些我整理好的笔记分享,内容再充实一点后会搬运到 L 站来(因为 L 站三级以下不能随时编辑话题,担心发布在这里的话题出现笔误等)
这里摘取一段入站小作文的内容:
我热衷于学习各种知识,在学习过程中有很多个人博客的文章让我受益匪浅。我希望在未来,自己消化这些知识后,能用自己的语言为后来者撰写更加通俗易懂的教程。目前已经在博客园发了一些非常基础的教程,希望后续可以发布更多在我的技术学习过程中,确实得到了各种博客文章、视频分享等免费内容很大帮助。所以在我会想学习这些先驱者,无私分享自己的教程;并且,我对自己的笔记内容有较高的要求,需要确保逻辑合理、内容准确、通俗易懂等,而非简单的罗列定义,常常希望从具体场景出发,理解为什么要引入某个概念及其实际意义
我相信,我在这种理念下产出的教程会对初学者会有很大的帮助,必将超越老式的教程(×)。我也将在自己达到足够的水平后,为中文技术教程做出自己的贡献
访问https://linux.do/u/<user_name>.json可以看到自己入站申请的内容<user_name>改为自己的 id
技术论坛现状
这里先简单谈一下我对现有国内相对大众的技术论坛的“刻板印象”:
● CSDN:在计算机相关论坛中,名气最大,资源丰富。但是运营吃相及其难看,各种逼氪,如把别人的文章强制转为会员,如付费下载资源。此外,在 CSDN 找资料,本来就是 shit 里淘金,现在加上 AI 内容更是看都不想看,想找资料就得化身粪海狂蛆
● 博客园:国内可能相对纯粹的技术论坛,以成篇的项目分项居多,对技术前沿的讨论少。似乎不怎么赚钱,担心运营不下去了
● 掘金:前端技术交流社区,不过现在似乎坠机了
对比来看,我也斗胆总结一下 L 站的独特之处 :
● 前沿技术交流,尤其是 AI 编程。比如孙佬的话题- 【自己动手,丰衣足食 04】一个更现代的 SKILLs 集合,一个更省时的并行化workflow。好的agent怎能局限于线性cc+codex+gemini?
● 技术内容,干货满满
● 气氛友好,可以答疑解惑
● 没有广告(软广),很多在外面一搜全是买量软广的问题都可以在这里找到真实的分享
● 有羊毛可以薅(咳咳)
对社区规则的阅读与理解
进站前已经观看了始皇指定的新人文档,正式注册后也阅读了站内规范。整体来看,社区的规范比起其他论坛/平台更加严格,不过均在合理范围内,能看出是为了维护社区而设。而且,这样的规范其实有助于筛选,pass 掉蠢人/坏人 😡 😡
比如社区规范里提到一段,不得使用任何 AI 生成的文字内容,AI 润色也不行。其实第一眼看到反而觉得有些严苛了,我觉得自己说的不到位,AI 帮我改一下也不行嘛。不过后面细细想来,一是互联网上的真人内容越来越少;二来语言组织、长文撰写也是个重要的技能,现实生活里也有不少人叽里咕噜啥,说了半天一件事事也说不明白;加上真有那种神人一点不改就猛猛复制粘贴的,严格一点也是好事,筛选掉这些不会说话、不认真说话的人。
还有一点,忘记在哪个有关社区规范的话题里看到的,L 站的管理更愿意把 L 站称为社区而不是其他名称,感觉这个称呼也反应出管理层的美好愿景,充满希望 👏 👏 👏
写在后面
在 L 站的数天里,我真的学到了很多,也非常幸运能遇见并加入这样一个相对纯净的中文技术社区。期望 LINUX DO 能在保持友好氛围的前提下,持久运营下去,不断吸纳新鲜血液,保持活力
手打一遍 L 站的口号吧——
真诚、友善、团结、专业,共建你我引以为荣之社区29 posts - 16 participants
Read full topic
via LINUX DO - 热门话题 (author: 废寝忘食)
【开源Chrome 插件】Gemini Nexus v2.0.0:免费调用 Gemini 3,实现OCR、划词翻译、网页总结、快捷键呼出
gemini-nexus.zip
前提:需要登录 Gemini 网页
⌨️ 默认快捷键
如果好用,给个 star 吧 😀
github.com
GitHub - yeahhe365/gemini-nexus: A powerful browser extension that integrates...
A powerful browser extension that integrates Google Gemini AI directly into your web experience. Features include sidebar chat, OCR text extraction, area sniping, and conversation history.
【开源】Gemini Nexus v1.2.0:免费调用 Gemini 3,让 Gemini 完美融入网页浏览体验(OCR、划词翻译、网页总结...) 开发调优
26 posts - 12 participants
Read full topic
via LINUX DO - 热门话题 (author: Mozi)
Invalid media:
image
animation
animation
animation
animation
animation
animation
image
gemini-nexus.zip
前提:需要登录 Gemini 网页
⌨️ 默认快捷键
如果好用,给个 star 吧 😀
github.com
GitHub - yeahhe365/gemini-nexus: A powerful browser extension that integrates...
A powerful browser extension that integrates Google Gemini AI directly into your web experience. Features include sidebar chat, OCR text extraction, area sniping, and conversation history.
【开源】Gemini Nexus v1.2.0:免费调用 Gemini 3,让 Gemini 完美融入网页浏览体验(OCR、划词翻译、网页总结...) 开发调优
登录 Gemini 官网就能用,好用的话给个 star 欢迎留言想加什么功能 gemini-nexus v1.0.zip (309.1 KB) gemini-nexus_v1.1.0.zip (412.4 KB) gemini-nexus_v1.2.0.zip (413.5 KB) [image][image][image][image][image]
26 posts - 12 participants
Read full topic
via LINUX DO - 热门话题 (author: Mozi)
Invalid media:
image
animation
animation
animation
animation
animation
animation
image
新人第一次发帖,希望支持下!自己原创写的Z-image超写实冷色调美女提示词
z-image原创提示词模板:最终幻想(游戏、电影、影视、动画),蒂法(人物),冷色调,极具氛围感,超写实,电影级,重点表现人物,极具张力和表现力,完美的构图和打光
spoiler
spoiler
步数10-12
43 posts - 27 participants
Read full topic
via LINUX DO - 热门话题 (author: 蕾塞)
Invalid media:
image
image
z-image原创提示词模板:最终幻想(游戏、电影、影视、动画),蒂法(人物),冷色调,极具氛围感,超写实,电影级,重点表现人物,极具张力和表现力,完美的构图和打光
spoiler
spoiler
步数10-12
43 posts - 27 participants
Read full topic
via LINUX DO - 热门话题 (author: 蕾塞)
Invalid media:
image
image
[Antigravity]反重力试图删除每一个粗心用户的项目
😅
警钟长鸣!!!
大佬们Antigravity自动把我的整个文件夹全部删了 开发调优
2 posts - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: favoste)
Invalid media:
image
image
😅
警钟长鸣!!!
大佬们Antigravity自动把我的整个文件夹全部删了 开发调优
大佬们,今天使用Antigravity的ClaudeOpus4.5执行任务,它自动用命令行删除文件,居然把我的真个项目删了,关键不止清空了当前打开的文件夹,还把当前文件夹上一层的文件夹的全部目录都删了,天都塌了,好多东西都没了,大佬们支支招,有办法恢复吗?
2 posts - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: favoste)
Invalid media:
image
image
待业在家好无聊,研究了下硬件
玩了下冷门DX-WF25模块(esp32c2)
佬友们有什么推荐的项目做做吗,或者自己想要的给我做着玩玩,我手头的东西最简单做的就是一个鱼缸控温装置?但是我不养鱼😫
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: rem)
Invalid media: image
玩了下冷门DX-WF25模块(esp32c2)
佬友们有什么推荐的项目做做吗,或者自己想要的给我做着玩玩,我手头的东西最简单做的就是一个鱼缸控温装置?但是我不养鱼😫
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: rem)
Invalid media: image
哈基米 最近在抽疯?怎么 API 都不让用啊
用 Jay佬 的 gemini-balance,API 也全是自己和家人的几个,理论上是包稳定的。但是,这几天总是断断续续的,一会儿可以用,一会儿不给用。头疼啊~这是为什么?最近在做啥调整?
官网写着 2.5-pro 可以用,但实际也根本不能调用 。 :bili_001:
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 北河三)
Invalid media: image
用 Jay佬 的 gemini-balance,API 也全是自己和家人的几个,理论上是包稳定的。但是,这几天总是断断续续的,一会儿可以用,一会儿不给用。头疼啊~这是为什么?最近在做啥调整?
官网写着 2.5-pro 可以用,但实际也根本不能调用 。 :bili_001:
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 北河三)
Invalid media: image
gemini 学生认证,好不容易有资格
这是咋回事儿啊
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: axin)
Invalid media: image
这是咋回事儿啊
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: axin)
Invalid media: image
【水】使用AI重新实现了聪明 Bingo / 一个小游戏
不知道有没有佬友在QQ群看过这张图:
这种游戏起源于QQ群图片,后来 26F-Studio 进行了具体的实现:github.com
GitHub - 26F-Studio/smartbingo
通过在 GitHub 上创建帐户来为 26F-Studio/smartbingo 开发做出贡献。
我自己也用AI做过一个:
github.com
GitHub - Sczr0/Daily-Bingo
通过在 GitHub 上创建帐户来为 Sczr0/Daily-Bingo 开发做出贡献。
最近在蹬codex的额度,所以把上面的项目找了出来,做成了下面的样式:
支持每日一题,自定义随机种,自动计算难度(虽然没那么严谨)
不知道佬友们还有什么建议呢
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 弦塔_)
Invalid media:
image
image
image
image
不知道有没有佬友在QQ群看过这张图:
这种游戏起源于QQ群图片,后来 26F-Studio 进行了具体的实现:github.com
GitHub - 26F-Studio/smartbingo
通过在 GitHub 上创建帐户来为 26F-Studio/smartbingo 开发做出贡献。
我自己也用AI做过一个:
github.com
GitHub - Sczr0/Daily-Bingo
通过在 GitHub 上创建帐户来为 Sczr0/Daily-Bingo 开发做出贡献。
最近在蹬codex的额度,所以把上面的项目找了出来,做成了下面的样式:
支持每日一题,自定义随机种,自动计算难度(虽然没那么严谨)
不知道佬友们还有什么建议呢
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 弦塔_)
Invalid media:
image
image
image
image
现在平台业务使用AI向用户发送短信很普遍了么
如题,最近收到短信,说是某平台x某工作人员,问某个操作为何没有执行是否存在技术困难
我第一反应是垃圾营销短信,问了句是不是真人,依然是表化业务回复,但是肯定是真人。
于是又回了几句,无声了。
关键是由于平台实名制要求这个疑似是AI的业务短信发送者的确在短信内正确涵盖了我的真实姓名,这是否合理?我甚至没有办法验证这个短信到底是否确实是从平台方发出的
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Meiko Mei)
如题,最近收到短信,说是某平台x某工作人员,问某个操作为何没有执行是否存在技术困难
我第一反应是垃圾营销短信,问了句是不是真人,依然是表化业务回复,但是肯定是真人。
于是又回了几句,无声了。
关键是由于平台实名制要求这个疑似是AI的业务短信发送者的确在短信内正确涵盖了我的真实姓名,这是否合理?我甚至没有办法验证这个短信到底是否确实是从平台方发出的
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Meiko Mei)
Gemini最新的Gem有点儿东西
Google 刚刚推出了与 Opal 工具集成的 Gems Visual Editor。以前你需要自己手写复杂的提示词(Prompt),现在你可以直接用自然语言描述:“我想做一个帮我把会议纪要转成待办事项的助手”,Gemini 会自动帮你生成结构化的指令和逻辑,真正实现了“一句话生成一个应用”
gemini中进入gem,然后新建即可
10 posts - 10 participants
Read full topic
via LINUX DO - 热门话题 (author: fabricmagi)
Invalid media: image
Google 刚刚推出了与 Opal 工具集成的 Gems Visual Editor。以前你需要自己手写复杂的提示词(Prompt),现在你可以直接用自然语言描述:“我想做一个帮我把会议纪要转成待办事项的助手”,Gemini 会自动帮你生成结构化的指令和逻辑,真正实现了“一句话生成一个应用”
gemini中进入gem,然后新建即可
10 posts - 10 participants
Read full topic
via LINUX DO - 热门话题 (author: fabricmagi)
Invalid media: image
我们的 GUI Agent 开源了:OMG-Agent,AI 手机我来了
👻省流:
我们基于 AutoGLM 和 GELab-Zero 这类 开源 GUI model ,
构建了一个 GUI Agent — **OMG-Agent!**已开源
先是豆包手机证明 AI 能跨应用自动操作(这后台运行的功能是真的羡慕),
也可以看看我们之前的文章各大 APP 刚 ⌜围剿⌟ 豆包手机,智谱连夜 ⌜递刀⌟ :手机 Agent 的至暗与黎明
智谱、阶跃星辰接连开源 AutoGLM 和 GELab-Zero 这类GUI model,
技术能力已经证明可行了,模型也开源了,基础的 agent 代码也公开了,
但有个问题
这些开源项目,交互方式多是命令行,
想用 AutoGLM,GELab-Zero,得装 Python 环境,配依赖库,搞ADB,还要一边看手机一边看电脑…
总感觉不太方便,烦文档,配环境就搞了几十分钟。
模型开源了,而且两家的官方有提供api,那既然有了api,
那为什么不来个通用的 GUI Agent 呢?
大厂都开源模型,我们也想给GUI Agent出一份力(或者说添乱)
阶跃星辰,和智谱AI开源的模型都是多模态,都是具备「Phone Use」能力的VLM model。
能完成几十步的复杂流程,支持微信、淘宝、抖音、美团等50多个高频应用,本地部署跑不动也能直接调用 API 接口。
这些开源模型做的事情和豆包差不多——训练AI看懂屏幕,理解界面,模拟人的点击、滑动、输入的模型。
怎么控制手机?————ADB,不是什么高级的黑科技,就是个命令行工具。
我们做了 OMG-Agent !
OMG-Agent
项目全称叫 Open-sourced Mobile GUI Agent,
我们更喜欢叫它**「Oh My God Agent」**。
因为每次测试,可以直观的在 GUI 上看清楚模型对AI的操作,
看着 AI 自己完成任务,
希望这个 Agent 真的能让更多人体验到这类 GUI model,
OMG-Agent
直观看到AI在手机上操作,看到执行结果:它真做到了。
OMG-Agent 是个GUI Agent,用来配合 AutoGLM、GELab-Zero 这些开源模型使用。
它做的事情很简单:
帮我们把这些GUI model 用来操作手机,并且内置了我们的 Agent
(目前还是有些粗糙,但是正在不断完善中,如果大家也有想法,可以一起交流)
两种使用方式:
1.下载打包好的exe文件,双击运行,零配置(还在测试,我们尽快发布 win/mac 版本)
2.frok 代码运行,方便开发者调试,支持基于 GUI 交互
基础流程:
打开软件,插上手机数据线(具体的配置我们都写到项目里了,支持无线连接),点开始投屏,输入一句话。
同样的,我们也提供了使用模拟器实现abd的一些资料和教程
想研究GUI Agent 怎么实现的,想做点好玩的实验,代码全开源,并且附带了对应的文档。
兼容 OpenAI SDK API,能接入各种模型。
终极理想:让不懂代码,不配环境(目前还是需要一点,等我们打包完成),下载就能用,直接连接手机用。
能亲眼看到 AI 怎么在你手机上工作,它不再是新闻里的概念,而是真的能帮你解决问题的东西,
为后续的 Phone Agent 开发打下基础。
豆包遇到的麻烦,说白了就是新东西碰上旧规矩。但技术进步不该由某家公司说了算。
AutoGLM 和 GELab-Zero的开源,这些模型的能力已经证明了,这些可能真的只是时间问题了
做 OMG-Agent 这几天,我们想了各种使用场景。
也在犹豫要不要发布,但是既然做都做了,还是发了,
每个模型的特点都不一样,但本质是一样的——AI能看懂屏幕、能操作手机,这件事本身就有价值。
现在的 OMG-Agent 不是完美的,甚至是有很多不足的,
Agent设计的也并没有很高深,
但开源的好处就在这儿,让更多人能参与进来,让技术发展更透明。
而且现在的手机 Agent 确实还挺简陋的,但总得有人先迈出这一步。
OMG-Agent 用的是 Apache 2.0 with Commons Clause 许可证。
不希望有人拿这个去割韭菜,更不希望它被用来干坏事。
技术应该让生活变好,而不是搞出一堆幺蛾子。
我们是 Safphere,一帮算法工程师和在校极客组成的团队。
OMG-Agent 已经在 GitHub 开源了,当前的Agent 还很粗糙,但是我们已经迫不及待想和大家分享了,也会继续优化,确保安全可靠,最大化的发挥 这些 GUI model 的能力。
你想试试 AutoGLM、GELab-Zero 这些开源模型,但不想折腾配环境,可以用OMG-Agent。
对 AI 手机好奇,想亲手试试 AI 操作手机是什么感觉,也可以来玩玩。
也欢迎把文章转给感兴趣的朋友。
开源这事儿,人多才好玩。
推迟了两天,终于写完这篇,
后续整个 OMG-Agent 项目,会优化对应的 Agent,从适配模型到 定制我们框架的模型,让 GUI Agent 更加的智能,更加的稳定。
大家有其他的想法,也可以留言和交流。
项目地址
github.com
GitHub - Safphere/OMG-Agent: OMG-Agent: Open-sourced Mobile GUI Agent
OMG-Agent: Open-sourced Mobile GUI Agent
19 posts - 18 participants
Read full topic
via LINUX DO - 热门话题 (author: Safphere)
Invalid media:
image
image
image
animation
image
image
image
image
image
👻省流:
我们基于 AutoGLM 和 GELab-Zero 这类 开源 GUI model ,
构建了一个 GUI Agent — **OMG-Agent!**已开源
先是豆包手机证明 AI 能跨应用自动操作(这后台运行的功能是真的羡慕),
也可以看看我们之前的文章各大 APP 刚 ⌜围剿⌟ 豆包手机,智谱连夜 ⌜递刀⌟ :手机 Agent 的至暗与黎明
智谱、阶跃星辰接连开源 AutoGLM 和 GELab-Zero 这类GUI model,
技术能力已经证明可行了,模型也开源了,基础的 agent 代码也公开了,
但有个问题
这些开源项目,交互方式多是命令行,
想用 AutoGLM,GELab-Zero,得装 Python 环境,配依赖库,搞ADB,还要一边看手机一边看电脑…
总感觉不太方便,烦文档,配环境就搞了几十分钟。
模型开源了,而且两家的官方有提供api,那既然有了api,
那为什么不来个通用的 GUI Agent 呢?
大厂都开源模型,我们也想给GUI Agent出一份力(或者说添乱)
阶跃星辰,和智谱AI开源的模型都是多模态,都是具备「Phone Use」能力的VLM model。
能完成几十步的复杂流程,支持微信、淘宝、抖音、美团等50多个高频应用,本地部署跑不动也能直接调用 API 接口。
这些开源模型做的事情和豆包差不多——训练AI看懂屏幕,理解界面,模拟人的点击、滑动、输入的模型。
怎么控制手机?————ADB,不是什么高级的黑科技,就是个命令行工具。
我们做了 OMG-Agent !
OMG-Agent
项目全称叫 Open-sourced Mobile GUI Agent,
我们更喜欢叫它**「Oh My God Agent」**。
因为每次测试,可以直观的在 GUI 上看清楚模型对AI的操作,
看着 AI 自己完成任务,
希望这个 Agent 真的能让更多人体验到这类 GUI model,
OMG-Agent
直观看到AI在手机上操作,看到执行结果:它真做到了。
OMG-Agent 是个GUI Agent,用来配合 AutoGLM、GELab-Zero 这些开源模型使用。
它做的事情很简单:
帮我们把这些GUI model 用来操作手机,并且内置了我们的 Agent
(目前还是有些粗糙,但是正在不断完善中,如果大家也有想法,可以一起交流)
两种使用方式:
1.下载打包好的exe文件,双击运行,零配置(还在测试,我们尽快发布 win/mac 版本)
2.frok 代码运行,方便开发者调试,支持基于 GUI 交互
基础流程:
打开软件,插上手机数据线(具体的配置我们都写到项目里了,支持无线连接),点开始投屏,输入一句话。
同样的,我们也提供了使用模拟器实现abd的一些资料和教程
想研究GUI Agent 怎么实现的,想做点好玩的实验,代码全开源,并且附带了对应的文档。
兼容 OpenAI SDK API,能接入各种模型。
终极理想:让不懂代码,不配环境(目前还是需要一点,等我们打包完成),下载就能用,直接连接手机用。
能亲眼看到 AI 怎么在你手机上工作,它不再是新闻里的概念,而是真的能帮你解决问题的东西,
为后续的 Phone Agent 开发打下基础。
豆包遇到的麻烦,说白了就是新东西碰上旧规矩。但技术进步不该由某家公司说了算。
AutoGLM 和 GELab-Zero的开源,这些模型的能力已经证明了,这些可能真的只是时间问题了
做 OMG-Agent 这几天,我们想了各种使用场景。
也在犹豫要不要发布,但是既然做都做了,还是发了,
每个模型的特点都不一样,但本质是一样的——AI能看懂屏幕、能操作手机,这件事本身就有价值。
现在的 OMG-Agent 不是完美的,甚至是有很多不足的,
Agent设计的也并没有很高深,
但开源的好处就在这儿,让更多人能参与进来,让技术发展更透明。
而且现在的手机 Agent 确实还挺简陋的,但总得有人先迈出这一步。
OMG-Agent 用的是 Apache 2.0 with Commons Clause 许可证。
不希望有人拿这个去割韭菜,更不希望它被用来干坏事。
技术应该让生活变好,而不是搞出一堆幺蛾子。
ADB + GUI Agent 没法保证不会触发像豆包一样的封号,建议大家使用备用机和备用号。
⚠️ 免责声明
本项目仅供学习研究和技术探索使用,严禁用于任何商业用途。使用本工具时,请遵守相关法律法规以及手机厂商、应用程序的使用条款和服务协议。用户因使用本项目产生的任何行为和后果,均由用户自行承担,与本项目及开发者无关。
我们是 Safphere,一帮算法工程师和在校极客组成的团队。
OMG-Agent 已经在 GitHub 开源了,当前的Agent 还很粗糙,但是我们已经迫不及待想和大家分享了,也会继续优化,确保安全可靠,最大化的发挥 这些 GUI model 的能力。
你想试试 AutoGLM、GELab-Zero 这些开源模型,但不想折腾配环境,可以用OMG-Agent。
对 AI 手机好奇,想亲手试试 AI 操作手机是什么感觉,也可以来玩玩。
也欢迎把文章转给感兴趣的朋友。
开源这事儿,人多才好玩。
推迟了两天,终于写完这篇,
后续整个 OMG-Agent 项目,会优化对应的 Agent,从适配模型到 定制我们框架的模型,让 GUI Agent 更加的智能,更加的稳定。
大家有其他的想法,也可以留言和交流。
项目地址
github.com
GitHub - Safphere/OMG-Agent: OMG-Agent: Open-sourced Mobile GUI Agent
OMG-Agent: Open-sourced Mobile GUI Agent
19 posts - 18 participants
Read full topic
via LINUX DO - 热门话题 (author: Safphere)
Invalid media:
image
image
image
animation
image
image
image
image
image
怎么看待arXiv(alphaXiv)的这个模型榜单? #科研
alphaxiv.org
Deep Research | alphaXiv
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 清清)
Invalid media:
image
image
alphaxiv.org
Deep Research | alphaXiv
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 清清)
Invalid media:
image
image
Epic 今日的喜+1
《Eternights》
https://store.epicgames.com/zh-CN/p/eternights-c2fbca
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: kmoxx)
《Eternights》
https://store.epicgames.com/zh-CN/p/eternights-c2fbca
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: kmoxx)
愿佬友们考研顺利上岸
今天考研第一天,祝愿论坛里的备考的佬友们都能顺利上岸,金榜题名!加油!
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: MD)
今天考研第一天,祝愿论坛里的备考的佬友们都能顺利上岸,金榜题名!加油!
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: MD)
刚装的服务器被植入挖矿木马了
弄了个小服务器准备二开这个项目,GitHub - Narratium/Narratium.ai: Open-source platform for AI-driven storytelling, worldbuilding, and immersive roleplay
然后不知道从哪来的挖矿木马就植入到服务器里了,我勒个豆,像橡皮糖一样,甩都甩不掉。这咋防啊,删掉又跑回来了。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 咕噜大王)
Invalid media:
image
image
弄了个小服务器准备二开这个项目,GitHub - Narratium/Narratium.ai: Open-source platform for AI-driven storytelling, worldbuilding, and immersive roleplay
然后不知道从哪来的挖矿木马就植入到服务器里了,我勒个豆,像橡皮糖一样,甩都甩不掉。这咋防啊,删掉又跑回来了。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 咕噜大王)
Invalid media:
image
image
经常用team的佬友们,thinking模式下的长思考和pro “智商”差别有多大
如题,pro次数限制1个月15次。我想知道thinking模式下的长思考和pro “智商”差别有多大,要不要把主要工作放在长思考下做,而用pro的次数来做审查工作。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 哈基米基哈基_米基米基哈)
如题,pro次数限制1个月15次。我想知道thinking模式下的长思考和pro “智商”差别有多大,要不要把主要工作放在长思考下做,而用pro的次数来做审查工作。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 哈基米基哈基_米基米基哈)
Google One 显示 "是否符合此优惠的资格" 怎么办?
提交过资料,然后点击"验证资格条件"后一直显示这个界面. 进入循环了.
有人遇到过这种情况需要怎么解决嘛?
5 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: riicii)
Invalid media:
image
image
提交过资料,然后点击"验证资格条件"后一直显示这个界面. 进入循环了.
有人遇到过这种情况需要怎么解决嘛?
5 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: riicii)
Invalid media:
image
image
ai.oaiopen.cn是怎么回事?没法登录了
AI公益站,用L站授权登录。前几天突然登录不上,要求绑定账号,结果提示邮箱不存在,也不能注册。
大家有没有用这个站的,还能用吗?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: knwks)
AI公益站,用L站授权登录。前几天突然登录不上,要求绑定账号,结果提示邮箱不存在,也不能注册。
大家有没有用这个站的,还能用吗?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: knwks)
求助 dashboard.webshare 怎么导入到小火箭和v2
为什么我把dashboard.webshare给的代理列表填入了小火箭开启节点不能用 请问是怎么回事 测试延迟可以通 但无法上网
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: sxs)
为什么我把dashboard.webshare给的代理列表填入了小火箭开启节点不能用 请问是怎么回事 测试延迟可以通 但无法上网
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: sxs)
请教佬友,Epic手机APP上的免费游戏怎么不下载领取?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tianzl)
Epic一年一度的E宝圣诞大放送开始了,但是今年与往年有点不一样,手机APP版商店与网页版商店每天送的游戏不一样!网页商店领取后,还可以到APP商店领取另一款!
现在问题是,APP上的游戏,需要下载到手机,而不是像网页商店下订单就行!请问下各位大佬,怎么才能不下载就能领取E宝APP上送的免费游戏?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tianzl)