Gemini最新的Gem有点儿东西
Google 刚刚推出了与 Opal 工具集成的 Gems Visual Editor。以前你需要自己手写复杂的提示词(Prompt),现在你可以直接用自然语言描述:“我想做一个帮我把会议纪要转成待办事项的助手”,Gemini 会自动帮你生成结构化的指令和逻辑,真正实现了“一句话生成一个应用”
gemini中进入gem,然后新建即可
10 posts - 10 participants
Read full topic
via LINUX DO - 热门话题 (author: fabricmagi)
Invalid media: image
Google 刚刚推出了与 Opal 工具集成的 Gems Visual Editor。以前你需要自己手写复杂的提示词(Prompt),现在你可以直接用自然语言描述:“我想做一个帮我把会议纪要转成待办事项的助手”,Gemini 会自动帮你生成结构化的指令和逻辑,真正实现了“一句话生成一个应用”
gemini中进入gem,然后新建即可
10 posts - 10 participants
Read full topic
via LINUX DO - 热门话题 (author: fabricmagi)
Invalid media: image
我们的 GUI Agent 开源了:OMG-Agent,AI 手机我来了
👻省流:
我们基于 AutoGLM 和 GELab-Zero 这类 开源 GUI model ,
构建了一个 GUI Agent — **OMG-Agent!**已开源
先是豆包手机证明 AI 能跨应用自动操作(这后台运行的功能是真的羡慕),
也可以看看我们之前的文章各大 APP 刚 ⌜围剿⌟ 豆包手机,智谱连夜 ⌜递刀⌟ :手机 Agent 的至暗与黎明
智谱、阶跃星辰接连开源 AutoGLM 和 GELab-Zero 这类GUI model,
技术能力已经证明可行了,模型也开源了,基础的 agent 代码也公开了,
但有个问题
这些开源项目,交互方式多是命令行,
想用 AutoGLM,GELab-Zero,得装 Python 环境,配依赖库,搞ADB,还要一边看手机一边看电脑…
总感觉不太方便,烦文档,配环境就搞了几十分钟。
模型开源了,而且两家的官方有提供api,那既然有了api,
那为什么不来个通用的 GUI Agent 呢?
大厂都开源模型,我们也想给GUI Agent出一份力(或者说添乱)
阶跃星辰,和智谱AI开源的模型都是多模态,都是具备「Phone Use」能力的VLM model。
能完成几十步的复杂流程,支持微信、淘宝、抖音、美团等50多个高频应用,本地部署跑不动也能直接调用 API 接口。
这些开源模型做的事情和豆包差不多——训练AI看懂屏幕,理解界面,模拟人的点击、滑动、输入的模型。
怎么控制手机?————ADB,不是什么高级的黑科技,就是个命令行工具。
我们做了 OMG-Agent !
OMG-Agent
项目全称叫 Open-sourced Mobile GUI Agent,
我们更喜欢叫它**「Oh My God Agent」**。
因为每次测试,可以直观的在 GUI 上看清楚模型对AI的操作,
看着 AI 自己完成任务,
希望这个 Agent 真的能让更多人体验到这类 GUI model,
OMG-Agent
直观看到AI在手机上操作,看到执行结果:它真做到了。
OMG-Agent 是个GUI Agent,用来配合 AutoGLM、GELab-Zero 这些开源模型使用。
它做的事情很简单:
帮我们把这些GUI model 用来操作手机,并且内置了我们的 Agent
(目前还是有些粗糙,但是正在不断完善中,如果大家也有想法,可以一起交流)
两种使用方式:
1.下载打包好的exe文件,双击运行,零配置(还在测试,我们尽快发布 win/mac 版本)
2.frok 代码运行,方便开发者调试,支持基于 GUI 交互
基础流程:
打开软件,插上手机数据线(具体的配置我们都写到项目里了,支持无线连接),点开始投屏,输入一句话。
同样的,我们也提供了使用模拟器实现abd的一些资料和教程
想研究GUI Agent 怎么实现的,想做点好玩的实验,代码全开源,并且附带了对应的文档。
兼容 OpenAI SDK API,能接入各种模型。
终极理想:让不懂代码,不配环境(目前还是需要一点,等我们打包完成),下载就能用,直接连接手机用。
能亲眼看到 AI 怎么在你手机上工作,它不再是新闻里的概念,而是真的能帮你解决问题的东西,
为后续的 Phone Agent 开发打下基础。
豆包遇到的麻烦,说白了就是新东西碰上旧规矩。但技术进步不该由某家公司说了算。
AutoGLM 和 GELab-Zero的开源,这些模型的能力已经证明了,这些可能真的只是时间问题了
做 OMG-Agent 这几天,我们想了各种使用场景。
也在犹豫要不要发布,但是既然做都做了,还是发了,
每个模型的特点都不一样,但本质是一样的——AI能看懂屏幕、能操作手机,这件事本身就有价值。
现在的 OMG-Agent 不是完美的,甚至是有很多不足的,
Agent设计的也并没有很高深,
但开源的好处就在这儿,让更多人能参与进来,让技术发展更透明。
而且现在的手机 Agent 确实还挺简陋的,但总得有人先迈出这一步。
OMG-Agent 用的是 Apache 2.0 with Commons Clause 许可证。
不希望有人拿这个去割韭菜,更不希望它被用来干坏事。
技术应该让生活变好,而不是搞出一堆幺蛾子。
我们是 Safphere,一帮算法工程师和在校极客组成的团队。
OMG-Agent 已经在 GitHub 开源了,当前的Agent 还很粗糙,但是我们已经迫不及待想和大家分享了,也会继续优化,确保安全可靠,最大化的发挥 这些 GUI model 的能力。
你想试试 AutoGLM、GELab-Zero 这些开源模型,但不想折腾配环境,可以用OMG-Agent。
对 AI 手机好奇,想亲手试试 AI 操作手机是什么感觉,也可以来玩玩。
也欢迎把文章转给感兴趣的朋友。
开源这事儿,人多才好玩。
推迟了两天,终于写完这篇,
后续整个 OMG-Agent 项目,会优化对应的 Agent,从适配模型到 定制我们框架的模型,让 GUI Agent 更加的智能,更加的稳定。
大家有其他的想法,也可以留言和交流。
项目地址
github.com
GitHub - Safphere/OMG-Agent: OMG-Agent: Open-sourced Mobile GUI Agent
OMG-Agent: Open-sourced Mobile GUI Agent
19 posts - 18 participants
Read full topic
via LINUX DO - 热门话题 (author: Safphere)
Invalid media:
image
image
image
animation
image
image
image
image
image
👻省流:
我们基于 AutoGLM 和 GELab-Zero 这类 开源 GUI model ,
构建了一个 GUI Agent — **OMG-Agent!**已开源
先是豆包手机证明 AI 能跨应用自动操作(这后台运行的功能是真的羡慕),
也可以看看我们之前的文章各大 APP 刚 ⌜围剿⌟ 豆包手机,智谱连夜 ⌜递刀⌟ :手机 Agent 的至暗与黎明
智谱、阶跃星辰接连开源 AutoGLM 和 GELab-Zero 这类GUI model,
技术能力已经证明可行了,模型也开源了,基础的 agent 代码也公开了,
但有个问题
这些开源项目,交互方式多是命令行,
想用 AutoGLM,GELab-Zero,得装 Python 环境,配依赖库,搞ADB,还要一边看手机一边看电脑…
总感觉不太方便,烦文档,配环境就搞了几十分钟。
模型开源了,而且两家的官方有提供api,那既然有了api,
那为什么不来个通用的 GUI Agent 呢?
大厂都开源模型,我们也想给GUI Agent出一份力(或者说添乱)
阶跃星辰,和智谱AI开源的模型都是多模态,都是具备「Phone Use」能力的VLM model。
能完成几十步的复杂流程,支持微信、淘宝、抖音、美团等50多个高频应用,本地部署跑不动也能直接调用 API 接口。
这些开源模型做的事情和豆包差不多——训练AI看懂屏幕,理解界面,模拟人的点击、滑动、输入的模型。
怎么控制手机?————ADB,不是什么高级的黑科技,就是个命令行工具。
我们做了 OMG-Agent !
OMG-Agent
项目全称叫 Open-sourced Mobile GUI Agent,
我们更喜欢叫它**「Oh My God Agent」**。
因为每次测试,可以直观的在 GUI 上看清楚模型对AI的操作,
看着 AI 自己完成任务,
希望这个 Agent 真的能让更多人体验到这类 GUI model,
OMG-Agent
直观看到AI在手机上操作,看到执行结果:它真做到了。
OMG-Agent 是个GUI Agent,用来配合 AutoGLM、GELab-Zero 这些开源模型使用。
它做的事情很简单:
帮我们把这些GUI model 用来操作手机,并且内置了我们的 Agent
(目前还是有些粗糙,但是正在不断完善中,如果大家也有想法,可以一起交流)
两种使用方式:
1.下载打包好的exe文件,双击运行,零配置(还在测试,我们尽快发布 win/mac 版本)
2.frok 代码运行,方便开发者调试,支持基于 GUI 交互
基础流程:
打开软件,插上手机数据线(具体的配置我们都写到项目里了,支持无线连接),点开始投屏,输入一句话。
同样的,我们也提供了使用模拟器实现abd的一些资料和教程
想研究GUI Agent 怎么实现的,想做点好玩的实验,代码全开源,并且附带了对应的文档。
兼容 OpenAI SDK API,能接入各种模型。
终极理想:让不懂代码,不配环境(目前还是需要一点,等我们打包完成),下载就能用,直接连接手机用。
能亲眼看到 AI 怎么在你手机上工作,它不再是新闻里的概念,而是真的能帮你解决问题的东西,
为后续的 Phone Agent 开发打下基础。
豆包遇到的麻烦,说白了就是新东西碰上旧规矩。但技术进步不该由某家公司说了算。
AutoGLM 和 GELab-Zero的开源,这些模型的能力已经证明了,这些可能真的只是时间问题了
做 OMG-Agent 这几天,我们想了各种使用场景。
也在犹豫要不要发布,但是既然做都做了,还是发了,
每个模型的特点都不一样,但本质是一样的——AI能看懂屏幕、能操作手机,这件事本身就有价值。
现在的 OMG-Agent 不是完美的,甚至是有很多不足的,
Agent设计的也并没有很高深,
但开源的好处就在这儿,让更多人能参与进来,让技术发展更透明。
而且现在的手机 Agent 确实还挺简陋的,但总得有人先迈出这一步。
OMG-Agent 用的是 Apache 2.0 with Commons Clause 许可证。
不希望有人拿这个去割韭菜,更不希望它被用来干坏事。
技术应该让生活变好,而不是搞出一堆幺蛾子。
ADB + GUI Agent 没法保证不会触发像豆包一样的封号,建议大家使用备用机和备用号。
⚠️ 免责声明
本项目仅供学习研究和技术探索使用,严禁用于任何商业用途。使用本工具时,请遵守相关法律法规以及手机厂商、应用程序的使用条款和服务协议。用户因使用本项目产生的任何行为和后果,均由用户自行承担,与本项目及开发者无关。
我们是 Safphere,一帮算法工程师和在校极客组成的团队。
OMG-Agent 已经在 GitHub 开源了,当前的Agent 还很粗糙,但是我们已经迫不及待想和大家分享了,也会继续优化,确保安全可靠,最大化的发挥 这些 GUI model 的能力。
你想试试 AutoGLM、GELab-Zero 这些开源模型,但不想折腾配环境,可以用OMG-Agent。
对 AI 手机好奇,想亲手试试 AI 操作手机是什么感觉,也可以来玩玩。
也欢迎把文章转给感兴趣的朋友。
开源这事儿,人多才好玩。
推迟了两天,终于写完这篇,
后续整个 OMG-Agent 项目,会优化对应的 Agent,从适配模型到 定制我们框架的模型,让 GUI Agent 更加的智能,更加的稳定。
大家有其他的想法,也可以留言和交流。
项目地址
github.com
GitHub - Safphere/OMG-Agent: OMG-Agent: Open-sourced Mobile GUI Agent
OMG-Agent: Open-sourced Mobile GUI Agent
19 posts - 18 participants
Read full topic
via LINUX DO - 热门话题 (author: Safphere)
Invalid media:
image
image
image
animation
image
image
image
image
image
怎么看待arXiv(alphaXiv)的这个模型榜单? #科研
alphaxiv.org
Deep Research | alphaXiv
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 清清)
Invalid media:
image
image
alphaxiv.org
Deep Research | alphaXiv
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 清清)
Invalid media:
image
image
Epic 今日的喜+1
《Eternights》
https://store.epicgames.com/zh-CN/p/eternights-c2fbca
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: kmoxx)
《Eternights》
https://store.epicgames.com/zh-CN/p/eternights-c2fbca
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: kmoxx)
愿佬友们考研顺利上岸
今天考研第一天,祝愿论坛里的备考的佬友们都能顺利上岸,金榜题名!加油!
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: MD)
今天考研第一天,祝愿论坛里的备考的佬友们都能顺利上岸,金榜题名!加油!
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: MD)
刚装的服务器被植入挖矿木马了
弄了个小服务器准备二开这个项目,GitHub - Narratium/Narratium.ai: Open-source platform for AI-driven storytelling, worldbuilding, and immersive roleplay
然后不知道从哪来的挖矿木马就植入到服务器里了,我勒个豆,像橡皮糖一样,甩都甩不掉。这咋防啊,删掉又跑回来了。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 咕噜大王)
Invalid media:
image
image
弄了个小服务器准备二开这个项目,GitHub - Narratium/Narratium.ai: Open-source platform for AI-driven storytelling, worldbuilding, and immersive roleplay
然后不知道从哪来的挖矿木马就植入到服务器里了,我勒个豆,像橡皮糖一样,甩都甩不掉。这咋防啊,删掉又跑回来了。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 咕噜大王)
Invalid media:
image
image
经常用team的佬友们,thinking模式下的长思考和pro “智商”差别有多大
如题,pro次数限制1个月15次。我想知道thinking模式下的长思考和pro “智商”差别有多大,要不要把主要工作放在长思考下做,而用pro的次数来做审查工作。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 哈基米基哈基_米基米基哈)
如题,pro次数限制1个月15次。我想知道thinking模式下的长思考和pro “智商”差别有多大,要不要把主要工作放在长思考下做,而用pro的次数来做审查工作。
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 哈基米基哈基_米基米基哈)
Google One 显示 "是否符合此优惠的资格" 怎么办?
提交过资料,然后点击"验证资格条件"后一直显示这个界面. 进入循环了.
有人遇到过这种情况需要怎么解决嘛?
5 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: riicii)
Invalid media:
image
image
提交过资料,然后点击"验证资格条件"后一直显示这个界面. 进入循环了.
有人遇到过这种情况需要怎么解决嘛?
5 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: riicii)
Invalid media:
image
image
ai.oaiopen.cn是怎么回事?没法登录了
AI公益站,用L站授权登录。前几天突然登录不上,要求绑定账号,结果提示邮箱不存在,也不能注册。
大家有没有用这个站的,还能用吗?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: knwks)
AI公益站,用L站授权登录。前几天突然登录不上,要求绑定账号,结果提示邮箱不存在,也不能注册。
大家有没有用这个站的,还能用吗?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: knwks)
求助 dashboard.webshare 怎么导入到小火箭和v2
为什么我把dashboard.webshare给的代理列表填入了小火箭开启节点不能用 请问是怎么回事 测试延迟可以通 但无法上网
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: sxs)
为什么我把dashboard.webshare给的代理列表填入了小火箭开启节点不能用 请问是怎么回事 测试延迟可以通 但无法上网
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: sxs)
请教佬友,Epic手机APP上的免费游戏怎么不下载领取?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tianzl)
Epic一年一度的E宝圣诞大放送开始了,但是今年与往年有点不一样,手机APP版商店与网页版商店每天送的游戏不一样!网页商店领取后,还可以到APP商店领取另一款!
现在问题是,APP上的游戏,需要下载到手机,而不是像网页商店下订单就行!请问下各位大佬,怎么才能不下载就能领取E宝APP上送的免费游戏?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tianzl)
国内云服务器没有备案,如何套域名给别人访问呢?能够防止别人知道我的ip
有大佬懂的么!!!!!
5 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: 泡芙小圆手)
有大佬懂的么!!!!!
5 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: 泡芙小圆手)
喜报 MiniMax-M2.1 50元定向券入账
感谢钟佬 https://linux.do/t/topic/1342411?u=micheal
这就帮大家测起来,看看能不能在cc中无感切入
6 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Micheal)
感谢钟佬 https://linux.do/t/topic/1342411?u=micheal
这就帮大家测起来,看看能不能在cc中无感切入
6 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Micheal)
gpt5.2codex是垃圾,gpt5.2是神
别看5.2codex那个值那么高,实际中体验除了快,理解力和细节反思力度很差。
5.2能理解你的意思并且自我反思完善,5.2就像克劳德一样。只管做,只管结果。不会考虑到连锁反应,影响。
实际体验中codex体验等于克劳德4.5普通版吧
都是在推理强度xh的情况下
4 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: 猫优优)
别看5.2codex那个值那么高,实际中体验除了快,理解力和细节反思力度很差。
5.2能理解你的意思并且自我反思完善,5.2就像克劳德一样。只管做,只管结果。不会考虑到连锁反应,影响。
实际体验中codex体验等于克劳德4.5普通版吧
都是在推理强度xh的情况下
4 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: 猫优优)
有没有佬友救救我的Java
求助:我今年大一,很快要期末考了,Java接口学的还是不行,有没有人可以帮帮我😭😭
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 扬肆)
求助:我今年大一,很快要期末考了,Java接口学的还是不行,有没有人可以帮帮我😭😭
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 扬肆)
让我康康周六有多少佬友在逛站 'w'
刚坐在工位上 突发奇想 想康康有多少佬友和我一样周六还在摸鱼 🫠
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Melor)
刚坐在工位上 突发奇想 想康康有多少佬友和我一样周六还在摸鱼 🫠
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Melor)
支付宝碰一碰支付有礼周六开奖,大家都能领到多少呢
支付宝支付有礼碰一碰这次是周一到周五全勤集卡,周六6点起可分红包,说是分1亿,但是集福这些老套路见得多了,我今天开出来是3.58,你们都是多少呢
9 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: bsa)
支付宝支付有礼碰一碰这次是周一到周五全勤集卡,周六6点起可分红包,说是分1亿,但是集福这些老套路见得多了,我今天开出来是3.58,你们都是多少呢
9 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: bsa)
Google绑定验证辅助手机和开二步验证后,居然还需要使用注册的邮箱!!!!
好不容易用接码注册了一个号
已经开好辅助手机和二步验证了
没想到使用二步验证登录后,居然还有一层注册短信验证!!!
绝望了!!!
11 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: 老马开炮)
好不容易用接码注册了一个号
已经开好辅助手机和二步验证了
没想到使用二步验证登录后,居然还有一层注册短信验证!!!
绝望了!!!
11 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: 老马开炮)
kilo code的代码自动补全无法开启。(使用cliproxyapi)
如图,我用的是cliproxyapi的的api。是我的什么问题吗?
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: imocone)
Invalid media: image
如图,我用的是cliproxyapi的的api。是我的什么问题吗?
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: imocone)
Invalid media: image
印度永久免费域名indevs.in 这个怎么解析啊?我发现阿里云和腾讯云都需要有一级域名的权限才能对二级进行管理,哪个大佬帮忙看看
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: RuiQian Qin)
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: RuiQian Qin)
AI陪伴创业公司,需要技术伙伴,时间自由,请戳爆我
hello 😃,
我们想找靠谱的后端研发、算法兼职一起搞 出海 ai 社交 方向的项目(团队仅需 5 人,目前 2 人)Base北京。
关于创始人:
「连旭,大厂增长产品,之前做过2公司(1卖掉,1拿了头部美元基金的💵)
🎓️教育背景:复旦本科毕业
🏆️fun fact:在旧金山把一盒BYT卖出107美金
擅长:
💡零成本增长的高效策略和实战心得:小红书5个矩阵号3个月搞了几十万互动量,之前做出海工具项目零成本dau翻5倍
💡从零到一创业避坑,战略&融资&组织&产品…踩了太多坑有经验了😂
💡AI泛娱乐行业的认知和洞察,最近一个月密集体验了100+头部产品
💡作为海外华人如何在美国迅速建立人脉 (我24年花了18天参加70+活动认识了华人创业圈200+人,也有100+来自30+国家的创业者朋友)」
欢迎关注!
5 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: 楽)
hello 😃,
我们想找靠谱的后端研发、算法兼职一起搞 出海 ai 社交 方向的项目(团队仅需 5 人,目前 2 人)Base北京。
关于创始人:
「连旭,大厂增长产品,之前做过2公司(1卖掉,1拿了头部美元基金的💵)
🎓️教育背景:复旦本科毕业
🏆️fun fact:在旧金山把一盒BYT卖出107美金
擅长:
💡零成本增长的高效策略和实战心得:小红书5个矩阵号3个月搞了几十万互动量,之前做出海工具项目零成本dau翻5倍
💡从零到一创业避坑,战略&融资&组织&产品…踩了太多坑有经验了😂
💡AI泛娱乐行业的认知和洞察,最近一个月密集体验了100+头部产品
💡作为海外华人如何在美国迅速建立人脉 (我24年花了18天参加70+活动认识了华人创业圈200+人,也有100+来自30+国家的创业者朋友)」
欢迎关注!
5 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: 楽)