今天收到了一个 PR,把我在 @daocloud_io 和团队成员一起搞的 KubeCon 演讲 slide 改了个名字和 title 然后 PR 直接交到我们这里 🤮
https://github.com/BaizeAI/talks/pull/15
和先前 Dify 那个事情如出一辙...
虽说我们 Apache License,但直接提 PR 提到脸上感觉还是太夸张了...
https://github.com/BaizeAI/talks/pull/15
和先前 Dify 那个事情如出一辙...
虽说我们 Apache License,但直接提 PR 提到脸上感觉还是太夸张了...
1🤮16🤣7
https://airi.moeru.ai/docs/en/docs/overview/guide/tamagotchi/
PS: 如果有谁愿意帮忙翻译一下中文版本的文档就更好啦!
🥰9❤1
参与制作的测评 MCP 的 benchmark 终于发了 🎉
https://mcpmark.ai/leaderboard
我编写了比较复杂的有关 Supabase 常用的 Row level Security,数据库安全审计,DBA 分析向量数据库 task
也基本跑通了 Kubernetes 的流程,如果模型厂商也会喜欢我们的工作的话,也会集成进去的
比较意外的是:OpenAI 的 GPT-5 断层领先
https://mcpmark.ai/leaderboard
我编写了比较复杂的有关 Supabase 常用的 Row level Security,数据库安全审计,DBA 分析向量数据库 task
也基本跑通了 Kubernetes 的流程,如果模型厂商也会喜欢我们的工作的话,也会集成进去的
比较意外的是:OpenAI 的 GPT-5 断层领先
1👏6👍2👀2
摸鱼集市
参与制作的测评 MCP 的 benchmark 终于发了 🎉 https://mcpmark.ai/leaderboard 我编写了比较复杂的有关 Supabase 常用的 Row level Security,数据库安全审计,DBA 分析向量数据库 task 也基本跑通了 Kubernetes 的流程,如果模型厂商也会喜欢我们的工作的话,也会集成进去的 比较意外的是:OpenAI 的 GPT-5 断层领先
GPT-5 的这个单次均通过率在 46.96% 上
细节分析:大家常用的 Claude 是相对于 GPT-5 弱势的存在,Gemini 实际上也没有特别优秀,甚至不如 DeepSeek V3.1
在大家关心的 vibe coding 这件事情上:如果不考虑 GPT-5 会需要额外验证 OpenAI 组织才能访问的前提,GPT-5 实际上成本会优于 Claude 4.1 很多,最大的缺点可能就是慢了
有趣小故事:我写的有一个 task GPT-5 尝试交互了 MCP 43 轮才完成 😂 感觉是比较意外了
PS:具体的数值大家可以到 https://mcpmark.ai/leaderboard 参看
细节分析:大家常用的 Claude 是相对于 GPT-5 弱势的存在,Gemini 实际上也没有特别优秀,甚至不如 DeepSeek V3.1
在大家关心的 vibe coding 这件事情上:如果不考虑 GPT-5 会需要额外验证 OpenAI 组织才能访问的前提,GPT-5 实际上成本会优于 Claude 4.1 很多,最大的缺点可能就是慢了
有趣小故事:我写的有一个 task GPT-5 尝试交互了 MCP 43 轮才完成 😂 感觉是比较意外了
PS:具体的数值大家可以到 https://mcpmark.ai/leaderboard 参看
🤔3
摸鱼集市
GPT-5 的这个单次均通过率在 46.96% 上 细节分析:大家常用的 Claude 是相对于 GPT-5 弱势的存在,Gemini 实际上也没有特别优秀,甚至不如 DeepSeek V3.1 在大家关心的 vibe coding 这件事情上:如果不考虑 GPT-5 会需要额外验证 OpenAI 组织才能访问的前提,GPT-5 实际上成本会优于 Claude 4.1 很多,最大的缺点可能就是慢了 有趣小故事:我写的有一个 task GPT-5 尝试交互了 MCP 43 轮才完成 😂 感觉是比较意外了…
这次的 MCPMark 是完全开源的,如果你觉得我们写的 task 和框架不好也请在这里给我们提交贡献 https://github.com/eval-sys/mcpmark
个人觉得是非常幸运可以和 NUS(新加坡国立大学)的大家一起合作的,希望也可以继续能有这样的学术合作的机会 ❤️,大家如果有 research 需要帮忙的也请联系!
我们 LobeHub 给帮忙设计的界面也依然是一流水准,一定要去看看呀 ➡️ https://mcpmark.ai
个人觉得是非常幸运可以和 NUS(新加坡国立大学)的大家一起合作的,希望也可以继续能有这样的学术合作的机会 ❤️,大家如果有 research 需要帮忙的也请联系!
❤3👍2🥰1
Media is too big
VIEW IN TELEGRAM
用 AI 玩小丑牌(?
虽然这一轮玩得毫无道理啊但是 it works
以及,now open sourced!
https://github.com/proj-airi/game-playing-ai-balatro
虽然这一轮玩得毫无道理啊但是 it works
以及,now open sourced!
https://github.com/proj-airi/game-playing-ai-balatro
😭5🔥2🥰2👎1
摸鱼集市 via @antibvbot
https://www.bilibili.com/video/av115334099049470
即便这和自己所在行业已经有部分重合(不过我确实没有做 AIGC 相关的事情),我认为这种目前由人类驱动的 AIGC(也就是 Kurzgesagt 这期视频提到的 AI Slop,AI 垃圾),在未来可能会有更深远的影响。。。
现在大家只是看到有创作者用 AI 工具批量生成内容赚取流量来钻赚钱的空子,那如果这个过程变得更自动化了呢?比如,全自动地调用 ComfyUI 和 Sora 生成更多的垃圾视频填充到时间线上。国庆期间大家很欢呼和喜好的 Sora 这样的 App,本质就是一个彻底 AIGC 驱动的 Tiktok(or 抖音),在剥夺注意力资源之外,也在视频(这个本身就缺乏数据集)的模态上上产生更多的垃圾数据。
我知道有其他的公司和企业正在开发完全由 Agent(根据历史的 chat history 和形成的 memory)去精确地通过你交给 AI 的对话数据判定用户画像,然后生成专属于用户和用户确实会喜欢的 feed 推荐流,实现真正意义上的 agent driven Tiktok(这样的东西没有实质上的技术难题或者工程上做不到的事情,只要能负担得起分析 agent 的成本就可以做到),我理解投资行业对于寻找到下一个 AI 时代的 Tiktok 的欲望非常强,但这对人类文明来说是好不负责任的,不正确的发展方向。
就算是我工作范围内的 RAG 和 知识召回、memory 这件事情上,现在也已经遇到了超级多的正确性和召回后的信息有价值与否的难题了,而且这似乎是无法被量化和可被评估的数据(因为 fact check 真的是非常费力的事情,也有前两天的论文介绍了 small segment of information can pollute how ai searches(在 bilibili 上也有别的博主制作过类似的视频介绍类似的实验))。现有的若干 Deep Search 在 可信信息 的算法上也依然是用工程或者 reranker 来实现的排序,总是会有漏洞,也并不会在语义上和事实上对信息进行 fact check,最多也就是进行多个信源的处理实现交叉检查。
那如果我们看看「数据就是 AI 的石油」这样的 Ilya 也说过的话呢?难到这些 AIGC 就没有任何意义吗?有一部分意义,在 LLM training 和 post-traing 上,synthetic data(合成数据)是非常重要的部分,实际上对于具身智能也是如此,洗数据是非常困难的事情,data 是 somehow 的劳动密集型行业,现在可以堆人,未来呢?如果互联网上都充斥的是垃圾数据呢?也许未来某天,无法采用互联网数据的时候,就必须要有专门的行业专家 / 专家模型在特定领域生成数据才行了。。。
哦对,在减少工作量和提供更多岗位上,AIGC 是真的没有特别的价值的,只能说一部分非常机械式的工作可以 offload 到 AI 去做(比如 ComfyUI 做灵感发散和生成 —— 应对的是以往创意的试错很高,LLM 做总结和语义拆分、分类和整理 —— 应对的是海量的数据需要处理,或者 Agent / Completion 做代码补全 —— 应对的是重复代码和重构代码的工作),大家使用 AI,并不会因此就不需要工作了,反而会需要做更多的事情,比较每个用 AI 的人实际上都是比原本更强大的人了,设计的领域也会更广,对吧?
最悲观的是:这件事情甚至是无法避免的,也许这就是 模因污染 吧。
现在大家只是看到有创作者用 AI 工具批量生成内容赚取流量来钻赚钱的空子,那如果这个过程变得更自动化了呢?比如,全自动地调用 ComfyUI 和 Sora 生成更多的垃圾视频填充到时间线上。国庆期间大家很欢呼和喜好的 Sora 这样的 App,本质就是一个彻底 AIGC 驱动的 Tiktok(or 抖音),在剥夺注意力资源之外,也在视频(这个本身就缺乏数据集)的模态上上产生更多的垃圾数据。
我知道有其他的公司和企业正在开发完全由 Agent(根据历史的 chat history 和形成的 memory)去精确地通过你交给 AI 的对话数据判定用户画像,然后生成专属于用户和用户确实会喜欢的 feed 推荐流,实现真正意义上的 agent driven Tiktok(这样的东西没有实质上的技术难题或者工程上做不到的事情,只要能负担得起分析 agent 的成本就可以做到),我理解投资行业对于寻找到下一个 AI 时代的 Tiktok 的欲望非常强,但这对人类文明来说是好不负责任的,不正确的发展方向。
就算是我工作范围内的 RAG 和 知识召回、memory 这件事情上,现在也已经遇到了超级多的正确性和召回后的信息有价值与否的难题了,而且这似乎是无法被量化和可被评估的数据(因为 fact check 真的是非常费力的事情,也有前两天的论文介绍了 small segment of information can pollute how ai searches(在 bilibili 上也有别的博主制作过类似的视频介绍类似的实验))。现有的若干 Deep Search 在 可信信息 的算法上也依然是用工程或者 reranker 来实现的排序,总是会有漏洞,也并不会在语义上和事实上对信息进行 fact check,最多也就是进行多个信源的处理实现交叉检查。
那如果我们看看「数据就是 AI 的石油」这样的 Ilya 也说过的话呢?难到这些 AIGC 就没有任何意义吗?有一部分意义,在 LLM training 和 post-traing 上,synthetic data(合成数据)是非常重要的部分,实际上对于具身智能也是如此,洗数据是非常困难的事情,data 是 somehow 的劳动密集型行业,现在可以堆人,未来呢?如果互联网上都充斥的是垃圾数据呢?也许未来某天,无法采用互联网数据的时候,就必须要有专门的行业专家 / 专家模型在特定领域生成数据才行了。。。
哦对,在减少工作量和提供更多岗位上,AIGC 是真的没有特别的价值的,只能说一部分非常机械式的工作可以 offload 到 AI 去做(比如 ComfyUI 做灵感发散和生成 —— 应对的是以往创意的试错很高,LLM 做总结和语义拆分、分类和整理 —— 应对的是海量的数据需要处理,或者 Agent / Completion 做代码补全 —— 应对的是重复代码和重构代码的工作),大家使用 AI,并不会因此就不需要工作了,反而会需要做更多的事情,比较每个用 AI 的人实际上都是比原本更强大的人了,设计的领域也会更广,对吧?
最悲观的是:这件事情甚至是无法避免的,也许这就是 模因污染 吧。
Forwarded from 箱子跑来跑去📦
介绍一下我的新项目——ChatTutor。这是一个突破性的「可视化交互式 AI 教师」,不仅能够通过文字与你对话,更能使用电子白板进行直观教学
与传统聊天机器人不同,ChatTutor 将真实课堂中的教学工具——黑板、几何绘图、函数图像、思维导图等——全部带到了数字世界。AI 真正拥有了"动手教学"的能力,让学习 STEM 科目变得更直观和高效
在计划中的功能:
数学画板 - 动态绘制函数图像、几何图形
代码页面 - 编程教学与实时执行
思维导图 - 知识结构可视化
物理画板 - 实验现象模拟
数字逻辑画板 - 逻辑电路演示
GitHub 地址:https://github.com/sheepbox8646/ChatTutor
与传统聊天机器人不同,ChatTutor 将真实课堂中的教学工具——黑板、几何绘图、函数图像、思维导图等——全部带到了数字世界。AI 真正拥有了"动手教学"的能力,让学习 STEM 科目变得更直观和高效
在计划中的功能:
数学画板 - 动态绘制函数图像、几何图形
代码页面 - 编程教学与实时执行
思维导图 - 知识结构可视化
物理画板 - 实验现象模拟
数字逻辑画板 - 逻辑电路演示
GitHub 地址:https://github.com/sheepbox8646/ChatTutor
👍6😱4🔥2❤1
卡比的驭天飞行者 ❌
绝地潜兵 2 ✅
CG 画质可以啊,没想到 Nintendo 现在都这么舍得,居然还有一整套世界观,那马车... 岂不是...
绝地潜兵 2 ✅
CG 画质可以啊,没想到 Nintendo 现在都这么舍得,居然还有一整套世界观,那马车... 岂不是...
🤗4
Forwarded from Hacker News
Bun has been acquired by Anthropic (🔥 Score: 161+ in 24 minutes)
Link: https://readhacker.news/s/6GDZD
Comments: https://readhacker.news/c/6GDZD
Link: https://readhacker.news/s/6GDZD
Comments: https://readhacker.news/c/6GDZD
Bun
Bun is joining Anthropic
Bun has been acquired by Anthropic. Anthropic is betting on Bun as the infrastructure powering Claude Code, Claude Agent SDK, and future AI coding products & tools.
🤔5
Forwarded from 洛灵国
终于更新了一版 Telegram Search 的 README,应该更有人味了~
您是否曾因 Telegram 无法搜索中文聊天记录而苦恼?
或者想查找一条重要消息,却因消息过多而难以定位?
现在,使用 Telegram Search,您可以轻松查找和导出自己的 Telegram 消息。强大的语义搜索支持所有语言,完美应对无分词句子的检索场景。
同时支持向量搜索,实现句子级别的模糊匹配,让查找更智能、更准确。
您是否曾因 Telegram 无法搜索中文聊天记录而苦恼?
或者想查找一条重要消息,却因消息过多而难以定位?
现在,使用 Telegram Search,您可以轻松查找和导出自己的 Telegram 消息。强大的语义搜索支持所有语言,完美应对无分词句子的检索场景。
同时支持向量搜索,实现句子级别的模糊匹配,让查找更智能、更准确。
🐳6