Meta ImageBind 多模态模型开源,我们离AGI又进一步。
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。
《Claude’s Constitution 克劳德宪法》
它为语言模型提供了由宪法确定的明确值,而不是通过大规模人类反馈隐式确定的值。
它使人工智能系统的价值更容易理解,也更容易根据需要进行调整。
https://www.anthropic.com/index/claudes-constitution
《Claude’s Constitution 克劳德宪法》
它为语言模型提供了由宪法确定的明确值,而不是通过大规模人类反馈隐式确定的值。
它使人工智能系统的价值更容易理解,也更容易根据需要进行调整。
https://www.anthropic.com/index/claudes-constitution
Anthropic
Claude’s Constitution
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
今天必将是 Google 刷屏的一天,我就说下重点吧:
1.PALM2相比PALM,模型参数更少,但是效果反而远超前代。实力科学炼丹。
2.在代码能力上和GPT4差距仍然巨大, 37/85的差距
3.Flan版本的数学能力超过GPT4一点点
4.除了代码和数学,还特别提升了推理能力
技术报告地址:
https://ai.google/static/documents/palm2techreport.pdf
1.PALM2相比PALM,模型参数更少,但是效果反而远超前代。实力科学炼丹。
2.在代码能力上和GPT4差距仍然巨大, 37/85的差距
3.Flan版本的数学能力超过GPT4一点点
4.除了代码和数学,还特别提升了推理能力
技术报告地址:
https://ai.google/static/documents/palm2techreport.pdf
Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要包括下面三种能力:
文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。
文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。
输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。
https://m.okjike.com/originalPosts/645d1483fd7c4754e60eb9f6?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=
文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。
文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。
输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。
https://m.okjike.com/originalPosts/645d1483fd7c4754e60eb9f6?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=
Okjike
Stability AI正式发布了他们从文字生成动画的工具S - 即刻App
即刻App,享受探索、表达和创造
Claude 支持 100k上下文,视频 demo :100k上下文能做什么 🤯 https://vxtwitter.com/anthropicai/status/1656700154190389248
vxTwitter / fixvx
Anthropic (@AnthropicAI)
Introducing 100K Context Windows! We’ve expanded Claude’s context window to 100,000 tokens of text, corresponding to around 75K words. Submit hundreds of pages of materials for Claude to digest and anal…
💖 5.36K 🔁 1.06K
💖 5.36K 🔁 1.06K
Google 的一堆产品需要在 lab 申请 waitlist,但是打开之后都提示你的账号还不支持 lab,今天终于找到问题所在。
解决办法是到 Google 账户里把自动添加的简体中文语言去掉,只留英文,并把自动添加语言功能关掉(就是被它坑了)。如图。
之后连上美国梯子,到这里申请吧
https://labs.withgoogle.com/
解决办法是到 Google 账户里把自动添加的简体中文语言去掉,只留英文,并把自动添加语言功能关掉(就是被它坑了)。如图。
之后连上美国梯子,到这里申请吧
https://labs.withgoogle.com/
Claude-instant API 也更新到了 v1.1 版本。
增强了代码能力,写作能力,指令遵循能力。
增强了安全性。
这个可以在 poe 里免费使用。
incase 还有人不知道 poe
https://poe.com
增强了代码能力,写作能力,指令遵循能力。
增强了安全性。
这个可以在 poe 里免费使用。
incase 还有人不知道 poe
https://poe.com
Poe
Poe - Fast, Helpful AI Chat
Poe gives you access to the best AI, all in one place. Explore GPT-4.1, Claude Opus 4, DeepSeek-R1, Runway, ElevenLabs, and millions of others.
100k 上下文的 Claude 已经可以在 https://poe.com/Claude-instant-100k 体验,会员每月可用100次,会员价20美金/月
Claude 100k 用起来了!
1. 先把 claude 的 API 转成 OpenAI 的格式https://github.com/jtsang4/claude-to-chatgpt
2. 找到支持无限输入的客户端 ChatBox,并填写API
https://github.com/Bin-Huang/chatbox/releases
3.模型选择 GPT4,对应就是 claude 100k
3. 随便找一篇万字长文丢进去,居然算两万多token
4. 总结成功如图
感谢两位开发者
网页直接全选复制粘贴,有很多额外的东西也不怕。
- 总结速度真的非常快,考虑到这么多字数,速度比 bing 还快,不能不满意。
- 视频字幕,会议纪要,小说章节,都能一分钟get精髓。
- 和高情商的 Claude 闲聊一天都保持记忆
1. 先把 claude 的 API 转成 OpenAI 的格式https://github.com/jtsang4/claude-to-chatgpt
2. 找到支持无限输入的客户端 ChatBox,并填写API
https://github.com/Bin-Huang/chatbox/releases
3.模型选择 GPT4,对应就是 claude 100k
3. 随便找一篇万字长文丢进去,居然算两万多token
4. 总结成功如图
感谢两位开发者
网页直接全选复制粘贴,有很多额外的东西也不怕。
- 总结速度真的非常快,考虑到这么多字数,速度比 bing 还快,不能不满意。
- 视频字幕,会议纪要,小说章节,都能一分钟get精髓。
- 和高情商的 Claude 闲聊一天都保持记忆
今天Midjourney中国开放了测试的申请,很多朋友也加入了,也有很多问题需要解答,所以就想着写一个使用指南帮助大家了解和国际版的不同。详细的文章内容在这里:https://mp.weixin.qq.com/s/4NefHvl7A-o-hVm1PZr5Gw
Poe API 推出,AI 的普及速度要更快了。
现在允许所有开发人员在 Poe 上构建机器人,包括 Anthropic 和 OpenAI 的客户,或其他正在训练自己的语言模型的 AI 公司,或者任何使用开源 LLM 的人。 https://twitter.com/adamdangelo/status/1658121701077516291?s=46&t=9C242iPwhhtbjr6pL2GHuA
现在允许所有开发人员在 Poe 上构建机器人,包括 Anthropic 和 OpenAI 的客户,或其他正在训练自己的语言模型的 AI 公司,或者任何使用开源 LLM 的人。 https://twitter.com/adamdangelo/status/1658121701077516291?s=46&t=9C242iPwhhtbjr6pL2GHuA
X (formerly Twitter)
Adam D'Angelo (@adamdangelo) on X
Today we are officially launching the Poe API to all developers. Details in thread below!
Tesla Bots 大军来了,它们跟随人类教练在现实环境中模仿行为、理解世界并完成复杂任务!尽管 OpenAI、DeepMind、Meta 还有 Nvidia 带领着 AI 在数字世界狂奔,但只有 Tesla 通过 FSD 让 AI 在现实世界的信息海洋中遨游 …
@elonmusk
认为 Tesla 将在 AGI 中发挥重要作用👀 https://vxtwitter.com/indigo11/status/1658608757453234176?s=20
@elonmusk
认为 Tesla 将在 AGI 中发挥重要作用👀 https://vxtwitter.com/indigo11/status/1658608757453234176?s=20
vxTwitter / fixvx
💖 95 🔁 35
💖 95 🔁 35
indigo (@indigo11)
Tesla Bots 大军来了,它们跟随人类教练在现实环境中模仿行为、理解世界并完成复杂任务!尽管 OpenAI、DeepMind、Meta 还有 Nvidia 带领着 AI 在数字世界狂奔,但只有 Tesla 通过 FSD 让 AI 在现实世界的信息海洋中遨游 … @elonmusk 认为 Tesla 将在 AGI 中发挥重要作用👀
https://t.co/fyElU4pntH
https://t.co/fyElU4pntH
OpenAI的CEO Sam Altman参加了一场关于AI监管的听证会,总时长达3个小时。 这里是本次听证会的10个主要重点(word count: 22796, token: 53692 总结: Claude 100k):
1. 人工智能技术正在迅速发展,需要适当的监管。Sam Altman和其他人都呼吁政府采取行动,制定规则和标准来管理AI的风险。
2. 需要明确定义监管的范围和对象。Sam Altman提出可以根据模型的计算能力或功能能力来划定范围。
3. 需要建立独立的监管机构。Sam Altman和Gary Marcus都支持建立一个机构来监管AI技术。
4. 需要制定安全标准和许可证要求。Sam Altman提出需要对超过一定规模的AI模型实施许可证和测试要求。
5. 需要确保不同人群获得公平对待。Padilla参议员提出需要确保AI模型具有语言和文化包容性。
6. 需要保护个人隐私和数据。Sam Altman表示OpenAI允许用户选择不使用其数据进行训练,并可以删除用户数据。
7. 需要防止AI技术被滥用以操纵选举。参议员们担心AI技术可以预测和影响公众舆论和选举结果。
8. 需要保护知识产权。Blackburn参议员担心AI可以生成受版权保护的内容,需要确保内容创作者得到补偿。
9. 需要应对对就业的影响。参议员们担心AI技术会减少工作,需要与行业和政府合作应对这种影响。
10. 需要国际合作。Sam Altman认为虽然美国应该领导,但也需要考虑全球影响,可以探索国际合作的机会。
1. 人工智能技术正在迅速发展,需要适当的监管。Sam Altman和其他人都呼吁政府采取行动,制定规则和标准来管理AI的风险。
2. 需要明确定义监管的范围和对象。Sam Altman提出可以根据模型的计算能力或功能能力来划定范围。
3. 需要建立独立的监管机构。Sam Altman和Gary Marcus都支持建立一个机构来监管AI技术。
4. 需要制定安全标准和许可证要求。Sam Altman提出需要对超过一定规模的AI模型实施许可证和测试要求。
5. 需要确保不同人群获得公平对待。Padilla参议员提出需要确保AI模型具有语言和文化包容性。
6. 需要保护个人隐私和数据。Sam Altman表示OpenAI允许用户选择不使用其数据进行训练,并可以删除用户数据。
7. 需要防止AI技术被滥用以操纵选举。参议员们担心AI技术可以预测和影响公众舆论和选举结果。
8. 需要保护知识产权。Blackburn参议员担心AI可以生成受版权保护的内容,需要确保内容创作者得到补偿。
9. 需要应对对就业的影响。参议员们担心AI技术会减少工作,需要与行业和政府合作应对这种影响。
10. 需要国际合作。Sam Altman认为虽然美国应该领导,但也需要考虑全球影响,可以探索国际合作的机会。
ChatGPT 的插件市场页面无法搜索插件,只能一页一页翻去查找自己可能需要的插件。
哥飞做了一个简单页面 www.ChatPlugin.top ,用中文向大家介绍所有插件。
可以在输入框输入你的需求,帮你从插件库中查找符合需求的插件。
也可以不输入,直接点搜索,会每次随机挑选一些插件给你。
点击任意一个插件,都能够看到跟这个插件类似的其它插件。
哥飞做了一个简单页面 www.ChatPlugin.top ,用中文向大家介绍所有插件。
可以在输入框输入你的需求,帮你从插件库中查找符合需求的插件。
也可以不输入,直接点搜索,会每次随机挑选一些插件给你。
点击任意一个插件,都能够看到跟这个插件类似的其它插件。
ChatGPT for iOS
做得很有特色,简简单单的,但是内置了很多细节,属于用了功夫的作品。
- 长按可以复制或进入选择模式
- 支持markdown
- 滑动输入框可以快速新建对话
- 另外最重要的可能是 plus 可以直接用美国区账号购买,叠加支付宝可以充值,所以方便了很多。
缺点:
- 发热量跟游戏差不多
🤕️ https://apps.apple.com/app/id6448311069
做得很有特色,简简单单的,但是内置了很多细节,属于用了功夫的作品。
- 长按可以复制或进入选择模式
- 支持markdown
- 滑动输入框可以快速新建对话
- 另外最重要的可能是 plus 可以直接用美国区账号购买,叠加支付宝可以充值,所以方便了很多。
缺点:
- 发热量跟游戏差不多
🤕️ https://apps.apple.com/app/id6448311069
App Store
ChatGPT
Introducing ChatGPT for iOS: OpenAI’s latest advancements at your fingertips.
This official app is free, syncs your history across devices, and brings you the latest from OpenAI, including the new image generator.
With ChatGPT in your pocket, you’ll find:…
This official app is free, syncs your history across devices, and brings you the latest from OpenAI, including the new image generator.
With ChatGPT in your pocket, you’ll find:…