今天的热门人工智能新闻和论文
AI新闻
亚马逊收购人工智能公司Snackable以增强播客功能
Airbnb首席执行官布莱恩·切斯基称AI为“一场革命”
谷歌工程师警告称,谷歌可能在人工智能竞赛中输给开源技术
据报道,微软正在帮助AMD扩展人工智能芯片业务
苹果的AI在哪儿?蒂姆·库克暗示采取“深思熟虑”的方式
介绍MPT-7B:一种新的开源、商业可用的LLM标准
StarCoder:一种最先进的代码LLM
顶尖AI论文
用One Shot个性化分段任意模型
NeRSemble:人头部的多视图辐射场重建
AutoML-GPT:使用GPT进行自动机器学习
Shap-E:生成条件3D隐函数
实时神经外观模型
https://twitter.com/_akhaliq/status/1654537718951473153
AI新闻
亚马逊收购人工智能公司Snackable以增强播客功能
Airbnb首席执行官布莱恩·切斯基称AI为“一场革命”
谷歌工程师警告称,谷歌可能在人工智能竞赛中输给开源技术
据报道,微软正在帮助AMD扩展人工智能芯片业务
苹果的AI在哪儿?蒂姆·库克暗示采取“深思熟虑”的方式
介绍MPT-7B:一种新的开源、商业可用的LLM标准
StarCoder:一种最先进的代码LLM
顶尖AI论文
用One Shot个性化分段任意模型
NeRSemble:人头部的多视图辐射场重建
AutoML-GPT:使用GPT进行自动机器学习
Shap-E:生成条件3D隐函数
实时神经外观模型
https://twitter.com/_akhaliq/status/1654537718951473153
Twitter
Today's top trending AI news stories and papers
AI news stories
Amazon acquires AI firm Snackable to boost podcast features
Airbnb CEO Brian Chesky calls AI a 'revolution'
Google engineer warns it could lose out to open-source technology in AI race
Microsoft…
AI news stories
Amazon acquires AI firm Snackable to boost podcast features
Airbnb CEO Brian Chesky calls AI a 'revolution'
Google engineer warns it could lose out to open-source technology in AI race
Microsoft…
可汗学院的AI演示是最近AI应用的一个极好的范例。
GPT4 似乎什么都能做,那应用层能做什么?
其实应用层可以做的东西很多,也可以做的比 ChatGPT好很多。
最让我印象深刻的是这张图,简单翻译下:
我们的实践:
•“让 Al 思考” ,让AI对数学问题进行CoT思考,当学生犯错的时候不要指出错误,而询问他们的解题步骤。
•为问题提供上下文(包括人类生成的提示)
•花费6个月进行提示工程,重点是数学辅导
•花费大量时间帮助微调模型以适应此用例
https://www.youtube.com/watch?v=hJP5GqnTrNo
GPT4 似乎什么都能做,那应用层能做什么?
其实应用层可以做的东西很多,也可以做的比 ChatGPT好很多。
最让我印象深刻的是这张图,简单翻译下:
我们的实践:
•“让 Al 思考” ,让AI对数学问题进行CoT思考,当学生犯错的时候不要指出错误,而询问他们的解题步骤。
•为问题提供上下文(包括人类生成的提示)
•花费6个月进行提示工程,重点是数学辅导
•花费大量时间帮助微调模型以适应此用例
https://www.youtube.com/watch?v=hJP5GqnTrNo
MPT-7B 开源商业可用LLM的新标准
- 包括base和三个微调模型,instruct,chat,写作
- 其中写作模型支持65k的上下文!是GPT4的两倍。(甚至支持到 84k 。)
- 包含了开源代码训练
- 在基准测试中达到了 LLaMA-7B 的水平。
官方介绍:
https://mosaicml.com/blog/mpt-7b
- 包括base和三个微调模型,instruct,chat,写作
- 其中写作模型支持65k的上下文!是GPT4的两倍。(甚至支持到 84k 。)
- 包含了开源代码训练
- 在基准测试中达到了 LLaMA-7B 的水平。
官方介绍:
https://mosaicml.com/blog/mpt-7b
Databricks
Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs | Databricks Blog
Introducing MPT-7B, the first entry in our MosaicML Foundation Series. MPT-7B is a transformer trained from scratch on 1T tokens of text and code. It is open source, available for commercial use, and matches the quality of LLaMA-7B. MPT-7B was trained on…
StarCoder,来自 huggingface,最先进的代码大语言模型。超过其他开源产品和CloseAI水平。
- 8k 上下文
- 不仅可以编程还可以作为技术助手解答问题
- 只有15B参数,效果却超过了很多大参数模型,见图
官方介绍页面 https://huggingface.co/blog/starcoder
- 8k 上下文
- 不仅可以编程还可以作为技术助手解答问题
- 只有15B参数,效果却超过了很多大参数模型,见图
官方介绍页面 https://huggingface.co/blog/starcoder
LLaVA 大型语言和视觉助理
- 视觉对话,达到 GPT4 85%的水平
- Science QA 的准确率达到新 SoTA
- 提供了官方demo地址,直接可用,速度很快,(而 GPT4 的图片功能还没开放)
官方介绍和demo https://llava-vl.github.io
- 视觉对话,达到 GPT4 85%的水平
- Science QA 的准确率达到新 SoTA
- 提供了官方demo地址,直接可用,速度很快,(而 GPT4 的图片功能还没开放)
官方介绍和demo https://llava-vl.github.io
【AI 孙燕姿】《爱在西元前》汉谟拉比法典颁布距今已经3799年-哔哩哔哩】 b23.tv/l5Jq3Ne
姿迷突然有种过节的感觉。
引用评论:姿迷的主要矛盾是听众对孙燕姿日子增长的歌曲渴求和孙燕姿低下的专辑生产力之间的矛盾,只有科技进步可以减少这种矛盾的产生。
姿迷突然有种过节的感觉。
引用评论:姿迷的主要矛盾是听众对孙燕姿日子增长的歌曲渴求和孙燕姿低下的专辑生产力之间的矛盾,只有科技进步可以减少这种矛盾的产生。
AI 短视频制造机 ,自动把长视频截取成短视频,自动加综艺字体,自动加Emoji,感觉以后国内的综艺剪辑完全可以 AI 化 https://www.opus.pro/
News Minimalist 是一个让 AI 精选新闻的服务。
它使用 AI (ChatGPT-4) 每天阅读前 1000 条新闻,并根据事件的严重性、规模、潜力和来源可信度,按重要性从 0 到 10 对它们进行排名。
你可以选择一个适合自己的阈值,并订阅这个阈值内的 newsletter 。
听起来很合理对不对?
但是实际用下来感觉不work。
可以从图中看到,大部分的新闻都是3分以下,到达6分的新闻凤毛麟角。即便是到了6分,也不过是一些每个人都看过的无聊的大新闻。
而实际每天真正有趣的东西是多到看不过来的,它们并不在头条新闻里。
体验地址:
https://www.newsminimalist.com/
它使用 AI (ChatGPT-4) 每天阅读前 1000 条新闻,并根据事件的严重性、规模、潜力和来源可信度,按重要性从 0 到 10 对它们进行排名。
你可以选择一个适合自己的阈值,并订阅这个阈值内的 newsletter 。
听起来很合理对不对?
但是实际用下来感觉不work。
可以从图中看到,大部分的新闻都是3分以下,到达6分的新闻凤毛麟角。即便是到了6分,也不过是一些每个人都看过的无聊的大新闻。
而实际每天真正有趣的东西是多到看不过来的,它们并不在头条新闻里。
体验地址:
https://www.newsminimalist.com/
Meta ImageBind 多模态模型开源,我们离AGI又进一步。
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。
《Claude’s Constitution 克劳德宪法》
它为语言模型提供了由宪法确定的明确值,而不是通过大规模人类反馈隐式确定的值。
它使人工智能系统的价值更容易理解,也更容易根据需要进行调整。
https://www.anthropic.com/index/claudes-constitution
《Claude’s Constitution 克劳德宪法》
它为语言模型提供了由宪法确定的明确值,而不是通过大规模人类反馈隐式确定的值。
它使人工智能系统的价值更容易理解,也更容易根据需要进行调整。
https://www.anthropic.com/index/claudes-constitution
Anthropic
Claude’s Constitution
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
今天必将是 Google 刷屏的一天,我就说下重点吧:
1.PALM2相比PALM,模型参数更少,但是效果反而远超前代。实力科学炼丹。
2.在代码能力上和GPT4差距仍然巨大, 37/85的差距
3.Flan版本的数学能力超过GPT4一点点
4.除了代码和数学,还特别提升了推理能力
技术报告地址:
https://ai.google/static/documents/palm2techreport.pdf
1.PALM2相比PALM,模型参数更少,但是效果反而远超前代。实力科学炼丹。
2.在代码能力上和GPT4差距仍然巨大, 37/85的差距
3.Flan版本的数学能力超过GPT4一点点
4.除了代码和数学,还特别提升了推理能力
技术报告地址:
https://ai.google/static/documents/palm2techreport.pdf
Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要包括下面三种能力:
文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。
文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。
输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。
https://m.okjike.com/originalPosts/645d1483fd7c4754e60eb9f6?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=
文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。
文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。
输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。
https://m.okjike.com/originalPosts/645d1483fd7c4754e60eb9f6?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=
Okjike
Stability AI正式发布了他们从文字生成动画的工具S - 即刻App
即刻App,享受探索、表达和创造
Claude 支持 100k上下文,视频 demo :100k上下文能做什么 🤯 https://vxtwitter.com/anthropicai/status/1656700154190389248
vxTwitter / fixvx
Anthropic (@AnthropicAI)
Introducing 100K Context Windows! We’ve expanded Claude’s context window to 100,000 tokens of text, corresponding to around 75K words. Submit hundreds of pages of materials for Claude to digest and anal…
💖 5.36K 🔁 1.06K
💖 5.36K 🔁 1.06K
Google 的一堆产品需要在 lab 申请 waitlist,但是打开之后都提示你的账号还不支持 lab,今天终于找到问题所在。
解决办法是到 Google 账户里把自动添加的简体中文语言去掉,只留英文,并把自动添加语言功能关掉(就是被它坑了)。如图。
之后连上美国梯子,到这里申请吧
https://labs.withgoogle.com/
解决办法是到 Google 账户里把自动添加的简体中文语言去掉,只留英文,并把自动添加语言功能关掉(就是被它坑了)。如图。
之后连上美国梯子,到这里申请吧
https://labs.withgoogle.com/
Claude-instant API 也更新到了 v1.1 版本。
增强了代码能力,写作能力,指令遵循能力。
增强了安全性。
这个可以在 poe 里免费使用。
incase 还有人不知道 poe
https://poe.com
增强了代码能力,写作能力,指令遵循能力。
增强了安全性。
这个可以在 poe 里免费使用。
incase 还有人不知道 poe
https://poe.com
Poe
Poe - Fast, Helpful AI Chat
Poe gives you access to the best AI, all in one place. Explore GPT-4.1, Claude Opus 4, DeepSeek-R1, Runway, ElevenLabs, and millions of others.
100k 上下文的 Claude 已经可以在 https://poe.com/Claude-instant-100k 体验,会员每月可用100次,会员价20美金/月
Claude 100k 用起来了!
1. 先把 claude 的 API 转成 OpenAI 的格式https://github.com/jtsang4/claude-to-chatgpt
2. 找到支持无限输入的客户端 ChatBox,并填写API
https://github.com/Bin-Huang/chatbox/releases
3.模型选择 GPT4,对应就是 claude 100k
3. 随便找一篇万字长文丢进去,居然算两万多token
4. 总结成功如图
感谢两位开发者
网页直接全选复制粘贴,有很多额外的东西也不怕。
- 总结速度真的非常快,考虑到这么多字数,速度比 bing 还快,不能不满意。
- 视频字幕,会议纪要,小说章节,都能一分钟get精髓。
- 和高情商的 Claude 闲聊一天都保持记忆
1. 先把 claude 的 API 转成 OpenAI 的格式https://github.com/jtsang4/claude-to-chatgpt
2. 找到支持无限输入的客户端 ChatBox,并填写API
https://github.com/Bin-Huang/chatbox/releases
3.模型选择 GPT4,对应就是 claude 100k
3. 随便找一篇万字长文丢进去,居然算两万多token
4. 总结成功如图
感谢两位开发者
网页直接全选复制粘贴,有很多额外的东西也不怕。
- 总结速度真的非常快,考虑到这么多字数,速度比 bing 还快,不能不满意。
- 视频字幕,会议纪要,小说章节,都能一分钟get精髓。
- 和高情商的 Claude 闲聊一天都保持记忆