仅凭提示即可生成火焰特效视频。
迟了一个多月,终于开始接触 Stable Diffusion 的 AnimateDiff 了。
虽然还不太了解,但特效的动作相当有趣,对未来充满期待。
🔗 https://fxtwitter.com/i/status/1704471155133079999
迟了一个多月,终于开始接触 Stable Diffusion 的 AnimateDiff 了。
虽然还不太了解,但特效的动作相当有趣,对未来充满期待。
🔗 https://fxtwitter.com/i/status/1704471155133079999
FixTweet
Hirokazu Yokohara (@Yokohara_h)
プロンプトだけで炎エフェクトの動画生成。世間から1か月以上遅れてStable DiffusionのAnimateDiffようやく触り始めた。まだよく分かってないけどエフェクトは中々面白い動きしてくれるから今後に期待できる
DALL・E 3 即将发布,该项目涉及研究、开发和安全等方面。
评论中讨论了 DALL・E 2 和 DALL・E 3 生成的图像的比较,使用艺术家姓名作为提示的方式,DALL・E 文本生成的局限性,ChatGPT 的整合以及与 Midjourney 和 Stable Diffusion 等其他文本到图像模型的比较。
一些用户对通过聊天驱动的提示实现图像迭代改进的潜力表示兴奋,而其他人则讨论了不同 AI 模型的优缺点。
🔗 https://openai.com/dall-e-3
💬 https://news.ycombinator.com/item?id=37586900
评论中讨论了 DALL・E 2 和 DALL・E 3 生成的图像的比较,使用艺术家姓名作为提示的方式,DALL・E 文本生成的局限性,ChatGPT 的整合以及与 Midjourney 和 Stable Diffusion 等其他文本到图像模型的比较。
一些用户对通过聊天驱动的提示实现图像迭代改进的潜力表示兴奋,而其他人则讨论了不同 AI 模型的优缺点。
🔗 https://openai.com/dall-e-3
💬 https://news.ycombinator.com/item?id=37586900
Openai
DALL·E 3
DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images.
🎉 SeaGOAT – 本地「基于 AI」的语义代码搜索工具
SeaGOAT 是一款本地代码搜索引擎,使用向量嵌入进行语义代码搜索。
可安装在各种操作系统上,支持多种编程语言。
SeaGOAT 不依赖第三方 API,所有功能在本地执行。
目前支持多种文件格式,使用名为 ChromaDB 的向量数据库和 ripgrep 进行代码搜索。
用户提出了 CUDA 加速、团队内共享生成的数据库、更复杂查询的支持以及其他编程语言的支持等功能需求。
开发者已回应并计划添加新功能,包括支持多个代码库和 Web 版本。
其他用户也提到了类似的工具,并提出了合作的可能性。
🔗 https://github.com/kantord/SeaGOAT
💬 https://news.ycombinator.com/item?id=37583219
SeaGOAT 是一款本地代码搜索引擎,使用向量嵌入进行语义代码搜索。
可安装在各种操作系统上,支持多种编程语言。
SeaGOAT 不依赖第三方 API,所有功能在本地执行。
目前支持多种文件格式,使用名为 ChromaDB 的向量数据库和 ripgrep 进行代码搜索。
用户提出了 CUDA 加速、团队内共享生成的数据库、更复杂查询的支持以及其他编程语言的支持等功能需求。
开发者已回应并计划添加新功能,包括支持多个代码库和 Web 版本。
其他用户也提到了类似的工具,并提出了合作的可能性。
🔗 https://github.com/kantord/SeaGOAT
💬 https://news.ycombinator.com/item?id=37583219
GitHub
GitHub - kantord/SeaGOAT: local-first semantic code search engine
local-first semantic code search engine. Contribute to kantord/SeaGOAT development by creating an account on GitHub.
ControlNet-XS 项目页面:https://vislearn.github.io/ControlNet-XS/
随着计算能力的增强,当前的模型架构似乎都在追随一个趋势,即简单地将所有组件放大而没有验证这样做的必要性。
在这个项目中,我们研究了控制基于 Stable Diffusion 模型的图像生成过程的 ControlNet [Zhang 等,2023] 的大小和架构设计。
我们展示了一个新的架构,只有基础模型参数的 1% 的参数,却实现了最先进的结果,FID 得分明显优于 ControlNet。
因此,我们将其称为 ControlNet-XS。
我们提供了控制 StableDiffusion-XL [Dustin Podell 等,2023](模型 B,4800 万参数)和 StableDiffusion 2.1 [Robin Rombach 等,2022](模型 B,1400 万参数)的代码,均在 openrail 许可下。
🔗 https://fxtwitter.com/i/status/1704379017288102271
随着计算能力的增强,当前的模型架构似乎都在追随一个趋势,即简单地将所有组件放大而没有验证这样做的必要性。
在这个项目中,我们研究了控制基于 Stable Diffusion 模型的图像生成过程的 ControlNet [Zhang 等,2023] 的大小和架构设计。
我们展示了一个新的架构,只有基础模型参数的 1% 的参数,却实现了最先进的结果,FID 得分明显优于 ControlNet。
因此,我们将其称为 ControlNet-XS。
我们提供了控制 StableDiffusion-XL [Dustin Podell 等,2023](模型 B,4800 万参数)和 StableDiffusion 2.1 [Robin Rombach 等,2022](模型 B,1400 万参数)的代码,均在 openrail 许可下。
🔗 https://fxtwitter.com/i/status/1704379017288102271
FixTweet
AK (@_akhaliq)
ControlNet-XS
project page: https://vislearn.github.io/ControlNet-XS/
With increasing computing capabilities, current model architectures appear to follow the trend of simply upscaling all components without validating the necessity for doing so. In this…
project page: https://vislearn.github.io/ControlNet-XS/
With increasing computing capabilities, current model architectures appear to follow the trend of simply upscaling all components without validating the necessity for doing so. In this…
丰田研究所通过一种名为「扩散策略」的生成式人工智能方法,在教授机器人新行为方面取得突破。
这种方法使机器人能够快速学习新技能,而无需编写新代码。
丰田研究所已经教授了 60 多种灵巧技能,并计划在年底前教授更多技能。
机器人现在能够以各种方式与世界互动,包括操纵可变形物体和液体。
这一进展将使丰田研究所更接近为机器人构建「大行为模型」。
评论讨论了相关工作、机器人学习的复杂性以及对就业和社会的潜在影响。
🔗 https://www.tri.global/news/toyota-research-institute-unveils-breakthrough-teaching-robots-new-behaviors
💬 https://news.ycombinator.com/item?id=37586264
这种方法使机器人能够快速学习新技能,而无需编写新代码。
丰田研究所已经教授了 60 多种灵巧技能,并计划在年底前教授更多技能。
机器人现在能够以各种方式与世界互动,包括操纵可变形物体和液体。
这一进展将使丰田研究所更接近为机器人构建「大行为模型」。
评论讨论了相关工作、机器人学习的复杂性以及对就业和社会的潜在影响。
🔗 https://www.tri.global/news/toyota-research-institute-unveils-breakthrough-teaching-robots-new-behaviors
💬 https://news.ycombinator.com/item?id=37586264
LLM 动力软件在中期未来会是什么样子?HackerNews 帖子的作者探讨了 LLM 动力软件的未来,并设想了到 2027 年 LLM 用户体验中可能存在的几个特点。
这些特点包括整合的聊天用户体验、LLM 的长期持久性、对各种数字内容的访问、LLM 和本地存储库的商品化、动态生成的用户界面元素、LLM 交互中更高级别的提示和主动交互。
作者承认这些预测是推测性的,但认为它们提供了对 LLM 用户体验未来的一瞥。
评论中讨论了 LLM 的各个方面,包括它们作为个人 AI 助手的潜力、生成式 AI 的局限性、LLM 的个人价值和风险、政府访问和法律问题的潜力、人工智能对社会的影响以及人工智能训练的同质化效应。
🔗 https://vishnumenon.com/lightrail/2023/09/17/AI-Interfaces.html
💬 https://news.ycombinator.com/item?id=37559996
这些特点包括整合的聊天用户体验、LLM 的长期持久性、对各种数字内容的访问、LLM 和本地存储库的商品化、动态生成的用户界面元素、LLM 交互中更高级别的提示和主动交互。
作者承认这些预测是推测性的,但认为它们提供了对 LLM 用户体验未来的一瞥。
评论中讨论了 LLM 的各个方面,包括它们作为个人 AI 助手的潜力、生成式 AI 的局限性、LLM 的个人价值和风险、政府访问和法律问题的潜力、人工智能对社会的影响以及人工智能训练的同质化效应。
🔗 https://vishnumenon.com/lightrail/2023/09/17/AI-Interfaces.html
💬 https://news.ycombinator.com/item?id=37559996
这篇 Reddit 文章讨论了新的 Bard 更新,该更新为所有 Google 应用程序(如 Workspace 和其他 Google 应用程序)带来了插件。
作者认为这对于像他这样经常使用 Google 产品的人来说非常有用。
他可以通过询问 Bard 来给他的电子邮件做摘要,或者让它编辑 Google 文档,而这就像是一次对话。
评论中有人表示对此感到高兴,认为这将给 OpenAI 带来压力,迫使他们更加创新以保持领先地位。
还有人提到了竞争的重要性。
还有一些评论讨论了 Bard 是否适用于不同的 Google 应用程序,以及与 ChatGPT 的比较。
总体而言,大多数人对 Bard 的新功能持积极态度,但也有一些人对其准确性和创造性能力表示质疑。
#chatgpt
🔗 https://redd.it/16n7i0r
作者认为这对于像他这样经常使用 Google 产品的人来说非常有用。
他可以通过询问 Bard 来给他的电子邮件做摘要,或者让它编辑 Google 文档,而这就像是一次对话。
评论中有人表示对此感到高兴,认为这将给 OpenAI 带来压力,迫使他们更加创新以保持领先地位。
还有人提到了竞争的重要性。
还有一些评论讨论了 Bard 是否适用于不同的 Google 应用程序,以及与 ChatGPT 的比较。
总体而言,大多数人对 Bard 的新功能持积极态度,但也有一些人对其准确性和创造性能力表示质疑。
#chatgpt
🔗 https://redd.it/16n7i0r
Reddit
From the ChatGPT community on Reddit
Explore this post and more from the ChatGPT community
耳机推迟至 2024 年
办公场景虚拟现实(VR)计算耳机开发公司 SimulaVR 因资金不足宣布推迟交付期限。
他们将交付日期推迟至 2024 年第二季度,悲观交付日期为 2024 年第四季度。
主要问题是资金短缺 120 万美元。
公司承认他们在早期未能筹集到机构资金和未达到销售目标的错误。
他们正在寻找与他们的使命相符的投资伙伴,共同打造基于 Linux 的 VR 计算耳机。
评论中讨论了公司面临的挑战、产品的潜在市场以及与苹果 VR 耳机的比较。
🔗 https://simulavr.com/blog/headsets-delayed/
💬 https://news.ycombinator.com/item?id=37568554
办公场景虚拟现实(VR)计算耳机开发公司 SimulaVR 因资金不足宣布推迟交付期限。
他们将交付日期推迟至 2024 年第二季度,悲观交付日期为 2024 年第四季度。
主要问题是资金短缺 120 万美元。
公司承认他们在早期未能筹集到机构资金和未达到销售目标的错误。
他们正在寻找与他们的使命相符的投资伙伴,共同打造基于 Linux 的 VR 计算耳机。
评论中讨论了公司面临的挑战、产品的潜在市场以及与苹果 VR 耳机的比较。
🔗 https://simulavr.com/blog/headsets-delayed/
💬 https://news.ycombinator.com/item?id=37568554
稳定音频即将震撼登场!立即体验我们的新一代音乐和声音生成 AI 产品吧!# 稳定音频 #稳定 AI 请访问 http://www.stableaudio.com
🔗 https://fxtwitter.com/i/status/1704158799643172928
🔗 https://fxtwitter.com/i/status/1704158799643172928
大型语言模型中的神经元:死亡、N-Gram 和位置性
该论文分析了大型语言模型,并发现网络早期的许多神经元是「死亡」的,无法对多样化的数据进行激活。
活跃的神经元则充当标记和 N-Gram 检测器。
研究还发现,这些模型中的 FFN 更新主要集中在删除有关触发标记的信息,而不是添加信息。
随着模型规模的增加,它们变得更加稀疏,有更多的死亡神经元和标记检测器。
一些神经元是位置性的,它们的激活取决于位置而不是文本数据。
评论讨论了计算机和碳基神经网络之间的相似之处,修剪死亡神经元的可能性,以及模拟真实神经元和理解 AI 情感的挑战。
🔗 https://arxiv.org/abs/2309.04827
💬 https://news.ycombinator.com/item?id=37583136
该论文分析了大型语言模型,并发现网络早期的许多神经元是「死亡」的,无法对多样化的数据进行激活。
活跃的神经元则充当标记和 N-Gram 检测器。
研究还发现,这些模型中的 FFN 更新主要集中在删除有关触发标记的信息,而不是添加信息。
随着模型规模的增加,它们变得更加稀疏,有更多的死亡神经元和标记检测器。
一些神经元是位置性的,它们的激活取决于位置而不是文本数据。
评论讨论了计算机和碳基神经网络之间的相似之处,修剪死亡神经元的可能性,以及模拟真实神经元和理解 AI 情感的挑战。
🔗 https://arxiv.org/abs/2309.04827
💬 https://news.ycombinator.com/item?id=37583136
arXiv.org
Neurons in Large Language Models: Dead, N-gram, Positional
We analyze a family of large language models in such a lightweight manner that can be done on a single GPU. Specifically, we focus on the OPT family of models ranging from 125m to 66b parameters...
这篇 Reddit 文章讨论了如何生成类似于给出的图片的效果。
文章的作者想要尝试生成类似的效果,并询问其他用户如何实现。
评论中的用户提供了一些建议和链接,讨论了使用 Stable Diffusion(stable diffusion)和 Midjourney 等技术来生成这样的图片。
还有一些用户分享了他们自己生成的类似效果的图片,并提供了一些教程和技巧。
一些用户对这种艺术形式表示了兴趣和赞赏,而其他一些用户则对这种趋势和技术的滥用表示了担忧。
总的来说,这篇文章提供了关于生成类似图片的技术和资源的讨论和分享。
#stablediffusion #aiart
🔗 https://redd.it/16nno5y
文章的作者想要尝试生成类似的效果,并询问其他用户如何实现。
评论中的用户提供了一些建议和链接,讨论了使用 Stable Diffusion(stable diffusion)和 Midjourney 等技术来生成这样的图片。
还有一些用户分享了他们自己生成的类似效果的图片,并提供了一些教程和技巧。
一些用户对这种艺术形式表示了兴趣和赞赏,而其他一些用户则对这种趋势和技术的滥用表示了担忧。
总的来说,这篇文章提供了关于生成类似图片的技术和资源的讨论和分享。
#stablediffusion #aiart
🔗 https://redd.it/16nno5y
Reddit
From the midjourney community on Reddit: How to generate something like this Image?
Posted by KneeDue6166 - 1,784 votes and 100 comments
FreeU:扩散 U-Net 中的免费午餐论文链接:https://huggingface.co/papers/2309.11497
我们揭示了扩散 U-Net 的潜力,它被视为一种「免费午餐」,可以大幅提升实时生成的质量。
我们最初研究了 U-Net 架构对去噪过程的关键贡献,并确定了其主干主要用于去噪,而其跳跃连接主要将高频特征引入解码器模块,导致网络忽视了主干的语义信息。
基于这一发现,我们提出了一种简单而有效的方法,称为「FreeU」,可以在不进行额外训练或微调的情况下提高生成质量。
我们的关键洞察是有策略地重新加权 U-Net 的跳跃连接和主干特征图的贡献,以发挥 U-Net 架构的两个组成部分的优势。
在图像和视频生成任务上取得了令人满意的结果,证明我们的 FreeU 可以轻松集成到现有的扩散模型中,例如 Stable Diffusion、DreamBooth、ModelScope、Rerender 和 ReVersion,只需几行代码就能提高生成质量。
🔗 https://fxtwitter.com/i/status/1704721496122266035
我们揭示了扩散 U-Net 的潜力,它被视为一种「免费午餐」,可以大幅提升实时生成的质量。
我们最初研究了 U-Net 架构对去噪过程的关键贡献,并确定了其主干主要用于去噪,而其跳跃连接主要将高频特征引入解码器模块,导致网络忽视了主干的语义信息。
基于这一发现,我们提出了一种简单而有效的方法,称为「FreeU」,可以在不进行额外训练或微调的情况下提高生成质量。
我们的关键洞察是有策略地重新加权 U-Net 的跳跃连接和主干特征图的贡献,以发挥 U-Net 架构的两个组成部分的优势。
在图像和视频生成任务上取得了令人满意的结果,证明我们的 FreeU 可以轻松集成到现有的扩散模型中,例如 Stable Diffusion、DreamBooth、ModelScope、Rerender 和 ReVersion,只需几行代码就能提高生成质量。
🔗 https://fxtwitter.com/i/status/1704721496122266035
huggingface.co
Paper page - FreeU: Free Lunch in Diffusion U-Net
Join the discussion on this paper page
「一个由拟人化的秋叶组成的民乐乐队的 2D 动画,每个乐队成员都演奏着传统的蓝草乐器,身处一个充满乡村气息、被丰收月光点缀的森林场景中。
」DALL・E 3(左)
Midjourney(右)
🔗 https://fxtwitter.com/i/status/1704592812854165604
」DALL・E 3(左)
Midjourney(右)
🔗 https://fxtwitter.com/i/status/1704592812854165604
FixTweet
Nick St. Pierre (@nickfloats)
"A 2D animation of a folk music band composed of anthropomorphic autumn leaves, each playing traditional bluegrass instruments, amidst a rustic forest setting dappled with the soft light of a harvest moon."
DALL•E 3 (left)
Midjourney (right)
DALL•E 3 (left)
Midjourney (right)
这篇 Reddit 文章讨论了各个国家作为动漫反派的形象。
评论中有人对马达加斯加的形象提出了疑问,认为它与《Hazbin Hotel》中的角色 Alastor 太相似。
还有人对阿根廷的形象表示惊讶,认为她的着装太过时髦,与国家的债务不符。
其他评论还涉及到了一些国家形象的讨论,比如瑞典、丹麦、波兰等。
总体来说,大家对这些形象的多样性和个性化表示了喜爱和期待。
🔗 https://redd.it/16nkv2l
评论中有人对马达加斯加的形象提出了疑问,认为它与《Hazbin Hotel》中的角色 Alastor 太相似。
还有人对阿根廷的形象表示惊讶,认为她的着装太过时髦,与国家的债务不符。
其他评论还涉及到了一些国家形象的讨论,比如瑞典、丹麦、波兰等。
总体来说,大家对这些形象的多样性和个性化表示了喜爱和期待。
🔗 https://redd.it/16nkv2l
Reddit
From the midjourney community on Reddit: Countries as anime villains (part 2)
Explore this post and more from the midjourney community
🎉 Symphony – 使用 GPT-4 按顺序调用函数
Symphony 是一个工具包,允许开发者编写函数,并使用 GPT-4 根据对话顺序调用它们。
该工具包会自动为函数创建描述,并目前支持 TypeScript,未来还计划增加对更多语言的支持。
评论中的用户讨论了状态机的潜力以及缩小可访问函数范围的可能性。
一些用户提出了替代方法,询问了限制和与其他语言模型的兼容性。
Symphony 的创建者提到了未来渲染 JSON 输出和使工具包与语言无关的计划。
还有关于 GPT-4 每日调用次数限制的讨论,并提出使用 API 或开源 ChatGPT 克隆的建议。
一位用户询问了 Symphony 和 LangChain 之间的区别。
🔗 https://www.symphony.run/
💬 https://news.ycombinator.com/item?id=37571732
Symphony 是一个工具包,允许开发者编写函数,并使用 GPT-4 根据对话顺序调用它们。
该工具包会自动为函数创建描述,并目前支持 TypeScript,未来还计划增加对更多语言的支持。
评论中的用户讨论了状态机的潜力以及缩小可访问函数范围的可能性。
一些用户提出了替代方法,询问了限制和与其他语言模型的兼容性。
Symphony 的创建者提到了未来渲染 JSON 输出和使工具包与语言无关的计划。
还有关于 GPT-4 每日调用次数限制的讨论,并提出使用 API 或开源 ChatGPT 克隆的建议。
一位用户询问了 Symphony 和 LangChain 之间的区别。
🔗 https://www.symphony.run/
💬 https://news.ycombinator.com/item?id=37571732
www.symphony.run
Write programs you can talk to.
视频外延技术问世了?👀M3DDM 是一种专门用于视频外延的扩散模型。
有些结果看起来有些奇怪,但整体来看,这看起来非常有前景。
目前还不可用,但据说将作为一个产品的一部分发布。
https://fanfanda.github.io/M3DDM/?ref=aiartweekly
🔗 https://fxtwitter.com/i/status/1704101142081282479
有些结果看起来有些奇怪,但整体来看,这看起来非常有前景。
目前还不可用,但据说将作为一个产品的一部分发布。
https://fanfanda.github.io/M3DDM/?ref=aiartweekly
🔗 https://fxtwitter.com/i/status/1704101142081282479
FixTweet
Dreaming Tulpa 🥓👑 (@dreamingtulpa)
Video outpainting wen? 👀
M3DDM is a diffusion model specifically designed for video outpainting. Some results look wacky, but overall this looks extremely promising. As usual not available yet, but apparently it’ll get released as part of a product.
ht…
M3DDM is a diffusion model specifically designed for video outpainting. Some results look wacky, but overall this looks extremely promising. As usual not available yet, but apparently it’ll get released as part of a product.
ht…
遇见你的 AI 执行助手
Shortwave AI 推出了一款 AI 执行助手,可以通过处理任务、搜索邮件历史记录、查看日历等方式提高电子邮件的工作效率。
该助手可以从存储的邮件和附件中获取有价值的见解,快速回答问题,帮助撰写和改进邮件。
它还可以安排会议,翻译邮件,总结讨论线程,理解多种语言。
然而,一些用户对依赖 Gmail 和不支持非 Gmail 用户的问题表示担忧。
Shortwave AI 的联合创始人提供了有关助手架构和功能的技术细节,强调了其先进的搜索、日程安排和分析功能。
助手还可以学习和模仿用户的写作风格。
隐私问题得到严肃对待,用户数据不用于训练模型。
总体而言,该助手因其对电子邮件工作效率的潜在影响以及能够匹配用户的语气和风格而受到积极反馈。
🔗 https://www.shortwave.com/blog/meet-your-ai-email-executive-assistant/
💬 https://news.ycombinator.com/item?id=37585990
Shortwave AI 推出了一款 AI 执行助手,可以通过处理任务、搜索邮件历史记录、查看日历等方式提高电子邮件的工作效率。
该助手可以从存储的邮件和附件中获取有价值的见解,快速回答问题,帮助撰写和改进邮件。
它还可以安排会议,翻译邮件,总结讨论线程,理解多种语言。
然而,一些用户对依赖 Gmail 和不支持非 Gmail 用户的问题表示担忧。
Shortwave AI 的联合创始人提供了有关助手架构和功能的技术细节,强调了其先进的搜索、日程安排和分析功能。
助手还可以学习和模仿用户的写作风格。
隐私问题得到严肃对待,用户数据不用于训练模型。
总体而言,该助手因其对电子邮件工作效率的潜在影响以及能够匹配用户的语气和风格而受到积极反馈。
🔗 https://www.shortwave.com/blog/meet-your-ai-email-executive-assistant/
💬 https://news.ycombinator.com/item?id=37585990
Shortwave
Meet your AI executive assistant
Today we’re introducing the Shortwave AI Assistant, a conversational agent designed to supercharge your email productivity.