ancient_city.jpeg
8.4 MB
用 AI 将《清明上河图》重新绘制为真实照片质感的全景图片 https://github.com/pkuliyi2015/multidiffusion-img-demo
❤12🤯6🙈1
今天在Reddit发现一个老哥画的天龙八部插图,惊为天人。整个画面的张力还有人物动作表现,画面风格的一致性人物的一致性都非常牛皮。 https://fxtwitter.com/op7418/status/1654131824942280704
FixTweet - 🆕 x.com link? Try fixupx.com
歸藏 (@op7418)
今天没有晚安提示词,今天在Reddit发现一个老哥画的天龙八部插图,惊为天人。整个画面的张力还有人物动作表现,画面风格的一致性人物的一致性都非常牛皮。
作者也发了一些自己作图的过程稿,还有制作的思路。不过帖子里非常零碎,我就想整理一下方便学习思路。
总的来说就是通过各种方式获得画面的草稿,然后利用ContorlNet的各种能力获得整个画面的内容,之后对不满意的地方通过PS处理之后使用局部重绘,然后就是PS和局部重绘的不断循环,但是他获得草稿的方式有很多种,下面我分别介绍一下。
作者也发了一些自己作图的过程稿,还有制作的思路。不过帖子里非常零碎,我就想整理一下方便学习思路。
总的来说就是通过各种方式获得画面的草稿,然后利用ContorlNet的各种能力获得整个画面的内容,之后对不满意的地方通过PS处理之后使用局部重绘,然后就是PS和局部重绘的不断循环,但是他获得草稿的方式有很多种,下面我分别介绍一下。
❤9
看完了吴恩达的视频教程《ChatGPT Prompt Engineering for Developers》,虽然视频很短但内容非常精华,每一个开发者都应该看看。
文中提出了一个很好的原则:给模型以思考的时间。意思是如果模型直接给的结果不够好,可以让模型一步一步地给出,甚至可以先让模型给一次中间结果,再根据中间结果给出新的结果。
不过它确实是面向开发者的,因为要实现高级的功能,不仅需要prompt写好,还需要一些分步操作,比如先检测对方的情绪再根据情绪写回复邮件,比如一些批量处理用到了 for 循环。这些不会 python 的话是搞不定的。
中文版的视频地址:
https://www.bilibili.com/video/BV1ug4y157xA/
文中提出了一个很好的原则:给模型以思考的时间。意思是如果模型直接给的结果不够好,可以让模型一步一步地给出,甚至可以先让模型给一次中间结果,再根据中间结果给出新的结果。
不过它确实是面向开发者的,因为要实现高级的功能,不仅需要prompt写好,还需要一些分步操作,比如先检测对方的情绪再根据情绪写回复邮件,比如一些批量处理用到了 for 循环。这些不会 python 的话是搞不定的。
中文版的视频地址:
https://www.bilibili.com/video/BV1ug4y157xA/
Bilibili
【专业翻译,配套代码笔记】02.Prompt 的构建原则_哔哩哔哩_bilibili
感谢@礼行学长 翻译,内容来自:https://learn.deeplearning.ai/chatgpt-prompt-eng/lesson字幕来源@GitHubDaily https://github.com/GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese配套代码与笔记:https://github, 视频播放量 15099、弹幕量 5、点赞数 255、投硬币枚数 61、收藏人数 392、转发人数 60,…
👍17❤5
今天的热门人工智能新闻和论文
AI新闻
亚马逊收购人工智能公司Snackable以增强播客功能
Airbnb首席执行官布莱恩·切斯基称AI为“一场革命”
谷歌工程师警告称,谷歌可能在人工智能竞赛中输给开源技术
据报道,微软正在帮助AMD扩展人工智能芯片业务
苹果的AI在哪儿?蒂姆·库克暗示采取“深思熟虑”的方式
介绍MPT-7B:一种新的开源、商业可用的LLM标准
StarCoder:一种最先进的代码LLM
顶尖AI论文
用One Shot个性化分段任意模型
NeRSemble:人头部的多视图辐射场重建
AutoML-GPT:使用GPT进行自动机器学习
Shap-E:生成条件3D隐函数
实时神经外观模型
https://twitter.com/_akhaliq/status/1654537718951473153
AI新闻
亚马逊收购人工智能公司Snackable以增强播客功能
Airbnb首席执行官布莱恩·切斯基称AI为“一场革命”
谷歌工程师警告称,谷歌可能在人工智能竞赛中输给开源技术
据报道,微软正在帮助AMD扩展人工智能芯片业务
苹果的AI在哪儿?蒂姆·库克暗示采取“深思熟虑”的方式
介绍MPT-7B:一种新的开源、商业可用的LLM标准
StarCoder:一种最先进的代码LLM
顶尖AI论文
用One Shot个性化分段任意模型
NeRSemble:人头部的多视图辐射场重建
AutoML-GPT:使用GPT进行自动机器学习
Shap-E:生成条件3D隐函数
实时神经外观模型
https://twitter.com/_akhaliq/status/1654537718951473153
Twitter
Today's top trending AI news stories and papers
AI news stories
Amazon acquires AI firm Snackable to boost podcast features
Airbnb CEO Brian Chesky calls AI a 'revolution'
Google engineer warns it could lose out to open-source technology in AI race
Microsoft…
AI news stories
Amazon acquires AI firm Snackable to boost podcast features
Airbnb CEO Brian Chesky calls AI a 'revolution'
Google engineer warns it could lose out to open-source technology in AI race
Microsoft…
❤7
可汗学院的AI演示是最近AI应用的一个极好的范例。
GPT4 似乎什么都能做,那应用层能做什么?
其实应用层可以做的东西很多,也可以做的比 ChatGPT好很多。
最让我印象深刻的是这张图,简单翻译下:
我们的实践:
•“让 Al 思考” ,让AI对数学问题进行CoT思考,当学生犯错的时候不要指出错误,而询问他们的解题步骤。
•为问题提供上下文(包括人类生成的提示)
•花费6个月进行提示工程,重点是数学辅导
•花费大量时间帮助微调模型以适应此用例
https://www.youtube.com/watch?v=hJP5GqnTrNo
GPT4 似乎什么都能做,那应用层能做什么?
其实应用层可以做的东西很多,也可以做的比 ChatGPT好很多。
最让我印象深刻的是这张图,简单翻译下:
我们的实践:
•“让 Al 思考” ,让AI对数学问题进行CoT思考,当学生犯错的时候不要指出错误,而询问他们的解题步骤。
•为问题提供上下文(包括人类生成的提示)
•花费6个月进行提示工程,重点是数学辅导
•花费大量时间帮助微调模型以适应此用例
https://www.youtube.com/watch?v=hJP5GqnTrNo
MPT-7B 开源商业可用LLM的新标准
- 包括base和三个微调模型,instruct,chat,写作
- 其中写作模型支持65k的上下文!是GPT4的两倍。(甚至支持到 84k 。)
- 包含了开源代码训练
- 在基准测试中达到了 LLaMA-7B 的水平。
官方介绍:
https://mosaicml.com/blog/mpt-7b
- 包括base和三个微调模型,instruct,chat,写作
- 其中写作模型支持65k的上下文!是GPT4的两倍。(甚至支持到 84k 。)
- 包含了开源代码训练
- 在基准测试中达到了 LLaMA-7B 的水平。
官方介绍:
https://mosaicml.com/blog/mpt-7b
Databricks
Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs | Databricks Blog
Introducing MPT-7B, the first entry in our MosaicML Foundation Series. MPT-7B is a transformer trained from scratch on 1T tokens of text and code. It is open source, available for commercial use, and matches the quality of LLaMA-7B. MPT-7B was trained on…
StarCoder,来自 huggingface,最先进的代码大语言模型。超过其他开源产品和CloseAI水平。
- 8k 上下文
- 不仅可以编程还可以作为技术助手解答问题
- 只有15B参数,效果却超过了很多大参数模型,见图
官方介绍页面 https://huggingface.co/blog/starcoder
- 8k 上下文
- 不仅可以编程还可以作为技术助手解答问题
- 只有15B参数,效果却超过了很多大参数模型,见图
官方介绍页面 https://huggingface.co/blog/starcoder
👍8
LLaVA 大型语言和视觉助理
- 视觉对话,达到 GPT4 85%的水平
- Science QA 的准确率达到新 SoTA
- 提供了官方demo地址,直接可用,速度很快,(而 GPT4 的图片功能还没开放)
官方介绍和demo https://llava-vl.github.io
- 视觉对话,达到 GPT4 85%的水平
- Science QA 的准确率达到新 SoTA
- 提供了官方demo地址,直接可用,速度很快,(而 GPT4 的图片功能还没开放)
官方介绍和demo https://llava-vl.github.io
👍17
【AI 孙燕姿】《爱在西元前》汉谟拉比法典颁布距今已经3799年-哔哩哔哩】 b23.tv/l5Jq3Ne
姿迷突然有种过节的感觉。
引用评论:姿迷的主要矛盾是听众对孙燕姿日子增长的歌曲渴求和孙燕姿低下的专辑生产力之间的矛盾,只有科技进步可以减少这种矛盾的产生。
姿迷突然有种过节的感觉。
引用评论:姿迷的主要矛盾是听众对孙燕姿日子增长的歌曲渴求和孙燕姿低下的专辑生产力之间的矛盾,只有科技进步可以减少这种矛盾的产生。
👍17
News Minimalist 是一个让 AI 精选新闻的服务。
它使用 AI (ChatGPT-4) 每天阅读前 1000 条新闻,并根据事件的严重性、规模、潜力和来源可信度,按重要性从 0 到 10 对它们进行排名。
你可以选择一个适合自己的阈值,并订阅这个阈值内的 newsletter 。
听起来很合理对不对?
但是实际用下来感觉不work。
可以从图中看到,大部分的新闻都是3分以下,到达6分的新闻凤毛麟角。即便是到了6分,也不过是一些每个人都看过的无聊的大新闻。
而实际每天真正有趣的东西是多到看不过来的,它们并不在头条新闻里。
体验地址:
https://www.newsminimalist.com/
它使用 AI (ChatGPT-4) 每天阅读前 1000 条新闻,并根据事件的严重性、规模、潜力和来源可信度,按重要性从 0 到 10 对它们进行排名。
你可以选择一个适合自己的阈值,并订阅这个阈值内的 newsletter 。
听起来很合理对不对?
但是实际用下来感觉不work。
可以从图中看到,大部分的新闻都是3分以下,到达6分的新闻凤毛麟角。即便是到了6分,也不过是一些每个人都看过的无聊的大新闻。
而实际每天真正有趣的东西是多到看不过来的,它们并不在头条新闻里。
体验地址:
https://www.newsminimalist.com/
👍15❤4
Meta ImageBind 多模态模型开源,我们离AGI又进一步。
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。
ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。
(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)
一些应用(见图):
- 通过火车的声音、图像、深度信息,生成准确的文字描述
- 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像
- 通过企鹅的声音,生成企鹅的图像
另一些可能性:
- 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。
- 通过静态图像和音频组合,创建动画。
- 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)
未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
❤13🤯6👍2