Kokoro 82M 这个 TTS 模型也太好了
模型大小只有不到 300M,生成的音频质量很高
在 T4 上,只需要 4.5 秒就能生成 2 分 25 秒的语音
可惜的是只支持英文,不过可以按他们的架构训练其他语言,只需要不到 100 小时的音频数据
模型下载:https://huggingface.co/hexgrad/Kokoro-82M
模型演示:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Invalid media: video
模型大小只有不到 300M,生成的音频质量很高
在 T4 上,只需要 4.5 秒就能生成 2 分 25 秒的语音
可惜的是只支持英文,不过可以按他们的架构训练其他语言,只需要不到 100 小时的音频数据
模型下载:https://huggingface.co/hexgrad/Kokoro-82M
模型演示:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Invalid media: video
Z Potentials|玉伯,阿里前端第一人,语雀创始人,辞任字节高管创业AI创作工具,首轮融资近千万美元
为什么选择创业,为什么尸横遍野还入局
为什么选择了一条缝隙里的缝隙
为什么视频是大赛道,为什么AI不是幌子
YouMind的远方在哪
一切说出来的,都容易错
为什么选择创业,为什么尸横遍野还入局
为什么选择了一条缝隙里的缝隙
为什么视频是大赛道,为什么AI不是幌子
YouMind的远方在哪
一切说出来的,都容易错
This media is not supported in your browser
VIEW IN TELEGRAM
沉浸式翻译换 Deepseek V3 真爽,又快又好,还便宜
看了一下,我这两三天库库用,18 万 Token 只花了一毛三
可能还有很多人不知道咋换,文字更换方法写下面了👇
- 先去 Deepseek 开发者后台注册充值(10 元起,新号送 500 万 Token)
- 获取 API Key,自己找个地方存一下
- 打开沉浸式翻译翻译服务切换为 Open AI
- 选择自定义 API Key
- 填写你获取到的 Deepseek API Key
- 在模型部分填写:deepseek-chat
- 下滑找到「展开更多自定义选项」
- 展开后将「自定义 API 接口地址」改为:https://api.deepseek.com
看了一下,我这两三天库库用,18 万 Token 只花了一毛三
可能还有很多人不知道咋换,文字更换方法写下面了👇
- 先去 Deepseek 开发者后台注册充值(10 元起,新号送 500 万 Token)
- 获取 API Key,自己找个地方存一下
- 打开沉浸式翻译翻译服务切换为 Open AI
- 选择自定义 API Key
- 填写你获取到的 Deepseek API Key
- 在模型部分填写:deepseek-chat
- 下滑找到「展开更多自定义选项」
- 展开后将「自定义 API 接口地址」改为:https://api.deepseek.com
好文分享:如何构建一个有效的Agent
我之前觉得很多宣称Agent但实际上是Workflow的产品感到很迷惑,感觉Agent的定义十分模糊。Claude上个月这篇research很好的定义了两者的区别:是否具有真正的动态决策还是预定义的决策树
并且分享了一些Workflow和Agent的实际设计,手把手教学。
还有个很有意思的,它提到客服场景的落地,是依据成功解决数,而不是Token的调用次数。是AI服务定价以结果导向的实际案例了。
同时还强调过去的API是为人机交互设计的,强调简洁和可维护性,未来应该更接近自然语言,为Agent- Computer交互去定义。
https://www.anthropic.com/research/building-effective-agents
我之前觉得很多宣称Agent但实际上是Workflow的产品感到很迷惑,感觉Agent的定义十分模糊。Claude上个月这篇research很好的定义了两者的区别:是否具有真正的动态决策还是预定义的决策树
并且分享了一些Workflow和Agent的实际设计,手把手教学。
还有个很有意思的,它提到客服场景的落地,是依据成功解决数,而不是Token的调用次数。是AI服务定价以结果导向的实际案例了。
同时还强调过去的API是为人机交互设计的,强调简洁和可维护性,未来应该更接近自然语言,为Agent- Computer交互去定义。
https://www.anthropic.com/research/building-effective-agents
《AI 编程蓝皮书》正式发布!
我的好朋友AI产品黄叔最近两个月都在沉迷 AI 编程,每天沉浸式学习和开发3小时以上。
这周他终于把所有的学习和开发心得,用飞书文档总结了出来。
于是就有了这本 《AI 编程蓝皮书》,今天,我们一起把它送给每一位想入门 AI 编程的同学。
- 整本蓝皮书有5万字,真正从0基础开始,一步一步手地教。
- 它完全免费,所以它不需要夸张的表述让你激情下单。
- 如果你没兴趣,它也不想引发你的焦虑。
我非常支持黄叔,有幸和黄叔、归藏老师一起发布它。
AI 编程是我们共同看到的一个崭新的机会,希望把这个机会传播给有准备的人。
这是一本朴素的书,我们朴素地希望这本书能帮到你。
如果你觉得有帮助,也希望你转发给有需要的朋友。
飞书文档直达
https://superhuang.feishu.cn/wiki/CBBPwvgEuicVhFkx0s7cPmhpn4e
我的好朋友AI产品黄叔最近两个月都在沉迷 AI 编程,每天沉浸式学习和开发3小时以上。
这周他终于把所有的学习和开发心得,用飞书文档总结了出来。
于是就有了这本 《AI 编程蓝皮书》,今天,我们一起把它送给每一位想入门 AI 编程的同学。
- 整本蓝皮书有5万字,真正从0基础开始,一步一步手地教。
- 它完全免费,所以它不需要夸张的表述让你激情下单。
- 如果你没兴趣,它也不想引发你的焦虑。
我非常支持黄叔,有幸和黄叔、归藏老师一起发布它。
AI 编程是我们共同看到的一个崭新的机会,希望把这个机会传播给有准备的人。
这是一本朴素的书,我们朴素地希望这本书能帮到你。
如果你觉得有帮助,也希望你转发给有需要的朋友。
飞书文档直达
https://superhuang.feishu.cn/wiki/CBBPwvgEuicVhFkx0s7cPmhpn4e
今日 github 排名第一开源项目,MoneyPrinterTurbo,中文名:涡轮增压印钞机,利用 AI 大模型,只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。feature 很有想象空间。
https://github.com/FujiwaraChoki/MoneyPrinterV2
https://github.com/FujiwaraChoki/MoneyPrinterV2
Inpaint-web - 生成效果飞快!超智能的AI涂抹工具
Inpaint-web 生成效果飞快!超智能的AI涂抹工具
链接:
https://inpaintweb.lxfater.com/
#Ai工具推荐
Inpaint-web 生成效果飞快!超智能的AI涂抹工具
链接:
https://inpaintweb.lxfater.com/
#Ai工具推荐
【10万人学过】Cursor、Windsur终极评测,终于有人把这两个产品的优劣讲清楚了!_哔哩哔哩_bilibili
很多新手在初学AI编程时,可能会在工具选择上遇到很多挣扎和纠结,尤其是最近Cursor和windsurf的口碑都挺好的。
这期视频的内容应该是把Cursor和windsurf之间的差异和优劣势、适用场景解释得最清楚的一期视频了,也是我前天给几千名美团技术同学做培训时分享的主要内容之一。
很多新手在初学AI编程时,可能会在工具选择上遇到很多挣扎和纠结,尤其是最近Cursor和windsurf的口碑都挺好的。
这期视频的内容应该是把Cursor和windsurf之间的差异和优劣势、适用场景解释得最清楚的一期视频了,也是我前天给几千名美团技术同学做培训时分享的主要内容之一。
ReaderLM-v2 1.5B 的模型
专门用来将原始 HTML 格式内容转换为 Markdown 或 JSON
支持 29 种语言、512K 上下文,HTML 解析、转换和文本提取任务表现出色
太有用了这个模型,最近好多这种又小垂类任务表现很好的模型
模型下载:https://huggingface.co/jinaai/ReaderLM-v2
专门用来将原始 HTML 格式内容转换为 Markdown 或 JSON
支持 29 种语言、512K 上下文,HTML 解析、转换和文本提取任务表现出色
太有用了这个模型,最近好多这种又小垂类任务表现很好的模型
模型下载:https://huggingface.co/jinaai/ReaderLM-v2