Please open Telegram to view this post
VIEW IN TELEGRAM
🎼 名称:Riffusion FUZZ 音乐生成模型
🎵 功能:使用扩散技术生成完整的三分钟以上歌曲
💡 简介:FUZZ 是 Riffusion 推出的最新音乐生成模型,利用扩散模型生成音乐谱图,并转换为音轨可供下载。尽管目前中文语言能力有待提高,但 FUZZ 的功能与 Suno V2 相当,且承诺在 GPU 资源允许的情况下保持免费。
🎶 音乐风格:支持多种音乐风格,助力创作多样化的音乐作品。
Emilybeats 探索强烈的民谣、布鲁斯和电影感的灵魂布鲁斯等,融入大提琴和福音合唱等元素。
Heymow 使用迷人的声码器效果、迷幻的非洲和声及故障音效,制作抽象的电子音乐。
Alexayers 专注于极简风格的Afropiano,以轻柔的打击乐和原声温暖打造沉思的律动。
Greyplains 引入热带和时间错置的鼓声及闪烁的琶音,丰富听觉体验。
📖 详情:访问博客获取更多信息:阅读博客
🔗 体验链接:探索 FUZZ 的更多可能,请访问 Riffusion 官网
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🎵 功能:使用扩散技术生成完整的三分钟以上歌曲
💡 简介:FUZZ 是 Riffusion 推出的最新音乐生成模型,利用扩散模型生成音乐谱图,并转换为音轨可供下载。尽管目前中文语言能力有待提高,但 FUZZ 的功能与 Suno V2 相当,且承诺在 GPU 资源允许的情况下保持免费。
🎶 音乐风格:支持多种音乐风格,助力创作多样化的音乐作品。
Emilybeats 探索强烈的民谣、布鲁斯和电影感的灵魂布鲁斯等,融入大提琴和福音合唱等元素。
Heymow 使用迷人的声码器效果、迷幻的非洲和声及故障音效,制作抽象的电子音乐。
Alexayers 专注于极简风格的Afropiano,以轻柔的打击乐和原声温暖打造沉思的律动。
Greyplains 引入热带和时间错置的鼓声及闪烁的琶音,丰富听觉体验。
📖 详情:访问博客获取更多信息:阅读博客
🔗 体验链接:探索 FUZZ 的更多可能,请访问 Riffusion 官网
Please open Telegram to view this post
VIEW IN TELEGRAM
Agientry
Riffusion Launches FUZZ: A Free Music Generation Model Using Diffusion Technology | AGIEntry News
Riffusion introduces FUZZ, a cutting-edge music generation model based on diffusion technology, providing users with free access to generate complete songs over three minutes long. The tool allows downloading audio tracks such as bass, drums, vocals, and…
Please open Telegram to view this post
VIEW IN TELEGRAM
Ginf-r1bYAI6dAD.jpg
1 MB
🎨 名称:Lumina-Image 2.0 图像生成模型
🖼 功能:基于 20 亿参数模型生成高质量图像,支持多语言文本输入和高分辨率输出
💡 简介:Lumina-Image 2.0 是中国科技社区推出的最新图像生成模型,采用先进的 Flux VAE 技术和 16 通道系统,支持 1024 分辨率。模型开源且透明,适用于开发者与研究人员的创新需求。
🌟 核心特点:
20 亿参数模型:在计算效率与性能间取得平衡,媲美更大规模的模型。表现约等于FLUX[dev] 8B.
Apache 2.0 开源协议:支持自由修改与分发。
系统提示支持:增强模型交互的灵活性与深度。
多语言文本编码器:支持多种语言的文本输入。
高分辨率与先进技术:集成 Flux VAE 技术,支持 1024 分辨率。
📚 资源:
模型与演示:访问 Hugging Face 页面 或通过 Hugging Face Spaces 演示 免费体验模型功能。
项目与代码库:开发者可通过 GitHub仓库 获取模型权重与微调代码,参与协作与创新。
📖 博文:访问详情博文,Lumina-Image 2.0 是高效、统一且透明的图像生成工具,为 AI 与机器学习社区提供强大支持
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🖼 功能:基于 20 亿参数模型生成高质量图像,支持多语言文本输入和高分辨率输出
💡 简介:Lumina-Image 2.0 是中国科技社区推出的最新图像生成模型,采用先进的 Flux VAE 技术和 16 通道系统,支持 1024 分辨率。模型开源且透明,适用于开发者与研究人员的创新需求。
🌟 核心特点:
20 亿参数模型:在计算效率与性能间取得平衡,媲美更大规模的模型。表现约等于FLUX[dev] 8B.
Apache 2.0 开源协议:支持自由修改与分发。
系统提示支持:增强模型交互的灵活性与深度。
多语言文本编码器:支持多种语言的文本输入。
高分辨率与先进技术:集成 Flux VAE 技术,支持 1024 分辨率。
📚 资源:
模型与演示:访问 Hugging Face 页面 或通过 Hugging Face Spaces 演示 免费体验模型功能。
项目与代码库:开发者可通过 GitHub仓库 获取模型权重与微调代码,参与协作与创新。
📖 博文:访问详情博文,Lumina-Image 2.0 是高效、统一且透明的图像生成工具,为 AI 与机器学习社区提供强大支持
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
🎨 名称:Qwen2.5-Max 图像生成模型
🖼 功能:基于 100 亿参数的高性能图像生成模型,支持多语言文本输入和超高分辨率输出(最高支持 4K 分辨率)
💡 简介:Qwen2.5-Max 是阿里巴巴通义实验室推出的最新一代图像生成模型,融合了先进的扩散模型架构与高效优化技术。模型采用全新的多通道编码系统和增强型 VAE 技术,在细节表现和生成质量上达到了行业领先水平。Qwen2.5-Max 开源且透明,支持中文提示词生成图像,适用于开发者、艺术家和研究人员的多样化需求,并提供免费限额使用服务。
📚 资源:
免费体验: 访问 Qwen Chat官方页面 免费体验,更多模型信息请访问 Hugging Face模型页面。
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🖼 功能:基于 100 亿参数的高性能图像生成模型,支持多语言文本输入和超高分辨率输出(最高支持 4K 分辨率)
💡 简介:Qwen2.5-Max 是阿里巴巴通义实验室推出的最新一代图像生成模型,融合了先进的扩散模型架构与高效优化技术。模型采用全新的多通道编码系统和增强型 VAE 技术,在细节表现和生成质量上达到了行业领先水平。Qwen2.5-Max 开源且透明,支持中文提示词生成图像,适用于开发者、艺术家和研究人员的多样化需求,并提供免费限额使用服务。
📚 资源:
免费体验: 访问 Qwen Chat官方页面 免费体验,更多模型信息请访问 Hugging Face模型页面。
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a woman wearing a red dress with floral embroidery, standing in front of a wooden door with glass panels, wearing a red flower in her hair, holding a red lantern in her left hand, snow falling around her, smiling, red lips, elegant pose, slender physique, medium close-up, high quality, indoor setting, traditional chinese clothing, festive atmosphere, warm lighting, red lanterns hanging in the background, medium shot, jpeg artifacts
Model 🖼: flux pro
Model 🖼: flux pro
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young Asian woman with pale skin and black hair styled in a bun with a silver flower accessory. She is wearing a shiny, metallic silver dress with a pink, flowing, cloud-like skirt. The background is dark and abstract, with splashes of white and pink. The woman has a serene expression, with her eyes closed and her head tilted back. She is wearing delicate, dangling earrings. The lighting is soft and diffused, creating a dreamy atmosphere. The photo is high quality and has a fashion editorial feel.
Model 🖼: flux pro
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Model 🖼: flux pro
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 名称: GOT-OCR 2.0 - 统一的端到端OCR框架
🖼 功能:
- 支持纯文本、格式化文本、细粒度、多裁剪和多页OCR
- 识别非文本数据:图表、表格、数学公式、乐谱和几何图形
- 实现了0.972的BLEU文本识别得分
✨ 亮点:
- 统一模型处理多样的OCR任务(文本、公式、音乐等)
- 体积紧凑(1.43GB)且表现达到业界顶尖水平
- 支持动态分辨率和交互式OCR功能
🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]
💡 描述:
GOT-OCR 2.0是一个前沿的OCR框架,旨在处理从传统文本到复杂非文本数据的广泛识别任务。凭借其统一的架构和先进的功能,该框架提供了杰出的准确性和效率,是开发者和研究人员的多功能工具。该模型是开源的,并经过优化以便于实际部署。
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🖼 功能:
- 支持纯文本、格式化文本、细粒度、多裁剪和多页OCR
- 识别非文本数据:图表、表格、数学公式、乐谱和几何图形
- 实现了0.972的BLEU文本识别得分
✨ 亮点:
- 统一模型处理多样的OCR任务(文本、公式、音乐等)
- 体积紧凑(1.43GB)且表现达到业界顶尖水平
- 支持动态分辨率和交互式OCR功能
🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]
💡 描述:
GOT-OCR 2.0是一个前沿的OCR框架,旨在处理从传统文本到复杂非文本数据的广泛识别任务。凭借其统一的架构和先进的功能,该框架提供了杰出的准确性和效率,是开发者和研究人员的多功能工具。该模型是开源的,并经过优化以便于实际部署。
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young asia woman with long dark hair, wearing a beige halter top and matching skirt, sitting on a white object, bright daylight, green grass, trees in the background, blue sky, relaxed expression, medium close-up, slender physique, fair skin, makeup, gold bracelets, natural lighting, outdoor setting, casual pose, medium breasts, white background, high quality, watermark, long fingernails, looking at the camera, medium shot, high resolution
Model 🖼: flux pro
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Model 🖼: flux pro
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 名称: DeepSeek VL2 Small - OCR与多模态文本提取的官方Demo
🖼 功能:
支持光学字符识别(OCR),将图像中的文本转换为可编辑文本
提供高效的文本提取能力,适用于PDF、网页等多种格式
支持聊天场景,可用于智能客服、虚拟助手等应用
处理多语言文本,适应全球化多语言需求
✨ 亮点:
高精度OCR技术,能够准确识别复杂场景中的文本
强大的文本提取能力,支持多种文档格式
自然语言理解与生成能力,提升聊天交互体验
轻量化设计,适合快速部署和集成
🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]
💡 描述:
DeepSeek VL2 Small是一款前沿的AI模型,专注于光学字符识别(OCR)和文本提取任务。通过其高效的OCR技术,能够将图像中的文本快速转换为可编辑格式,并支持从PDF、网页等多种来源提取文本。此外,其强大的自然语言处理能力使其在聊天场景中表现出色,适用于智能客服、虚拟助手等应用。无论是企业自动化、教育还是医疗领域,DeepSeek VL2 Small都能显著提升文本处理的效率和准确性,是一款值得尝试的多功能工具。
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🖼 功能:
支持光学字符识别(OCR),将图像中的文本转换为可编辑文本
提供高效的文本提取能力,适用于PDF、网页等多种格式
支持聊天场景,可用于智能客服、虚拟助手等应用
处理多语言文本,适应全球化多语言需求
✨ 亮点:
高精度OCR技术,能够准确识别复杂场景中的文本
强大的文本提取能力,支持多种文档格式
自然语言理解与生成能力,提升聊天交互体验
轻量化设计,适合快速部署和集成
🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]
💡 描述:
DeepSeek VL2 Small是一款前沿的AI模型,专注于光学字符识别(OCR)和文本提取任务。通过其高效的OCR技术,能够将图像中的文本快速转换为可编辑格式,并支持从PDF、网页等多种来源提取文本。此外,其强大的自然语言处理能力使其在聊天场景中表现出色,适用于智能客服、虚拟助手等应用。无论是企业自动化、教育还是医疗领域,DeepSeek VL2 Small都能显著提升文本处理的效率和准确性,是一款值得尝试的多功能工具。
Please open Telegram to view this post
VIEW IN TELEGRAM
Agientry
DeepSeek VL2 Small: A Game-Changer in OCR and Text Extraction | AGIEntry News
DeepSeek has recently released an official demo for its latest model, DeepSeek VL2 Small. This model is making waves in the AI community for its remarkable capabilities in Optical Character Recognition (OCR), text extraction, and chat-based use cases. In…
🎯 名称: BEN2 - 高精度图像与视频背景移除工具
🖼 功能:
- 支持图像和视频背景移除,处理头发丝等复杂细节
- 提供4K高清图像处理能力
- 支持批量图像处理和视频帧分割
- 提供透明背景(Alpha通道)输出
✨ 亮点:
- 采用创新的**Confidence Guided Matting (CGM)**技术,提升边缘处理精度
- 在头发丝、透明物体等复杂场景下表现优异
- 支持动态分辨率处理,适应多种输入格式
- 提供开源基础模型,便于开发者使用和扩展
🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]
💡 描述:
BEN2是一款先进的AI工具,专注于高精度的图像和视频背景移除。通过其创新的CGM技术,BEN2能够处理复杂的边缘细节(如头发丝和透明物体),并支持4K高清分辨率。无论是开发者还是企业用户,BEN2都提供了强大的功能和灵活的集成选项,适用于电商、视频制作、医疗影像等多种场景。基础模型开源,商业模型提供更高级的功能和支持。
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🖼 功能:
- 支持图像和视频背景移除,处理头发丝等复杂细节
- 提供4K高清图像处理能力
- 支持批量图像处理和视频帧分割
- 提供透明背景(Alpha通道)输出
✨ 亮点:
- 采用创新的**Confidence Guided Matting (CGM)**技术,提升边缘处理精度
- 在头发丝、透明物体等复杂场景下表现优异
- 支持动态分辨率处理,适应多种输入格式
- 提供开源基础模型,便于开发者使用和扩展
🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]
💡 描述:
BEN2是一款先进的AI工具,专注于高精度的图像和视频背景移除。通过其创新的CGM技术,BEN2能够处理复杂的边缘细节(如头发丝和透明物体),并支持4K高清分辨率。无论是开发者还是企业用户,BEN2都提供了强大的功能和灵活的集成选项,适用于电商、视频制作、医疗影像等多种场景。基础模型开源,商业模型提供更高级的功能和支持。
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: A vibrant digital illustration of a fantasy scene featuring a young woman with long, flowing pastel pink hair and pointed ears, standing in front of a stained glass window. She has a mischievous smile and is holding a gray cat. She wears an off-shoulder white lace top and high-waisted denim shorts. Her outfit is accessorized with a pink and white striped tail. The background is filled with colorful, glowing stained glass and surrounded by orange pumpkins. The art style is detailed and colorful, with a whimsical and playful atmosphere.
Model 🖼: flux pro
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Model 🖼: flux pro
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 名称: STAR - 基于文本到视频模型的真实世界视频超分辨率工具
🖼 功能:
通过文本到视频(T2V)扩散模型提升视频分辨率
解决真实世界视频退化问题(噪声、模糊、压缩伪影)
增强局部细节并保持时间一致性
支持动态频率优化,平衡结构与细节
✨ 亮点:
首创整合T2V扩散先验:首次将文本到视频模型应用于真实世界视频超分辨率
局部信息增强模块(LIEM):在全局注意力前增强细节,减少退化影响
动态频率损失(DF Loss):自适应优化不同频率成分(低频保结构,高频提细节)
在合成与真实数据集上均超越现有SOTA方法
🚀 资源:
📖 博客:点击访问技术解析
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
💡 描述:
STAR是视频超分辨率领域的革命性工具,通过创新的时空增强技术解决真实世界视频的退化问题。其核心结合了文本到视频(T2V)模型的生成能力与定制化优化模块:局部信息增强模块(LIEM)显著减少伪影,动态频率损失(DF Loss)提升重建保真度。在合成数据集(UDM10、REDS30)和真实场景(VideoLQ)中,STAR均展现出卓越的细节还原能力和时间一致性,适用于影视修复、监控增强、流媒体优化等场景。开源代码与在线演示助力开发者快速集成,推动视频处理技术迈向新高度。
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🖼 功能:
通过文本到视频(T2V)扩散模型提升视频分辨率
解决真实世界视频退化问题(噪声、模糊、压缩伪影)
增强局部细节并保持时间一致性
支持动态频率优化,平衡结构与细节
✨ 亮点:
首创整合T2V扩散先验:首次将文本到视频模型应用于真实世界视频超分辨率
局部信息增强模块(LIEM):在全局注意力前增强细节,减少退化影响
动态频率损失(DF Loss):自适应优化不同频率成分(低频保结构,高频提细节)
在合成与真实数据集上均超越现有SOTA方法
🚀 资源:
📖 博客:点击访问技术解析
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
💡 描述:
STAR是视频超分辨率领域的革命性工具,通过创新的时空增强技术解决真实世界视频的退化问题。其核心结合了文本到视频(T2V)模型的生成能力与定制化优化模块:局部信息增强模块(LIEM)显著减少伪影,动态频率损失(DF Loss)提升重建保真度。在合成数据集(UDM10、REDS30)和真实场景(VideoLQ)中,STAR均展现出卓越的细节还原能力和时间一致性,适用于影视修复、监控增强、流媒体优化等场景。开源代码与在线演示助力开发者快速集成,推动视频处理技术迈向新高度。
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 名称: Agentic Object Detection - 零标注智能目标检测模型
🖼 功能:
无需数据标注与模型训练,直接通过自然语言指令检测目标
支持自定义语义描述(如“识别未成熟的草莓”)
输出高精度目标定位与标签结果
兼容复杂场景下的多对象识别
✨ 亮点:
革命性无监督范式:彻底摆脱传统模型对标注数据的依赖
类人推理能力:准确率对标OpenAI O1、DeepSeek R1等顶尖模型
语义驱动检测:通过自然语言指令动态调整检测目标
质量优先设计:单次检测20-30秒,专注输出高置信度结果
🚀 资源:
免费体验:[在线演示]
博文详情:[点击打开博文]
💡 描述:
由吴恩达团队打造的Agentic Object Detection,重新定义目标检测技术边界。该模型通过智能体推理能力,仅凭自然语言指令即可实现精准目标识别,无需任何数据标注与预训练流程。在农业质检、工业检测、医疗影像等复杂场景中展现出超越传统方法的准确率,尤其擅长处理模糊目标、新型对象等挑战性任务。当前版本以质量为核心,持续优化响应速度,为行业提供零标注时代的AI检测新范式。
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🖼 功能:
无需数据标注与模型训练,直接通过自然语言指令检测目标
支持自定义语义描述(如“识别未成熟的草莓”)
输出高精度目标定位与标签结果
兼容复杂场景下的多对象识别
✨ 亮点:
革命性无监督范式:彻底摆脱传统模型对标注数据的依赖
类人推理能力:准确率对标OpenAI O1、DeepSeek R1等顶尖模型
语义驱动检测:通过自然语言指令动态调整检测目标
质量优先设计:单次检测20-30秒,专注输出高置信度结果
🚀 资源:
免费体验:[在线演示]
博文详情:[点击打开博文]
💡 描述:
由吴恩达团队打造的Agentic Object Detection,重新定义目标检测技术边界。该模型通过智能体推理能力,仅凭自然语言指令即可实现精准目标识别,无需任何数据标注与预训练流程。在农业质检、工业检测、医疗影像等复杂场景中展现出超越传统方法的准确率,尤其擅长处理模糊目标、新型对象等挑战性任务。当前版本以质量为核心,持续优化响应速度,为行业提供零标注时代的AI检测新范式。
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young asia woman in a snowy landscape, wearing a white fur coat, intricate silver headpiece, and long earrings, looking up with a serene expression, dark hair styled in an updo, pale skin, red lips, soft makeup, misty mountains in the background, high quality, jpeg artifacts, snow-covered trees, overcast sky, elegant and regal atmosphere, traditional Asian fashion, delicate and detailed accessories, soft and fluffy textures, serene and peaceful mood, ethereal and dreamy feel, high angle view, medium close-up, upper body, hand holding the fur coat, dark eyes, thin eyebrows, soft lighting
Model 🖼: flux pro
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Model 🖼: flux pro
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young asia woman with long hair, wearing a black leather and black leather gloves, sitting on a large dragon with red and black scales. The dragon has a fierce expression with sharp teeth and glowing eyes. The woman has a confident and determined expression, looking off to the side. The background is a dark, stormy sky with rain falling. The image has a fantasy and adventure theme. High quality, detailed, realistic, dynamic lighting, dramatic, action-packed, jpeg artifacts
Model 🖼: flux pro
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Model 🖼: flux pro
Please open Telegram to view this post
VIEW IN TELEGRAM