AI绘画|AI视频 | AI音乐
30.3K subscribers
955 photos
84 videos
7 files
923 links
分享AI绘画、AI视频相关资源与技巧。同时也会分享图像处理与视频处理相关的资源与技巧。

商务合作联系: @KiwiCanada
Download Telegram
🆔 软件名称:PhotoResizerOK

⭐️ 软件功能:图像压缩

➡️ 支持平台:#Windows

📁 软件简介:一款功能强大的图像压缩工具,可以快速减少照片的文件大小,便于在社交平台上分享而不必上传原始文件。

可以选择不同的压缩比例,支持多种图像格式的转换,并且能够处理RAW格式的照片。

⬇️ 软件下载:点击下载

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
🎼 名称:Riffusion FUZZ 音乐生成模型

🎵 功能:使用扩散技术生成完整的三分钟以上歌曲

💡 简介:FUZZ 是 Riffusion 推出的最新音乐生成模型,利用扩散模型生成音乐谱图,并转换为音轨可供下载。尽管目前中文语言能力有待提高,但 FUZZ 的功能与 Suno V2 相当,且承诺在 GPU 资源允许的情况下保持免费。

🎶 音乐风格:支持多种音乐风格,助力创作多样化的音乐作品。

Emilybeats 探索强烈的民谣、布鲁斯和电影感的灵魂布鲁斯等,融入大提琴和福音合唱等元素。
Heymow 使用迷人的声码器效果、迷幻的非洲和声及故障音效,制作抽象的电子音乐。
Alexayers 专注于极简风格的Afropiano,以轻柔的打击乐和原声温暖打造沉思的律动。
Greyplains 引入热带和时间错置的鼓声及闪烁的琶音,丰富听觉体验。
📖 详情:访问博客获取更多信息:阅读博客
🔗 体验链接:探索 FUZZ 的更多可能,请访问 Riffusion 官网
📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🆔 项目名称:FinalRip

⭐️ 项目功能:AI视频处理

📁 项目简介:一个分布式的AI视频处理工具,基于FFmpeg和VapourSynth构建。可以将原始视频切割成多个片段,并通过并行处理的方式对每个片段进行处理,最后将所有处理后的片段合并成最终的视频。

支持在本地和分布式环境中部署,可以通过Docker快速启动服务,并使用提供的仪表板选择兼容的脚本来处理视频

🌐 项目地址:点击打开

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Ginf-r1bYAI6dAD.jpg
1 MB
🎨 名称:Lumina-Image 2.0 图像生成模型

🖼 功能:基于 20 亿参数模型生成高质量图像,支持多语言文本输入和高分辨率输出

💡 简介:Lumina-Image 2.0 是中国科技社区推出的最新图像生成模型,采用先进的 Flux VAE 技术和 16 通道系统,支持 1024 分辨率。模型开源且透明,适用于开发者与研究人员的创新需求。

🌟 核心特点:

20 亿参数模型:在计算效率与性能间取得平衡,媲美更大规模的模型。表现约等于FLUX[dev] 8B.

Apache 2.0 开源协议:支持自由修改与分发。

系统提示支持:增强模型交互的灵活性与深度。

多语言文本编码器:支持多种语言的文本输入。

高分辨率与先进技术:集成 Flux VAE 技术,支持 1024 分辨率。

📚 资源:

模型与演示:访问 Hugging Face 页面 或通过 Hugging Face Spaces 演示 免费体验模型功能。

项目与代码库:开发者可通过 GitHub仓库 获取模型权重与微调代码,参与协作与创新。

📖 博文:访问详情博文,Lumina-Image 2.0 是高效、统一且透明的图像生成工具,为 AI 与机器学习社区提供强大支持


📢 频道 ✈️ 群聊 📬 投稿 💵 商务
🆔 软件名称:字玩

⭐️ 软件功能:字体设计

➡️ 支持平台:#Windows #macOS

📁 软件简介:一款开源的生成个人字库或图标字库的工具。可以利用钢笔工具等图形编辑工具绘制字形,并将其导出为OTF字体文件。

支持从图片中导入字形,提供自定义字形组件功能,并包含可编程脚本模块,支持为字符或字形添加JavaScript脚本以控制组件的绘制。

⬇️ 软件下载:点击下载

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
🎨 名称:Qwen2.5-Max 图像生成模型

🖼 功能:基于 100 亿参数的高性能图像生成模型,支持多语言文本输入和超高分辨率输出(最高支持 4K 分辨率)

💡 简介:Qwen2.5-Max 是阿里巴巴通义实验室推出的最新一代图像生成模型,融合了先进的扩散模型架构与高效优化技术。模型采用全新的多通道编码系统和增强型 VAE 技术,在细节表现和生成质量上达到了行业领先水平。Qwen2.5-Max 开源且透明,支持中文提示词生成图像,适用于开发者、艺术家和研究人员的多样化需求,并提供免费限额使用服务。

📚 资源:
免费体验: 访问 Qwen Chat官方页面 免费体验,更多模型信息请访问 Hugging Face模型页面

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a woman wearing a red dress with floral embroidery, standing in front of a wooden door with glass panels, wearing a red flower in her hair, holding a red lantern in her left hand, snow falling around her, smiling, red lips, elegant pose, slender physique, medium close-up, high quality, indoor setting, traditional chinese clothing, festive atmosphere, warm lighting, red lanterns hanging in the background, medium shot, jpeg artifacts
Model 🖼: flux pro
🆔 网站名称:33字幕图

网站功能:字幕拼图

📁 网站简介:一款免费的台词字幕拼图制作工具。可以通过简单的步骤,搜索并选择自己喜欢的台词,然后生成与本地图片相结合的拼图。

🔗 网站网址:点击打开

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🎯 名称:SVFR 视频人脸修复框架

🖼 功能:

支持视频人脸模糊修复/黑白上色/区域补全

多任务联合处理(可同时执行3种修复)

4K级输出 & 实时处理(A100显卡12FPS)

亮点:

首创时域一致性模块,修复效果更自然

开源可商用(MIT协议)

自带人脸裁剪预处理功能

🚀 资源:
在线体验:Hugging Face Demo
代码仓库:GitHub项目页
📖 博客:点击访问博文详情

💡 简介:
阿里达摩院最新开源视频修复框架,整合扩散模型与动态对齐技术,提供一站式视频人脸增强方案。支持中低端设备运行,开源社区已提供预训练模型下载,开发者可免费商用

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young Asian woman with pale skin and black hair styled in a bun with a silver flower accessory. She is wearing a shiny, metallic silver dress with a pink, flowing, cloud-like skirt. The background is dark and abstract, with splashes of white and pink. The woman has a serene expression, with her eyes closed and her head tilted back. She is wearing delicate, dangling earrings. The lighting is soft and diffused, creating a dreamy atmosphere. The photo is high quality and has a fashion editorial feel.

Model 🖼: flux pro

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 名称: GOT-OCR 2.0 - 统一的端到端OCR框架

🖼 功能:
- 支持纯文本、格式化文本、细粒度、多裁剪和多页OCR
- 识别非文本数据:图表、表格、数学公式、乐谱和几何图形
- 实现了0.972的BLEU文本识别得分

亮点:
- 统一模型处理多样的OCR任务(文本、公式、音乐等)
- 体积紧凑(1.43GB)且表现达到业界顶尖水平
- 支持动态分辨率和交互式OCR功能

🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]

💡 描述:
GOT-OCR 2.0是一个前沿的OCR框架,旨在处理从传统文本到复杂非文本数据的广泛识别任务。凭借其统一的架构和先进的功能,该框架提供了杰出的准确性和效率,是开发者和研究人员的多功能工具。该模型是开源的,并经过优化以便于实际部署。


📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young asia woman with long dark hair, wearing a beige halter top and matching skirt, sitting on a white object, bright daylight, green grass, trees in the background, blue sky, relaxed expression, medium close-up, slender physique, fair skin, makeup, gold bracelets, natural lighting, outdoor setting, casual pose, medium breasts, white background, high quality, watermark, long fingernails, looking at the camera, medium shot, high resolution

Model 🖼: flux pro

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 名称: DeepSeek VL2 Small - OCR与多模态文本提取的官方Demo

🖼 功能:

支持光学字符识别(OCR),将图像中的文本转换为可编辑文本

提供高效的文本提取能力,适用于PDF、网页等多种格式

支持聊天场景,可用于智能客服、虚拟助手等应用

处理多语言文本,适应全球化多语言需求

亮点:

高精度OCR技术,能够准确识别复杂场景中的文本

强大的文本提取能力,支持多种文档格式

自然语言理解与生成能力,提升聊天交互体验

轻量化设计,适合快速部署和集成

🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]

💡 描述:
DeepSeek VL2 Small是一款前沿的AI模型,专注于光学字符识别(OCR)和文本提取任务。通过其高效的OCR技术,能够将图像中的文本快速转换为可编辑格式,并支持从PDF、网页等多种来源提取文本。此外,其强大的自然语言处理能力使其在聊天场景中表现出色,适用于智能客服、虚拟助手等应用。无论是企业自动化、教育还是医疗领域,DeepSeek VL2 Small都能显著提升文本处理的效率和准确性,是一款值得尝试的多功能工具。

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 名称: BEN2 - 高精度图像与视频背景移除工具

🖼 功能:
- 支持图像和视频背景移除,处理头发丝等复杂细节
- 提供4K高清图像处理能力
- 支持批量图像处理和视频帧分割
- 提供透明背景(Alpha通道)输出

亮点:
- 采用创新的**Confidence Guided Matting (CGM)**技术,提升边缘处理精度
- 在头发丝、透明物体等复杂场景下表现优异
- 支持动态分辨率处理,适应多种输入格式
- 提供开源基础模型,便于开发者使用和扩展

🚀 资源:
📖 博客:点击访问博文详情
免费体验:[Hugging Face Space]
代码仓库:[GitHub]
模型下载:[Hugging Face 模型]

💡 描述:
BEN2是一款先进的AI工具,专注于高精度的图像和视频背景移除。通过其创新的CGM技术,BEN2能够处理复杂的边缘细节(如头发丝和透明物体),并支持4K高清分辨率。无论是开发者还是企业用户,BEN2都提供了强大的功能和灵活的集成选项,适用于电商、视频制作、医疗影像等多种场景。基础模型开源,商业模型提供更高级的功能和支持。

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: A vibrant digital illustration of a fantasy scene featuring a young woman with long, flowing pastel pink hair and pointed ears, standing in front of a stained glass window. She has a mischievous smile and is holding a gray cat. She wears an off-shoulder white lace top and high-waisted denim shorts. Her outfit is accessorized with a pink and white striped tail. The background is filled with colorful, glowing stained glass and surrounded by orange pumpkins. The art style is detailed and colorful, with a whimsical and playful atmosphere.

Model 🖼: flux pro

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 名称: STAR - 基于文本到视频模型的真实世界视频超分辨率工具

🖼 功能:

通过文本到视频(T2V)扩散模型提升视频分辨率

解决真实世界视频退化问题(噪声、模糊、压缩伪影)

增强局部细节并保持时间一致性

支持动态频率优化,平衡结构与细节

亮点:

首创整合T2V扩散先验:首次将文本到视频模型应用于真实世界视频超分辨率

局部信息增强模块(LIEM):在全局注意力前增强细节,减少退化影响

动态频率损失(DF Loss):自适应优化不同频率成分(低频保结构,高频提细节)

在合成与真实数据集上均超越现有SOTA方法

🚀 资源:
📖 博客:点击访问技术解析
免费体验:[Hugging Face Space]
代码仓库:[GitHub]

💡 描述:
STAR是视频超分辨率领域的革命性工具,通过创新的时空增强技术解决真实世界视频的退化问题。其核心结合了文本到视频(T2V)模型的生成能力与定制化优化模块:局部信息增强模块(LIEM)显著减少伪影,动态频率损失(DF Loss)提升重建保真度。在合成数据集(UDM10、REDS30)和真实场景(VideoLQ)中,STAR均展现出卓越的细节还原能力和时间一致性,适用于影视修复、监控增强、流媒体优化等场景。开源代码与在线演示助力开发者快速集成,推动视频处理技术迈向新高度。

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: A Young Asian Woman, with hair billowing behind her, is captured candidly with a fisheye lens, taking a selfie with a monstrous kaiju towering over a city, using an Instagram Aesthetic and Kodak Ektar 100 film stock.

Model 🖼: flux pro

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 名称: Agentic Object Detection - 零标注智能目标检测模型

🖼 功能:

无需数据标注与模型训练,直接通过自然语言指令检测目标

支持自定义语义描述(如“识别未成熟的草莓”)

输出高精度目标定位与标签结果

兼容复杂场景下的多对象识别

亮点:

革命性无监督范式:彻底摆脱传统模型对标注数据的依赖

类人推理能力:准确率对标OpenAI O1、DeepSeek R1等顶尖模型

语义驱动检测:通过自然语言指令动态调整检测目标

质量优先设计:单次检测20-30秒,专注输出高置信度结果

🚀 资源:
免费体验:[在线演示]
博文详情:[点击打开博文]

💡 描述:
由吴恩达团队打造的Agentic Object Detection,重新定义目标检测技术边界。该模型通过智能体推理能力,仅凭自然语言指令即可实现精准目标识别,无需任何数据标注与预训练流程。在农业质检、工业检测、医疗影像等复杂场景中展现出超越传统方法的准确率,尤其擅长处理模糊目标、新型对象等挑战性任务。当前版本以质量为核心,持续优化响应速度,为行业提供零标注时代的AI检测新范式。

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young asia woman in a snowy landscape, wearing a white fur coat, intricate silver headpiece, and long earrings, looking up with a serene expression, dark hair styled in an updo, pale skin, red lips, soft makeup, misty mountains in the background, high quality, jpeg artifacts, snow-covered trees, overcast sky, elegant and regal atmosphere, traditional Asian fashion, delicate and detailed accessories, soft and fluffy textures, serene and peaceful mood, ethereal and dreamy feel, high angle view, medium close-up, upper body, hand holding the fur coat, dark eyes, thin eyebrows, soft lighting

Model 🖼: flux pro

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
🆔 网站名称:Colorify Rocks

网站功能:AI 色彩调色板

📁 网站简介:一个基于人工智能的色彩调色板生成器,可以通过输入关键词、主题或名称,快速生成和谐的色彩组合。

只需输入描述性关键词,点击生成按钮,即可获得多种色彩组合,并可以保存或导出色彩代码。

🔗 网站网址:点击打开

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt ✏️: Photo of a young asia woman with long hair, wearing a black leather and black leather gloves, sitting on a large dragon with red and black scales. The dragon has a fierce expression with sharp teeth and glowing eyes. The woman has a confident and determined expression, looking off to the side. The background is a dark, stormy sky with rain falling. The image has a fantasy and adventure theme. High quality, detailed, realistic, dynamic lighting, dramatic, action-packed, jpeg artifacts

Model 🖼: flux pro

📢 频道 ✈️ 群聊 📬 投稿 💵 商务
Please open Telegram to view this post
VIEW IN TELEGRAM