ML Research Hub – Telegram

ML Research Hub

32.8K subscribers

4.1K photos

238 videos

23 files

4.42K links

Advancing research in Machine Learning – practical insights, tools, and techniques for researchers.

Admin: @HusseinSheikho || @Hussein_Sheikho

Download Telegram

About

Blog

Apps

Platform

ML Research Hub

32.8K subscribers

ML Research Hub

🤖🧠 FIBO: The First JSON-Native, Open-Source Text-to-Image Model Built for Real-World Control and Accuracy

🗓️ 07 Nov 2025
📚 AI News & Trends

The world of generative AI has evolved rapidly with text-to-image tools enabling creators, marketers, designers and enterprises to bring ideas to life with unprecedented ease. However, most existing models have a clear limitation: they prioritize imagination at the cost of control. Whether producing inconsistent styles, unpredictable lighting or drifting away from user prompts, traditional models ...

#FIBO #TextToImage #GenerativeAI #OpenSource #JSONNative #RealWorldControl

557 views01:33

📣 BEST TELEGRAM CHANNELS

ML Research Hub

✨Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

📝 Summary:
Diffusion-SDPO improves text-to-image quality by fixing a flaw in standard DPO where preferred output error can increase. It uses a safeguarded update to adaptively scale the loser gradient, ensuring the preferred output's error never increases. This leads to consistent quality gains across bench...

🔹 Publication Date: Published on Nov 5

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2511.03317
• PDF: https://arxiv.org/pdf/2511.03317
• Github: https://github.com/AIDC-AI/Diffusion-SDPO

🔹 Models citing this paper:
• https://huggingface.co/AIDC-AI/Diffusion-SDPO

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#DiffusionModels #DPO #TextToImage #GenerativeAI #AI

200 views07:04

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Qwen-Image Technical Report

📝 Summary:
Qwen-Image is an image generation model that significantly advances complex text rendering through a comprehensive data pipeline and progressive training across languages. It also improves precise image editing via a dual-encoding mechanism and multi-task training for enhanced consistency and vis...

🔹 Publication Date: Published on Aug 4

🔹 Paper Links:
• arXiv Page: https://arxivexplained.com/papers/qwen-image-technical-report
• PDF: https://arxiv.org/pdf/2508.02324
• Github: https://github.com/QwenLM/Qwen-Image

🔹 Models citing this paper:
• https://huggingface.co/Qwen/Qwen-Image
• https://huggingface.co/Qwen/Qwen-Image-Edit
• https://huggingface.co/Qwen/Qwen-Image-Edit-2509

✨ Spaces citing this paper:
• https://huggingface.co/spaces/linoyts/Qwen-Image-Edit-Angles
• https://huggingface.co/spaces/tori29umai/Qwen-Image-2509-MultipleAngles
• https://huggingface.co/spaces/linoyts/Qwen-Image-Edit-next-scene

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#ImageGeneration #AI #DeepLearning #ComputerVision #TextToImage

Qwen-Image Technical Report - Explained Simply

By Chenfei Wu, Jiahao Li, Jingren Zhou et al.. # Qwen-Image: Breaking Through AI's Text and Image Editing Barriers

**The Problem:** Current AI ima...

240 views08:05

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

📝 Summary:
This paper introduces FIBO, a text-to-image model trained on long structured captions to enhance prompt alignment and controllability. It proposes DimFusion for efficient processing and the TaBR evaluation protocol, achieving state-of-the-art results.

🔹 Publication Date: Published on Nov 10

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2511.06876
• PDF: https://arxiv.org/pdf/2511.06876

🔹 Models citing this paper:
• https://huggingface.co/briaai/FIBO

✨ Spaces citing this paper:
• https://huggingface.co/spaces/galdavidi/FIBO-Mashup
• https://huggingface.co/spaces/briaai/FIBO
• https://huggingface.co/spaces/briaai/Fibo-local

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #GenerativeAI #DiffusionModels #AI #MachineLearning

324 views20:10

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

📝 Summary:
This paper introduces a framework to robustly evaluate diversity in text-to-image models. It uses a novel human evaluation template, curated prompts with variation factors, and systematic analysis of image embeddings to rank models and identify diversity weaknesses.

🔹 Publication Date: Published on Nov 13

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2511.10547
• PDF: https://arxiv.org/pdf/2511.10547

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#ImageGeneration #TextToImage #AIDiversity #Benchmarking #HumanEvaluation

243 views14:40

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

📝 Summary:
MoS is a novel multimodal diffusion model that uses a learnable token-wise router for flexible state-based modality interactions. This achieves state-of-the-art text-to-image generation and editing with minimal parameters and computational overhead.

🔹 Publication Date: Published on Nov 15

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2511.12207
• PDF: https://arxiv.org/pdf/2511.12207

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#GenerativeAI #MultimodalAI #DiffusionModels #TextToImage #DeepLearning

457 views12:03

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

📝 Summary:
UltraFlux overcomes diffusion transformer failures at 4K resolution and diverse aspect ratios through data-model co-design. It uses enhanced positional encoding, VAE improvements, gradient rebalancing, and aesthetic curriculum learning to achieve superior 4K text-to-image generation, outperformin...

🔹 Publication Date: Published on Nov 22

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2511.18050
• PDF: https://arxiv.org/pdf/2511.18050
• Project Page: https://github.com/W2GenAI-Lab/UltraFlux
• Github: https://github.com/W2GenAI-Lab/UltraFlux

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #GenerativeAI #4KGeneration #DiffusionModels #AIResearch

207 views04:02

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

📝 Summary:
This study challenges the understanding of Distribution Matching Distillation DMD for text-to-image generation. It reveals that CFG Augmentation is the primary driver of few-step distillation, while distribution matching acts as a regularizer. This new insight enables improved distillation method...

🔹 Publication Date: Published on Nov 27

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2511.22677
• PDF: https://arxiv.org/pdf/2511.22677
• Project Page: https://tongyi-mai.github.io/Z-Image-blog/
• Github: https://github.com/Tongyi-MAI/Z-Image/tree/main

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #GenerativeAI #DiffusionModels #ModelDistillation #AIResearch

251 views04:03

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

📝 Summary:
Multilingual text-to-image models often generate culturally neutral images. This paper identifies specific neurons for cultural information and proposes two strategies: inference-time activation and layer-targeted enhancement. These methods improve cultural consistency while preserving image qual...

🔹 Publication Date: Published on Nov 21

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2511.17282
• PDF: https://arxiv.org/pdf/2511.17282

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #CulturalAI #ResponsibleAI #DeepLearning #AIResearch

311 views12:11

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

📝 Summary:
PRIS adaptively revises prompts during text-to-visual generation inference to enhance user intent alignment. It reviews visual failures and redesigns prompts using fine-grained feedback, proving that jointly scaling prompts and visuals improves accuracy and quality.

🔹 Publication Date: Published on Dec 3

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.03534
• PDF: https://arxiv.org/pdf/2512.03534
• Project Page: https://subin-kim-cv.github.io/PRIS

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#PromptEngineering #TextToImage #GenerativeAI #DeepLearning #AIResearch

144 views08:01

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

📝 Summary:
DraCo is a novel text-to-image generation method that uses interleaved reasoning with both textual and visual content. It generates low-resolution drafts, verifies semantic alignment, and refines images to address coarse textual planning and rare attribute generation. DraCo significantly outperfo...

🔹 Publication Date: Published on Dec 4

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.05112
• PDF: https://arxiv.org/pdf/2512.05112
• Github: https://github.com/CaraJ7/DraCo

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #GenerativeAI #DeepLearning #ComputerVision #AI

164 views04:04

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

📝 Summary:
LVLM-based text-to-image models exhibit greater social bias than non-LVLM models, with system prompts identified as the key driver. The paper introduces FairPro, a training-free meta-prompting framework that significantly reduces demographic bias while maintaining text-image alignment.

🔹 Publication Date: Published on Dec 4

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.04981
• PDF: https://arxiv.org/pdf/2512.04981
• Github: https://github.com/nahyeonkaty/fairpro

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#AIBias #TextToImage #LVLMs #PromptEngineering #AIFairness

168 views08:07

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

📝 Summary:
RealGen is a photorealistic text-to-image framework addressing AI artifacts in current models. It uses an LLM for prompt optimization and a diffusion model, enhanced by a Detector Reward mechanism that quantifies artifacts and assesses realism. RealGen significantly outperforms other models, achi...

🔹 Publication Date: Published on Nov 29

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.00473
• PDF: https://arxiv.org/pdf/2512.00473
• Project Page: https://yejy53.github.io/RealGen/
• Github: https://yejy53.github.io/RealGen/

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #GenerativeAI #DiffusionModels #AIResearch #ComputerVision

326 views05:03

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

📝 Summary:
SVG-T2I enables high-quality text-to-image synthesis directly in the Visual Foundation Model feature domain. This scaled framework achieves competitive performance without a variational autoencoder, validating VFM representations for generative tasks.

🔹 Publication Date: Published on Dec 12

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.11749
• PDF: https://arxiv.org/pdf/2512.11749
• Github: https://github.com/KlingTeam/SVG-T2I

🔹 Models citing this paper:
• https://huggingface.co/KlingTeam/SVG-T2I

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #DiffusionModels #GenerativeAI #VisualFoundationModels #DeepLearning

271 views03:01

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Directional Textual Inversion for Personalized Text-to-Image Generation

📝 Summary:
Directional Textual Inversion DTI enhances text-to-image personalization by fixing learned token magnitudes and optimizing only their direction. This prevents norm inflation issues of standard Textual Inversion, improving prompt conditioning and enabling smooth interpolation. DTI offers better te...

🔹 Publication Date: Published on Dec 15

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.13672
• PDF: https://arxiv.org/pdf/2512.13672
• Project Page: https://kunheek.github.io/dti
• Github: https://github.com/kunheek/dti

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextualInversion #TextToImage #GenerativeAI #DeepLearning #AI

163 views08:04

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

📝 Summary:
This paper proposes a framework using a semantic-pixel reconstruction objective to adapt encoder features for generation. It creates a compact, semantically rich latent space, leading to state-of-the-art image reconstruction and improved text-to-image generation and editing.

🔹 Publication Date: Published on Dec 19

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.17909
• PDF: https://arxiv.org/pdf/2512.17909
• Project Page: https://jshilong.github.io/PS-VAE-PAGE/
• Github: https://jshilong.github.io/PS-VAE-PAGE/

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#TextToImage #ImageGeneration #DeepLearning #ComputerVision #AIResearch

❤1

263 views06:03

✨ Explore Data Science 📝 Write your paper

ML Research Hub

✨MineTheGap: Automatic Mining of Biases in Text-to-Image Models

📝 Summary:
MineTheGap automatically finds prompts that cause Text-to-Image models to generate biased outputs. It uses a genetic algorithm and a novel bias score to identify and rank biases, aiming to reduce redundancy and improve output diversity.

🔹 Publication Date: Published on Dec 15

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.13427
• PDF: https://arxiv.org/pdf/2512.13427

==================================

For more data science resources:
✓ https://t.me/DataScienceT

#AIbias #TextToImage #GenerativeAI #ResponsibleAI #MachineLearning

377 views13:06

✨ Explore Data Science 📝 Write your paper