196K subscribers
3.56K photos
542 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🔥Llama 4 Maverick занимает 2-е место став 4-й моделью, преодолевшей отметку 1400+ на Арене , уступая лишь Gemini 2.5 Pro!

- №1 в категориях Hard Prompts, Coding, Math, Creative Writing
- Огромный скачок по сравнению с Llama 3 405B: 1268 → 1417.

Maverick входит в пятерку лучших во всех категориях.

А где там у нас claude?

http://lmarena.ai/leaderboard

@ai_machinelearning_big_data

#llama #arena #leaderboard #llm #opensource
🖥 NVIDIA выложили в открытый доступ - PhysX, включая ядро симуляции, а также связанных с ним движки Flow и Blast.

Это инструменты для моделирования физики в реальном времени, позволяющий разработчикам в интерактивных приложениях и играх обеспечивать реалистичные взаимодействия объектов: от столкновений и разрушений до симуляции жидкостей и газа.

PhysX является одним из самых популярных физических движков, который задействован для обработки физических взаимодействий в почти тысяче игр и входит в состав многих игровых движков, включая Unreal Engine, Unity3D, AnvilNext, Stingray, Dunia 2 и REDengine.

Внутри:
✔️ PhysX — основные модули для симуляции твёрдых тел, столкновений, расчётов динамики и взаимодействий в игре;

✔️ Flow — инструментарий для симуляции жидкостей и газов, используемый в реальном времени;

✔️ Blast — библиотека для моделирования разрушений объектов.

Доступно более 500 готовых ядер для CUDA

Все эти компоненты применяются в пакетах NVIDIA Omniverse (платформа для совместной работы над 3D-проектами) и могут быть полезны при разработке игр или других интерактивных проектов, где нужна надёжная и гибкая система физического моделирования.

С технической точки зрения движок PhysX отлично оптимизирован под параллельные вычисления на графических процессорах (особенно GPU от NVIDIA), что делает его популярным решением для высоконагруженных симуляций. С открытым исходным кодом (BSD-лицензия) PhysX можно свободно использовать, модифицировать и встраивать в собственные проекты при соблюдении условий, перечисленных в лицензии.

🔥 Лицензирование BSD

🟡Github
🟡Документация

#NVIDIA #PhysX #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 UNO — новый подход к генерации изображений по нескольким референсам от Bytedance

Новый Flux метод, который позволяет переносить и сохранять объекты с одного или нескольких референс изображений.

UNO
способна взять несколько разных объектов или персонажей (их фотографии) и собрать их вместе на одном сгенерированном изображении – все объекты сохраняют свою индивидуальность и детали​

Популярные методы генерации в основном заточены под одного героя, но UNO ломает этот барьер, решая сразу две ключевые проблемы: масштабируемость данных и ограниченность одним субъектом​

Внутри:
🔁 В UNO внедрён специальный механизм позиционных эмбеддингов – Universal Rotary Position Embedding, или по-другому универсальное позиционное кодирование. Зачем это нужно?
Когда модель работает сразу с несколькими визуальными объектами, есть риск перепутать их свойства или положение (так называемая attribute confusion – «путаница атрибутов»). URPE решает эту проблему: оно помогает модели понимать, где какой объект находится и какие черты ему принадлежат, даже если объектов несколько​

Гибкость в разрешениях и форматах. Ещё одна крутая особенность UNO – умение генерировать изображения разного размера и соотношения сторон. Модель обучалась на данных нескольких масштабов, поэтому уверенно чувствует себя и в квадратном формате 512×512, и в нестандартных разрешениях вплоть до 704 пикселей

🔥 Высокая согласованность:
Модель отлично справляется с генерацией персонажей и объектов, сохраняя ключевые особенности сцены — без разрыва между кадрами.

✔️ Проект выложен в open-source:
– Код под Apache 2.0
– Модели под CC BY-NC 4.0
– Поддерживается только некоммерческое использование

🟡 GitHub: https://github.com/bytedance/UNO
🟡Demo: https://huggingface.co/spaces/bytedance-research/UNO-FLUX
🟡 Paper: https://arxiv.org/abs/2504.02160
🟡HF: https://huggingface.co/bytedance-research/UNO

#ByteDance #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Учёные Яндекса, НИУ ВШЭ,MIT, ISTA и KAUST разработали новый метод сжатия LLM без использования данных

Недавно был представлен HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) — data-free метод квантизации, который позволяет запускать большие языковые модели локально, за минуты, без GPU.

🔥 Особенности:
🟢Работает без обучающих данных (data-free)
🟢Квантизует даже модели масштаба DeepSeek R1 (671B) и Llama 4 Maverick (400B)
🟢Полностью open-source

📈 Результаты:
🟠Лучшее соотношение качество / размер среди всех data-free методов (NF4, HQQ и др.)
🟠Проверено на Llama 3, Qwen2.5
🟠Статья принята на NAACL 2025

Применение:
▶️Прототипирование без серверов и долгих калибровок
▶️Демократизация доступа к LLM
▶️Подходит для стартапов, исследователей, независимых лабораторий, образовательных и ограниченных сред

🛠 Установка:
pip install flute-kernel

🌟 Пример:
python 
from transformers import AutoModelForCausalLM, AutoTokenizer, HiggsConfig

model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
quantization_config=HiggsConfig(bits=4),
device_map="auto",
)


🟡Paper
🟡Hugging Face
🟡GitHub

@ai_machinelearning_big_data

#quantization #LLM #opensource #HIGGS #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🤖 Fourier Intelligence выпустила Fourier N1 — первого полностью open-source гуманоидного робота!

Fourier N1 — это компактный робот ростом 1.3 м и весом 38 кг, способный развивать скорость до 3.5 м/с.

За плечами более 1000 часов полевых испытаний.

🌟 Всё открыто: → список комплектующих (BOM)
→ CAD-чертежи и 3D-модели
→ спецификации приводов
→ управляющий код — на GitHub

⚙️ В основе робота — фирменные приводы FSA 2.0, обеспечивающие высокую устойчивость и манёвренность даже на пересечённой местности.

🔜 Github
🔜Документация (включайте автоперевод)

#ai #robots #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Sonic от Hunyuan — модель анимации портретов с озвучкой 🎶

Sonic генерирует говорящих аватаров (или даже поющих!) с выразительной мимикой и качественным липсинком.

👉 Что нового?
1️⃣ Оживляем статичные изображения на вход подается одна фотография + любое аудио → речь, пение
2️⃣ Temporal Audio Learning — использует аудио дорожку для точной синхронизации губ и естественной мимики
3️⃣ Decoupled Motion Control — управляет движением головы и выражениями лица отдельно
4️⃣ Time-aware Fusion — обеспечивает плавный переход между кадрами для непрерывного видеоряда

Модель демонстрирует очень качественный липсинк, разнообразие движений головы и мимики, натуральность и стабильность анимаций
Поддерживает генерацию длинных видео (подойдет для влогов, реклаы) в один клик
Кинематографичное качество: реалистичные позы, эмоции и сохранение идентичности референса

🔜Демо: http://demo.sonic.jixiaozhong.online/
🔜Проект: https://jixiaozhong.github.io/Sonic/
🔜 Github: https://github.com/jixiaozhong/Sonic
🔜 Статья: https://arxiv.org/pdf/2411.16331

#ml #lipsync #opensource #hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ DeepSeek выпустила в оперсорс механизмы инференса для DeepSeek-V3 и R1.

DeepSeek объявила о публикации в открытый доступ кода своего механизма инференса, построенного на vLLM. Компания будет предоставлять отдельные функции и оптимизации из своей внутренней инфраструктуры, специально разработанные для ее моделей DeepSeek-V3 и R1.
Этот шаг - часть стратегии поддержки будущих моделей с доступом к улучшениям в сообществе разработчиков с открытым исходным кодом. Кроме того, DeepSeek опубликовала дорожную карту, в которой подробно описана стратегия использования открытого кода и планы сотрудничества с существующими оперсорс-проектами для расширения экосистемы инфраструктуры ИИ.

🔜 DeepSeekAI на Github

@ai_machinelearning_big_data


#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Codex CLI

"Модели o3 и o4-mini настолько сильны в программировании, что мы решили упростить их использование и выпустить новый продукт"" — Codex CLI - написал в своем аккаунт Альтман

💻 Codex CLI — это мощный программирующий агент, который работает локально на вашем компьютере.

- Чат-ориентированная разработка: Позволяет взаимодействовать с вашим репозиторием через диалоговый интерфейс.​

- Выполнение кода: Способен запускать код, манипулировать файлами и выполнять итерации прямо в терминале.​

- Интеграция с системами контроля версий: Обеспечивает работу под управлением систем контроля версий, таких как Git.​

🌟 Полностью open source и уже доступен для скачивания!

npm install -g @openai/codex

https://github.com/openai/codex

@ai_machinelearning_big_data

#AI #OpenSource #CodexCLI #Coding #LLM #DevTools
15 бесплатных книг по Data Science (часть 1)*

1. *Veridical Data Science*
👩‍🔬 Авторы: Bin Yu & Rebecca L. Barter
Описание: Введение в науку о данных (data science): как область возникла, как она развивается и какую роль играет в современном мире.
🔗 https://vdsbook.com/

2. *Data Science: Theories, Models, Algorithms, and Analytics*
📘 Автор: Sanjiv Ranjan Das
Описание: Учебник по DS с упором на алгоритмы и аналитику.
🔗 https://srdas.github.io/Papers/DSA_Book.pdf

3. *Think Python 3E*
🐍 Автор: Allen B. Downey
Описание: Современное введение в Python с нуля.
🔗 https://greenteapress.com/wp/think-python-3rd-edition/

4. *Python Data Science Handbook*
📊 Автор: Jake VanderPlas

Описание: Практика работы с NumPy, pandas, sklearn и визуализациями.
🔗 https://jakevdp.github.io/PythonDataScienceHandbook/

5. *R for Data Science*
📈 Авторы: Hadley Wickham и др.
Описание: Современный подход к анализу данных в R.
🔗 https://r4ds.hadley.nz/

6. *Think Stats 3E*
📐 Автор: Allen B. Downey
Описание: Статистика через Python и практику.
🔗 https://allendowney.github.io/ThinkStats/

7. *Statistics and Prediction Algorithms Through Case Studies*
📙 Автор: Rafael A. Irizarry
Описание: Кейсы по статистике и прогнозированию с кодом на R.
🔗 https://rafalab.github.io/dsbook/

8. *Bayesian Methods for Hackers*
🧠 Автор: Cameron Davidson-Pilon
Описание: Визуальное введение в байесовский анализ с PyMC.
🔗 https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

9. *Think Bayes 2E*
🔢 Автор: Allen B. Downey
Описание: Пошаговый байесовский подход на Python.
🔗 https://allendowney.github.io/ThinkBayes2/

10. *Data Science at the Command Line*
💻 Автор: Jeroen Janssens
Описание: Unix-инструменты как основа для анализа данных.
🔗 https://datascienceatthecommandline.com/

🔜 Математика для Data Scientist
11. Теория вероятностей
👩‍🔬 Автор: Чернова Н. И.
Описание: Понятное введение в теорию вероятностей, основа для изучения математической статистики.
🔗 http://www.nsu.ru/mmf/tvims/chernova/tv/tv_nsu07.pdf

12. * Математическая статистика*
👩‍🔬 Автор: Чернова Н. И.
Описание: Продолжение курса по теории вероятностей (НГУ), покрывающее основы математической статистики: оценки параметров, проверка гипотез, регрессионный анализ.
🔗 http://www.nsu.ru/mmf/tvims/chernova/ms/ms_nsu07.pdf

13. * Курс дифференциального и интегрального исчисления (Том 1)*
👩‍🔬 Автор: Фихтенгольц Г. М.
Описание: Фундаментальный и классический учебник по основам математического анализа.
🔗 http://math.ru/lib/book/djvu/fichtengolz/f_1.djvu

14.*Векторные исчисления для инженеров*
👩‍🔬 Автор:Jeffrey R. Chasnov
🔗 http://math.ru/lib/book/djvu/fichtengolz/f_1.djvu

15 .*Theory—Theoretical & Mathematical Foundations ;
👩‍🔬Daniel A. Roberts, Sho Yaida, Boris Hanin
Описание: Эта книга предлагает теоретический подход к анализу глубинных нейросетей с практической значимостью
🔗https://arxiv.org/abs/2106.10165

📘 Еще больше книг здесь

Сохраняйте себе, чтобы не потерять

@ai_machinelearning_big_data

#books #opensource #freebooks
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 InstantCharacter — новый фреймворк от Hunyuan (Tencent) для стилизации любых персонажей.

Традиционные методы файн‑тюнинга моделей под конкретный образ персонажа обычно либо:
💬 деградируют качество генерации при сохранении идентичности (UNet‑подходы),
💬 либо требуют отдельного, ресурсоёмкого обучения для каждого персонажа

InstantCharacter решает обе проблемы сразу:
Высокое качество
- Построен на базе DiT-моделей, которые по качеству превосходят классические UNet‑архитектуры.

🔥 Гибкая персонализация.
Китайцы сделали адаптер с каскадными энкодерами‑трансформерами, который модулирует признаки персонажа и взаимодействует с латентным пространством DiT.

✔️ Масштабируемость
Фреймворк обучен и на огромном датасете - более 10 миллионов примеров, поделённых на парные и непарные (текст+изображение) примеры.

Трёхэтапное обучение:
🟢Предварительное обучение на низком разрешении без пар.
🟢Дообучениена парных примерах для консистентности.
🟢Финальная донастройка для текстового управления генерациями.

Результаты:
🟢на демке выдает высокое качество, персонажи плавно переходят в различыне стили и меняют позы.
🟢высокая консистентность и сохранение мелких деталей персонажа.
🟢легко управляется промптами без потери качества.

В сравнении с предыдущими подходами InstantCharacter задает высокую планку качества в задачах character-driven image generation.

🔜Попробуйте демку
🔜Project
🔜Аrxiv
🔜Github

@ai_machinelearning_big_data

#Hunyuan #Tencent #InstantCharacter
#OpenSource #AI #CharacterCustomization
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот

Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.

Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.

🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры

Что доступно:

- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота


🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики

🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат

*Clone → Print → Build → Hack!* 🤓

🔜 Проект
🔜 Код
🔜 Схемы

@ai_machinelearning_big_data


#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Qwen2.5-Omni-3B — оптимизированная, компактная Omni модель(3B), доступная для запуска на обычных потребительских GPU!

🔋 Экономия памяти: по сравнению с 7B-версией модель потребляет на 50 % меньше VRAM при обработке длинного контекста (~25 000 токенов).

📺 Мультимодальные режим: поддержка 30-секундных аудио- и видео«из коробки» на 24 GB видеокартах.

🤖 Высокое качество: модель сохраняет свыше 90 % точности ответов и обеспечивает естественный, стабильный синтез речи на уровне 7B-модели.

🔜 Репозиторий GitHub: https://github.com/QwenLM/Qwen2.5-Omni
🔜Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-3B
🔜ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-3B

#Qwen #omni #opensource

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 9 бесплатных курсов c HuggingFace по искусственному интеллекту!

➡️Узнайте, как обучать, настраивать и развертывать большие языковые модели с помощью HuggingFace Transformers.
https://huggingface.co/learn/llm-course/chapter1/1

➡️Курс по AI-агентам
Создавайте инструменты с многоэтапным мышлением, используя LangChain и HF.
https://huggingface.co/learn/agents-course/unit0/introduction

➡️ Курс по глубокому обучению с подкреплением (Deep RL)
Научите агентов принимать решения и учиться на основе окружающей среды.
https://huggingface.co/learn/deep-rl-course/unit0/introduction

➡️ Курс по компьютерному зрению
Изучите как работает OCR, сегментация и классификация изображений с моделями HuggingFace.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️ Курс по работе с аудио
Применяйте трансформеры к аудио: распознавание речи, тегирование музыки и синтез речи.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️ Курс по машинному обучению для игр
Узнайте, как ИИ меняет разработку игр: от поведения NPC до генерации контента.
https://huggingface.co/learn/ml-games-course/unit0/introduction

➡️ Курс по машинному обучению для 3D
Работайте с 3D-данными, такими как облака точек и сетки, на стыке графики и ML.
https://huggingface.co/learn/ml-for-3d-course/unit0/introduction

➡️ Курс по диффузионным моделям
Погрузитесь в технологию, лежащую в основе DALL·E и Stable Diffusion, и научитесь генерировать изображения.
https://huggingface.co/learn/diffusion-course/unit0/1

➡️ Кулинарная книга по открытому ИИ (Open-Source AI Cookbook)
Коллекция практических ноутбуков от реальных разработчиков ИИ — учитесь, копируйте код и создавайте свои проекты. https://huggingface.co/learn/cookbook/index

@ai_machinelearning_big_data

#free #courses #opensource #huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🗣️ RealtimeVoiceChat — живой голосовой чат с ИИ.

RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.

➡️ Как работает:

1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через RealtimeSTT (на базе Whisper)
4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через RealtimeTTS (Coqui XTTSv2, Kokoro и др.)
6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через turndetect.py

Особенности:


- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API

✔️ Стек:

- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker

✔️ Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.

🔥 Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.

🔜 Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat
🔜 Демо: https://www.youtube.com/watch?v=-1AD4gakCKw

@ai_machinelearning_big_data

#tts #llm #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🦙 Ollama запускает поддержку мультимодальных моделей

Платформа Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.

Уже доступны:
LLaMA 4,
Gemma 3,
Qwen 2.5 VL,
Mistral Small 3.1 и другие модели.

🔥 Что нового:
• Каждая модель теперь полностью автономна — это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее

Ранее Ollama уже поддерживала работу с изображениями через интеграцию с llama.cpp. Однако с выпуском версии 0.7 платформа представила новый движок, разработанный на базе библиотеки GGML, который обеспечивает полноценную и стабильную поддержку мультимодальных моделей.

Это означает, что теперь такие модели являются "полноправными гражданами" в экосистеме Ollama, что улучшает надежность, точность и расширяет возможности для будущих модальностей, таких как речь, генерация изображений и видео, а также поддержка более длинных контекстов и улучшенных инструментов для моделей.

✔️ Этот шаг делает Ollama одной из первых платформ, предлагающих локальную поддержку мультимодальных моделей с открытым исходным кодом.

🔜 Подробнее

@ai_machinelearning_big_data

#olama #opensource #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ VS Code трансформируется в открытый ИИ-редактор!

Команда Visual Studio Code объявила о планах трансформировать VS Code в редактор с открытым исходным кодом для работы с ИИ.

В ближайшие недели команда Visual Studio Code планирует открыть исходный код расширения GitHub Copilot Chat и перенести ИИ-функции из расширения в основное ядро VS Code.

Конкуренция - двигатели прогресса! Где-то напряглась команда Cursor 🤓

🔗 Подробности: aka.ms/open-source-ai-editor

#VSCode #OpenSource #ИИ #Разработка #Сообщество
Please open Telegram to view this post
VIEW IN TELEGRAM
Яндекс подвел итоги грантовой программы для разработчиков в опенсорсе 

В этом году компания выделила 7,2 млн рублей — всего в программе выиграли 12 проектов в трех треках: «Обработка и хранение данных», «Разработка», «Машинное обучение». Эти средства разработчики смогут направить на использование сервисов Yandex Cloud — от ML-решений до инфраструктурных инструментов.

Из интересных проектов в ML-направлении:
• Faster COCO Eval — реализация операций COCO-eval на языке C++, которая позволяет сократить время вычисления метрик AP в coco при работе с большим количеством объектов на изображении.
• VLMHyperBench — специализированный фреймворк для работы с русскоязычными документами на базе Vision Language Model (VLM).

Сейчас решения активно дорабатываются. Гранты позволят масштабировать и реализовать идеи по их улучшению. Радует, что компании поддерживают опенсорс-комьюнити. 

🔗Статья 

#VLMHyperBench #AI #VLM #OpenSource
🚀 Mistral AI представила Devstral — новый open-source LLM для автономных кодинг-агентов

Mistral AI представил Devstral — свою модель, специально разработанную для решения реальных задач в области кодинга.

Созданная в сотрудничестве с All Hands AI, Devstral демонстрирует выдающиеся результаты на бенчмарке SWE-Bench Verified, превзойдя все существующие open-source модели с результатом 46,8%.

💡Лицензирвоание: Apache 2.0 — свободное коммерческое использование.

https://huggingface.co/mistralai/Devstral-Small-2505

@ai_machinelearning_big_data

#Devstral #MistralAI #Кодинг #ИИ #OpenSource
✔️ Релиз DeepSeek R1-0528

Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст

Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_machinelearning_big_data

#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Релиз Hunyuan 3D 2.1!

Первая полностью open-source, готовая к продакшену PBR 3D генеративная модель!

PBR (Physically Based Rendering) - это технология, при которой внешний вид 3D-объектов рассчитывается с учётом реальных физических законов взаимодействия света и поверхности.

Модель выдает кинематографичное качество: синтез PBR-материалов — кожа, бронза и другие поверхности выглядят фотореалистично с красивыми эффектами освещения.

Open source: доступны веса модели, код для обучения и инференса, пайплайны — всё можно доработать под себя.

Запускается даже на потребительских GPU (Модель тестировалась на GPU A100 с Python 3.10 и PyTorch 2.5.1+cu124.) — с моделью создавать 3D-контент могут не только студии, но и любые разработчики и малые команды.

Модель: https://huggingface.co/tencent/Hunyuan3D-2.1
Github: https://github.com/Tencent-Hunyuan/Hunyuan3D-2.1
Hunyuan 3D Creation Engine: https://3d.hunyuan.tencent.com

@ai_machinelearning_big_data


#Hunyuan3D #OpenSource #3DCreation #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM