258K subscribers
3.94K photos
674 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 Hunyuan3D World Model 1.0 — первая в индустрии open-source модель для генерации интерактивных 3D‑миров

Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.

🧠 Что умеет:
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров

Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.

Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.

📌 Полностью открытая модель:
🟢 Проект: https://3d-models.hunyuan.tencent.com/world
🟢 Онлайн-демо: https://3d.hunyuan.tencent.com/sceneTo3D
🟢 GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
🟢 Hugging Face: https://huggingface.co/tencent/HunyuanWorld-1

@ai_machinelearning_big_data

#3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🔥2625👏7🥰4😁2👨‍💻2
📌 ИИ, который сам создает ИИ: ASI-ARCH нашел 106 новых SOTA-архитектур.

ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.

Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.

🟡Весь процесс разделен на 2 этапа: поиск гипотез и их проверка.

На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.

Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.

Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.

Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.

Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.

🟡 Анализ предпочтений системы показал интересные закономерности.

ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.

Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.

🟡Результаты.

Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.

Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).

И так практически во всем, улучшения наблюдаются по всему спектру задач.

🟡И самое интересное — откуда система черпает идеи? Источников всего 3:

🟢Cognition - знания, извлеченные из научной литературы;
🟢Analysis - выводы, сделанные на основе собственных прошлых экспериментов;
🟢Originality - абсолютно новые идеи.

Для всех 1773 сгенерированных архитектур распределение источников было таким:

🟠51.7% идей приходило из человеческой литературы;
🟠38.2% - из собственного анализа;
🟠10.1% были оригинальными.

Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.

Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11743👍24🥰3👨‍💻3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения!

Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?

Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.

Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.

Проект демонстрирует, как можно использовать синтетические датасеты для:

🟠 Предсказания глубины изображения (Depth Prediction)
🟠 Оценки поверхностей (Normal Estimation)
🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation)

Почему это круто:
🟢 Синтетические данные = пиксельная точность разметки
🟢 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз
🟢 Прекрасно масштабируются для обучения моделей с нуля или дообучения

Самое приятное, что Microsoft выложили всё в опенсорс:
✔️ 300 000 сэмплов
✔️ Предобученные модели
✔️ Исходный код фреймворка

🟢Проект: https://microsoft.github.io/DAViD/
🟢Статья: https://arxiv.org/abs/2507.15365
🟢Github: https://github.com/microsoft/DAViD

@ai_machinelearning_big_data

Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных.

#cv #microsoft #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
1171👍53🔥23❤‍🔥3🤩1🥱1👨‍💻1
🖥 Как выжать максимум из маленькой LLM? Ответ — долго и грамотно учить.

NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели.

📈 Результат после месяцев обучения:
+55% к логическим задачам
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам

🛠 Как они это сделали:

– Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию
– Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат
– Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков:

🟢 Decoupled clipping — обычно модель "обрезает" редкие и неожиданные токены, чтобы не уходить слишком в сторону от главного. Но здесь этот механизм ослаблен: модель может чаще выбирать нестандартные слова, что помогает ей находить неожиданные, но правильные решения.

🟢 Dynamic sampling — модель *не тратит время* на лишком лёгкие задачи. Она пропускает такие примеры и фокусируется на тех, где действительно можно чему-то научиться.

🟢 Маленький KL-штраф (0.0001) — KL показывает, насколько поведение модели отклоняется от старой версии (эталона). Здесь штраф почти нулевой, чтобы не мешать экспериментам, но всё ещё предотвращать полное "сумасшествие" модели.

🟢 Сброс каждые 400 шагов — модель регулярно сбрасывает и policy (поведение), и оптимизатор. Это как регулярная перезагрузка — модель забывает вредные привычки, но сохраняет полезные навыки.

🟢 Температура 1.2 и длинный контекст (8K → 16K) — высокая температура делает поведение модели более разнообразным. А длинный контекст помогает учитывать больше информации при генерации ответа.

Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам.

Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры.

📄 Почитать статью полностью : arxiv.org/abs/2507.12507

@ai_machinelearning_big_data

#ml #ai #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥122👍3417😐2🗿2😁1👨‍💻1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Alibaba опять в ударе, сегодня у нас релиз Wan2.2

Это первая в мире open-source модель генерации видео с архитектурой MoE и полным кинематографическим контролем!

🚀 Что внутри:

🔸 Первая MoE‑модель для видео — масштабируется без лишней нагрузки. Разные эксперты отвечают за этапы диффузии, работая в команде.
🔸 Кинематографический контроль — управляем светом, цветом, движением камеры и композицией прямо из prompt’а.
🔸 Полная open-source линейка:
- Wan2.2-T2V-A14B — текст → видео
- Wan2.2-I2V-A14B — изображение → видео
- Wan2.2-TI2V-5B — объединённая генерация

📈 Умеет лучше всех генерировать *сложные движения* и выглядит уже почти как кино 🎥


🟢GitHub: https://github.com/Wan-Video/Wan2.2
🟢Hugging Face: https://huggingface.co/Wan-AI
🟢ModelScope: https://modelscope.cn/organization/Wan-AI

@ai_machinelearning_big_data


#AI #VideoAI #GenerativeAI #OpenSource #Wan
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91👍2825👌2👨‍💻1
Media is too big
VIEW IN TELEGRAM
✔️ Microsoft добавила новый режим Copilot для Edge.

Обновленный интерфейс Copilot теперь расположен в левом верхнем углу окна бразуера. Он получил оптимизированный дизайн, голосовое управление и улучшенное понимание контекста.

Copilot способен анализировать содержимое нескольких открытых вкладок одновременно. Это позволяет, например, сравнивать варианты путешествий или выбирать ресторан, не переключаясь между страницами. Система автоматически распознает URL-адреса, поисковые запросы и команды в чате.

Новый режим уже доступен бесплатно. В будущем Microsoft планирует добавить функции сортировки истории по проектам и контекстные рекомендации.
Mustafa Suleyman (CEO Microsoft AI) в сети X

✔️ Runway анонсировала модель для редактирования видео с помощью текста.

Runway представила свою новую модель Aleph. Она может вносить точечные изменения в уже существующие видеоролики с помощью текстовых команд. Пользователи могут добавлять и удалять объекты, изменять время суток, убирать дым или отражения.

Одной из самых заметных функций стала генерация совершенно новых ракурсов камеры. Модель также способна изменять возраст персонажей, перекрашивать объекты, создавать эффект зеленого экрана и переносить движение с видео на статичные изображения.

Сейчас Aleph доступна только для корпоративных и креативных партнеров, среди которых уже есть голливудская студия Lionsgate. Широкий доступ планируется в будущем.
runwayml.com

✔️ Huawei показала ИИ-систему, способную конкурировать с флагманом Nvidia.

На Всемирной конференции по искусственному интеллекту в Шанхае Huawei впервые публично продемонстрировала свою новую вычислительную систему CloudMatrix 384. Эксперты рассматривают ее как прямого конкурента самой продвинутой на сегодня системы от Nvidia - GB200 NVL72.

CloudMatrix состоит из 384 новейших чипов 910C и, по некоторым метрикам, превосходит решение Nvidia, которое использует 72 чипа B200. Как отмечают аналитики из SemiAnalysis, Huawei компенсирует более слабую производительность отдельных чипов за счет их большего количества и инноваций на системном уровне.

Система уже эксплуатируется на облачной платформе Huawei.
reuters.com

✔️ Alibaba презентовала умные очки Quark.

Alibaba анонсировала свои первые умные очки Quark. Устройство, которое выйдет на рынок Китая к концу 2025 года, позиционируется как конкурент умным очкам от Ray-Ban.

По капотом у Quark большая языковая модель Qwen и ИИ-ассистент Quark, которые управляют функциями звонков, прослушивания музыки, перевода в реальном времени и покупок. Очки тесно интегрированы с экосистемой Alibaba: платежным сервисом Alipay, торговой площадкой Taobao и картографическим сервисом Amap.

Технологически устройство работает на чипе Qualcomm AR1 и, по заявлению компании, получилось на 40% тоньше существующих аналогов на рынке.
scmp.com

✔️ Лейбл Hallwood подписал контракт с самым популярным ИИ-музыкантом платформы Suno.

Независимый лейбл Hallwood заключил сделку с Imoliver - самым прослушиваемым автором, создающим музыку с помощью нейросети. Imoliver уже набрал более 3 миллионов прослушиваний своей песни "Stone" на платформе Suno.

Теперь трек выйдет на всех основных стриминговых сервисах 8 августа, а полноценный альбом запланирован на октябрь. Глава Suno Майки Шульман назвал это событие "ключевой вехой для будущего музыки".
hollywoodreporter.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4625🔥10🥰3👨‍💻1
Разработчики нейросетей — новые звезды. Они решают фундаментальные научные задачи, приближают создание AGI, зарабатывают огромные деньги и даже провоцируют HR-войны: например, недавно выяснилось, что Meta (признана экстремистской организацией и запрещена в РФ) переманивает к себе сотрудников Open AI, обещая бонусы в размере $100 млн. Собрали в карточках несколько интересных фигур из сферы ИИ.

Подписывайтесь 👉 @techno_yandex
99🔥38👍16🥱8😐6🤷‍♂5❤‍🔥3😁3🙊2👨‍💻1
🌟 GLM-4.5 и GLM-4.5-Air: релиз гибридных моделей, заточенных под агентные задачи.

В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах: thinking mode для сложных задач с использованием инструментов и non-thinking mode для быстрых ответов.

🟡В релиз вошли:

🟢GLM-4.5 с 355 млрд. общих параметров (32 млрд активных) и ее облегченная версия;

🟠GLM-4.5-Air, облегченная версия со 106 млрд. общих параметров (12 млрд активных).

Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями.

🟡 Для эффективного RL таких крупных моделей был разработан и открыт собственный фреймворк slime.

Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе.

🟡Главный акцент GLM-4.5 - агентные возможности.

Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2).

На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами.

Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3).

Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты.

На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6).

В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно.

На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9).

В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие.

А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%.

Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%).


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GLM #MoE #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
63👍20🔥16👨‍💻1
🚀 Qwen3-30B-A3B — маленькое обновление, большое ускорение

Что нового:
Улучшены навыки рассуждений, программирования и математики
Расширенные знания на разных языках
Понимает контексты до 256 000 токенов
Точнее выполняет команды
Для этой модель Qweb полностью отказались от <think> — теперь только быстрый "non-thinking" режим

⚙️ С 3B активных параметров Qwen3-30B-A3B уже приближается к уровню GPT-4o и Qwen3-235B-A22B NT, при этом модель доступна для локального запуска.


🟡Попробовать https://chat.qwen.ai/?model=Qwen3-30B-A3B-2507
🟡HF: https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8
🟡ModelScope: https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

@ai_machinelearning_big_data

#AI #ML #qwen #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
80👍36🔥19😍4👨‍💻1
Media is too big
VIEW IN TELEGRAM
✔️ Сотрудники Миры Мурати отказались от офферов Цукерберга.

Компания Марка Цукерберга предприняла агрессивную попытку переманить ключевых сотрудников из стартапа Thinking Machines Lab, основанного бывшим CTO OpenAI Мирой Мурати. По данным инсайдеров, компания сделала предложения более чем десятку специалистов. Одно из них превышало миллиард долларов за несколько лет, другие находились в диапазоне от 200 до 500 миллионов за 4 года.

Несмотря на беспрецедентные суммы, все сотрудники отклонили предложения Meta. Причинами отказа называют и без того высокое состояние, значительные доли в собственном стартапе и нежелание работать под руководством Марка Цукерберга.
wired.com

✔️ Skild Brain: единая модель для управления любыми роботами.

Робототехнический стартап SkildAI анонсировал «Skild Brain», фундаментальную ИИ-модель, которая может служить универсальным программным "мозгом" для широкого спектра роботов: от гуманоидов до промышленных манипуляторов.

На демонстрациях роботы успешно ориентировались в незнакомой среде и выполняли сложные многоэтапные действия. По словам основателей, новая технология сокращает разрыв между достижениями в области генеративного ИИ и их практическим применением в физической робототехнике.

SkildAI , вышедшая из стелс-режима в июле 2024 года, уже привлекла инвестиции от Amazon, SoftBank и Sequoia Capital.
skild.ai

✔️ NotebookLM научился создавать видеообзоры по загруженным документам.

Google расширил возможности NotebookLM, добавив функцию Video Overviews. Она автоматически генерирует видеоролики с озвучкой, которые наглядно объясняют содержимое загруженных файлов. Система сама подбирает изображения, цитаты, диаграммы и цифры из исходных материалов и представляет их в виде пошаговых слайдов.

Новая функция, дополняющая уже существующие аудиообзоры, позволяет гибко настраивать результат. Пользователи могут указать целевую аудиторию, задать учебные цели или выделить конкретные темы для фокуса.

Кроме того, Google обновила интерфейс Studio, разрешив сохранять несколько результатов одного типа (например, несколько майнд-карт) в одном блокноте. Обновление уже доступно для англоязычных пользователей, в будущем планируется поддержка других языков.
blog.google

✔️ Adobe добавила в Photoshop новые ИИ-инструменты.

Adobe выпустила в бета-версии Photoshop новые функции на базе модели Firefly. Одной из самых ожидаемых стала Generative Upscale, она увеличивает разрешение изображений до 8 мегапикселей без потери качества.

Инструмент Remove был обновлен, чтобы более реалистично и чисто убирать с фотографий лишние объекты, оставляя меньше артефактов. Появилась и совершенно новая функция Harmonize. Она автоматически анализирует контекст изображения и подгоняет цвет, свет и тени добавленных объектов, чтобы создать цельную композицию без долгой ручной коррекции.

Кроме того, Adobe анонсировала функцию Projects для более удобного управления файлами. Все нововведения уже доступны для тестирования в десктопной и веб-версиях Photoshop.
blog.adobe.com

✔️ ChatGPT Agent научился проходить капчу Cloudflare.

ChatGPT Agent, способный выполнять многошаговые задачи, продемонстрировал неожиданную способность: он может проходить проверку "Я не робот" от Cloudflare. Пользователь Reddit опубликовал скриншоты, на которых агент в рамках задачи по конвертации видео самостоятельно нажимает на галочку "Подтвердите, что вы человек", комментируя свои действия.

Этот случай наглядно демонстрирует, насколько продвинулись ИИ-агенты. Они способны анализировать визуальный контекст, распознавая элементы веб-страниц и взаимодействуя с ними, как человек. В данном случае система поняла необходимость верификации и успешно ее прошла.

Прохождение CAPTCHA - лишь один из примеров возможностей нового агента. Другие пользователи уже показывают, как агент по их поручению заказывает продукты в супермаркете, самостоятельно составляя список покупок по общим критериям и укладываясь в заданный бюджет.
arstechnica.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
78👍31🔥10🙈6🤔4👨‍💻1💘1