Machinelearning

🌟

Unsloth Studio: опенсорный no-code веб-интерфейс для LLM.

Unsloth Studio - это локальный комбайн, который объединяет подготовку данных, обучение, инференс и экспорт модели в одном месте.

Под капотом кастомные Triton-ядра с собственным backprop. По сравнению со стандартными CUDA-реализациями это дает 2х прирост скорости обучения и снижение потребления по VRAM на 70%.

Поддерживаются полный файн-тюнинг, претрейн, LoRA, QLoRA, 4-bit, 16-bit и FP8. Всего совместимо более 500 моделей, включая Llama 4, Qwen 3.5 и Gemma 3.

Для работы с данными есть визуальный нодовый редактор Data Recipes. Studio принимает PDF, DOCX, CSV и JSONL, генерирует синтетические датасеты и автоматически конвертирует данные в форматы ChatML или Alpaca.

Помимо стандартного SFT, Studio умеет в GRPO, которая не требует отдельной critic-модели и потребляет на 80% меньше VRAM, что делает обучение ризонинг-моделей реалистичным на локальном железе.

Модели на 8B и 70B параметров (например, Llama 3.1, Llama 3.3, DeepSeek-R1) можно файн-тюнить на одной RTX 4090 или 5090, а не на кластере, но есть и поддержка multi-GPU.

В режиме инференса Studio умеет: tool calling, выполнение кода прямо в чате, работу с изображениями, аудио, PDF и DOCX. Из коробки - веб-поиск и автонастройка параметров инференса.

Экспорт результатов - одной кнопкой в GGUF, vLLM или Ollama. Studio сама мерджит LoRA-адаптеры с базовой моделью.

Работает на Windows, Linux и macOS (на Mac пока только инференс, поддержка MLX-обучения анонсирована), есть Docker. AMD-пользователи могут обучать через Unsloth Core, поддержка в Studio обещана позже.

📌Лицензирование: AGPL-3.0.

🟡

Документация

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Framework #Train #UnslothStudio

Please open Telegram to view this post

VIEW IN TELEGRAM

👌88🔥46👍27❤‍🔥21❤14👏10💯7

16.5K views09:05

Machinelearning

Data Science и Data Engineering: какое направление выбрать в 2026 году?

🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.

На встрече обсудят:

💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция

И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.

Подключайтесь онлайн 1 апреля в 19:00 мск.

🏃‍♀️

Записаться на ДОД

Please open Telegram to view this post

VIEW IN TELEGRAM

👍48🎉17❤9🔥8🤔8😁5👏2🫡2

16.3K views11:27

Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🙂

Сегодня тот самый день - "давай сделаем до праздников"

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

😁132👏78👍21🤣20❤16🎉12😍9🤔1

17.2K views12:32

Machinelearning

Вот это комбо: ты, команда SberAds и шанс получить приглашение в Сбер за один день! ⚡️

28 марта Сбер устраивает One Day Offer* для Data Scientists**, готовых перевести эффективность SberAds, качество и релевантность показываемой рекламы на новый уровень.

Если ты хочешь работать над созданием и улучшением моделей для аукционов и свободно ориентируешься в Python, Go, S3, Spark — регистрируйся на One Day Offer*.

У тебя будет 8000+ коллег — масштабно, правда? Успей занять место в команде мечты!

* One Day Offer — предложение о работе за один день.
** Data Scientists — исследователи данных.

🔥33🤣23🎉13👏10🗿4❤2🤬2💯2🤷‍♂1

16K views14:01

⚡️

Unitree выпустила четвероногого робота As2

As2 предлагается в 3 версиях: AIR, PRO и EDU.

Вся линейка построена на одной механической базе: 18 кг, 12 степеней свободы, промышленные крестовые подшипники и моторы PMSM с низкой инерцией. Корпус - алюминиевый сплав с высокопрочным пластиком.

Базовая электроника тоже унифицирована: 8-ядерный CPU, Wi-Fi 6, Bluetooth 5.2, HD-камера, микрофон, динамик.

As2 AIR (бюджетный вариант)
Максимальный крутящий момент суставов 65 Нм, скорость до 3 м/с, грузоподъемность при ходьбе до 10 кг, подъем по склону до 30°. Батарея на 8000 мАч, без быстрой зарядки. Нет GPS, 4G, LiDAR и ISS 3.0. Это минимально рабочая конфигурация.

As2 PRO
Крутящий момент 75 Нм, скорость до 3,7 м/с, нагрузка до 13 кг, подъём 40°. Сюда добавили LiDAR, GPS, 4G, система ISS 3.0 для отслеживания сопровождаемого объекта, защита IP54. Батарея на 15 000 мАч с быстрой зарядкой обеспечивает до 4 часов хода налегке и до 13 км с нагрузкой 13 кг.

As2 EDU (платформа для разработчиков).
Характеристики ходовой части совпадают с PRO, но максимальный момент до 90 Нм, а нагрузка при ходьбе до 15 кг. Главное отличие: поддержка API, станция для автономной зарядки и опциональный вычислительный модуль NVIDIA Jetson Orin NX. Это единственная версия, которую можно программировать под собственные задачи.

Все 3 модели получают OTA-обновления через платформу UniStore и работают при температурах от −20 до +50 °C. Цен в открытых источниках пока нет.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡28👍25🤩18❤10🔥3👏3

16.5K views15:10

✔️

OpenAI купила стартап Astral.

Astral занимается созданием инструментов для Python-разработчиков. Хотя сделка еще не закрыта окончательно, ожидается, что команда стартапа вольется в подразделение, развивающее проект Codex.

Технологии Astral позволят превратить Codex в комплексную платформу для разработки. Аудитория инструмента стремительно расширяется: с начала года число пользователей утроилось и перевалило за 2 млн. человек.

Основатель Astral Чарли Марш подтвердил, что команда продолжит развивать свои open-source решения уже под крылом OpenAI.
openai.com

✔️

Cursor выпустила второе поколение модели Composer.

Composer 2 вступает в прямую конкуренцию с Claude Opus 4.6 и GPT-5.4, предлагая высокую производительность за меньшие деньги. Базовая стоимость использования начинается от 50 центов за млн. входных и 2,5 доллара за млн. выходных токенов. Ускоренная версия, установленная в редакторе по умолчанию, обойдется в 1,5 и 7,5 доллара соответственно.

Создатели говорят, что скачок в качестве стал возможен благодаря усиленному этапу предобучения, который заложил отличную базу для последующего RL. Модель тренировали на комплексных задачах программирования, требующих от ИИ выполнения сотен самостоятельных шагов.

Во внутреннем бенчмарке новинка набрала 61.3 балла, оставив далеко позади версию 1.5 с 44.2 баллами. В Terminal Bench 2.0 и SWE-bench Multilingual, Composer 2 показала результаты на уровне топовых моделей Anthropic и OpenAI. Обновление уже доступно внутри редактора Cursor.
cursor.com

✔️

Microsoft представила генератор изображений MAI-Image-2.

Microsoft Super Intelligence выпустило свой первый продукт - ИИ-модель для генерации картинок по тексту MAI-Image-2. В профильном рейтинге ArenaAi новинка с ходу заняла 3 место, уступая пока лишь GPT-Image-1.5 и Nano Banana 2.

По заявлениям компании, модель делает особый упор на фотореализм: точно передает естественное освещение и оттенки кожи, а также уверенно справляется с детализированными сценами и неплохо рендерит текст, что критично при создании постеров, инфографики и диаграмм.

Сейчас MAI-Image-2 доступна для тестов в сервисе MAI Playground, а вскоре появится в Copilot и Bing Image Creator. Доступ по API пока открыт только узкому кругу корпоративных клиентов. Технические подробности и цены на API Microsoft пока держит в секрете.
microsoft.ai

✔️

В Google AI Studio добавили вайб-кодинг.

Новая возможность позволяет описывать свои идеи естественным языком, а Gemini 3.1 Pro полностью берет на себя написание кода. Приложения собираются прямо в браузере и могут включать сложную логику: обработку платежей, мессенджеры или многопользовательские игры в реальном времени.

Техническая особенность обновления - Antigravity Agent. Он понимает, когда проекту требуется база данных или система авторизации и самостоятельно разворачивает их через Firebase. Агент умеет подключать внешние сервисы по API, а при необходимости сам устанавливает нужные библиотеки компонентов.

Также расширился список поддерживаемых технологий: к React и Angular теперь официально добавился фреймворк Next.js.
blog.google

✔️

Elevenlabs открыл маркетплейс для продажи ИИ-музыки.

Компания запустила платформу, где можно публиковать и монетизировать треки, созданные фирменной моделью ElevenCreative. Авторы получают отчисления, когда их композиции скачивают, ремиксуют или лицензируют другие юзеры.

Предусмотрено 3 уровня лицензий: для соцсетей, платного маркетинга и офлайн-использования. По данным Elevenlabs, нейросеть уже сгенерировала почти 14 млн. песен, а схожий маркетплейс ИИ-голосов принес пользователям более $11 млн.

Правовой статус треков спорный. ИИ-музыка не защищена авторским правом, так как у нее нет создателя-человека, а сама Elevenlabs не гарантирует эксклюзивность: нейросеть может выдать двум разным людям идентичный результат, и заявить права на чужой трек не выйдет. Использование в промптах имен реальных артистов или тексты существующих песен строго запрещено.
elevenlabs.io

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥46🎉34❤16👏14👍11🤗7🤓6💯4🗿1

14.8K views05:40

Machinelearning

⚡️ Agents Week от ШАДа — интенсив для тех, кто хочет разобраться в архитектуре AI-агентов и их инженерии

С 6 по 10 апреля эксперты Яндекса разберут, как устроены современные агентные системы: от работы с инструментами и памятью и базового thought-action-observation цикла до multi-agent архитектур и продакшен-подходов.

Что узнаете из лекций:

✔️ Как устроены современные ИИ-агенты
✔️ С чего начать проектирование и настройку их поведения
✔️ Какие есть практики построения single-agent и multi-agent-систем
✔️ Как доводить агентов до продакшена: оценка качества, мониторинг, масштабирование и эксплуатация

На лекциях можно будет задать вопросы экспертам, а на практике применять полученные знания. Agents Week мастхэв для ML-инженеров, backend-разработчиков, студентов техвузов, которые хотят строить агентные системы.

Подать заявку на интенсив можно до 9 апреля включительно.

⚡57🤔17👏13🤩12👍11😁6🎉5🔥2❤1

13.8K views11:44

Machinelearning

🌟

Mamba3

Mamba2 делала ставку на быстрое обучение. Ради этого механизм рекуррентных обновлений упрощали: матрицу переходов состояний свели к скаляру, умноженному на единичную матрицу.

Обучение ускорилось, но при декодировании GPU большую часть времени не считает, а гоняет данные между уровнями памяти. Архитектура оказалась с нюансом - вычислительные ядра простаивают.

С тех пор ландшафт изменился. RL с верифицируемыми наградами для кода и математики, агентные пайплайны - все это генерирует прорву токенов на инференсе. Команда Mamba3 задалась вопросом: как выглядела бы SSM-архитектура, если сделать ее с приоритетом на инференс, а не на обучение?

Так родились 3 главных изменения в ядре Mamba.

🟡

Новая схема дискретизации.

SSM в базе - это обыкновенное дифференциальное уравнение, которое нужно перевести в дискретную рекуррентную формулу. Mamba1 и Mamba2 использовали комбинацию двух методов (ZOH и Эйлера), подобранную эмпирически.

В Mamba3 реализовали экспоненциально-трапецеидальный метод: вместо одной точки для аппроксимации интеграла берутся обе границы интервала с обучаемым коэффициентом смешивания. В результате рекуррентная формула неявно применяет свёртку к входу скрытого состояния, что делает динамику выразительнее без дополнительных компонентов.

🟡

Комплекснозначная SSM.

Ранние модели семейства S4 работали с комплексными числами, но Mamba1 от них отказалась. Из-за этого модель не справляется даже с простейшими задачами отслеживания состояний (например, определением четности последовательности).

Решение нашли во вращении в двумерном пространстве: вместо комплексных вычислений авторы разложили переход на масштабирование и поворот, а затем применили фишку из RoPE - встроили вращения в матрицы через кумулятивную сумму углов.

Переписывать ядра для поддержки комплексной арифметики не пришлось. Модель решает задачи на чётность и другие бенчмарки, недоступные предыдущим версиям.

🟡

Переход от SISO к MIMO.

В стандартной SSM каждый хэд содержит набор независимых систем (один вход - один выход). При декодировании арифметическая интенсивность составляет около 2,5 операций на байт при пороге вычислительной загруженности на H100 в районе 300.

Mamba3 расширяет матрицы, превращая внешние произведения в матричные умножения. Арифметическая интенсивность растет пропорционально. При этом размер скрытого состояния не увеличивается, а значит, латентность декодирования почти не меняется. Обучение, конечно, дорожает, но это сознательный компромисс.

Еще из архитектуры убрали короткую каузальную свёртку, присутствовавшую с первой Mamba - новая рекуррентная формула и смещения выполняют ту же функцию.

Добавили нормализацию BCNorm по аналогии с QKNorm в трансформерах, перешли на чередование SSM- и MLP-слоев.

Ядра написаны на Triton (prefill SISO), TileLang (prefill MIMO) и CuTe DSL (decode).

🟡

Тесты

Mamba-3 SISO при 1,5B параметров показывает лучшую суммарную латентность prefill + decode на всех длинах последовательностей по сравнению с Mamba2, Gated DeltaNet и Llama-3.2-1B под vLLM на одном H100.

MIMO-вариант сопоставим по скорости с Mamba2, но заметно точнее. При анализе Парето-фронта Mamba-3 показывает тот же уровень качества при вдвое меньшем состоянии.

@ai_machinelearning_big_data

#AI #ML #LLM #Mamba3 #TogetherAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤓64🤷‍♂49🤔31👍26❤15😴15👏9🙈7🦄5🥰2🤣2

12.7K views12:51

Machinelearning

✔️

Архитектурные задачи в переводе

Ещё недавно машинный перевод был набором довольно сложных пайплайнов: модели подбирали наиболее вероятные соответствия словам и фразам и собирали перевод как конструктор.

С приходом нейросетей архитектура упростилась — появилась единая модель, которая обрабатывает текст по предложениям. А с внедрением больших языковых моделей произошёл следующий сдвиг: теперь система генерирует перевод, удерживая контекст на уровне крупных блоков и выбирая формулировки в зависимости от стиля.

От этого меняется и вся логика построения сервиса. Чтобы сохранить баланс скорости и точности, используется гибридная архитектура, где лёгкие модели работают на простых задачах, а тяжёлые большие языковые модели подключаются в сложных случаях.

Такой подход позволяет совмещать качество с эффективностью, и делает перевод ближе к тому, как работает человек, но в промышленном масштабе.

🟡

Статья

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17👨‍💻17👏5🤔3🔥2❤1😍1🤣1

12.5K views13:13

Machinelearning

Forwarded from Анализ данных (Data analysis)

0:54

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Runway представила серьёзный прорыв в генерации видео с помощью ИИ на конференции NVIDIA GTC.

Компания показала новую модель, способную генерировать видео в высоком разрешении в настоящем реальном времени.

Ключевая фишка — time-to-first-frame менее 100 мс.
Это значит, что HD-видео начинает генерироваться и воспроизводиться практически мгновенно после команды.

Этот превью-ресёрч был разработан совместно с NVIDIA и работает на их новой архитектуре Vera Rubin.

Такая скорость — важный шаг к созданию General World Model (GWM-1) от Runway.

Технология выходит за рамки обычной генерации видео и движется в сторону живых, интерактивных сред в реальном времени.

https://x.com/runwayml/status/2034284298769985914

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

⚡84🤩25👏17👍14🔥13❤8

11.8K views14:20

Machinelearning

📌

Anthropic опубликовала результаты масштабного опроса пользователей Claude.

В декабре 2025 года Anthropic провела масштабное качественное исследование: специальная версия Claude брала интервью у пользователей сервиса по всему миру.

За одну неделю в нем приняли участие 80 508 человек из 159 стран на 70 языках. По заявлению Anthropic, это крупнейшее и наиболее многоязычное исследование, которое когда-либо проводилось.

Методика отличалась от стандартных опросов. Модель спрашивала о надеждах на ИИ, опыте его использования и страхах, а затем адаптировала follow-up вопросы на основе ответов.

Классифицировать и анализировать результаты тоже помогал Claude: он кластеризовал темы, выбирал репрезентативные цитаты и оценивал преобладающие настроения.

🟡

Что люди хотят от ИИ

Самый распространенный запрос - профессиональная эффективность (19%): людям нужно, чтобы ИИ взял на себя рутину, оставив им стратегические задачи.

На втором месте личностный рост и эмоциональное благополучие (14%), далее - управление бытовыми задачами и когнитивная поддержка (14%).

Примечательно: когда интервьюер спрашивал, что за желанием продуктивности стоит на самом деле, многие раскрывались. Оказывалось, что дело не в работе как таковой, а в том, чтобы успевать к детям, проводить время с родителями или просто жить свою жизнь.

Примерно 81% участников сказали, что ИИ уже в какой-то мере оправдал их ожидания.

Чаще всего называли ускорение рабочих процессов (32%), когнитивное партнерство (17%) и обучение (10%).

Отдельно выделяется категория доступности: люди с нарушениями обучаемости, слуха, речи описывают ИИ как явление, которой у них раньше не было.

🟡

Страхи конкретнее надежд

Главное беспокойство - ненадежность и галлюцинации (27%), следом идут угрозы занятости (22%) и потеря автономии (22%).

Важный паттерн: опасения, связанные с рынком труда, сильнее всего коррелируют с общим негативным отношением к ИИ.

Исследование зафиксировало 5 устойчивых противоречий, которые люди переживают одновременно, не выбирая одну из сторон:

🟢обучение - когнитивная деградация;
🟢качество решений - ненадежность;
🟢эмоциональная поддержка - зависимость;
🟢экономия времени - ускорение темпа жизни;
🟢экономические возможности - вытеснение с рынка труда.

У пользователей, ценящих ИИ за эмоциональную поддержку, втрое выше страхя зависимости от него.

🟡

Региональный разрыв

В Африке, Латинской Америке и Южной Азии смотрят на ИИ заметно оптимистичнее, чем пользователи из Северной Америки и Западной Европы.

В развивающихся регионах ИИ воспринимается прежде всего как инструмент возможностей: для предпринимательства, образования, обхода инфраструктурных ограничений. В богатых странах фокус смещается на управление сложностью уже насыщенной жизни и регуляторные вопросы.

Anthropic обещает вернуться с новыми опросами позже планирует продолжить исследование: следующая волна интервью будет про влияние Claude на благополучие людей в долгосрочной перспективе.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍39🤔32❤9👏8🤩4🔥2😁1

9.61K views17:03

About

Blog

Apps

Platform