339K subscribers
4.57K photos
927 videos
17 files
5.01K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Step 3.5 Flash: модель с гибридной архитектурой внимания и скоростью до 350 т/сек.

StepFun выпустили Step 3.5 Flash - очень интересную MoE-модель на 196 млрд. общих и 11 активных параметров.

Авторы заявляют сумасшедшую скорость до 300 токенов в секунду, а на задачах с кодом она, якобы, разгоняется до 350. Для модели такого уровня это очень бодро.

🟡Внутри накрутили много всего.

Вместо стандартного механизма внимания использовали гибридную схему: один слой полного внимания на 3 слоя скользящего окна, что позволило запихнуть в модель контекст на 256 тыс. токенов и при этом не забивать память до отказа.

В обучении использовали алгоритм MIS-PO, который помог решить проблему с потерей нити в длинных CoT, н просто отсекает варианты, которые слишком сильно уходят в сторону от логики.

Модель, как стало модно сейчас, затачивали под автономных агентов. Она умеет пользоваться десятком инструментов одновременно. В режиме Deep Research модель сама гуглит, планирует этапы и пишет отчеты размером до 10 тысяч слов.

Если нужно прогнать через модель тяжелый репозиторий с кодом, она справляется без тормозов, которые обычно возникают при работе с объемными текстами.

Завезли даже сценарии гибридного взаимодействия: это когда сервер планирует задачу, а локальная модель исполняет ее прямо на устройстве, например, управляя приложениями в смартфоне.

🟡Бенчмарки

Step 3.5 Flash набрала 97,3 на тесте AIME 2025 (и это голый ризонинг, без сторонних калькуляторов). Если же дать ей доступ к Python, результат взлетает до 99,8.

На кодовых бенчмарках цифры тоже выглядят красиво: в SWE-bench она выдает 74,4%, а на Terminal-Bench 2.0 - 51.0%.

Конечно, по плотности упаковки знаний Step 3.5 Flash пока уступает Gemini 3.0 Pro, но сам факт, что она доступна для локального использования и тестов через API, радует.



📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #StepFunAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥44👍2414😍4🦄21🤗1
🚀 Сбер представил Green-VLA — открытый SOTA-фреймворк для управления роботами

Сбер опубликовал технический отчёт Green-VLA по моделям Vision–Language–Action. Это методология для создания Physical AI, который превращает зрение и текст в физические действия. Работа заняла первое место среди статей дня на Hugging Face, обойдя исследования Moonshot AI и ведущих мировых университетов.

Главное о решении:

- Базируется на нейросети ГигаЧат и описывает путь от обучения до настройки робота в реальных условиях.
- Подтвердило эффективность на бенчмарках Google, Стэнфорда и Фрайбургского университета.
- Показало высокую стабильность — на AI Journey 2025 робот Грин под управлением Green-VLA отработал без сбоев более 10 часов.
- Является открытой методологией для создания надёжных и масштабируемых робототехнических систем.

@ai_machinelearning_big_data

#ai #ml #robotics #vla #sber
👍88🤣4417🔥12🦄3🤗2
🌟 Intern-S1-Pro: триллионная MoE для научных задач.

Shanghai AI Laboratory опубликовала Intern-S1-Pro, мультимодальную модель на архитектуре MoE с общий объемом параметров в 1 триллион.

Внутри 512 экспертов, из которых для обработки каждого токена активируются 8, что дает 22 млрд. активных параметров при инференсе.

Разработчики позиционируют новинку как AI4Science - лучшее открытое решение для сложных научных вычислений и рассуждений.

Вместо очередной попытки уметь все и сразу, модель заточили под науку : химию, материаловедение, науки о Земле. Авторы утверждают, что в этих нишах она идет на равных с топовыми коммерческими моделями.

Технически интересная штука - поддержка длинных гетерогенных временных рядов (от единичных значений до миллиона точек), за которую большое спасибо Fourier Position Encoding (FoPE). Это важная тема для интерпретации физических сигналов и экспериментальных данных.

FoPE - способ прикрепить к каждому токену в последовательности его позицию не просто номером, а в виде набора синусов и косинусов разных частот (Фурье‑признаков), чтобы модель могла лучше улавливать периодические и дальние зависимости в тексте и обобщать на длины контекста, которые она не видела на обучении.


Intern-S1-Pro поддерживает Tool Calling через OpenAI-совместимый API. Плюс, в модели есть режим размышления, который включен по умолчанию, но если нужна скорость, а не глубина - он отключается.

Деплой поддерживается LMDeploy, vLLM и SGLang.

⚠️ Если планируете раскатать модель только из-за временных рядов, не спешите - оптимизация модуля все еще продолжается.


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #InternS1Pro #ShanghaiAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍2410🦄3
Media is too big
VIEW IN TELEGRAM
✔️ У Gemini - 750 млн. пользователей в месяц.

Согласно отчету, число ежемесячных активных пользователей приложения Gemini выросло до 750 млн. Всего за один квартал Google удалось привлечь 100 млн. новых юзеров, что вплотную приблизило его к лидеру рынка - ChatGPT, чья аудитория оценивается в 810 млн. человек. Для сравнения, империя Цукерберга удерживает планку в 500 млн.

Успех ИИ-направления отразился и на финансах: годовая выручка Alphabet впервые в истории превысила $400 млрд. Сундар Пичаи также поделился технической метрикой: собственные модели компании обрабатывают через API свыше 10 млрд. токенов ежеминутно.
techcrunch.com

✔️ Opus 4.6 обнаружила более 500 0-Day уязвимостей в открытом коде.

Во время закрытых тестов Opus 4.6 сама обнаружила более 500 уязвимостей в популярных open‑source библиотеках. Red Team лишь предоставила ей доступ к песочнице с Python и стандартными инструментами отладки без каких‑либо подсказок или знаний о конкретных проектах.

Свежий Opus удивил глубоким техническим рассуждениями, недоступными классическим сканерам. В одном из случаев, когда фаззинг GhostScript не дал результатов, модель прошла по истории Git‑коммитов и логически нашла место, где могла скрываться ошибка.

С библиотекой CGIF модель пошла ещё дальше: самостоятельно написала корректный Proof‑of‑Concept, показывающий, как можно использовать найденную уязвимость. Чтобы инструмент оставался на стороне добра, Anthropic включила в Opus жесткие системы мониторинга, блокирующие потенциально вредоносные сценарии в реальном времени.
axios.com

✔️ Intel и AMD резко увеличили сроки поставок серверных CPU в Китай.

Китайские компании столкнулись с проблемой: поставщики уже официально предупредили о сбоях с отгрузками. У Intel поставки серверных чипов Xeon 4‑го и 5‑го поколений теперь строго нормируются и ждать заказ приходится до полугода. На фоне дефицита цены на "синие" процессоры в регионе выросли более чем на 10%. У AMD ситуация чуть спокойнее, но сроки тоже растянулись - задержка достигает 2 месяцев.

Главный виновник коллапса - ИИ, перекроивший цепочки поставок. TSMC, выпускающая чипы для AMD, переключила часть мощностей на выпуск ИИ‑ускорителей, что автоматически отодвинуло серверные CPU на второй план. Intel же по‑прежнему борется с собственной производственной неустойчивостью и не может нарастить объемы.

Ситуацию усугубляет рынок памяти: заказчики, пытаясь закупиться впрок, начали агрессивно сметать и процессоры, окончательно перегрузив канал поставок.
reuters.com

✔️ Nvidia жертвует RTX 50 Super и откладывает RTX 60.

Nvidia пересмотрела планы на потребительский сегмент - ожидаемый релиз видеокарт RTX Super 50-й серии отменен: компания решила перенаправить ресурсы на производство ускорителей для ИИ, которые сейчас в абсолютном приоритете.

Экономическая логика железная. В свежем отчете выручка Nvidia от дата-центров составила $51,2 млрд, превратив выпуск видеокарт в побочный бизнес. Смена фокуса затронет и будущее поколение: старт массового производства RTX 60, ранее намеченный на конец 2027 года, с высокой вероятностью сдвигается на 2028 год.
theinformation.com

✔️ Google помогла подготовится олимпийской сборной США.

Google Cloud совместно с DeepMind придумали как превратить смартфоны в биомеханические лаборатории для сноубордистов США.

Новая платформа заменила дорогие системы захвата движений обычной видеосъемкой. Алгоритмы пространственного интеллекта строят точную 3D‑карту движений спортсмена по обычному 2D‑видео, даже если на нем толстая зимняя экипировка, где раньше без специальных костюмов с датчиками было не обойтись.

Главное преимущество в скорости. Пока спортсмен едет на подъемнике, данные уже анализируются в облаке и превращаются в понятные метрики. Платформа работает на Gemini, поэтому тренеры могут разговаривать с системой как с живым помощником - вместо изучения сухих графиков получить точный технический разбор прыжка.
blog.google

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
102👍24🔥7🦄4👏21🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Anthropic проведет хакатон с призовым фондом в $100 000.

Anthropic при поддержке Cerebral Valley анонсировали с 10 по 16 февраля онлайн‑хакатон по вайб-кодингу в Claude Code на модели Opus 4.6.

Cerebral Valley - коммерческий ИИ‑проект и экосистема, которая через конференции, хакатоны, консалтинг и инфраструктурные услуги объединяет разработчиков, стартапы, корпорации и госструктуры вокруг ИИ.

Проект существует с 2023 года и сейчас вокруг него сконцентрированы десятки тысяч разработчиков, а в его эвентах участвуют лидеры OpenAI, Y Combinator, крупных технологических компаний и инвесторы.


Участникам предлагают создавать агентные системы, новые рабочие процессы и нестандартные решения, демонстрирующие границы возможностей Claude Code.

Призовой фонд - 100 тыс. долларов в виде кредитов Claude API и шанс представить свой проект на офлайн‑ивенте ко дню рождения Claude Code в Сан‑Франциско 21 февраля.

Хакатон полностью виртуальный, команда может состоять максимум из двух человек, а в жюри обещают команду, которая создает Claude Code.

Участие только по предварительно одобренной заявке. Количество слотов ограничено.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6415🥱11🤗11💅4🥰2🦄2👍1🎅1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Домен ai.com продали за 70 млн. долларов.

Рынок доменных имен зафиксировал абсолютный исторический рекорд. Покупателем выступил Крис Маршалек, сооснователь и CEO биржи crypto.com, и, по слухам, вся сумма сделки была выплачена в криптовалюте.

Предыдущий публичный рекорд удерживал voice.com, проданный в 2019 году за 30 млн.


Маршалек купил его под конкретный продукт, официальный запуск которого запланирован на 8 февраля этого года и под это событие, якобы, уже закуплена реклама во время трансляции Суперкубке США на канале NBC тоже, кстати недешевая тема.

На ai.com будет платформа агентного ИИ. В анонсе на сайте домена говорится, что агенты проекта смогут отвечать на вопросы, торговать акциями, управлять календарем, вести переписку и обновлять профиль в приложениях для знакомств от лица пользователя.

Другая сторона этой истории в том, что покупка ставит точку в многолетней чехарде спекуляций вокруг владельцев ai.com.

Домен был зарегистрирован 4 мая 1993 года, а с середины 2000-х до 2021 года находился в портфеле Future Media Architects.


В сентябре 2021 года его выкупил анонимный игрок «из сферы NFT» (тогда брокеры оценивали актив в районе 11 млн.), после чего начался период странных редиректов, вводивших тематические сообщеста в заблуждение.


Февраль 2023 года: трафик с ai.com начал идти напрямую на ChatGPT, из-за чего СМИ практически поженили домен с OpenAI.


В августе 2023 редирект сменился на проект xAI, а позже переадресация вела то на Gemini, то, внезапно, на DeepSeek в феврале 2025 года.


Анализ записей WHOIS показывает, что юридически ни OpenAI, ни Маск, ни Google, скорее всего, никогда не владели самим доменом, менялись только целевые URL.

Теперь же ситуация прояснилась окончательно: актив официально в руках команды Маршалека, который планирует пилить AGI по той же модели, по которой в свое время продвигал идею криптовалют.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5119🔥11🤣10😍21🤔1👌1🙈1🤗1
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 Машинное обучение : t.me/machinelearning_interview

🖥 Data Science: t.me/data_analysis_ml

⚡️ Полезные ИИ ресурсы: https://t.me/addlist/2Ls-snqEeytkMDgy

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Javascript: t.me/javascriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/machineint

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot

📚 Бесплатные ит-книги: https://t.me/addlist/HwywK4fErd8wYzQy

🖥Подборка по Golang: https://t.me/addlist/MUtJEeJSxeY2YTFi

Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2210🤣6👍5🥰3💅2😁1🥱1
Media is too big
VIEW IN TELEGRAM
🙂 Все мы иногда немного Gilfoyle.

На первый взгляд может показаться, что Silicon Valley опередил свое время, но на самом деле - это результат отличной проработки технической части сериала, что для современного продакшена - редкость.

Роль технологических консультантов сериала в разное время выполняли PhD и профессор Стэнфорда, СTO Twitter, основатель сервиса Vizify и еще более 70 специалистов Кремниевой долины.

Тем не менее, создатели Silicon Valley почти угадали: в прошлом году ИИ-ассистент платформы Replit удалил на проде базу данных, а вендинговый аппарат в офисе Anthropic под управлением Claude заказал партию вольфрамовых кубиков.


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍92😁52🔥12😍63🤔3🦄2
📌 OVQA: прощай, KV-cache offloading.

В Zyphra придумали как усидеть на двух стульях сразу, когда хочется резиновый контекст, но под рукой нет тонны памяти.

То. что они предложили, называется Online Vector-Quantized Attention - это модификация векторного квантования, которая учит словарь думать на лету.

В классическом VQ ключи заменяются ближайшими центроидами из статичного словаря. Это бустит вычисления, но создает проблему: словарь обучен на одних данных, а во время генерации модель видит совсем другое распределение ключей. Ошибка квантования растет, внимание теряет точность и как итог: VQ начинает плавать.


Так вот, модификация в том, чтобы отказаться от статического словаря в пользу адаптивного к текущей последовательности: каждый новый токен обновляет только один центроид - тот, к которому ближе всего.

Это разреженное обновление работает как защита от катастрофического забывания: старая информация не вымывается новой волной токенов, а аккуратно перезаписывается по мере необходимости.

Плюс есть хард-лимит на размер состояния, после достижения которого объем памяти перестает расти, а вычисления становятся строго линейными.

🟡Результаты тестовых экспериментов

🟢Модель, обученная на 4К токенах, уверенно справлялась с контекстом до 64К без деградации качества;

🟢На внутриконтекстном поиске OVQ почти не отставала от полноценного самовнимания, потребляя при этом в 4 раза меньше памяти;

🟢На In-Context Learning VQ провалился, а OVQ вышла на уровень классического внимания, используя всего ~4К центроидов;

🟢Сравнения с линейными альтернативами (Mamba2 и дельта-сети) тоже в пользу OVQ: она стабильнее держит долгий контекст без просадок точности;

🟠В задачах Positional ICR OVQA работает чуть хуже, чем классическое внимание но все равно достойно.

Очень хочется надеяться, что OVQ - это предтеча настоящего непрерывного обучения, где в светлом будущем вместо бесконечно пухнущего KV-кэша появится компактная, но живая память, способная удерживать важные детали без потерь.


🟡Статья
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #OVQA #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
81👍29🔥18👏3
Рынок ИИ в России быстро растёт: по предварительным оценкам, в 2025 году его объём достиг $2,1 млрд, а спрос на ML-инженеров уже сейчас опережает предложение. Бизнесу нужны специалисты для реальных задач — от рекомендательных систем и аналитики до автоматизации сложных процессов.

На курсе "Инженер машинного обучения с нуля" в Нетологии делают упор на практических навыках. Вы научитесь работать со всем циклом ML-разработки:

• формулировать и проверять гипотезы с помощью статистики;
• создавать и дообучать нейросети, использовать transfer learning;
• собирать ETL-пайплайны и готовить данные;
• контейнеризировать проекты и настраивать CI/CD для ML-систем.

В программе больше 10 проектов для портфолио, задачи от реальных компаний и шанс на стажировку в Globus IT. А эксперты из Яндекса, Сбера и Amazon помогут на протяжении всего обучения.

Начните свой путь в профессию, которая уже меняет рынок. Получите скидку 45% по промокоду ML2026 с возможностью оформить рассрочку.

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5wbcUg9
🤣32🌭61🔥1🥰1