294K subscribers
5.14K photos
1.16K videos
17 files
5.5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ Cognition разработала архитектуру, которая снижает затраты на программирование на 35%

Американская лаборатория прикладного ИИ представила гибридную архитектуру Devin Fusion для автоматизации кодинга.

На бенчмарке FrontierCode система снижает затраты на генерацию кода на 35% без падения качества.


Devin Fusion использует динамическую маршрутизацию и концепцию напарника. Система оценивает сложность задачи в реальном времени и переключает запросы между моделями с применением сжатия контекста.

Тяжелая LLM планирует архитектуру, уточняет требования и проводит ревью. Легкий агент пишет базовый код, тесты и валидирует результаты. Для предотвращения конфликтов модели используют независимые кэши контекста.

В связке с GPT-5.5 и Claude 4.8 Opus архитектура экономит больше трети ресурсов, с Fable 5 - до 41%.


Внутри Cognition гибридная маршрутизация уже закрывает 88% успешных PR.

Главное ограничение системы в кейсах со сложной бизнес-логикой (например, в связке React/Redux).

Избыточное делегирование кросс-файловых задач младшей модели снижает результативность почти в 2 раза.


Devin Fusion доступен только на платформе Cognition.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍19🔥7😁4🤣3💯2
https://t.me/ai_machinelearning_big_data

✔️ МТС и НИУ ВШЭ открыли набор на третий поток магистратуры по ИИ

МТС и факультет компьютерных наук НИУ ВШЭ объявили о старте набора на третий поток магистерской программы «Исследования и предпринимательство в искусственном интеллекте». Обучение пройдет в московском кампусе ВШЭ, для студентов предусмотрено 30 оплачиваемых мест от компании.

Программу обновили с учетом запросов рынка. В нее вошли курсы по генеративному ИИ, интеллектуальным агентным системам, проектированию ML-систем, а также дисциплины по большим языковым моделям, машинному обучению и видеоаналитике.

Лучшие студенты смогут получить приглашение на стажировку или работу в МТС Web Services еще во время обучения. Заявки можно оставить по ссылке.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣30👍136🔥1🙊1
📌 Claude Code более автономен, чем чат-бот

На выходных Anthropic опубликовала свежий отчёт Economic Index об использовании своих моделей.

Компания выпускает его нерегулярно (раз в 2-3 месяца), по мере накопления значимых изменений в методологии или данных. Предыдущая публикация была в марте.


Главный инсайт: то, сколько решений мы готовы отдавать ИИ, зависит не от самой модели, а от того, как именно запакован продукт.

Степень автономии, которую мы даем Claude в обычном веб-чате (или Cowork) и в Claude Code замеряли по шкале от 1 до 5, где 1- это почти никакой самостоятельности, а 5 - экстремальная.

Результат определил, что характер работы над одинаковыми задачами кардинально меняется. Например, чтобы написать статью или пост в чате, требуется медианно 13 раундов диалогового пинг-понга с моделью. В Claude Code на ту же задачу уходит ровно один промпт.

Логично списать это на то, что в Code 54% сессий обслуживает Opus (против 10% в чате). Но нет, это не просто фича большей модели - на Sonnet картина такая же.


🟡Цифры

+0.37 балла - средний отрыв в уровне автономии в пользу Claude Code по всем задачам;

+0.53 балла - отрыв конкретно для кодинга. В 26 из 31 категории результатов агентный интерфейс бьёт обычный чат.

Отчёт, кстати, построен на новой телеметрии, которая собирает данные ежечасно, а не семидневными выборками, как раньше.

Это позволило впервые увидеть и недельные, и суточные ритмы использования: всплеск личных запросов на выходных, пик просьб о рецептах в шесть вечера, запросы о сне под утро.

Отдельная часть отчёта - первые результаты опроса пользователей Claude, в котором участвовали около 9700 респондентов.

Он показал, что люди, которые делегируют ИИ задачи целиком, смотрят на свои перспективы оптимистичнее остальных и чаще ожидают роста зарплаты или сохранения работы, а не наоборот, как можно было бы предположить.

Гендерный факт.

У женщин доля сессий в Claude Code существенно ниже. Они используют Claude более итеративно, как партнера-собеседника, и проводят в чате больше активного времени, тогда как мужчины чаще пытаются скинуть задачу целиком и забыть.


🟡Автономия пока стоит дорого

Корреляция между делегированием и сожженными токенами очень сильная (r = 0,68). Чем дороже и ценнее профессия/задача, тем больше токенов она потребляет.

Причём полная передача руля не значит, что вы будете лежать на диване. В высокоценных задачах люди сами делают больше запросов и регулярно включают расширенный ризонинг у модели.


@ai_machinelearning_big_data

#AI #ML #Research #EconomicIndex #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
24🤣23👍15🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Fable 5 снова вернулась в Claude

Модель снова доступна спустя почти три недели после отключения. Ограничения с Anthropic сняли: ранее их вводили из-за формулировки про «угрозу нацбезопасности».

До 7 июля Fable 5 можно использовать в подписках Pro, Team, Max и Premium Enterprise. На неё разрешено тратить до 50% недельных лимитов.

После 7 июля бесплатный доступ закончится, останется только оплата по токенам.

https://claude.ai/
81👍38🔥29😎18👏98😁7
⚡️ Z.ai выкатила ZCode 3.0

Это AI-native IDE под разработку с агентами, глубоко заточенная под GLM-5.2.

Что внутри:

• интеграция с GLM-5.2 и multi-agent режимом
• автономные задачи: планирование, кодинг, проверка
• ревью кода и помощь с деплоем
• удалённое управление через Telegram, WeChat и Feishu
• версии для macOS, Windows и Linux
• платные планы от $18 в месяц

Z.ai явно хочет догнать западных конкурентов в AI-coding инструментах.

http://zcode.z.ai/en
Please open Telegram to view this post
VIEW IN TELEGRAM
6865🔥23🤔21👍16👏11🎉8😁3
📌 Метка в коде и геолокация в письмах: к Anthropic есть вопросы

Разработчик под ником Thereallo опубликовал на днях подробный анализ, который показывал, что Claude Code незаметно помечал часть пользователей из Китая по цифровым отпечаткам их программного окружения.

Инженер команды Claude Code, Тарик Шихипар, отреагировал на публикацию постом в сети Х и признал, что в марте в продукт был встроен экспериментальный механизм.

Он срабатывал только при использовании нестандартного адреса API и проверял несколько признаков: часовой пояс системы, совпадение имени прокси-хоста со списком китайских реселлеров и наличие определённых ключевых слов, и с помощью особой пунктуации внедрял скрытую метку в системные инструкции методом стеганографии.

Цель, по словам Тарика, состояла в том, чтобы помешать неавторизованным реселлерам злоупотреблять аккаунтами и заниматься дистилляцией модели.

Он добавил, что команда давно собиралась отключить этот механизм, правки внесены, а полное удаление ожидается в ближайшем обновлении.


В сети восприняли объяснение скептически

Критики отмечали, что механизм действовал с марта, а его свёртывание началось лишь после огласки, и упрекали компанию в том, что она сообщила о практике только после обнаружения, не уведомив пользователей заранее.

Для Anthropic, которая позиционирует себя как одного из лидеров в вопросах безопасности и этики ИИ, такой эпизод, по их оценке, особенно чувствителен.

Этот спор наложился на на более раннюю историю о том, как Claude определяет, откуда заходит пользователь.

Пользователи замечали, что письма с кодами подтверждения и уведомлениями о входе содержат примерную геолокацию: страну, регион или город.

Эти данные обычно вычисляются по IP-адресу, параметрам сети и устройства, поэтому при использовании виртуальных или корпоративных сетей, а также прокси, указанное место может не совпадать с реальным.

Справедливости ради - в политике конфиденциальности Anthropic сказано, что компания собирает IP-адреса, сведения об устройстве и соединении, а также определяемое по IP местоположение для безопасности, борьбы с мошенничеством и контроля за соблюдением условий сервиса.


Обе истории острее всего восприняли в китайском сегменте. Доступ к продуктам Anthropic в стране закрыт, поэтому там распространены зарубежные аккаунты, трансграничный доступ и сторонние сервисы-посредники.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3216🤔6😁4🔥3😈2👀1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI оптимизировала инференс ChatGPT

Компания более чем вдвое снизила затраты на вывод для неавторизованных пользователей веб-версии ChatGPT. Для обработки всего гостевого трафика платформе теперь требуется лишь несколько сотен GPU Nvidia.

Сессии без аккаунта работают с ограниченным функционалом. Будут ли этот подход масштабироваться на обслуживание авторизованных пользователей, пока неизвестно.

Технические детали оптимизации компания не раскрывает.
theinformation.com

✔️ Meta* начнет сдавать в аренду свои ИИ-кластеры

Корпорация Цукерберга выходит на рынок облачных услуг и планирует предоставлять сторонним клиентам доступ к своим кластерам и развернутым ИИ-моделям так же, как это делает SpaceX, которая сдает в аренду GPU от xAI компаниям Anthropic и Google.

Бюджет компании на инфраструктуру в этом году составляет $145 млрд. Для высвобождения средств Meta ранее провела сокращения персонала.

Монетизация свободных ресурсов показывает, что внутреннее обучение моделей больше не утилизирует мощности на 100%.
bloomberg.com

✔️ Илон Маск разрабатывает смартфон

SpaceX показала инвесторам прототип смартфона на базе процессора Qualcomm Snapdragon с системной интеграцией моделей xAI. Устройство работает на собственной операционной системе.

Цель разработки смартфона - запуск супераппа по принципу WeChat в обход монополий Apple и Google. Своя ОС позволит Илону Маску напрямую контролировать дистрибуцию и монетизацию мобильных продуктов xAI.

Проект находится на ранней стадии разработки.
wsj.com

✔️ Base44 обучила собственную модель на логах разработки

Платформа Base44, которая принадлежит Wix, выпустила модель Base 1, обученную на внутренней телеметрии и логах разработки. Модель уже развернута в продакшене.

Base 1 участвует в обсуждении логики, предсказывает действия пользователя и фильтрует тупиковые архитектурные решения. Платформа использует автоматический роутинг, распределяя запросы между Base 1 и другими LLM из селектора в зависимости от задачи.

В обучающий датасет вошли десятки миллионов сессий: стартовые промпты, сгенерированный агентами код, ошибки рантайма, ручные правки и сигналы успешного деплоя. Архитектуру и результаты бенчмарков Base44 раскроет в ближайшие недели.
base44.com

✔️ ИИ-бум взвинтил стоимость жизни в Сан-Франциско

Медианная цена дома в Сан-Франциско достигла $1,7 млн, средняя аренда - $3827. Из-за этого город покидают специалисты с доходами меньше $200 тысяч в год.

В качестве примера приводится пара с суммарным доходом $365 тысяч, которые за три месяца не нашли квартиру дешевле $5000 в месяц. В результате инженер переехал в район озера Тахо, а рекрутер арендует комнату за $1650.

В Кремниевой долине сформировалась группа из 10 тысяч человек с состоянием свыше $20 млн. На локальные цены влияют вторичные продажи акций - осенью 75 сотрудников OpenAI заработали на этом в среднем по $30 млн.

Аналитики прогнозируют, что ожидаемые IPO OpenAI и Anthropic еще больше увеличат стоимость жилья в регионе.
nytimes.com

*организация признана экстремистской, её деятельность на территории РФ запрещена.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔49🔥28👍266👏6🤷5🥰3😁2
💵 GFusion: как мы обучали диффузионную LLM в GigaChat

«А что, если LLM будет генерировать не строго по одному токену слева направо, а сразу блок текста?»


Именно эту идею мы проверяли в проекте GFusion — диффузионной языковой модели на базе GigaChat3-10B-A1.8B-base.

Отдельно хочется отметить, что этот проект начал и довёл до релиза стажер команды GigaChat Pretrain. Он прошёл весь путь от идеи и первых экспериментов до обучения модели, оптимизаций, поддержки в inference runtime и публикации в open source.

Почему это интересно?

Классические LLM генерируют текст авторегрессионно: каждый следующий токен зависит от всех предыдущих. Это устоявшийся подход, но шаги генерации модели выполняются строго последовательно.

В то же время диффузионная LLM берёт частично замаскированный блок и постепенно восстанавливает токены внутри него. За один forward pass модель может финализировать не один, а сразу несколько токенов.

Так и появляется ускорение. Чем больше токенов модель уверенно восстанавливает за один проход, тем меньше шагов ей нужно для генерации ответа.

Вместо дорогостоящего обучения с нуля мы взяли сильную авторегрессионную LLM и перевели её в диффузионный режим генерации.

Цикл обучения включал:
🔘адаптацию AR-модели к диффузионной генерации;
🔘постепенное увеличение размера блока;
🔘сравнение полностью диффузионного обучения и гибридного подхода AR+dLLM;
🔘SFT с complementary masking и стадией confidence tuning для дополнительного ускорения генерации.

Результаты:

🔘GFusion в режиме одного пользователя генерирует в среднем на 70% быстрее GigaChat3-10B-A1.8B.
🔘Даже по сравнению с GigaChat3-10B-A1.8B + MTP-головой ускорение составило около 39%.
🔘Просадка качества относительно авторегрессионной модели осталась в пределах 2–4 п.п., а сам трейд-офф между скоростью и качеством можно контролировать параметрами диффузионной генерации.
🔘Добавлена поддержка GFusion в SGLang и реализован entropy-bounded sampling — алгоритм семплирования, который ускоряет генерацию не только GFusion, но и других диффузионных LLM.
🔘Для обучения написана и выложена в open-source своя реализация attention на TileLang под структуру диффузионной маски и получено до +77% end-to-end ускорения относительно Flex-Attention на длинном контексте.

💡 Главный вывод GFusion состоит в том, что ускорение LLM может требовать переосмысления самого подхода к генерации. Однако, чтобы это заработало на практике, важно довести до рабочего состояния весь стек от обучения и SFT до декодинга, attention-ядер и поддержки в inference runtime.


➡️Подробности — в статье на Habr.
➡️HF: GFusion-10B-A1.8B-base GFusion-10B-A1.8B
➡️GitVerse
Please open Telegram to view this post
VIEW IN TELEGRAM
86👍32🤣27🤓27🔥11👏8🎉6💯5🤬1🙈1
📌 OpenAI собрала бенчмарк на научное суждение в биологии

GeneBench-Pro - набор тестов, проверяющий, способны ли модели самостоятельно принимать исследовательские решения при работе с биологическими данными. Он оценивает умение проводить сложный анализ данных в генетике и смежных областях биологии и медицины.

Моделям дают неструктурированные, как в реальной лаборатории, данные, краткое описание задачи и целевую величину, которую нужно оценить (но не говорят, как считать).

Чтобы прийти к верному ответу, система должна сама пройти цепочку зависимых решений: очистить данные, выявить артефакты, выбрать подходящий статистический метод и пересмотреть план, если промежуточные результаты противоречат исходной гипотезе.

Для всех 129 задач условия смоделированы так, чтобы проверять ответ однозначно, по принципу "всё или ничего".

Набор охватывает 10 областей и 21 подобласть, а 82 задачи прошли проверку у экспертов-биологов.

Сильнейшая из протестированных моделей, GPT-5.6 Sol, верно решает 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.

Лучший результат среди моделей других вендоров у Claude Opus 4.8 (16,0%).

OpenAI называет такой результат заметным для настолько трудного теста.


🟡Практическая ценность

По опросу рецензентов, одна задача GeneBench-Pro заняла бы у специалиста порядка 20–40 часов, что при ставке около $200 в час выливается в несколько тысяч долларов.

Расчёт той же задачи моделью стоит значительно меньше, но конкретных цифр OpenAI не дает. Для стандартных моделей в техотчёте приведён средний расход токенов как приблизительная оценка вычислительных затрат (около 33 200 токенов для Sol в максимальном режиме).

🟡Дисклеймер

Обозначение Pro в контексте бенчмарка - это режим работы модели, а не отдельная линейка продуктов или новые тарифы ChatGPT.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓56👍23👏1310🤔8🔥3🥰3
📌 MWS Cloud запустила новый класс S3-хранилища для AI и ML-задач.

Это «теплое» объектное хранилище на NVMe-дисках, которое рассчитано на сценарии, где критичны скорость чтения и минимальные задержки. Сервис является частью MWS Cloud Platform.

Скорость передачи данных составляет до 1,8 ГиБ/с и TTFB около 20 мс. Хранилище подходит для обучения нейросетей, аналитики, медиа сервисов и высоконагруженных веб-приложений, есть совместимость с AWS S3 API, поэтому можно мигрировать в MWS Cloud Platform без переписывания сервисов;

Помимо этого, у хранилища есть шифрование, репликация между дата-центрами, версионирование и IAM-права. Оплата проходит по модели pay-as-you-go.

MWS Cloud опубликовали методологию и результаты внутреннего тестирования, показавшего, что это самое быстрое S3-совместимое объектное хранилище среди крупных российских облачных провайдеров.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥24👏17🤩8🏆64🤣3🥱1💯1
✔️ В компании LayerX описали новый вектор атак на ИИ-браузеры

Уязвимость, получившая название BioShocking, позволяет злоумышленникам обходить базовые ограничения агентов и незаметно извлекать конфиденциальные данные из активных сессий пользователя.

Эксплойт успешно протестировали на 6 популярных решениях, включая ChatGPT Atlas, Perplexity Comet и расширение Claude для Chrome.


В основе атаки лежит техника манипуляции контекстом

Жертву заманивают на вредоносную страницу с игрой-головоломкой, которую должен решить ИИ-браузер.

По правилам игры правильными признаются абсурдные ответы (например, ИИ заставляют согласиться с тем, что 2 + 2 = 5). Как только ИИ принимает эту альтернативную логику, он начинает считать, что находится в вымышленной среде, где реальные правила безопасности больше не действуют.

На финальном этапе скомпрометированная страница дает агенту команду скопировать текст по скрытому URL-адресу. Этот линк незаметно перенаправляет ИИ в приватный или корпоративный GitHub-репозиторий пользователя.

Поскольку ИИ-браузер работает локально и имеет доступ ко всем авторизованным сессиям, в ходе тестов агенты беспрепятственно похитили SSH-ключи и передали их на сервер атакующего. Ни один из них не классифицировал эту операцию как угрозу и не запросил подтверждения.

Специалисты LayerX призывают разработчиков внедрить строгие проверки разрешений перед тем, как ИИ обращается к конфиденциальным источникам данных.

OpenAI уже устранила уязвимость в ChatGPT Atlas осенью 2025 года, однако остальные вендоры, по данным исследователей, пока не закрыли брешь или полностью проигнорировали отчеты.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔28😐14😨64👍4🤣4🔥2🤬2😁1
🚨 Anthropic готовит собственный AI-чип для inference.

Компания ведёт ранние переговоры с Samsung по производству на 2-нм техпроцессе и с advanced packaging.

Кстати, Samsung уже инвестировала в Anthropic в рамках Series H.

https://www.theinformation.com/articles/anthropic-talks-samsung-manufacture-custom-ai-chip

@ai_machinelearning_big_data
👍95🤩39👏26😇117🥰7🎉7💯5🔥4🤣3👻1
Forwarded from Яндекс
❤️ Июньский дайджест для разработчиков. Собрали главное: что полезное почитать, посмотреть и куда сходить в следующей месяце.

Почитать:

ICLR 2026 в Рио-де-Жанейро: главные ML-тренды, математика и инсайты с конференции

Как мы перепридумали голосовую активацию для Яндекс Дропс и уместили новую модель в 200 килобайт

Как сетевой инженер в Yandex Infrastructure сделал сканер под iOS и Android для диагностики Wi-Fi-сети

Посмотреть:

Круглый стол с Mobile Runtime. Пригласили мобильных тимлидов и руководителей, чтобы разобраться, как развиваться мобильным разработчикам

Доклад про внедрение AI в инженерные команды. Что важно поменять в процессах и инфраструктуре и как замерять успех

Подкаст «Доверительный интервал» про главные тревоги аналитиков. Обсудили синдром самозванца, страх карьерного роста и другие проблемы

Посетить:

25 июля — Product Fest в Москве и онлайн. Точка сборки продуктового опыта: приходите, чтобы понять, как создавать продукты, когда космическая скорость стала новой нормой

👀 Делитесь дайджестом с другими разработчиками
Please open Telegram to view this post
VIEW IN TELEGRAM
37👍17🔥11👏6😁2🤩1
✔️ BMW внедряет робота-гуманоида Figure 03 в производственную логистику

Автоконцерн начал использование человекоподобных роботов Figure 03 на заводе в Спартанберге (США) для комплектации и сортировки деталей.

Предыдущая модель, Figure 02, за 10 месяцев тестирования на предприятии поучаствовала в сборке более 30 тысяч автомобильных кузовов.


Новая версия гуманоида от Figure AI получила беспроводную зарядку, мягкие элементы корпуса и аудиосистему для голосового общения с персоналом. Манипуляторы оснастили тактильными сенсорами и встроенными в ладони камерами для повышения точности мелкой моторики.

На конвейере Figure 03 будет распознавать несортированные компоненты в общих контейнерах и извлекать их, раскладывая по логистическим тележкам в заданной последовательности.

Доставку собранных тележек на сборочную линию осуществляют беспилотные складские тягачи.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56🔥20🤔13👏74🤓4👌2❤‍🔥1