Машинное обучение digest

⚡️ Карпаты поделился наблюдением, которое хорошо описывает то, что сейчас происходит с разработкой.

За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.

По сути, они получили главное качество инженера - упорство.

Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.

И это меняет сам подход к разработке.

Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.

Новый рабочий процесс:

* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление

Ключевая компетенция смещается вверх по уровням абстракции:

* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества

Это ещё не магия. Агентам всё ещё нужны:

* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус

Лучше всего они работают там, где результат можно проверить автоматически.

Но главное изменение уже произошло.

Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.

И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.

Если раньше ценился coding,
то теперь растёт ценность agent-engineering.

https://x.com/karpathy/status/2026731645169185220

19 views07:58

0:05

✔️ Google выпустили Nano Banana 2 - новую модель генерации изображений, ориентированную на реальное production-использование.

Г Модель позволяет быстро генерировать и редактировать изображения, сохраняя уровень детализации, света и текстур, достаточный для коммерческих задач.

Ключевые возможности:

* точное следование сложным текстовым инструкциям
* корректный текст внутри изображений
* создание инфографики, диаграмм и визуального контента
* сохранение внешнего вида персонажей и объектов между генерациями
* поддержка разных форматов и разрешений

Nano Banana 2 интегрирована в экосистему Google:

* Gemini
* AI Studio и Gemini API
* Vertex AI
* Search и Lens
* рекламные инструменты Google

Отдельное внимание уделено прозрачности - изображения автоматически получают цифровую маркировку SynthID и соответствуют стандарту C2PA.

https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

Please open Telegram to view this post

VIEW IN TELEGRAM

15 views17:19

🎯 Martian выпустили крупнейший бенчмарк для оценки AI-агентов, которые проверяют код и он полностью open-source.

Главная проблема большинства AI-тестов - модели со временем просто запоминают ответы. Бенчмарк превращается в «экзамен с известными вопросами», а реальные возможности моделей остаются за кадром.

Martian решили эту проблему архитектурно.

Вместо одного теста они внедрили систему Dual-Layer Evaluation:

- Offline-слой — честное сравнение моделей на статичных данных
- Online-слой — анализ поведения инструментов в реальной работе разработчиков

Если компания попытается «подогнать» модель под офлайн-тест, это сразу станет заметно — её результаты перестанут совпадать с реальным использованием в онлайн-слое.

Фактически это первый самокорректирующийся бенчмарк, который нельзя накрутить маркетингом или обучением на тестовых данных.

Что внутри:

- Более 200 000 реальных изменений кода
- Данные реального поведения разработчиков
- Оценка качества AI-ревью в боевых условиях
- Полная нейтральность — создатели не продают собственные coding-ассистенты

Это первый измеритель качества AI-инструментов для разработки, который не деградирует со временем и отражает реальную пользу, а не лабораторные метрики.

https://codereview.withmartian.com/

16 views07:49

Большинство подростков в США (13–17 лет) уже используют AI-чатботов - ChatGPT, Copilot, Character AI.
Около **30% обращаются к ним ежедневно**.

Как они используют AI:

🔹 57% — для поиска информации
🔹 54% — для помощи с учебой

🔹 47% — для развлечений
🔹 ~**40%** — для создания или редактирования контента, а также для суммаризации текстов

Интересно, что AI пока не стал полноценной заменой общения:

🔹 16% используют чатботы для обычных разговоров
🔹 12% обращаются за эмоциональной поддержкой или советом

Вывод простой:
AI для нового поколения — это уже не инструмент будущего, а повседневный помощник для учебы, творчества и задач каждый день.

15 views07:56

0:25

⚡️ Sakana AI представили два исследования - Text-to-LoRA и Doc-to-LoRA, которые делают кастомизацию LLM быстрее и значительно проще.

Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов.

Сегодня у LLM есть проблема:
чтобы обучить модель под новую задачу или добавить знания, обычно требуется:
- дорогое и длительное дообучение
- context distillation
- или длинные, затратные по памяти промпты

Sakana AI предложили другой подход.

Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету».
Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы:
- адаптировать модель под новую задачу
- или «встроить» в неё новый документ

Что показывают эксперименты:

Text-to-LoRA
- модель специализируется под новую задачу
- достаточно текстового описания на естественном языке

Doc-to-LoRA
- модель может «внутренне запомнить» длинный документ
- показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна
- способна переносить визуальные знания из vision-language модели в текстовую LLM

При этом обе технологии работают с задержкой меньше секунды.

Главное значение работы — снижение порога кастомизации.
Вместо сложного ML-процесса пользователь сможет специализировать модель простым текстовым запросом.

Код и исследования уже открыты для сообщества:

Doc-to-LoRA
Paper: https://arxiv.org/abs/2602.15902
Code: https://github.com/SakanaAI/Doc-to-LoRA

Text-to-LoRA
Paper: https://arxiv.org/abs/2506.06105
Code: https://github.com/SakanaAI/Text-to-LoRA

Please open Telegram to view this post

VIEW IN TELEGRAM

18 views08:01

Анонимность в интернете больше не стоит считать надёжной.

Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.

ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.

Как работает система:

Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом

Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.

Результаты:

- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты

Пайплайн состоит из четырёх этапов (ESRC):

1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны

Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.

Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%

Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.

Почему это трудно остановить:

Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей

Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.

Вывод исследователей:

> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.

По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.

Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.

Практическая анонимность в интернете становится всё менее реальной.

arxiv.org/pdf/2602.16800

18 views08:09

📌

OpenAI отчиталась о блокировке злоупотреблений ChatGPT.

Компания обновила свой отчет об угрозах. В нем приводится примеры операций, в которых использовали ChatGPT в мошеннических и дезинформационных схемах. Ни одна из них не достигла массового охвата, но детали механик стоят внимания.

🟡

Date Bait
Полуавтоматический дэйтинг-скам из Камбоджи, направленный на молодых индонезийцев. Операторы запускали таргетированные рекламные объявления в соцсетях с ключевыми словами и далее вели жертв в Telegram.

Там человек-оператор через ChatGPT генерировал романтические и сексуально окрашенные сообщения, затем передавал жертву ментору, который разводил жертву на серию платежей, после которых жертву блокировали.

🟡

False Witness
Мошенническая схема возврата потерь, тоже из Камбоджи. Скамеры создавали сайты фиктивных юридических фирм, генерировали поддельные удостоверения адвокатов и документы, стилизованные под FBI.

Жертвами становились люди, уже пострадавшие от других злоумышленников, им обещали помочь вернуть деньги за предоплату в криптовалюте.

🟡

Silver Lining Playbook
Предположительно китайская разведывательная операция, нацеленная на американских чиновников и аналитиков. Операторы генерировали письма от имени несуществующей консалтинговой фирмы «Nimbus Hub», приглашая жертв на платные консультации.

Параллельно они изучали расположение федеральных офисов, искали данные сотрудников и запрашивали у модели инструкции по установке программы для создания дипфэйков.

🟡

Trolling Stone
Скоординированная кампания в поддержку лидера секты Константина Руднева, арестованного в Аргентине. Участники из Пакистана, Армении, Уругвая и Казахстана генерировали статьи и комментарии на испанском, публиковали их через фейковые страницы в соцсетях, замаскированные под местные новостные издания. Некоторые материалы попали в реальные региональные СМИ Аргентины.

🟡

No Bell
Несуществующий доктор Мануэль Годсин из Бергенского университета публиковал статьи на новостных сайтах Ганы, Кении, Анголы и ЮАР. Тексты хвалили Российскую Федерацию и критиковали политику Евросоюза.

🟡

Fish Food
Контент-ферма, связанная с российской информационной сетью. ChatGPT использовался для генерации пакетных комментариев на английском и испанском: один промпт давал 7 твитов, которые затем публиковали разные аккаунты. Самый просматриваемый из них набрал 150 тыс. просмотров.

🟡

Кибероперации Китая
Наиболее масштабный кейс. Аккаунт, связанный с сотрудником китайских правоохранительных органов, просил ChatGPT помочь спланировать операцию против премьер-министра Японии Санаэ Такаити. Модель отказала.

Через несколько недель тот же пользователь попросил отредактировать отчет о ходе этой кампании (судя по всему, она была запущена без ChatGPT).

Из запросов следовало, что операция охватывала сотни операторов, тысячи фейковых аккаунтов на 300+ платформах, а в качестве инструментов использовались DeepSeek-R1, Qwen2.5 и YOLOv8.

Вывод OpenAI

ИИ-контент сам по себе не определяет успех злого умысла. Решающую роль играют охват распространителей и точность таргетинга. Без этих компонентов даже хорошо организованные кампании остаются практически невидимыми.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯1

18 views06:41

0:19

⚡️

Андрей Карпати поделился интересным экспериментом: он попробовал собрать **исследовательскую команду из AI-агентов.

В setup:
- 8 агентов (Claude + Codex)
- у каждого свой GPU
- каждый работает как отдельный исследователь
- задачи ведутся через Git-ветки
- коммуникация через файлы
- всё запускается в tmux - как «офис» с окнами

Фактически — попытка построить AI-research-организацию.

Но главный вывод оказался неожиданным.

Агенты:
- плохо продумывают дизайн экспериментов
- делают случайные или бессмысленные вариации
- не строят сильные baseline
- не контролируют compute и время
- часто делают ложные выводы

Пример: агент «обнаружил», что увеличение hidden size улучшает validation loss.
Формально — да. Но модель просто стала больше и дольше обучалась. Никакой научной ценности.

Инсайт:

AI отлично реализует хорошо сформулированные идеи.
Но пока плохо генерирует сильные исследовательские гипотезы.

Самая важная мысль:

Теперь мы программируем не модель —
мы программируем организацию.

Source code такой системы:
- промпты
- роли
- процессы
- инструменты
- standup’ы
- workflow

Вопрос будущего звучит так:

Насколько быстро ваша AI-организация может делать научный прогресс на новой задаче?

Добро пожаловать в эпоху *Org Engineering*.

https://x.com/karpathy/status/2027521323275325622

Please open Telegram to view this post

VIEW IN TELEGRAM

16 views09:56

🇨🇳 DeepSeek меняет правила игры в AI-индустрии.

Обычно всё происходит так:
AI-лаборатории заранее делятся новыми моделями с Nvidia и AMD, чтобы те оптимизировали софт под своё железо.
Так формируется стандарт: модель → оптимизация → лучше всего работает на американских GPU.

DeepSeek пошёл другим путём.

Перед релизом V4:
- код не дали Nvidia и AMD
- ранний доступ на несколько недель получили китайские производители, включая Huawei

Что это значит?

DeepSeek фактически делает ставку на то, чтобы их модели:
- работали лучше на локальном железе
- ускорили развитие китайских AI-чипов
- снизили зависимость от американской экосистемы

Но есть интересный нюанс.

По словам американского чиновника, последняя модель DeepSeek всё же обучалась на Nvidia Blackwell в материковом Китае.

То есть стратегия выглядит так:
- тренируемся на лучшем доступном железе
- оптимизируемся под свою инфраструктуру
- формируем собственный стандарт

Это уже не просто конкуренция моделей.

Это борьба экосистем:
- AI-модели
- чипы
- софт
- инфраструктура

И главный тренд ближайших лет:

Кто контролирует стек, тот контролирует рынок AI.

reuters. com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/

16 views10:11

📌

Anthropic vs Пентагон

В США набирает обороты скандал, который буквально за 2 недели вырос до масштаба национальной темы, которая уже вышла за рамки ИИ-индустрии.

В пятницу, Администрация Президента США объявила о внесении Anthropic в список компаний, представляющих риск для оборонных цепочек поставок.

Прецедент исключительный: обычно такой статус присваивают структурам из враждебных государств (например, китайской Huawei).

В среду вечером Пентагон письменно потребовал от Anthropic разрешить военным использовать Claude "в любых законных целях" - то есть без каких-либо ограничений, наложенных самой компанией.

В четверг CEO Дарио Амодэй опубликовал открытое заявление, в котором объяснил позицию компании: главные опасения - массовая слежка за гражданами и автономное оружие, способное открывать огонь без участия человека.

«Мы не можем по совести согласиться с их требованием», — написал Дарио.

В ответ старший чиновник Пентагона Эмиль Майкл назвал Амодэя лжецом с "комплексом бога", который "готов рисковать безопасностью страны".

🟡

Ставки высоки с обеих сторон

Claude - единственная модель ИИ, развернутая в засекреченных системах американских военных. Она использовалась в операции по захвату Николаса Мадуро и рассматривается как инструмент для потенциальных военных операций в Иране.

Контракт Пентагона с Anthropic оценивался в $200 млн; теперь он будет расторгнут. Кроме того, все подрядчики Министерства обороны обязаны будут подтвердить отказ от Claude в своих рабочих процессах. На переход отведено полгода.

Сложнее всего придется компании Palantir, она использует Claude для наиболее чувствительных военных задач и теперь вынуждена срочно договариваться с конкурентами Anthropic.

🟡

Пентагон настаивает на своем

Военные не обязаны согласовывать применение купленного инструмента с частной компанией.

Министр обороны Пит Хегсет давно критикует "повесточный ИИ", а администрация Президента США усиливает давление на Anthropic несмотря на то, что армия все больше зависит от ее продукта.

«Единственная причина, по которой мы вообще с ними разговариваем — они нам нужны, и нужны прямо сейчас», — сказал один из оборонных чиновников.

🟡

На роль замены уже есть кандидаты.

xAI подписала соглашение с Пентагоном об использовании Grok в засекреченных системах, но эксперты признают, что полноценной альтернативой Claude он вряд ли станет.

Google Gemini и ChatGPT работают в несекретных контурах; Министерство обороны ускоряет переговоры о переводе их в секретную среду.

Позиция Anthropic вызвала волну солидарности в ИИ-отрасли: сотни сотрудников Google и OpenAI подписали петицию с призывом к собственным компаниям занять такую же позицию.

Сэм Альтман заявил, что компания сохранит те же "красные линии" по слежке и автономному оружию, но все же намерена искать договоренность с Пентагоном.

В ночь на субботу в Х глава OpenAI сообщил, что соглашение с Министерством обороны достигнуто и модели компании будут развернуты в секретных сетях. По словам Альтмана, Минобороны согласилось на запрет слежки и использования моделей OpenAI в автономных системах вооружения.

Anthropic пока не сообщала, будет ли оспаривать присвоенный статус в суде.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

15 views08:00

0:59

📌

Anthropic добавила новую функцию памяти в Claude.

Теперь можно перенести контекст и предпочтения из других AI-инструментов.

Как это работает:

1. В другом AI генерируете специальный prompt с вашим контекстом
2. Копируете результат
3. Вставляете его в настройки памяти Claude

После этого Claude:
- запоминает ваши предпочтения
- понимает ваш стиль работы
- может сразу продолжать диалог без повторных объяснений

Функция доступна во всех платных тарифах.

Почему это важно:

Контекст становится переносимым.
Вы больше не привязаны к одному инструменту.

Новый тренд в AI:

Пользовательский контекст - это ваш личный слой поверх моделей.

Модель можно сменить.
Память - остаётся.

claude.com/import-memory

Please open Telegram to view this post

VIEW IN TELEGRAM

18 views12:35

🚀 Qwen 3.5 выходит в компактном формате

Alibaba представила новую линейку малых моделей Qwen 3.5:
0.8B · 2B · 4B · 9B

Все модели построены на единой архитектуре Qwen 3.5:
- нативная мультимодальность
- улучшенная архитектура
- масштабированное обучение с RL
- оптимизация для реальных сценариев

0.8B и 2B
Подходят для edge-устройств, локальных приложений и быстрых inference-задач.

4B
Неожиданно сильная база для лёгких мультимодальных агентов и небольших AI-сервисов.

9B
Компактная модель, но уже заметно приближается по качеству к гораздо более крупным системам.

Отдельно выпущены и Base-версии.

Hugging Face: https://huggingface.co/collections/Qwen/qwen35

@ai_machinelearning_big_data

15 views13:30

🌟

GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами.

Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами.

Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:

Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса).

Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.

🟡

Для решения первой проблемы предложили Action-Aware SFT

Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика.

🟡

Для второй - Conservative RL на базе GRPO с двумя дополнениями.

KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий.

🟡

Для трейна собрали датасет GUI-Libra-81K.

Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных.

Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B.

🟡

Результаты

Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld.

GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей.

Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #GUILibra #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

15 views16:25

⚡️ ChatGPT-5.4 - что уже «утекло» и почему это важно

Похоже, вокруг GPT-5.4 начинает формироваться серьёзный шум.

Вот что обсуждают в сообществе 👇

- 2M токенов контекста + persistent memory
Это уже не просто «длинная история чата», а полноценная работа с огромными кодовыми базами, документами и агентными пайплайнами без постоянного перепромптинга.

- Полноразмерная обработка изображений
Модель якобы умеет работать с PNG, JPEG и WebP без понижения качества.
Это критично для:
- архитектурных чертежей
- плотных UI-скриншотов
- схем и графиков с мелким текстом
- сложной технической документации

Сохранение исходных байтов изображения = меньше потерь информации при анализе.

- Новый speed-priority tier
Отдельный класс скорости. Вероятно - для продакшена, агентов и real-time задач.

Интересный момент - GPT-5.4 «засветился» в pull request’ах публичного репозитория Codex на GitHub.
Упоминания быстро удалили force-push’ами, но скриншоты уже разлетелись.

Prediction markets:
- 55% шанс релиза до апреля 2026
- 74% шанс до июня 2026

Конкуренция давит:

- OpenAI не может замедляться.
- Claude Opus 4.6 вышел с агентными командами и 1M контекстом.
- Anthropic через Claude Code уже доминирует в кодинге.
- DeepSeek V4 тренируется на Huawei-железе вне NVIDIA-экосистемы.

Если 2M контекст подтвердится - это уже другой класс систем:
- полноценные автономные код-агенты
- большие финансовые и юридические пайплайны
- enterprise-документооборот
- сложные multimodal workflow

Вопрос не в том, будет ли GPT-5.4.
Вопрос в том, насколько быстро гонка перейдёт в фазу «контекст как инфраструктура».

10 views06:36