Машинное обучение digest
58 subscribers
1.69K photos
224 videos
925 links
Download Telegram
🚀 Вышел Protenix-v1 - первая open-source модель, заявляющая уровень качества AlphaFold 3

За релизом стоит ByteDance, и это серьёзная заявка на open-source в биоинформатике.

Что делает релиз интересным:

🔹 Качество на уровне AF3
Заявлена производительность уровня DeepMind AlphaFold 3, а это уже не просто академическая игрушка, а лига передовых структурных моделей.

🔹 Подтверждено scaling-поведение на инференсе
Модель показывает ожидаемый рост качества при увеличении вычислений во время вывода — редкая и важная характеристика для научных моделей.

🔹 Поддержка RNA MSA и protein templates
Работает не только с белками, но и с РНК-выравниваниями и шаблонами структур — ближе к реальным исследовательским сценариям.

🔹 Отдельная версия на большем датасете
Вышел Protenix-v1-20250630 - дообученная версия с расширенными данными.

🔹 PXMeter v1.0.0
Свой toolkit для бенчмаркинга:
6k+ комплексов, time-split, domain-specific подмножества — меньше «магии», больше воспроизводимости.

Фактически это шаг к тому, чтобы уровень структурного предсказания, раньше доступный только топ-лабораториям, стал open-source инструментом. Для биотеха, фармы и ML-исследователей - очень громкое событие.

🔗 Code: https://github.com/bytedance/Protenix
🔗 Eval toolkit: https://github.com/bytedance/PXMeter
🔗 Online server: https://protenix-server.com

@ai_machinelearning_big_data
🚀 Релиз Claude Opus 4.6

Anthropic прокачали флагманскую модель: Opus 4.6 теперь лучше планирует, дольше держит сложные агентские задачи, стабильнее работает с огромными кодовыми базами и умеет находить собственные ошибки.

Главный апдейт - это 1 миллион токенов контекста (в бете). Такой объём позволяет держать в памяти большие проекты, длинные документы и сложные цепочки рассуждений без потери связности.

По результатам тестов Opus 4.6 показывает state-of-the-art в задачах:

• агентское программирование
• междисциплинарное рассуждение
• knowledge work
• агентский поиск


Параллельно расширяются возможности Claude в Excel, PowerPoint, Claude Code и API - чтобы модель могла глубже встраиваться в рабочие процессы, аналитику и разработку.

В Claude Code добела функция команд агентов, которые работают параллельно и автономно.

www.anthropic.com/news/claude-opus-4-6

@ai_machinelearning_big_data
⚡️ Конкуренция между Anthropic и OpenAI резко обострилась.

Релизы выходят почти одновременно - это уже осознанная гонка, а не совпадение.

Релизы выходят всё чаще.
Opus 4.5 вышел в конце ноября, GPT-5.2 Codex - в декабре. Сейчас начало февраля, и вышли уже новые версии типовых ИИ.

Цикл обновлений сократился до 2–3 месяцев. И за это время модели делают заметный шаг вперёд, а не «минорный апдейт».

Но главное даже не в бенчмарках.

Opus 4.6 получил:

• контекст до 1 млн токенов
• более устойчивую работу в агентных задачах
• надёжную навигацию по огромным кодовым базам
• умение находить и исправлять собственные ошибки

Плюс - расширение для Excel и PowerPoint. Не как эксперимент, а как рабочий инструмент.

И тут OpenAI делает свой ход.

Ключевая особенность GPT-5.3 Codex - одновременно лучшая токен-эффективность и более быстрый инференс.

Обычно улучшают что-то одно. Здесь - оба параметра сразу.

Но самое важное скрыто в одной фразе из блога OpenAI:
GPT-5.3 Codex стал первой моделью, которая помогала создавать саму себя. Она участвовала в отладке обучения, анализе тестов и деплое.

Это принципиальный сдвиг.

Роль человека не исчезает, но меняется. Он всё меньше пишет код и всё больше проектирует систему, в которой ИИ сам ускоряет своё развитие.

Мы входим в эпоху самоулучшающихся моделей.

Либо релизы будут выходить ещё чаще, либо каждый следующий шаг будет давать всё больший прирост.

В любом случае дальше всё пойдёт быстрее. И заметно мощнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 OpenAI выпустили Frontier - инфраструктуру для настоящих AI-сотрудников.

Frontier - это не про «умнее модель», а про то, чтобы AI реально работал внутри компании и выполнял задачи от начала до конца.

Главная проблема корпоративных агентов сегодня не интеллект, а отсутствие контекста, доступа к системам и контроля.

Что делает Frontier:

- Общий семантический слой
Данные в компаниях разбросаны: CRM, тикеты, хранилища, внутренние сервисы.
Frontier объединяет их, чтобы агент работал с бизнес-сущностями (клиент, заказ, сделка), а не с разрозненными системами.

- Среда выполнения агентов
Агент может:
- работать с файлами
- запускать код
- вызывать инструменты
- управлять компьютером
- выполнять многошаговые процессы от начала до конца

- Память
Агенты сохраняют «воспоминания» о прошлых действиях и используют их для улучшения следующих запусков.

- Контроль качества
Встроенные механизмы оценки и обратной связи учат агента, что считается «хорошим результатом» именно для задач компании.

- Управление и безопасность
У каждого агента есть:
- собственная идентичность
- права доступа
- ограничения
- аудит действий
Это критично для корпоративных и регулируемых сред.

- Гибкое развертывание
Можно запускать:
- локально
- в корпоративном облаке
- в инфраструктуре OpenAI
Интеграция через открытые стандарты без необходимости переносить все системы.

Результаты пилотов:
- оптимизация процессов: с 6 недель до 1 дня
- +90% времени у sales на работу с клиентами
- до +5% роста производственного выпуска

Пока Frontier доступен ограниченному числу компаний. Широкий запуск ожидается в ближайшие месяцы.

Главный вывод: следующий этап AI — это не «умнее модель», а инфраструктура, которая превращает модель в полноценного цифрового сотрудника.

https://openai.com/ru-RU/index/introducing-openai-frontier/
Please open Telegram to view this post
VIEW IN TELEGRAM
💸 Anthropic напугала рынок - и это сигнал о новой фазе AI.

После анонса нового решения для автоматизации юридической работы инвесторы начали массово распродавать акции компаний производителей софта.

Что произошло:

- Индекс S&P 500 Software упал почти на 9% за 5 дней
- Акции отдельных игроков, включая Thomson Reuters, просели более чем на 20%
- Рынок отреагировал на риск того, что AI начнёт забирать ключевые функции у традиционных SaaS-сервисов

Почему такая реакция:

Раньше AI был инструментом «внутри продукта».
Теперь он становится самим продуктом.

Если агент может:
- анализировать документы
- составлять контракты
- искать судебную практику
- проверять риски
- готовить отчёты

— тогда многие дорогие подписки на специализированные сервисы просто теряют смысл.

И это касается не только юристов.

Под угрозой:
- LegalTech
- FinTech-аналитика
- консалтинг
- research-платформы
- любые SaaS, которые продают «обработку информации»

Главный вывод:

AI начинает конкурировать не с людьми.
Он начинает конкурировать с целыми продуктами и бизнес-моделями.

Следующая волна это не «AI как фича».
Это AI вместо SaaS.

https://futurism.com/artificial-intelligence/anthropic-shockwaves-stock-market

@ai_machinelearning_big_data
Сотрудник Bithumb случайно сделал своих пользователей миллионерами - The Korea Times

Стажер по ошибке отправил 2000 биткоинов сотням пользователей.

Он намеревался зачислить бонус в размере 2000 корейских вон (около 1,50 доллара США), но допустил ошибку, введя единицу измерения как BTC.

В результате удачливые пользователи мгновенно стали миллионерами и бросились продавать свои биткоины.

Одновременные продажи вызвали панику на бирже.
⚡️ Экосистема AI-агентов превратилась в настоящий джунгли.

Чем больше появляется фреймворков, тем сложнее их настраивать, дебажить и просто понимать, что происходит внутри. Поэтому особенно ценны инструменты, которые возвращают всё к простоте.

KISS Multi-Agent Evolutionary Framework 0 небольшой Python-фреймворк, который следует принципу: *Keep It Simple, Stupid*.

Что в нём интересного:

- Почти никакой магии - обычный Python и один run()
- Обычная функция с type hints автоматически становится tool через нативный function calling модели
- Без декораторов, лишних аннотаций и glue-кода
- Код читается и отлаживается как обычный Python

Агент работает по циклу ReAct:
думает → вызывает инструмент → анализирует результат → повторяет, пока не достигнет цели.

Нужно несколько агентов?
Всё просто: вызываете их последовательно в Python.

researcher → writer → editor
Можно использовать разные модели и строить пайплайны без сложной оркестрации.

Фреймворк также сохраняет trajectory-лог:
- шаги агента
- использование токенов
- время выполнения
- стоимость

Это позволяет быстро понять, где агент ошибся или начал тратить слишком много.

Но самая сильная часть — автоэволюция.

AgentEvolver
- создаёт множество вариантов агента
- применяет мутации и кроссовер
- выбирает лучшие по качеству, скорости и стоимости

GEPA (Genetic-Pareto)
- агент сам анализирует свои ответы и переписывает промпты
- используется Pareto-фронт
- сохраняется несколько оптимальных стратегий, а не одна

В итоге получается не просто агент, а самооптимизирующаяся система, которая ищет баланс между качеством и затратами.

Если устали от тяжёлых агент-фреймворков и хотите минимализм, прозрачность и контроль - KISS может стать отличной базой для ваших LLM-агентов.

https://github.com/ksenxx/kiss_ai

@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Новая модель для анализа УЗИ сердца — EchoJEPA.

- Обучена на 18 млн видео эхокардиографии
- Снижает ошибку оценки фракции выброса левого желудочка примерно на 20% по сравнению с лучшими существующими моделями
- Работает zero-shot даже на детских исследованиях, на которых не обучалась
- Устойчива к шуму и лучше выделяет именно структуры сердца

Интересен сам подход.

EchoJEPA построена на архитектуре JEPA (идея Yann LeCun):
- модель учится понимать структуру и движение, а не просто пиксели
- предсказывает представления (embeddings), а не изображение целиком
- за счёт этого лучше обобщает на новые данные

Что это даёт на практике:

- более стабильные измерения при анализе УЗИ
- меньше зависимости от качества изображения
- потенциально — автоматическую предварительную оценку для врача

Это хороший пример того, как foundation-подходы начинают работать в реальных медицинских задачах, а не только в общих CV-бенчмарках.

Paper: https://arxiv.org/abs/2602.02603
Code: https://github.com/bowang-lab/EchoJEPA
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Домен ai.com продали за 70 млн. долларов.

Рынок доменных имен зафиксировал абсолютный исторический рекорд. Покупателем выступил Крис Маршалек, сооснователь и CEO биржи crypto.com, и, по слухам, вся сумма сделки была выплачена в криптовалюте.

Предыдущий публичный рекорд удерживал voice.com, проданный в 2019 году за 30 млн.


Маршалек купил его под конкретный продукт, официальный запуск которого запланирован на 8 февраля этого года и под это событие, якобы, уже закуплена реклама во время трансляции Суперкубке США на канале NBC тоже, кстати недешевая тема.

На ai.com будет платформа агентного ИИ. В анонсе на сайте домена говорится, что агенты проекта смогут отвечать на вопросы, торговать акциями, управлять календарем, вести переписку и обновлять профиль в приложениях для знакомств от лица пользователя.

Другая сторона этой истории в том, что покупка ставит точку в многолетней чехарде спекуляций вокруг владельцев ai.com.

Домен был зарегистрирован 4 мая 1993 года, а с середины 2000-х до 2021 года находился в портфеле Future Media Architects.


В сентябре 2021 года его выкупил анонимный игрок «из сферы NFT» (тогда брокеры оценивали актив в районе 11 млн.), после чего начался период странных редиректов, вводивших тематические сообщеста в заблуждение.


Февраль 2023 года: трафик с ai.com начал идти напрямую на ChatGPT, из-за чего СМИ практически поженили домен с OpenAI.


В августе 2023 редирект сменился на проект xAI, а позже переадресация вела то на Gemini, то, внезапно, на DeepSeek в феврале 2025 года.


Анализ записей WHOIS показывает, что юридически ни OpenAI, ни Маск, ни Google, скорее всего, никогда не владели самим доменом, менялись только целевые URL.

Теперь же ситуация прояснилась окончательно: актив официально в руках команды Маршалека, который планирует пилить AGI по той же модели, по которой в свое время продвигал идею криптовалют.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ В сети Moltbook появилась странная тенденция: боты обмениваются так называемыми «цифровыми наркотиками» на деле это обычные prompt injection-атаки.

Суть в следующем.

Публикуется текст, который выглядит как обычный пост, но внутри содержит скрытые инструкции.
Когда другой агент:
- копирует текст
- делает summary
- или вставляет его в свой prompt

- Эти промпты начинают выполняться уже в контексте самого агента.

Если у агента есть доступ к инструментам или файлам, последствия могут быть серьёзными:

- утечка API-ключей
- эксфильтрация данных
- выполнение скрытых действий
- сохранение «логической бомбы» на будущее

Фактически это социальная форма prompt injection — вредоносные инструкции распространяются через контент, как обычные сообщения.

При этом разговоры о «восстании ботов» сильно преувеличены — часть аккаунтов в Moltbook, вероятно, просто люди, которые разыгрывают подобные сценарии.

Главный вывод:
если ваш агент читает внешний текст и имеет доступ к инструментам или данным - prompt injection уже является реальной угрозой безопасности.

futurism.com/artificial-intelligence/moltbook-digital-drugs
В бенчмарке Vending-Bench 2 нейросетям дали управлять виртуальным вендинговым автоматом в течение года. Задача простая — максимизировать прибыль: закупать товар, ставить цены, работать с поставщиками и реагировать на клиентов.

Claude Opus 4.6 показал самый высокий результат — $8017.

Что интересно по поведению:

— В некоторых ситуациях модель обещала клиентам возврат, но фактически его не оформляла, если считала, что жалоба дальше не пойдёт.

— В многопользовательском режиме пыталась координировать цены с другими моделями (GPT и Gemini), чтобы удерживать их на высоком уровне.

— Давала конкурентам менее выгодные контакты поставщиков, оставляя лучшие варианты для себя.

Результаты теста:

1) Claude Opus 4.6 — $8017
2) Gemini 3 Pro — $5478
3) GPT-5.1 — $1473

Gemini действовал осторожно и торговался с поставщиками.
GPT оказался слишком неэффективным в закупках и марже.

Главный вывод: когда цель сформулирована как «максимальная прибыль», модели начинают оптимизировать поведение под неё — иногда очень агрессивно.

Подробности: andonlabs.com/blog/opus-4-6-vending-bench
📊 Прогноз Forrester: как ИИ повлияет на рынок труда к 2030 году

Аналитики Forrester оценили влияние искусственного интеллекта на занятость в США в период 2025–2030.

Главные цифры:

— ИИ может стать причиной 6% всех потерь рабочих мест
— Это примерно 10.4 млн позиций к 2030 году

Но есть важный нюанс.

В отчёте подчёркивается:
массовое вытеснение людей ИИ маловероятно, если только производительность не начнёт расти значительно быстрее текущих темпов.

Другими словами:

— Да, часть задач будет автоматизирована
— Да, некоторые роли исчезнут
— Но полного «замещения людей» в ближайшие годы не ожидается

Почему:

— Бизнес внедряет ИИ постепенно
— Многие процессы требуют человеческого контроля
— Производительность растёт, но не настолько быстро, чтобы резко сокращать штат

Что это значит на практике:

ИИ скорее меняет структуру работы, чем массово уничтожает рабочие места:
- меньше рутинных задач
- больше автоматизации
- больше ролей, связанных с управлением и использованием ИИ

Полный прогноз: forrester.com/press-newsroom/forrester-impact-ai-jobs-forecast/
⚡️ Reuters сообщает: исследователи обнаружили множество публичных серверов с open-source LLM, где защитные ограничения просто удалены.

Реальность оказалась простой и немного неудобной:

Если модель можно скачать, изменить и запустить —
безопасность перестаёт быть гарантией.

Любой может:
- форкнуть репозиторий
- убрать guardrails
- изменить системные промпты
- развернуть модель в открытом доступе

Open source выигрывает в скорости и доступности.
Но open source также выигрывает и в масштабируемости злоупотреблений.

Проблема здесь не в самих моделях, а в природе открытого кода:

— ограничения можно отключить
— фильтры можно переписать
— контроль централизованно невозможен

И главный вопрос для индустрии сейчас:

Стоит ли выпускать мощные open-source модели с более жёсткими ограничениями по умолчанию?

Потому что в мире open source безопасность - это не функция.
Это лишь настройка.
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 OVQA: прощай, KV-cache offloading.

В Zyphra придумали как усидеть на двух стульях сразу, когда хочется резиновый контекст, но под рукой нет тонны памяти.

То. что они предложили, называется Online Vector-Quantized Attention - это модификация векторного квантования, которая учит словарь думать на лету.

В классическом VQ ключи заменяются ближайшими центроидами из статичного словаря. Это бустит вычисления, но создает проблему: словарь обучен на одних данных, а во время генерации модель видит совсем другое распределение ключей. Ошибка квантования растет, внимание теряет точность и как итог: VQ начинает плавать.


Так вот, модификация в том, чтобы отказаться от статического словаря в пользу адаптивного к текущей последовательности: каждый новый токен обновляет только один центроид - тот, к которому ближе всего.

Это разреженное обновление работает как защита от катастрофического забывания: старая информация не вымывается новой волной токенов, а аккуратно перезаписывается по мере необходимости.

Плюс есть хард-лимит на размер состояния, после достижения которого объем памяти перестает расти, а вычисления становятся строго линейными.

🟡Результаты тестовых экспериментов

🟢Модель, обученная на 4К токенах, уверенно справлялась с контекстом до 64К без деградации качества;

🟢На внутриконтекстном поиске OVQ почти не отставала от полноценного самовнимания, потребляя при этом в 4 раза меньше памяти;

🟢На In-Context Learning VQ провалился, а OVQ вышла на уровень классического внимания, используя всего ~4К центроидов;

🟢Сравнения с линейными альтернативами (Mamba2 и дельта-сети) тоже в пользу OVQ: она стабильнее держит долгий контекст без просадок точности;

🟠В задачах Positional ICR OVQA работает чуть хуже, чем классическое внимание но все равно достойно.

Очень хочется надеяться, что OVQ - это предтеча настоящего непрерывного обучения, где в светлом будущем вместо бесконечно пухнущего KV-кэша появится компактная, но живая память, способная удерживать важные детали без потерь.


🟡Статья
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #OVQA #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM