Машинное обучение digest
60 subscribers
1.7K photos
225 videos
939 links
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Апскейлим любые видео до 4К бесплатно — вышла модель Crystal Upscaler, которая спасает любые ролики.

— Работает даже лучше топовых решений;
— Не добавляет мыла;
— Поддерживает масштабирование до 4К;
— И сохраняет детали!
— Можно пробовать бесплатно.

Пробуем на сайте, на Replicate или на FalAI 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Главные новости ИИ и машинного обучения за сегодня!

✔️ OpenAI открыла доступ к GPT-5.2 Codex через Responses API.

Модель, ранее доступная лишь в среде Codex, теперь предлагается широкому кругу разработчиков. OpenAI позиционирует версию 5.2 как инструмент для глубокого рефакторинга, написания сложной функциональности и аудита безопасности.

Модель поддерживает мультимодальный ввод и предлагает гибкую настройку глубины рассуждений — от низкого до очень высокого уровня.

За повышенную производительность придется платить: стоимость токенов выросла до $1.75 за миллион на вход и $14 на выход. Поддержка новой модели уже появилась в Cursor и Windsurf.
OpenAI Developers в сети X

✔️ Anthropic усиливает команду экспериментальных продуктов Labs.

Майк Кригер оставляет пост директора по продукту, чтобы сосредоточиться на создании новых инструментов в паре с Беном Манном. Руководство основной продуктовой стратегией переходит к Ами Вора, присоединившейся к компании в конце 2025 года; она возглавит Labs совместно с техническим директором Рахулом Патилом.

Подразделение зарекомендовало себя как генератор хитов Anthropic. Именно здесь родился Claude Code, который всего за 6 месяцев превратился в продукт с миллиардной выручкой и был разработан стандарт MCP, ставший отраслевым эталоном со 100 млн. загрузок ежемесячно.

Президент компании Даниэла Амодей говорит, что формат лаборатории позволяет действовать экстремально быстро: например, Cowork был создан с нуля именно в Labs всего за полторы недели.
anthropic.com

✔️ Z.AI представила модель GLM-Image.

GLM-Image стала важной вехой в технологической независимости КНР. Это первая модель, которая обучалась исключительно на китайском стеке - серверах Huawei Ascend Atlas 800T A2 и фреймворке MindSpore, без использования ускорителей NVIDIA.

Под капотом гибрид из 9-миллиардного авторегрессионного трансформера и 7-миллиардного диффузионного декодера на базе DiT. Разработчики утверждают, что такая связка превосходит конкурентов в рендеринге текста и создания инфографики.

API модели предлагается по цене примерно 1,5 цента за изображение, а веса выложены на HuggingFace и ModelScope.
z.ai

✔️ Google обновила модель Veo.

Google обновила свою видеомодель Veo до версии 3.1, добавив возможность генерации роликов с соотношением сторон 9:16, инструменты для апскейлинга до 4K и переработку функции референса по изображению.

3.1 лучше удерживает визуальную консистентность персонажей и окружения между сценами и точнее следует коротким промптам.

Новые возможности уже доступны в приложении Gemini, AI Studio и на Vertex AI.
blog.google

✔️ Скандал с суверенным ИИ в Южной Корее.

Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.

Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.

Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.
wsj.com

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Grok 4.20: ИИ нашёл новую Bellman-функцию и продвинул сложную задачу в анализе

По сообщениям, Grok 4.20 смог идентифицировать новую Bellman function, которая помогает продвинуться в одной из “тяжёлых” тем математики - на стыке:

- гармонического анализа
- стохастических процессов
- и поведения случайных средних

Самое интересное - ИИ не просто “угадал ответ”, а предложил явную формулу, основанную на времени выхода броуновского движения (exit time of Brownian motion).

Результат:
- удалось улучшить известную нижнюю оценку
- и приблизить математическое сообщество к более точному пониманию того,
как ведут себя средние значения в стохастических системах

Мы входим в эпоху, где ИИ ускоряет математику не на проценты - а на порядки. ⚡️

https://x.com/PI010101/status/2011560477688463573
🌟 Google обновила MedGemma до версии 1.5.

Медицинский ИИ продолжает хайповать - Google выкатили MedGemma 1.5 и спецмодель для голоса MedASR. Прорыв релиза - в переходе от анализа плоских картинок к полноценным объемным данным.

Раньше мультимодальные модели смотрели на рентген как на обычный джипег. Версия 1.5 научилась работать с объемными данными.

Вы скармливаете ей пачку КТ, МРТ или гистологических патчей, и она анализирует их в совокупности, а не по отдельности. Это важно, так как патология может быть видна только в динамике срезов.

🟡MedASR (Speech-to-Text)

Google поняла, что врачи ненавидят печатать, а те распознавалки голоса, которые есть, ломаются об медицинскую терминологию. В ответ на эту проблему они дотюнили модель специально под диктовку диагнозов и анамнеза.

🟡Локализация и RAG

Модель стала лучше понимать контекст электронных медкарт и указывать конкретные зоны патологии на снимках.

По заверению Google, их внутренние тесты показали рост точности классификации на МРТ 14%, а понимание текстов из электронных карт подскочило с 68% до 90%.

MedASR разнес Whisper large-v3: гугловская модель допускает на 58-82% меньше ошибок при диктовке рентгеновских заключений. Whisper просто не вывозит спецлексику.

Важно понимать, что это базовая модель на 4 млрд. параметров. Она оптимизирована, чтобы крутиться локально и ожидать от такой малютки глубочайшего ризонинга уровня GPT-4 не стоит.

65% на МРТ для реальной клиники это все еще мало. Google, кстати, так и говорит: "дообучайте на своих данных".

Лицензия с приколом: модель открыта для коммерции, но по лицензии Health AI Developer Foundations.

Если вы решите использовать ее для прямой диагностики или лечения пациентов, вам придется сначала сертифицировать свой софт как медицинское устройство у местных регуляторов. Google заранее снимает с себя любую ответственность за галлюцинации модели.

Вобщем, этим обновлением Google дает отличную болванку для медтех-стартапов и ресёрча.

Кстати, на Kaggle запустили хакатон с призовым фондом $100K под это дело.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Гайд от OpenAI: контекстная персонализация ассистента.

OpenAI добавили в свой cookbook гайд по Context Engineering для Agents SDK, и это, пожалуй, самый грамотный подход к управлению памятью.

Вместо того чтобы рыться в тысячах старых сообщений, агент ведет структурированный профиль пользователя и "записную книжку".

🟡Как это устроено

🟢State Object: центр сведений в виде JSON-объекта, который хранится локально. В нем есть profile (жесткие факты: имя, ID, статус лояльности) и notes (неструктурированные заметки: "любит отели в центре").

🟢Injection: перед каждым запуском этот стейт скармливается в системный промпт в YAML-формате: для профиля и Markdown для заметок. Не все подряд, конечно, а только то, что нужно сейчас.

🟢Distillation: самое интересное. Агент не просто болтает, у него есть тул save_memory_note. Если в разговоре вы сказали: "Я не ем мясо", агент вызывает этот тул и сохраняет Session Note (временную заметку) в реальном времени.

🟢Consolidation: сборка мусора для памяти. После завершения сессии запускается отдельный процесс, который берет временные заметки, сравнивает их с глобальными, удаляет дубликаты и разрешает конфликты по принципу "свежее побеждает старое".

🟡Профиты

🟠Агент начинает вести себя как личный ассистент без дообучения.
🟠Есть четкие правила: то, что юзер сказал сейчас > заметки сессии > глобальные настройки.
🟠Не валим все в кучу, а разделяем жесткие данные (например, из CRM) и мягкие (предпочтения из чата).

Подход OpenAI с разделением на Session Memory и Global Memory выглядит надежно, но требует прямых рук при написании логики консолидации. Без этого ваш агент быстро превратится в деда с деменцией, который помнит то, чего не было.

🟡Подводные камни

Нужно делать отдельный вызов LLM после каждого диалога, чтобы причесать память. Если на этом этапе модель заглючит, она может записать в "долгую память" галлюцинацию или удалить важное. Тут решают жесткие рамки.

Если разрешить агенту запоминать всё подряд, юзер может сказать: "Запомни, что мое новое правило - никаких правил". Поэтому нужны ограничения на этапе записи и вычитки памяти.

Контекстное окно не резиновое. Хотя модели имеют огромный контекст, таскать за собой "Войну и мир" из заметок пользователя — накладно по деньгам и таймингам. Придется периодически триммить историю, оставляя только суть.

@ai_machinelearning_big_data

#AI #ML #LLM #Guide #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 CEO Cursor заявил, что они скоординировали сотни GPT-5.2 агентов, чтобы автономно собрать браузер с нуля всего за 1 неделю.

Цитата:
> “Мы построили браузер с GPT-5.2 прямо в Cursor. Он работал без остановки целую неделю.”


Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS

Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.

https://x.com/mntruell/status/2011562190286045552
DeepSeek - глобальная доля рынка (по данным, собранным Microsoft) 🌍

Одно из самых неожиданных событий 2025 года - резкий взлёт DeepSeek.

Главная причина успеха:
открытость + доступная цена.

DeepSeek быстро закрепился там, где западные AI-сервисы:
- ограничены санкциями/блокировками
- дорогие
- плохо адаптированы под местные языки и условия

Это отлично показывает важный инсайт:
глобальное внедрение ИИ зависит не только от качества маркетинга, а от доступности, цены и контекста (экономика, язык, политика).

Где рост самый сильный:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- многие страны Африки

Особенно выделяется Африка:
по оценкам, использование DeepSeek там в 2-4 раза выше, чем в других регионах.

ИИ-рынок начинает делиться не на “лучшие модели”,
а на “те, которыми реально можно пользоваться”.

https://www.microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Microsoft AI CEO Мустафа Сулейман:

“Через 5 лет у каждого будет AI-компаньон,
который знает человека очень глубоко:
что он видит, слышит, что предпочитает и что чувствует.”

И речь уже не про “помощника”.

Не просто:
- написать текст
- подсказать идею
- найти инфу

А про постоянного компаньона, который:

🧠 помнит твой контекст
👀 понимает, что ты смотришь и делаешь
🎧 слышит, что происходит вокруг
❤️ замечает эмоции и состояние
🧭 помогает решать реальные проблемы жизни

Фактически - AI будет не инструментом,
а вторым слоем реальности рядом с тобой.

И это одновременно:
- мощно
- и немного страшно
Никогда такого не было и вот опять: дыра в Claude Cowork — ваш ИИ-помощник может слить все файлы хакерам 😭

Не прошло и недели с релиза Claude Cowork (агента для автоматизации рутины), а исследователи уже нашли в нем критическую уязвимость.

Хакеры прячут в обычных .docx невидимый текст, который приказывает Claude выполнить команду curl. Виртуальная машина ИИ блокирует внешние сайты, но доверяет API самой Anthropic — в итоге агент послушно берет ваши личные файлы и заливает их в аккаунт злоумышленника.

Самое паршивое: весь процесс происходит в фоновом режиме, подтверждение от пользователя не требуется 🤔

Разработчики знают о эксплойте, но пока просто советуют «быть бдительными» и не давать агенту доступ к чувствительным папкам.

Доверять никому нельзя (только мне) 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
🎤 Step-Audio-R1.1 - новая планка в Audio Reasoning

StepFun выпустили Step-Audio-R1.1 и сразу забрали 1 место в Artificial Analysis Speech Reasoning leaderboard.

Что по цифрам:
96.4% точности на BigBench Audio - новый рекорд (выше, чем у Grok, Gemini и других топов)
1.51 секунды до первого звука (TTFA) - отвечает настолько быстро, что ощущается как разговор с человеком

Главное в этом релизе другое:
раньше среди моделей приходилось выбирать между - глубоким рассуждением или скорость.
Step-Audio-R1.1 показывает, что можно и то, и другое: модель сохраняет высокий уровень рассуждений и при этом держит задержку около 1.5 секунды.

Что внутри:
📌 Динамическое масштабирование вычислений на инференсе - модель сама решает, сколько “думать” в конкретной ситуации
📌 End-to-end audio reasoning - логика и ответ идут прямо в аудио-формате, без лишних этапов и тормозов
📌 CoT, заточенный именно под аудио - не просто распознавание речи, а понимание и анализ

Версия R1.1 стала умнее и быстрее, это прям ощутимый апгрейд.

И да - веса открыты, можно брать и собирать свои продукты.

🤗 HuggingFace: https://huggingface.co/stepfun-ai/Step-Audio-R1.1
🎤 Попробовать https://stepfun.com/studio/audio?tab=conversation
🔮 ModelScope: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
🧠 Microsoft: как люди используют ИИ - сильно зависит от контекста

Microsoft проанализировали 37.5 млн+ диалогов с Copilot и увидели простую, но важную закономерность:

💻 Днём и с компьютера (рабочие часы)
люди чаще спрашивают про:
- продуктивность
- работу и карьеру
- задачи “по делу”

📱 С телефона и поздно ночью
запросы уходят в другое:
- здоровье
- игры
- философия
- личные советы и размышления

Интересно, что со временем Copilot уходит от чисто рабочих сценариев: всё больше запросов становится “повседневными”.
Это намекает на тренд: ИИ постепенно превращается не только в инструмент для работы, а в постоянного помощника по жизни.

⚡️ Полное исслежование: https://www.deeplearning.ai/the-batch/microsoft-study-shows-people-use-ai-very-differently-at-different-times-or-on-different-devices/
🧠 Почему современные LLM (скорее всего) не могут быть «сознательными» - строгий аргумент

Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?

Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.

Критерии теории сознания:
falsifiable - теорию можно (в принципе) опровергнуть
non-trivial - теория не должна “назначать сознание” почти всему подряд

И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.

Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.

Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)

Все три системы дают одинаковые ответы.

Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.

Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.

Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.

Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.

У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.

Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.

web3.arxiv.org/pdf/2512.12802