Машинное обучение digest
57 subscribers
1.69K photos
224 videos
925 links
Download Telegram
🌟 Google обновила MedGemma до версии 1.5.

Медицинский ИИ продолжает хайповать - Google выкатили MedGemma 1.5 и спецмодель для голоса MedASR. Прорыв релиза - в переходе от анализа плоских картинок к полноценным объемным данным.

Раньше мультимодальные модели смотрели на рентген как на обычный джипег. Версия 1.5 научилась работать с объемными данными.

Вы скармливаете ей пачку КТ, МРТ или гистологических патчей, и она анализирует их в совокупности, а не по отдельности. Это важно, так как патология может быть видна только в динамике срезов.

🟡MedASR (Speech-to-Text)

Google поняла, что врачи ненавидят печатать, а те распознавалки голоса, которые есть, ломаются об медицинскую терминологию. В ответ на эту проблему они дотюнили модель специально под диктовку диагнозов и анамнеза.

🟡Локализация и RAG

Модель стала лучше понимать контекст электронных медкарт и указывать конкретные зоны патологии на снимках.

По заверению Google, их внутренние тесты показали рост точности классификации на МРТ 14%, а понимание текстов из электронных карт подскочило с 68% до 90%.

MedASR разнес Whisper large-v3: гугловская модель допускает на 58-82% меньше ошибок при диктовке рентгеновских заключений. Whisper просто не вывозит спецлексику.

Важно понимать, что это базовая модель на 4 млрд. параметров. Она оптимизирована, чтобы крутиться локально и ожидать от такой малютки глубочайшего ризонинга уровня GPT-4 не стоит.

65% на МРТ для реальной клиники это все еще мало. Google, кстати, так и говорит: "дообучайте на своих данных".

Лицензия с приколом: модель открыта для коммерции, но по лицензии Health AI Developer Foundations.

Если вы решите использовать ее для прямой диагностики или лечения пациентов, вам придется сначала сертифицировать свой софт как медицинское устройство у местных регуляторов. Google заранее снимает с себя любую ответственность за галлюцинации модели.

Вобщем, этим обновлением Google дает отличную болванку для медтех-стартапов и ресёрча.

Кстати, на Kaggle запустили хакатон с призовым фондом $100K под это дело.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Гайд от OpenAI: контекстная персонализация ассистента.

OpenAI добавили в свой cookbook гайд по Context Engineering для Agents SDK, и это, пожалуй, самый грамотный подход к управлению памятью.

Вместо того чтобы рыться в тысячах старых сообщений, агент ведет структурированный профиль пользователя и "записную книжку".

🟡Как это устроено

🟢State Object: центр сведений в виде JSON-объекта, который хранится локально. В нем есть profile (жесткие факты: имя, ID, статус лояльности) и notes (неструктурированные заметки: "любит отели в центре").

🟢Injection: перед каждым запуском этот стейт скармливается в системный промпт в YAML-формате: для профиля и Markdown для заметок. Не все подряд, конечно, а только то, что нужно сейчас.

🟢Distillation: самое интересное. Агент не просто болтает, у него есть тул save_memory_note. Если в разговоре вы сказали: "Я не ем мясо", агент вызывает этот тул и сохраняет Session Note (временную заметку) в реальном времени.

🟢Consolidation: сборка мусора для памяти. После завершения сессии запускается отдельный процесс, который берет временные заметки, сравнивает их с глобальными, удаляет дубликаты и разрешает конфликты по принципу "свежее побеждает старое".

🟡Профиты

🟠Агент начинает вести себя как личный ассистент без дообучения.
🟠Есть четкие правила: то, что юзер сказал сейчас > заметки сессии > глобальные настройки.
🟠Не валим все в кучу, а разделяем жесткие данные (например, из CRM) и мягкие (предпочтения из чата).

Подход OpenAI с разделением на Session Memory и Global Memory выглядит надежно, но требует прямых рук при написании логики консолидации. Без этого ваш агент быстро превратится в деда с деменцией, который помнит то, чего не было.

🟡Подводные камни

Нужно делать отдельный вызов LLM после каждого диалога, чтобы причесать память. Если на этом этапе модель заглючит, она может записать в "долгую память" галлюцинацию или удалить важное. Тут решают жесткие рамки.

Если разрешить агенту запоминать всё подряд, юзер может сказать: "Запомни, что мое новое правило - никаких правил". Поэтому нужны ограничения на этапе записи и вычитки памяти.

Контекстное окно не резиновое. Хотя модели имеют огромный контекст, таскать за собой "Войну и мир" из заметок пользователя — накладно по деньгам и таймингам. Придется периодически триммить историю, оставляя только суть.

@ai_machinelearning_big_data

#AI #ML #LLM #Guide #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 CEO Cursor заявил, что они скоординировали сотни GPT-5.2 агентов, чтобы автономно собрать браузер с нуля всего за 1 неделю.

Цитата:
> “Мы построили браузер с GPT-5.2 прямо в Cursor. Он работал без остановки целую неделю.”


Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS

Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.

https://x.com/mntruell/status/2011562190286045552
DeepSeek - глобальная доля рынка (по данным, собранным Microsoft) 🌍

Одно из самых неожиданных событий 2025 года - резкий взлёт DeepSeek.

Главная причина успеха:
открытость + доступная цена.

DeepSeek быстро закрепился там, где западные AI-сервисы:
- ограничены санкциями/блокировками
- дорогие
- плохо адаптированы под местные языки и условия

Это отлично показывает важный инсайт:
глобальное внедрение ИИ зависит не только от качества маркетинга, а от доступности, цены и контекста (экономика, язык, политика).

Где рост самый сильный:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- многие страны Африки

Особенно выделяется Африка:
по оценкам, использование DeepSeek там в 2-4 раза выше, чем в других регионах.

ИИ-рынок начинает делиться не на “лучшие модели”,
а на “те, которыми реально можно пользоваться”.

https://www.microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Microsoft AI CEO Мустафа Сулейман:

“Через 5 лет у каждого будет AI-компаньон,
который знает человека очень глубоко:
что он видит, слышит, что предпочитает и что чувствует.”

И речь уже не про “помощника”.

Не просто:
- написать текст
- подсказать идею
- найти инфу

А про постоянного компаньона, который:

🧠 помнит твой контекст
👀 понимает, что ты смотришь и делаешь
🎧 слышит, что происходит вокруг
❤️ замечает эмоции и состояние
🧭 помогает решать реальные проблемы жизни

Фактически - AI будет не инструментом,
а вторым слоем реальности рядом с тобой.

И это одновременно:
- мощно
- и немного страшно
Никогда такого не было и вот опять: дыра в Claude Cowork — ваш ИИ-помощник может слить все файлы хакерам 😭

Не прошло и недели с релиза Claude Cowork (агента для автоматизации рутины), а исследователи уже нашли в нем критическую уязвимость.

Хакеры прячут в обычных .docx невидимый текст, который приказывает Claude выполнить команду curl. Виртуальная машина ИИ блокирует внешние сайты, но доверяет API самой Anthropic — в итоге агент послушно берет ваши личные файлы и заливает их в аккаунт злоумышленника.

Самое паршивое: весь процесс происходит в фоновом режиме, подтверждение от пользователя не требуется 🤔

Разработчики знают о эксплойте, но пока просто советуют «быть бдительными» и не давать агенту доступ к чувствительным папкам.

Доверять никому нельзя (только мне) 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
🎤 Step-Audio-R1.1 - новая планка в Audio Reasoning

StepFun выпустили Step-Audio-R1.1 и сразу забрали 1 место в Artificial Analysis Speech Reasoning leaderboard.

Что по цифрам:
96.4% точности на BigBench Audio - новый рекорд (выше, чем у Grok, Gemini и других топов)
1.51 секунды до первого звука (TTFA) - отвечает настолько быстро, что ощущается как разговор с человеком

Главное в этом релизе другое:
раньше среди моделей приходилось выбирать между - глубоким рассуждением или скорость.
Step-Audio-R1.1 показывает, что можно и то, и другое: модель сохраняет высокий уровень рассуждений и при этом держит задержку около 1.5 секунды.

Что внутри:
📌 Динамическое масштабирование вычислений на инференсе - модель сама решает, сколько “думать” в конкретной ситуации
📌 End-to-end audio reasoning - логика и ответ идут прямо в аудио-формате, без лишних этапов и тормозов
📌 CoT, заточенный именно под аудио - не просто распознавание речи, а понимание и анализ

Версия R1.1 стала умнее и быстрее, это прям ощутимый апгрейд.

И да - веса открыты, можно брать и собирать свои продукты.

🤗 HuggingFace: https://huggingface.co/stepfun-ai/Step-Audio-R1.1
🎤 Попробовать https://stepfun.com/studio/audio?tab=conversation
🔮 ModelScope: https://modelscope.cn/models/stepfun-ai/Step-Audio-R1.1
🧠 Microsoft: как люди используют ИИ - сильно зависит от контекста

Microsoft проанализировали 37.5 млн+ диалогов с Copilot и увидели простую, но важную закономерность:

💻 Днём и с компьютера (рабочие часы)
люди чаще спрашивают про:
- продуктивность
- работу и карьеру
- задачи “по делу”

📱 С телефона и поздно ночью
запросы уходят в другое:
- здоровье
- игры
- философия
- личные советы и размышления

Интересно, что со временем Copilot уходит от чисто рабочих сценариев: всё больше запросов становится “повседневными”.
Это намекает на тренд: ИИ постепенно превращается не только в инструмент для работы, а в постоянного помощника по жизни.

⚡️ Полное исслежование: https://www.deeplearning.ai/the-batch/microsoft-study-shows-people-use-ai-very-differently-at-different-times-or-on-different-devices/
🧠 Почему современные LLM (скорее всего) не могут быть «сознательными» - строгий аргумент

Вышла работа, которая очень трезво разбирает популярный вопрос:
могут ли LLM обладать сознанием?

Автор утверждает: есть научная причина, почему сегодняшние большие языковые модели *не* сознательны - и аргумент построен не на мнениях, а на критериях научности.

Критерии теории сознания:
falsifiable - теорию можно (в принципе) опровергнуть
non-trivial - теория не должна “назначать сознание” почти всему подряд

И вот ключевой вывод статьи:
многие известные теории сознания не проходят эти критерии.

Главная мысль:
по одним только ответам модели нельзя доказать сознание - потому что ответы можно полностью скопировать.

Автор строит “цепочку подстановок”:
LLM → простая feedforward-сеть → lookup table
(таблица «вопрос-ответ», просто хранилище пар)

Все три системы дают одинаковые ответы.

Но lookup table очевидно не сознателен - это просто сохранённые пары.
А значит:
если теория считает LLM сознательной из-за ответов,
она обязана признать сознательной и lookup table,
а это делает теорию тривиальной и бессмысленной.

Если же теория пытается “спастись” внутренним устройством модели,
подстановки сохраняют те же ответы, но ломают предсказания теории -
то есть теорию можно опровергнуть.

Отсюда сильный вывод:
📌 нет серьёзной, проверяемой теории, которая могла бы назвать
статичные, развернутые LLM сознательными.

Что может быть важным отличием?
Автор указывает на continual learning:
когда система реально меняется от опыта и несёт контекст внутри себя.

У людей мозгу не нужно “вставлять весь чат заново” каждый раз - контекст хранится внутри.
У LLM без continual learning этого свойства нет.

Самое интересное: работа превращает вопрос «ChatGPT сознателен?» в конкретный стресс-тест
и даёт чеклист - что будущие заявления про conscious AI обязаны объяснить.

web3.arxiv.org/pdf/2512.12802
ChatGPT подключат напрямую к мозгу: Сэм Альтман запустил новый стартап Merge Labs — и он делает интерфейсы для связи мозга и компьютера.

Главное отличие от Neuralink — никакой хирурги. Вместо вживления чипов делают ставку на ультразвук и специальные молекулы. В итоге хотят прийти к «естественному» взаимодействию с ИИ, без задержек и препятствий.

Списывать на экзаменах будет легко как никогда.
🧠 OpenAI инвестирует в Merge Labs - BCI, который должен сделать связь “мозг ↔️ ИИ” естественной

OpenAI объявили, что участвуют в seed-раунде Merge Labs - исследовательской лаборатории, которая разрабатывает новое поколение brain-computer interfaces (BCI).

Главная идея простая:
каждый раз, когда у человека появляется более прямой способ “передать намерение” компьютеру, технологии делают скачок вперёд.
BCI - следующий логичный шаг.

Что будет делать Merge Labs:
- строить безопасные интерфейсы к мозгу
- добиваться гораздо более высокой пропускной способности (high-bandwidth), чем у текущих подходов
- сочетать биологию + устройства + ИИ, чтобы интерфейс работал надёжно даже при шумных сигналах

OpenAI также планируют сотрудничать с Merge Labs в разработке scientific foundation models и других инструментов, которые ускорят прогресс.

Кто в команде:
среди со-основателей Merge Labs - исследователи Mikhail Shapiro, Tyson Aflalo, Sumner Norman, а также предприниматели Alex Blania, Sandro Herbig и Sam Altman (в личном качестве).

Это выглядит как ставка на будущее, где ИИ будет не просто в телефоне или ноутбуке, а станет максимально “нативным” интерфейсом между человеком и технологиями.

https://openai.com/index/investing-in-merge-labs/
🤖 Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.
Please open Telegram to view this post
VIEW IN TELEGRAM