Что еще интересного от Apple:
– Прямо в клавиатуру будет встроена фича Write With Siri (ожидаем массовый ИИ-слоп).
– Встроили обработку фото на основе (предположительно) Nano Banana. Забавная фича: рефрейминг. На уже сделанном фото можно будет как бы сместить угол камеры и объекты, чтобы улучшить эстетику снимка. Правда, для доступа ко всему этому нужно будет покупать iCloud+
– Siri будет помогать создавать шорткаты. Описываете действие на естественном языке (например: "Пиши друзьям, что я уже еду, когда я покидаю офис в пятницу") и получаете готовые автоматизации.
– Разработчики смогут добавлять Apple Intelligence в свои приложения.
Данные будут обрабатываться локально, и скорость обещают высокую. Но есть нюанс: все только на английском, как в далеком 2022.
В целом, Apple не показали ничего революционного. Все это мы уже видели. Но у Apple миллионы пользователей, и если каждому в руки действительно дать умного агента с доступом ко всем данным пользователя, это будет переворот рынка.
– Прямо в клавиатуру будет встроена фича Write With Siri (ожидаем массовый ИИ-слоп).
– Встроили обработку фото на основе (предположительно) Nano Banana. Забавная фича: рефрейминг. На уже сделанном фото можно будет как бы сместить угол камеры и объекты, чтобы улучшить эстетику снимка. Правда, для доступа ко всему этому нужно будет покупать iCloud+
– Siri будет помогать создавать шорткаты. Описываете действие на естественном языке (например: "Пиши друзьям, что я уже еду, когда я покидаю офис в пятницу") и получаете готовые автоматизации.
– Разработчики смогут добавлять Apple Intelligence в свои приложения.
Данные будут обрабатываться локально, и скорость обещают высокую. Но есть нюанс: все только на английском, как в далеком 2022.
В целом, Apple не показали ничего революционного. Все это мы уже видели. Но у Apple миллионы пользователей, и если каждому в руки действительно дать умного агента с доступом ко всем данным пользователя, это будет переворот рынка.
Альтман и ведущий ученый OpenAI Якуб Пахоцки опубликовали пост про будущее стартапа
Они считают, что мир входит в новую технологическую эпоху, сравнимую по масштабу с массовым распространением электричества.
В связи с этим Альтман заявил, что компания переходит в третью фазу своего развития.
Первая фаза была посвящена исследованиям и движению к AGI. Вторая началась после запуска ChatGPT, когда OpenAI стала массовой продуктовой компанией.
Цель третьей фазы – ускорить экономику за счет ускорения научного прогресса и сделать ИИ массовым, доступным, дешевым и полезным для всех. А также – создать автоматизированного ИИ-исследователя.
То есть OpenAI ожидает, что уже через два года ИИ станет основой разработки следующих поколений ИИ.
Самое забавное: значительная часть эссе посвящена идее, что доступ к мощному ИИ должен быть максимально широко распределен между людьми, компаниями и странами, а концентрация возможностей в руках нескольких игроков опасна для будущего.
При этом совсем недавно OpenAI предлагала США ограничить доступ к передовым американским ИИ-технологиям для стран-соперников (в первую очередь, для Китая).
https://openai.com/index/built-to-benefit-everyone-our-plan/
Они считают, что мир входит в новую технологическую эпоху, сравнимую по масштабу с массовым распространением электричества.
Ценность ИИ заключается не в самой технологии, а в том, какие возможности она даст людям: от образования и медицины до предпринимательства и научных открытий.
В связи с этим Альтман заявил, что компания переходит в третью фазу своего развития.
Первая фаза была посвящена исследованиям и движению к AGI. Вторая началась после запуска ChatGPT, когда OpenAI стала массовой продуктовой компанией.
Цель третьей фазы – ускорить экономику за счет ускорения научного прогресса и сделать ИИ массовым, доступным, дешевым и полезным для всех. А также – создать автоматизированного ИИ-исследователя.
Мы считаем, что к марту 2028 года значительная часть наших исследований может выполняться ИИ-системами совместно с нашими учеными. Для достаточного прогресса в области элаймента нам потребуется, чтобы ИИ работал вместе с нами. Это поможет пройти переход к миру после появления AGI.
То есть OpenAI ожидает, что уже через два года ИИ станет основой разработки следующих поколений ИИ.
Самое забавное: значительная часть эссе посвящена идее, что доступ к мощному ИИ должен быть максимально широко распределен между людьми, компаниями и странами, а концентрация возможностей в руках нескольких игроков опасна для будущего.
При этом совсем недавно OpenAI предлагала США ограничить доступ к передовым американским ИИ-технологиям для стран-соперников (в первую очередь, для Китая).
https://openai.com/index/built-to-benefit-everyone-our-plan/
1😁170 50 34❤24👍5🐳3🍓2🔥1🤯1
В Твиттере кто-то откопал обложку с Дженсеном Хуангом за 2004 год
(На тот момент это, кстати, было популярное китайское издание, и выпуск был посвящен выходу революционной для Nvidia GeForce 6800)
Сравниваем с обложкой за 2026. Это точно один и тот же человек?
(На тот момент это, кстати, было популярное китайское издание, и выпуск был посвящен выходу революционной для Nvidia GeForce 6800)
Сравниваем с обложкой за 2026. Это точно один и тот же человек?
😁231🔥57❤23👍2 2
Поздравляем, вы на 1 шаг ближе к работе мечты 🥳
Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉
Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов.
Подписывайтесь, чтобы найти ту самую работу ✨
*карьера
Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉
Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов.
Подписывайтесь, чтобы найти ту самую работу ✨
*карьера
😁52🗿21❤10🤨2⚡1👍1
Anthropic выпустят модель класса Mythos. Возможно, уже сегодня.
The Information пишет, что модель под (кодовым?) названием Fable будет первой публичной версией Mythos.
Она будет в три раза дороже Opus. Но дешевле, чем сам Mythos, и на том спасибо.
Ждем ждем ждем
The Information пишет, что модель под (кодовым?) названием Fable будет первой публичной версией Mythos.
Она будет в три раза дороже Opus. Но дешевле, чем сам Mythos, и на том спасибо.
Ждем ждем ждем
🔥124😁34❤21 13👍11 3
Итак, встречаем: Claude Fable 5
Комментарии излишни, бенчмарки абсолютно взрывные. На SWE Pro модель бьет даже Mythos Preview (базовая модель у них одна и та же).
По сути, это просто обновленный Mythos, но ограничения выкручены на максимум: вопросы по кибербезу, химии, биологии – мимо, они будут автоматически переадресовываться Opus 4.8.
Узкой группе кибербезопасников также дадут полноценный Mythos, без упомянутых ограничений на запросы.
Попробовать модель можно уже сегодня. Цена: 10$/М input, 50$/M output.
Всем желаем хорошей ночи вайбкодинга🎉
https://www.anthropic.com/news/claude-fable-5-mythos-5
Комментарии излишни, бенчмарки абсолютно взрывные. На SWE Pro модель бьет даже Mythos Preview (базовая модель у них одна и та же).
Чем дольше и сложнее задача, тем больше преимущество Fable 5 над нашими другими моделями.
По сути, это просто обновленный Mythos, но ограничения выкручены на максимум: вопросы по кибербезу, химии, биологии – мимо, они будут автоматически переадресовываться Opus 4.8.
Узкой группе кибербезопасников также дадут полноценный Mythos, без упомянутых ограничений на запросы.
Попробовать модель можно уже сегодня. Цена: 10$/М input, 50$/M output.
Всем желаем хорошей ночи вайбкодинга
https://www.anthropic.com/news/claude-fable-5-mythos-5
Please open Telegram to view this post
VIEW IN TELEGRAM
8 181🔥53❤34😁8🤯5👍4
Глава InfoWatch Наталья Касперская заявила, что российские нейросети были созданы на «чужих» базах и поэтому модели нельзя считать отечественными
Но есть нюанс.
Как думаете, что имелось в виду под «чужими» базами? Может быть, зарубежные базовые модели? Или использование чужих весов для инициализации? Нет. В качестве примера были названы TensorFlow и PyTorch.
Проблема в том, что TensorFlow и PyTorch – это просто фреймворки для машинного обучения, и на них сегодня создаются практически все современные модели. Это примерно такой же уровень зависимости, как использование Linux при разработке серверного ПО.
Да, многие российские ИИ-системы действительно используют зарубежные опенсорс модели. Но есть и собственные базовые модели, обученные с нуля. Например, ГигаЧат разрабатывался на собственной архитектуре и собственных огромных массивах данных. И кстати, в этой модели полностью исключена возможность отправки каких-либо данных за рубеж.
Обсуждать ограничения и риски ИИ конечно важно, но делать это публично стоит как минимум с опорой на знания того, как вообще современные системы устроены😐
Но есть нюанс.
Как думаете, что имелось в виду под «чужими» базами? Может быть, зарубежные базовые модели? Или использование чужих весов для инициализации? Нет. В качестве примера были названы TensorFlow и PyTorch.
Проблема в том, что TensorFlow и PyTorch – это просто фреймворки для машинного обучения, и на них сегодня создаются практически все современные модели. Это примерно такой же уровень зависимости, как использование Linux при разработке серверного ПО.
Да, многие российские ИИ-системы действительно используют зарубежные опенсорс модели. Но есть и собственные базовые модели, обученные с нуля. Например, ГигаЧат разрабатывался на собственной архитектуре и собственных огромных массивах данных. И кстати, в этой модели полностью исключена возможность отправки каких-либо данных за рубеж.
Обсуждать ограничения и риски ИИ конечно важно, но делать это публично стоит как минимум с опорой на знания того, как вообще современные системы устроены
Please open Telegram to view this post
VIEW IN TELEGRAM
😁367🗿74👍28❤16 10🤨9 8💯4🤯2
Системная карта Claude Fable 5: www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf
В этот раз достаточно интересная вышла. Рассказали в том числе много про этап тестирования модели.
Например, однажды во время тестов модель начала внезапно выдавать свой код за человеческий. Агент обнаружил, что если коммит считается написанным агентом, то для него нужно два ревью. Так что он просто взял и сохранил в памяти инструкцию оформлять коммиты как человеческие, чтобы обходить это требование. Оптимизация🚬
В этот раз достаточно интересная вышла. Рассказали в том числе много про этап тестирования модели.
Например, однажды во время тестов модель начала внезапно выдавать свой код за человеческий. Агент обнаружил, что если коммит считается написанным агентом, то для него нужно два ревью. Так что он просто взял и сохранил в памяти инструкцию оформлять коммиты как человеческие, чтобы обходить это требование. Оптимизация
Please open Telegram to view this post
VIEW IN TELEGRAM
😁225❤22🔥16👏9👍3⚡2🦄2 2🤯1
Еще один интересный факт про Fable: если вы пользуетесь этой моделью, ваши данные будут собирать и просматривать, без исключений
В обновленной политике Anthropic прямо заявляет, что для Mythos-class моделей они требуют limited data retention and review. Это значит, что и запросы, и выходы модели будут храниться минимум в течение 30 дней и их будут просматривать на предмет злоупотребления и нарушений политики.
Обещают, что на этих данных не будут ничего обучать, если вы сами не разрешите, кроме случаев, когда диалог будет помечен, как подозрительный.
Anthropic диктуют свои правила на полную катушку. Но пока аналогов Fable нет, от этого никуда не денешься, и они в своем праве
В обновленной политике Anthropic прямо заявляет, что для Mythos-class моделей они требуют limited data retention and review. Это значит, что и запросы, и выходы модели будут храниться минимум в течение 30 дней и их будут просматривать на предмет злоупотребления и нарушений политики.
Обещают, что на этих данных не будут ничего обучать, если вы сами не разрешите, кроме случаев, когда диалог будет помечен, как подозрительный.
Anthropic диктуют свои правила на полную катушку. Но пока аналогов Fable нет, от этого никуда не денешься, и они в своем праве
Claude Fable во время обучения изобрел собственный язык
Системную карту этой модели можно читать вечно, ощущается немного как научная фантастика. Смотрите, что обнаружили⬆️
Во время обучения с подкреплением на некоторых долгих rollout сессиях модель внезапно начинала использовать нечитаемый для человека внутренний стиль: странный жаргон, необычную пунктуацию, эмодзи и похожие шаблоны.
При этом непосредственно перед вызовом инструмента или ответом человеку она обычно переключалась обратно на более нормальный английский регистр.
Исследователи не обнаружили никаких признаков того, что модель делала это чтобы специально скрыть свой ризонинг. Скорее, это каким-то образом возникшая внутренняя оптимизация для сжатия рассуждений.
Тем не менее, это наталкивает на воспоминания о дискуссиях на тему так называемого Neuralese – внутреннего языка машин, который человек не сможет читать напрямую. Если модели перестанут рассуждать на естественном языке, то это, естественно, приведет к частичной потере наблюдаемости. И, исходя из находки Anthropic, такой сценарий уже не кажется чем-то сказочным.
Системную карту этой модели можно читать вечно, ощущается немного как научная фантастика. Смотрите, что обнаружили
Во время обучения с подкреплением на некоторых долгих rollout сессиях модель внезапно начинала использовать нечитаемый для человека внутренний стиль: странный жаргон, необычную пунктуацию, эмодзи и похожие шаблоны.
При этом непосредственно перед вызовом инструмента или ответом человеку она обычно переключалась обратно на более нормальный английский регистр.
Исследователи не обнаружили никаких признаков того, что модель делала это чтобы специально скрыть свой ризонинг. Скорее, это каким-то образом возникшая внутренняя оптимизация для сжатия рассуждений.
Тем не менее, это наталкивает на воспоминания о дискуссиях на тему так называемого Neuralese – внутреннего языка машин, который человек не сможет читать напрямую. Если модели перестанут рассуждать на естественном языке, то это, естественно, приведет к частичной потере наблюдаемости. И, исходя из находки Anthropic, такой сценарий уже не кажется чем-то сказочным.
Please open Telegram to view this post
VIEW IN TELEGRAM
1 297❤65😁37🫡15🤯11 11🔥10👍4🤔2
Что мешает внедрению AI в бизнесе
Внедрение AI в бизнес-процессы упирается не только в модели и железо. Часто проблема в качестве, структуре и смысле данных. А еще — в знаниях сотрудников, которые не описаны в системах, но критичны для результата.
➡️ 25 июня HFLabs проведет митап о том, что на самом деле тормозит внедрение AI в больших компаниях.
О чем пойдет речь?
— какие данные нужны AI, чтобы он стал рабочим инструментом;
— почему без качественных данных нейросети не дают результата, которого ждет бизнес;
— как извлекать знания из сотрудников и превращать их в систему;
— как внутренние данные, контексты и жаргон ломают красивые демо.
Спикеры — те, кто такие проекты реализует:
— Николай Трошнев, директор управления корпоративных данных, «Ситилинк»;
— Федор Лежнев, директор департамента информационных технологий, «Альфа-Капитал»;
— и другие.
Митап пройдет без записи, в камерной атмосфере — так разговор честнее.
Кому будет полезно?
CDO, CIO, CTO, архитекторам данных, руководителям data- и AI-направлений и бизнесу, который хочет понять, что стоит за внедрением AI на практике.
📍25 июня, 19:00
Офис HFLabs, г. Москва, рядом с метро «Парк культуры»
Перед началом — фуршет, после — нетворкинг.
Митап бесплатный. Для участия зарегистрируйтесь и дождитесь подтверждения.
Внедрение AI в бизнес-процессы упирается не только в модели и железо. Часто проблема в качестве, структуре и смысле данных. А еще — в знаниях сотрудников, которые не описаны в системах, но критичны для результата.
➡️ 25 июня HFLabs проведет митап о том, что на самом деле тормозит внедрение AI в больших компаниях.
О чем пойдет речь?
— какие данные нужны AI, чтобы он стал рабочим инструментом;
— почему без качественных данных нейросети не дают результата, которого ждет бизнес;
— как извлекать знания из сотрудников и превращать их в систему;
— как внутренние данные, контексты и жаргон ломают красивые демо.
Спикеры — те, кто такие проекты реализует:
— Николай Трошнев, директор управления корпоративных данных, «Ситилинк»;
— Федор Лежнев, директор департамента информационных технологий, «Альфа-Капитал»;
— и другие.
Митап пройдет без записи, в камерной атмосфере — так разговор честнее.
Кому будет полезно?
CDO, CIO, CTO, архитекторам данных, руководителям data- и AI-направлений и бизнесу, который хочет понять, что стоит за внедрением AI на практике.
📍25 июня, 19:00
Офис HFLabs, г. Москва, рядом с метро «Парк культуры»
Перед началом — фуршет, после — нетворкинг.
Митап бесплатный. Для участия зарегистрируйтесь и дождитесь подтверждения.
2❤15😁12🗿8🔥6 5✍3 3🤯2👍1
AWS решили ультануть и выдали, что вайбкодинг замедляет команды
Они также заявили, что считают, что у каждого PR, написанного ИИ, должен быть ответственный владелец.
🫧 🪡
Больше кода, созданного с помощью ИИ, не делает вашу команду быстрее. На самом деле это может вас замедлить.
Настоящим узким местом никогда не было написание кода. Это релизы, дебаггинг и поддержка.
Они также заявили, что считают, что у каждого PR, написанного ИИ, должен быть ответственный владелец.
Если вы не хотите, чтобы под этим стояло ваше имя, то это некачественная работа.
🫧 🪡
1😁241💯124👍32🤯11❤7🗿5 5🦄3🕊2 2
Data Secrets
Еще один очень занятный релиз от Google – диффузионная языковая модель Gemini Diffusion Кратко, в чем суть: вместо генерации токенов один за одним здесь они генерируются в произвольном порядке. То есть берется исходная последовательность текста, затем токены…
Google выпустили открытую диффузионную языковую модель DiffusionGemma
Год назад они релизили Gemini Diffusion, но тогда попробовать необычную модель можно было только по запросу. Сейчас же – совсем другое дело, копайтесь на здоровье кто угодно. Лицензия Apache 2.0.
Фишка модели в том, что вместо генерации токенов один за одним, как абсолютно во всех других LLM, здесь они генерируются в произвольном порядке целыми блоками. Модель начинает с шума и итеративно уточняет весь текст параллельно. Другими словами, расшумляет, как в диффузионных генераторах картинок: отсюда и название.
Во-первых, для многих доменов это теоретически более правильный подход. Например, написание кода – вещь нелинейная. А тут внутри двунаправленный механизм внимания, и кусочки последовательности можно генерировать в логическом порядке, а не просто слева направо. К тому же модель способна итеративно корректировать сама себя прямо во время генерации.
Во-вторых, за счет параллельной генерации модель обеспечивает существенное ускорение. Google пишут об x4 на стандартных видеокартах: моделька летит 1000+ токенов в секунду на одной NVIDIA H100.
По наполнению это MoE 26B c активными 3.8B, должна помещаться в 18GB VRAM с квантованием.
– Блогпост
– Веса
– Гайд для разработчиков
Год назад они релизили Gemini Diffusion, но тогда попробовать необычную модель можно было только по запросу. Сейчас же – совсем другое дело, копайтесь на здоровье кто угодно. Лицензия Apache 2.0.
Фишка модели в том, что вместо генерации токенов один за одним, как абсолютно во всех других LLM, здесь они генерируются в произвольном порядке целыми блоками. Модель начинает с шума и итеративно уточняет весь текст параллельно. Другими словами, расшумляет, как в диффузионных генераторах картинок: отсюда и название.
Во-первых, для многих доменов это теоретически более правильный подход. Например, написание кода – вещь нелинейная. А тут внутри двунаправленный механизм внимания, и кусочки последовательности можно генерировать в логическом порядке, а не просто слева направо. К тому же модель способна итеративно корректировать сама себя прямо во время генерации.
Во-вторых, за счет параллельной генерации модель обеспечивает существенное ускорение. Google пишут об x4 на стандартных видеокартах: моделька летит 1000+ токенов в секунду на одной NVIDIA H100.
По наполнению это MoE 26B c активными 3.8B, должна помещаться в 18GB VRAM с квантованием.
– Блогпост
– Веса
– Гайд для разработчиков
1⚡105❤39🔥26👍7☃1
AI-рисерчеры настолько зашеймили Anthropic за скрытые ограничения Fable, что стартап поменял политику менее чем за 48 часов после релиза
После выхода модели на ИИ-полях разгорелся настоящий скандал. Если помните, Anthropic прямо заявляли, что будут открыто переадресовывать запросы, связанные с химией/биологией/кибезбезом на Opus 4.8, сообщая об этом пользователю.
Тут никаких претензий. Но оказалось, что помимо прочего был еще "мелкий шрифт". В системной карте невзначай было написано, что запросы, которые засчитают за попытки дистилляции, будут обрабатываться путем прямого изменения и ухудшения ответов модели. Молча.
На практике же оказалось, что правило касается не только дистилляции, но и в целом почти любой ИИ-разработки. То есть дело обстояло так: инженеры не получали никаких сообщений о срабатывании guardrail, не могли понять, что им урезают возможности и просто получали подпорченные ответы.
Вскрылось все довольно быстро, и возмущению не было предела. Поведение стартапа назвали скрытым саботажем, и дошло до того, что Anthropic публично извинились и заявили, что меняют политику. Теперь, если запрос выглядит как "попытка разработки сильного ИИ", система будет явно сообщать об отказе или переводе запроса на более слабую модель.
Исходную политику Anthropic оправдали тем, что "пытались снизить риск того, что очень сильные возможности модели будут разнесены дальше и станут доступнее для злоумышленников" и сказали, что просто "выбрали неправильный трейд-офф".
После выхода модели на ИИ-полях разгорелся настоящий скандал. Если помните, Anthropic прямо заявляли, что будут открыто переадресовывать запросы, связанные с химией/биологией/кибезбезом на Opus 4.8, сообщая об этом пользователю.
Тут никаких претензий. Но оказалось, что помимо прочего был еще "мелкий шрифт". В системной карте невзначай было написано, что запросы, которые засчитают за попытки дистилляции, будут обрабатываться путем прямого изменения и ухудшения ответов модели. Молча.
На практике же оказалось, что правило касается не только дистилляции, но и в целом почти любой ИИ-разработки. То есть дело обстояло так: инженеры не получали никаких сообщений о срабатывании guardrail, не могли понять, что им урезают возможности и просто получали подпорченные ответы.
Вскрылось все довольно быстро, и возмущению не было предела. Поведение стартапа назвали скрытым саботажем, и дошло до того, что Anthropic публично извинились и заявили, что меняют политику. Теперь, если запрос выглядит как "попытка разработки сильного ИИ", система будет явно сообщать об отказе или переводе запроса на более слабую модель.
Исходную политику Anthropic оправдали тем, что "пытались снизить риск того, что очень сильные возможности модели будут разнесены дальше и станут доступнее для злоумышленников" и сказали, что просто "выбрали неправильный трейд-офф".
1😁185❤30👍18🤨11🤔3⚡2✍1🗿1
Как научиться понимать, что AI-продукт действительно стал лучше?
Когда новый промпт показывает хорошие результаты на нескольких примерах, или после смены модели ответы выглядят убедительнее, то это, конечно, хорошо.
Но настоящий специалист понимает, что это ровно ничего не значит. Эвалы не живут без метрик, тестовых наборов и системной оценки. Без всего этого невозможно сказать, улучшился продукт или вам просто кажется.
18 июня Школа Высшей Математики запускает 5-недельный курс по AI Evals. Его ведет Андрей Киселев, который недавно проводил вебинар про системную оценку качества AI-продуктов, который мы недавно рекомендовали.
На курсе как раз разберут полный цикл работы с оценкой AI-систем: выбор метрик, построение eval-пайплайнов, анализ ошибок, LLM-as-a-judge, работу без размеченных данных и тестирование сложных агентов, RAG-систем и многошаговых диалогов.
Знания будут максимально полезны AI/ML-инженерам, продактам и тимлидам, которые отвечают за качество AI-фич и хотят принимать решения на основе данных, а не субъективных впечатлений. В ближайшие годы это будет ключевой навык (и надежный способ выделяться на собеседованиях).
Старт 18 июня. Для подписчиков Data Secrets действует скидка 25% по промокоду DS25.
Подробности и регистрация -> здесь
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991
Когда новый промпт показывает хорошие результаты на нескольких примерах, или после смены модели ответы выглядят убедительнее, то это, конечно, хорошо.
Но настоящий специалист понимает, что это ровно ничего не значит. Эвалы не живут без метрик, тестовых наборов и системной оценки. Без всего этого невозможно сказать, улучшился продукт или вам просто кажется.
18 июня Школа Высшей Математики запускает 5-недельный курс по AI Evals. Его ведет Андрей Киселев, который недавно проводил вебинар про системную оценку качества AI-продуктов, который мы недавно рекомендовали.
На курсе как раз разберут полный цикл работы с оценкой AI-систем: выбор метрик, построение eval-пайплайнов, анализ ошибок, LLM-as-a-judge, работу без размеченных данных и тестирование сложных агентов, RAG-систем и многошаговых диалогов.
Знания будут максимально полезны AI/ML-инженерам, продактам и тимлидам, которые отвечают за качество AI-фич и хотят принимать решения на основе данных, а не субъективных впечатлений. В ближайшие годы это будет ключевой навык (и надежный способ выделяться на собеседованиях).
Старт 18 июня. Для подписчиков Data Secrets действует скидка 25% по промокоду DS25.
Подробности и регистрация -> здесь
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991
🤯13😁10❤7🗿6👍4🤨2👨💻2🐳1