Вы выбираете метрику расстояния для своей базы данных эмбеддингов.
В каком случае Косинусное сходство (Cosine Similarity) предпочтительнее Евклидова расстояния (L2)?
В каком случае Косинусное сходство (Cosine Similarity) предпочтительнее Евклидова расстояния (L2)?
Anonymous Quiz
15%
Когда нам важна абсолютная величина (длина) векторов (например, популярность товара)
84%
Когда нам важно только направление векторов, а их длина может варьироваться из-за объема текста
1%
Когда данные состоят только из целых чисел
1%
Косинусное сходство всегда работает медленнее, поэтому его не используют
❤1
😱 Если ваш продукт не умеет отдавать данные в формате, понятном AI-агенту, то вас просто не существует
Скрипт не будет кликать по красивым кнопкам в браузере, он уйдёт к конкуренту с нормальным API. Перестроить архитектуру под машинных клиентов — это уже не хайп, а необходимое условие сохранения конкурентоспособности.
Как адаптировать продукт и не исчезнуть из выдачи:
— интегрировать
— научиться контролировать стоимость (лимиты, кэш, роутинг между моделями);
— настроить AgentOps: трейсинг, логирование и отлов регрессий.
Всё это ждёт вас на обновлённом курсе «Разработка AI-агентов». Мы специально сделали фокус на утилитарном инжиниринге и production-ready решениях.
Кстати, до 29 марта можно забрать курс с большой скидкой, и стоит поторопиться — мест на потоке всё меньше.
Зафиксировать цену и начать деплоить агентов без слива бюджета 👈
Скрипт не будет кликать по красивым кнопкам в браузере, он уйдёт к конкуренту с нормальным API. Перестроить архитектуру под машинных клиентов — это уже не хайп, а необходимое условие сохранения конкурентоспособности.
Как адаптировать продукт и не исчезнуть из выдачи:
— интегрировать
MCP и A2A-взаимодействие, чтобы агенты могли вас читать;— научиться контролировать стоимость (лимиты, кэш, роутинг между моделями);
— настроить AgentOps: трейсинг, логирование и отлов регрессий.
Всё это ждёт вас на обновлённом курсе «Разработка AI-агентов». Мы специально сделали фокус на утилитарном инжиниринге и production-ready решениях.
Кстати, до 29 марта можно забрать курс с большой скидкой, и стоит поторопиться — мест на потоке всё меньше.
Зафиксировать цену и начать деплоить агентов без слива бюджета 👈
Этот подход считается «золотым стандартом» для автономных агентов.
В чем заключается основная петля цикла ReAct?
В чем заключается основная петля цикла ReAct?
Anonymous Quiz
5%
Модель сначала пишет весь код, а потом один раз его запускает
88%
Модель чередует генерацию мыслей и вызов инстр-тов, чтобы получить результат и скорректировать шаг
5%
Модель просто повторяет запрос пользователя, пока не найдет ответ
1%
Это метод автоматического перевода мыслей в SQL-запросы
Модель CLIP от OpenAI стала фундаментом для Stable Diffusion и Midjourney. Как именно она училась понимать связь между картинкой и текстом?
Anonymous Quiz
5%
Она попиксельно перерисовывала фотографии в текст
79%
Она училась сопоставлять пары «изображение-описание»
2%
Этот метод используется только для картинок
1%
Она запоминала названия всех файлов и присвоивала рейтинг
13%
Модель впервые обладала вниманием, что позволила работать с длинным контекстом
👍1🤩1
Вы подаете на вход модели изображение панды, но добавляете к нему микроскопический «шум», невидимый для человеческого глаза. Модель с уверенностью 99% говорит, что это «гиббон».
Как называется этот феномен в глубоком обучении?
Как называется этот феномен в глубоком обучении?
Anonymous Quiz
27%
Галлюцинация
41%
Adversarial Example
29%
Нейронный шум
4%
Ошибка округления
При обучении классификаторов (включая LLM) часто используют Label Smoothing (размытие меток).
Какую фундаментальную проблему переобучения решает этот метод?
Какую фундаментальную проблему переобучения решает этот метод?
Anonymous Quiz
13%
Он помогает модели лучше обрабатывать редкие токены (Out-of-Vocabulary)
71%
Он предотвращает ситуацию, когда модель становится «слишком уверенной» (overconfident)
9%
Он автоматически корректирует дисбаланс классов в датасете
6%
Он заменяет Hard Attention на Soft Attention на уровне функции потерь
❤1👍1
🤖 Освойте продвинутые методы NLP и работайте с LLM на высоком уровне
Хотите разбираться в архитектуре LLM, дообучать модели под свои задачи и применять самые передовые NLP-методы?
Курс «NLP. Advanced» научит вас работать с трансформерными моделями, адаптировать GPT, BERT, LangChain и RAG под реальные бизнес-кейсы, а также развертывать AI-решения.
Вы освоите передовые методики машинного обучения для NLP, получите опыт работы с cutting-edge технологиями и расширите карьерные перспективы.
🔥Подайте заявку на курс уже сегодня и получите специальное предложение в честь дня рождения ОТУС:
+10% к скидкам на сайте по промокоду birthday до 04.04
+5% по промокоду go_qa5
🎁Соберите скидку до 25%
➡️ Оставьте заявку прямо сейчас и получите скидку на обучение: https://clc.to/fNeiMw
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Хотите разбираться в архитектуре LLM, дообучать модели под свои задачи и применять самые передовые NLP-методы?
Курс «NLP. Advanced» научит вас работать с трансформерными моделями, адаптировать GPT, BERT, LangChain и RAG под реальные бизнес-кейсы, а также развертывать AI-решения.
Вы освоите передовые методики машинного обучения для NLP, получите опыт работы с cutting-edge технологиями и расширите карьерные перспективы.
🔥Подайте заявку на курс уже сегодня и получите специальное предложение в честь дня рождения ОТУС:
+10% к скидкам на сайте по промокоду birthday до 04.04
+5% по промокоду go_qa5
🎁Соберите скидку до 25%
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
В большинстве современных библиотек (PyTorch, TensorFlow) параметры оптимизатора AdamW отделяют Weight Decay от вычисления градиента.
В чем заключается техническая причина появления AdamW вместо обычного Adam с L2-регуляризацией?
В чем заключается техническая причина появления AdamW вместо обычного Adam с L2-регуляризацией?
Anonymous Quiz
31%
В Adam обычная L2-регуляризация работает некорректно, т.к. она смешивается с адаптивными моментами
37%
Weight Decay в AdamW работает быстрее, т.к. не требует вычисления второй производной функции потерь
25%
AdamW позволяет использовать разные коэф-ты регуляризации для матриц Attention и полносвязных слоев
8%
Обычный Adam не поддерживает регуляризацию для тензоров в формате FP16 из-за ошибок округления
Почему практически все современные SOTA-модели используют LR Warmup (постепенное увеличение шага обучения в начале)?
Anonymous Quiz
60%
Чтобы дать оптимизатору Adam время «прогреть» moments и накопить адекватную статистику по градиентам
28%
Первый шаг может выбросить модель в область, из которой она не вернется к оптимальному минимуму
8%
Это нужно, чтобы Batch Normalization успела рассчитать среднее и дисперсию по первым батчам данных
3%
Это защитный механизм, предотвращающий перегрев GPU при резком старте интенсивных вычислений
При создании Data Lake для обучения моделей почти всегда выбирают Apache Parquet.Какая структурная особенность Parquet делает его на порядки эффективнее для аналитических запросов (например, «посчитать среднюю длину всех постов»)?
Anonymous Quiz
18%
Parquet сжимает данные с помощью алгоритма ZIP, что позволяет хранить в 10 раз больше текста
61%
Это columnar формат. При запросе признака система читает с диска только нужные столбцы.
2%
Он автоматически переводит все строки на английский язык, унифицируя данные для токенизатора
18%
Parquet — это бинарный формат, который исполняется напрямую процессором GPU без участия ОП
👍1
Вы готовите временные ряды для предсказания курса акций. Вы решили нормализовать данные (Scaling), вычислив среднее и стандартное отклонение по всему имеющемуся датасету перед разбиением на Train и Test.
К какой ошибке в оценке модели это приведет?
К какой ошибке в оценке модели это приведет?
Anonymous Quiz
3%
Модель будет обучаться слишком долго, так как нормализация больших чисел требует много ресурсов
19%
Нормализация по всему датасету сделает веса модели маленькими, что приведет к затуханию градиента
2%
Это приведет к дублированию строк в базе данных SQL
76%
Произойдет «утечка будущего»
👍1
В оригинальной архитектуре ViT к последовательности патчей изображения добавляется специальный обучаемый вектор — [CLS] token.Какую именно роль он играет при классификации всей картинки, в отличие от векторов отдельных патчей?
Anonymous Quiz
15%
Он служит «якорем» для нормализации яркости всех остальных патчей перед подачей в механизм Attention
56%
При прохождении через трансформер он агрегирует информацию со всех патчей за счет Self-Attention
21%
Он используется для сегментации объектов: указывает, какой патч является фоном, а какой - объектом
8%
Он нужен для сохранения исходного разрешения, так как при разбиении на патчи часть пикселей теряется
❤1
Алгоритмы вроде YOLO часто выдают несколько bounding boxes вокруг одного и того же объекта с разной степенью уверенности. Для очистки используется Non-Maximum Suppression.
На основе какого показателя NMS решает, что две рамки относятся к одному объекту?
На основе какого показателя NMS решает, что две рамки относятся к одному объекту?
Anonymous Quiz
13%
На основе разницы в площади (Area difference) между рамками
76%
На основе метрики Intersection over Union (IoU)
2%
На основе среднего цвета пикселей внутри каждой рамки
9%
На основе евклидова расстояния между левыми верхними углами рамок
🔥1