Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки.
Какой вид регуляризации вам следует использовать?
Какой вид регуляризации вам следует использовать?
Anonymous Quiz
60%
L1-регуляризация
27%
L2-регуляризация
8%
Dropout
5%
Batch Normalization
В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?
Anonymous Quiz
28%
Macro-averaging
46%
Weighted-averaging
10%
Simple-averaging
15%
Micro-averaging
❤3
Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким.
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Anonymous Quiz
17%
LN вычисляет статистику по всему обучающему набору данных заранее, что ускоряет инференс
58%
LN вычисляет среднее и дисперсию для каждого отдельного примера по всем его признакам
17%
LN использует L1-регуляризацию внутри слоя, что автоматически обнуляет бесполезные веса
8%
BN математически несовместима с механизмом Self-Attention
👍2❤1
При использовании Layer Normalization (LN) в архитектуре Transformer, в чем заключается основное преимущество стратегии 'Pre-LN' (нормализация перед блоком Attention/FFN) по сравнению с оригинальной 'Post-LN'?
Anonymous Quiz
31%
Она делает модель устойчивой к очень большим размерам батча (batch size)
8%
Она позволяет избежать использования механизма Dropout в глубоких слоях
10%
Pre-LN значительно увеличивает вычислительную сложность каждого шага обучения
51%
Она создает прямой путь для градиентов, облегчая обучение экстремально глубоких сетей
❤1
В оптимизаторе AdamW была введена модификация классического Adam. Какую конкретную проблему она решает при использовании L2-регуляризации?
Anonymous Quiz
9%
Необходимость ручного подбора начальной скорости обучения (learning rate)
16%
Проблему исчезающего градиента в рекуррентных слоях
10%
Медленную сходимость на разреженных (sparse) данных
65%
Некорректное взаимодействие адаптивного шага обучения и штрафа за веса (weight decay)
Вы обучаете ViT на маленьком наборе данных (например, 10 000 картинок) и замечаете, что он безнадежно проигрывает старой доброй ResNet той же сложности. Однако на огромном датасете ViT внезапно обходит CNN.
В чем основная причина такой динамики?
В чем основная причина такой динамики?
Anonymous Quiz
2%
ViT требует использования только ч/б изображений для стабильности
75%
Из-за отсутствия жесткого индук. смещения ViT обладает большей гибкостью, но требует больших данных
5%
Сверточные слои физически не могут работать с большими разрешениями
18%
В ViT используется L1-регуляризация, которая стирает мелкие детали на малых выборках
👍4
Представьте, что у вас есть 10 миллионов фотографий из интернета, но нет ни одной метки. Вы используете SimCLR, чтобы научить модель извлекать полезные признаки.
Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?
Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?
Anonymous Quiz
6%
Mean Squared Error
69%
InfoNCE (Contrastive Loss / Cross-Entropy на парах)
11%
Huber Loss
14%
Binary Cross-Entropy на уровне пикселей
❤2👍2
Вы разворачиваете модель уровня Llama 3 или GPT-4 для высоконагруженного чат-бота. При генерации длинных ответов VRAM заканчивается очень быстро, а скорость генерации падает.
Для решения этой проблемы используется KV Caching. Что именно она делает?
Для решения этой проблемы используется KV Caching. Что именно она делает?
Anonymous Quiz
9%
Она сохраняет веса всей модели в оперативной памяти CPU, чтобы освободить GPU
77%
Она сохраняет вычисленные векторы Key и Value для всех предыдущих токенов
12%
Она сжимает контекст в один короткий вектор с помощью автоэнкодера
2%
Она предсказывает сразу 5 следующих слов вместо одного, используя теорию вероятностей
👍3
«Этот манёвр будет стоить нам 51 год...»
— или потерю шанса на
19 января в Proglib Academy вырастут цены. Успейте забрать курсы по
— Разработка ИИ-агентов
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Подготовиться к собеседованиям
⚠️ Стоимость изменится 19 января
— или потерю шанса на
Senior-позицию из-за «поплывшей» математики на тех-интервью. В Data Science теоремы и алгоритмы — это фундамент, без которого не построить ни одну серьёзную модель.19 января в Proglib Academy вырастут цены. Успейте забрать курсы по
Math, ML и AI по старой стоимости:— Разработка ИИ-агентов
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Подготовиться к собеседованиям
⚠️ Стоимость изменится 19 января
😁1
Вы хотите дообучить модель Llama 3 на своих личных переписках, чтобы она имитировала ваш стиль общения. Вместо того чтобы менять все веса огромных матриц модели, вы решаете использовать LoRA.
В чем заключается этот метод?
В чем заключается этот метод?
Anonymous Quiz
21%
Он просто отключает (freeze) 99% слоев, оставляя только последний
56%
Он представляет изменение весов в виде произведения двух матриц низкого ранга
3%
Он переводит все веса модели в 1-битный формат
20%
Он использует внешнюю базу данных (RAG) вместо изменения внутренних весов
👍2
Вы строите корпоративного ассистента, который должен отвечать на вопросы сотрудников по внутренним документам (которые модель никогда не видела при обучении). Вместо Fine-tuning, вы внедряете архитектуру RAG.
Как именно работает этот механизм?
Как именно работает этот механизм?
Anonymous Quiz
85%
Система ищет текст в БД, добавляет его в контекст модели, и только после этого генерируется ответ
4%
Модель генерирует ответ на основе своей памяти, а потом проверяет его правильность в Google
9%
Модель использует слой нейронов, который физически расширяется при добавлении новых документов
2%
Вопрос переводится на язык SQL, чтобы модель могла напрямую менять веса своих слоев
👍1
ViT разбивает изображение на патчи и вычисляет внимание между патчами. Если мы увеличим разрешение фото в 2 раза, количество вычислений вырастет в 16 раз.
Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?
Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?
Anonymous Quiz
6%
Он удаляет 75% пикселей перед обработкой
75%
Он вычисляет внимание внутри локальных окон, которые сдвигаются на каждом слое
10%
Он заменяет механизм внимания на обычные свертки 3×3
9%
Он использует только один слой внимания в самом конце сети
❤2👍2
В отличие от GAN, где 2 сети соревнуются, диффузионные модели обучаются на процессе постепенного разрушения данных.
В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?
В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?
Anonymous Quiz
3%
Предсказать, какой объект изображен на картинке
93%
Предсказать и «вычесть» шум, который был добавлен к изображению на текущем этапе
2%
Сжать изображение в 10 раз для экономии памяти
2%
Перевести текстовый запрос пользователя в набор пикселей
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
RAG или Fine-tuning: что отвечать на собеседовании?
Вопросы по архитектуре LLM-систем становятся стандартом. 23 января в 19:00 на открытом уроке к курсу «Разработка ИИ агентов» разберём матчасть: как работают
Ведущий — Игорь Стурейко, тимлид в «Газпроме» и AI-архитектор. В своём видеосообщении Игорь делится опытом построения сложных ML-решений и рассказывает о программе подготовки специалистов по агентам.
Ключевые концепции:
— разница между параметрической и внешней памятью модели;
— использование
— пайплайны обработки документов с помощью
📅 Когда: 23.01 в 19:00 МСК
Узнать подробности
Вопросы по архитектуре LLM-систем становятся стандартом. 23 января в 19:00 на открытом уроке к курсу «Разработка ИИ агентов» разберём матчасть: как работают
Retrieval-Augmented Generation и дообучение моделей в реальных проектах.Ведущий — Игорь Стурейко, тимлид в «Газпроме» и AI-архитектор. В своём видеосообщении Игорь делится опытом построения сложных ML-решений и рассказывает о программе подготовки специалистов по агентам.
Ключевые концепции:
— разница между параметрической и внешней памятью модели;
— использование
FAISS и Chroma для хранения эмбеддингов;— пайплайны обработки документов с помощью
LangChain.📅 Когда: 23.01 в 19:00 МСК
Узнать подробности
❤1
Вы тестируете систему комп. зрения для беспилотного авто Тесты показали, что можно изменить изображение знака «STOP» так, что человек не заметит разницы, но нейросеть с 99% классифицирует его как «Ограничение скорости».
Как называется этот тип атаки?
Как называется этот тип атаки?
Anonymous Quiz
9%
Брутфорс-атака (Bruteforce)
56%
Инъекция данных (Data Poisoning)
2%
Переполнение буфера (Buffer Overflow)
32%
Атака быстрым градиентным знаком (FGSM - Fast Gradient Sign Method)
Представь, что ты работаешь в банке. Твоя сложная модель отклонила заявку на кредит. Клиент требует объяснить — почему? Для этого ты используешь SHAP.
В чем заключается идея вычисления Shapley values для каждого признака?
В чем заключается идея вычисления Shapley values для каждого признака?
Anonymous Quiz
82%
Метод оценивает вклад признаков, сравнивая предсказания модели для всех их комбинаций.
9%
Метод строит график корреляции между признаком и ответом
5%
Метод заменяет нейросеть на дерево решений, которое легче читать
5%
Метод находит самый важный признак и обнуляет все остальные
😁4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Пятница, 19:00. Худшее время для деплоя, но идеальное, чтобы подготовиться к каверзным вопросам про LLM-пайплайны, которые точно зададут на интервью.
Вопросы про RAG и Fine-tuning стали стандартом на интервью для ML-инженеров. Приходи разобраться в теме на практике.
Разберём на открытом уроке:
— выбор между
— работа с векторными эмбеддингами (`FAISS`, `Chroma`);
— построение продакшн-пайплайна с использованием
Один из спикеров — Алексей Яндутов, ML-инженер в поиске Яндекса.
Это вводное занятие курса «Разработка AI-агентов». Готовьтесь к коду и архитектурным схемам.
Записаться на урок
Вопросы про RAG и Fine-tuning стали стандартом на интервью для ML-инженеров. Приходи разобраться в теме на практике.
Разберём на открытом уроке:
— выбор между
Retrieval-Augmented Generation и дообучением весов;— работа с векторными эмбеддингами (`FAISS`, `Chroma`);
— построение продакшн-пайплайна с использованием
LangChain.Один из спикеров — Алексей Яндутов, ML-инженер в поиске Яндекса.
Это вводное занятие курса «Разработка AI-агентов». Готовьтесь к коду и архитектурным схемам.
Записаться на урок
proglib.academy
Курс| Разработка AI-агентов
Курс про контролируемую разработку AI-агентов: качество, стоимость, наблюдаемость и тестирование. С первого занятия — практическая работа.
Вы используете инициализацию весов He и Batch Normalization после каждого сверточного слоя. Несмотря на это, в ResNet в начале обучения растёт дисперсия активаций с глубиной, что ухудшает сходимость.
Какое решение лучше всего устраняет это?
Какое решение лучше всего устраняет это?
Anonymous Quiz
53%
Замена ReLU на Leaky ReLU с α=0.01 для обеспечения протекания градиента в отрицательной области
22%
Dropout с вероятностью p=0.5 непосредственно перед операцией сложения для регуляризации
16%
Weight Decay исключительно к весам на основном пути, исключая параметры в shortcut-соединениях
9%
Zero-γ инициализация последней BatchNorm в residual-блоке
👍3🤔2
На интервью по DS спрашивают про Agentic Workflow, а ты всё ещё «жаришь» промпты?
Настоящий Шеф проектирует Систему. В понедельник, 26 января, стартует интенсив по разработке ИИ-агентов. Получи знания, которые отличают Middle от Senior. 📊
В программе:
— мультиагентные системы в
— сложная логика в
—
Записаться на курс
Настоящий Шеф проектирует Систему. В понедельник, 26 января, стартует интенсив по разработке ИИ-агентов. Получи знания, которые отличают Middle от Senior. 📊
В программе:
— мультиагентные системы в
CrewAI: управление пулом агентов;— сложная логика в
LangGraph: проектирование стейт-менеджмента;—
tool use интеграция: связь моделей с API и базами данных. 🧠Записаться на курс