Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким.
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Anonymous Quiz
17%
LN вычисляет статистику по всему обучающему набору данных заранее, что ускоряет инференс
58%
LN вычисляет среднее и дисперсию для каждого отдельного примера по всем его признакам
17%
LN использует L1-регуляризацию внутри слоя, что автоматически обнуляет бесполезные веса
8%
BN математически несовместима с механизмом Self-Attention
👍2❤1
При использовании Layer Normalization (LN) в архитектуре Transformer, в чем заключается основное преимущество стратегии 'Pre-LN' (нормализация перед блоком Attention/FFN) по сравнению с оригинальной 'Post-LN'?
Anonymous Quiz
31%
Она делает модель устойчивой к очень большим размерам батча (batch size)
8%
Она позволяет избежать использования механизма Dropout в глубоких слоях
10%
Pre-LN значительно увеличивает вычислительную сложность каждого шага обучения
51%
Она создает прямой путь для градиентов, облегчая обучение экстремально глубоких сетей
❤1
В оптимизаторе AdamW была введена модификация классического Adam. Какую конкретную проблему она решает при использовании L2-регуляризации?
Anonymous Quiz
9%
Необходимость ручного подбора начальной скорости обучения (learning rate)
16%
Проблему исчезающего градиента в рекуррентных слоях
10%
Медленную сходимость на разреженных (sparse) данных
65%
Некорректное взаимодействие адаптивного шага обучения и штрафа за веса (weight decay)
Вы обучаете ViT на маленьком наборе данных (например, 10 000 картинок) и замечаете, что он безнадежно проигрывает старой доброй ResNet той же сложности. Однако на огромном датасете ViT внезапно обходит CNN.
В чем основная причина такой динамики?
В чем основная причина такой динамики?
Anonymous Quiz
2%
ViT требует использования только ч/б изображений для стабильности
75%
Из-за отсутствия жесткого индук. смещения ViT обладает большей гибкостью, но требует больших данных
5%
Сверточные слои физически не могут работать с большими разрешениями
18%
В ViT используется L1-регуляризация, которая стирает мелкие детали на малых выборках
👍4
Представьте, что у вас есть 10 миллионов фотографий из интернета, но нет ни одной метки. Вы используете SimCLR, чтобы научить модель извлекать полезные признаки.
Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?
Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?
Anonymous Quiz
6%
Mean Squared Error
69%
InfoNCE (Contrastive Loss / Cross-Entropy на парах)
11%
Huber Loss
14%
Binary Cross-Entropy на уровне пикселей
❤2👍2
Вы разворачиваете модель уровня Llama 3 или GPT-4 для высоконагруженного чат-бота. При генерации длинных ответов VRAM заканчивается очень быстро, а скорость генерации падает.
Для решения этой проблемы используется KV Caching. Что именно она делает?
Для решения этой проблемы используется KV Caching. Что именно она делает?
Anonymous Quiz
9%
Она сохраняет веса всей модели в оперативной памяти CPU, чтобы освободить GPU
77%
Она сохраняет вычисленные векторы Key и Value для всех предыдущих токенов
12%
Она сжимает контекст в один короткий вектор с помощью автоэнкодера
2%
Она предсказывает сразу 5 следующих слов вместо одного, используя теорию вероятностей
👍3
«Этот манёвр будет стоить нам 51 год...»
— или потерю шанса на
19 января в Proglib Academy вырастут цены. Успейте забрать курсы по
— Разработка ИИ-агентов
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Подготовиться к собеседованиям
⚠️ Стоимость изменится 19 января
— или потерю шанса на
Senior-позицию из-за «поплывшей» математики на тех-интервью. В Data Science теоремы и алгоритмы — это фундамент, без которого не построить ни одну серьёзную модель.19 января в Proglib Academy вырастут цены. Успейте забрать курсы по
Math, ML и AI по старой стоимости:— Разработка ИИ-агентов
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Подготовиться к собеседованиям
⚠️ Стоимость изменится 19 января
😁1
Вы хотите дообучить модель Llama 3 на своих личных переписках, чтобы она имитировала ваш стиль общения. Вместо того чтобы менять все веса огромных матриц модели, вы решаете использовать LoRA.
В чем заключается этот метод?
В чем заключается этот метод?
Anonymous Quiz
21%
Он просто отключает (freeze) 99% слоев, оставляя только последний
56%
Он представляет изменение весов в виде произведения двух матриц низкого ранга
3%
Он переводит все веса модели в 1-битный формат
20%
Он использует внешнюю базу данных (RAG) вместо изменения внутренних весов
👍2
Вы строите корпоративного ассистента, который должен отвечать на вопросы сотрудников по внутренним документам (которые модель никогда не видела при обучении). Вместо Fine-tuning, вы внедряете архитектуру RAG.
Как именно работает этот механизм?
Как именно работает этот механизм?
Anonymous Quiz
85%
Система ищет текст в БД, добавляет его в контекст модели, и только после этого генерируется ответ
4%
Модель генерирует ответ на основе своей памяти, а потом проверяет его правильность в Google
9%
Модель использует слой нейронов, который физически расширяется при добавлении новых документов
2%
Вопрос переводится на язык SQL, чтобы модель могла напрямую менять веса своих слоев
👍1
ViT разбивает изображение на патчи и вычисляет внимание между патчами. Если мы увеличим разрешение фото в 2 раза, количество вычислений вырастет в 16 раз.
Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?
Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?
Anonymous Quiz
6%
Он удаляет 75% пикселей перед обработкой
75%
Он вычисляет внимание внутри локальных окон, которые сдвигаются на каждом слое
10%
Он заменяет механизм внимания на обычные свертки 3×3
9%
Он использует только один слой внимания в самом конце сети
❤2👍2
В отличие от GAN, где 2 сети соревнуются, диффузионные модели обучаются на процессе постепенного разрушения данных.
В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?
В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?
Anonymous Quiz
3%
Предсказать, какой объект изображен на картинке
93%
Предсказать и «вычесть» шум, который был добавлен к изображению на текущем этапе
2%
Сжать изображение в 10 раз для экономии памяти
2%
Перевести текстовый запрос пользователя в набор пикселей
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
RAG или Fine-tuning: что отвечать на собеседовании?
Вопросы по архитектуре LLM-систем становятся стандартом. 23 января в 19:00 на открытом уроке к курсу «Разработка ИИ агентов» разберём матчасть: как работают
Ведущий — Игорь Стурейко, тимлид в «Газпроме» и AI-архитектор. В своём видеосообщении Игорь делится опытом построения сложных ML-решений и рассказывает о программе подготовки специалистов по агентам.
Ключевые концепции:
— разница между параметрической и внешней памятью модели;
— использование
— пайплайны обработки документов с помощью
📅 Когда: 23.01 в 19:00 МСК
Узнать подробности
Вопросы по архитектуре LLM-систем становятся стандартом. 23 января в 19:00 на открытом уроке к курсу «Разработка ИИ агентов» разберём матчасть: как работают
Retrieval-Augmented Generation и дообучение моделей в реальных проектах.Ведущий — Игорь Стурейко, тимлид в «Газпроме» и AI-архитектор. В своём видеосообщении Игорь делится опытом построения сложных ML-решений и рассказывает о программе подготовки специалистов по агентам.
Ключевые концепции:
— разница между параметрической и внешней памятью модели;
— использование
FAISS и Chroma для хранения эмбеддингов;— пайплайны обработки документов с помощью
LangChain.📅 Когда: 23.01 в 19:00 МСК
Узнать подробности
❤1
Вы тестируете систему комп. зрения для беспилотного авто Тесты показали, что можно изменить изображение знака «STOP» так, что человек не заметит разницы, но нейросеть с 99% классифицирует его как «Ограничение скорости».
Как называется этот тип атаки?
Как называется этот тип атаки?
Anonymous Quiz
9%
Брутфорс-атака (Bruteforce)
56%
Инъекция данных (Data Poisoning)
2%
Переполнение буфера (Buffer Overflow)
32%
Атака быстрым градиентным знаком (FGSM - Fast Gradient Sign Method)
Представь, что ты работаешь в банке. Твоя сложная модель отклонила заявку на кредит. Клиент требует объяснить — почему? Для этого ты используешь SHAP.
В чем заключается идея вычисления Shapley values для каждого признака?
В чем заключается идея вычисления Shapley values для каждого признака?
Anonymous Quiz
82%
Метод оценивает вклад признаков, сравнивая предсказания модели для всех их комбинаций.
9%
Метод строит график корреляции между признаком и ответом
5%
Метод заменяет нейросеть на дерево решений, которое легче читать
5%
Метод находит самый важный признак и обнуляет все остальные
😁4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Пятница, 19:00. Худшее время для деплоя, но идеальное, чтобы подготовиться к каверзным вопросам про LLM-пайплайны, которые точно зададут на интервью.
Вопросы про RAG и Fine-tuning стали стандартом на интервью для ML-инженеров. Приходи разобраться в теме на практике.
Разберём на открытом уроке:
— выбор между
— работа с векторными эмбеддингами (`FAISS`, `Chroma`);
— построение продакшн-пайплайна с использованием
Один из спикеров — Алексей Яндутов, ML-инженер в поиске Яндекса.
Это вводное занятие курса «Разработка AI-агентов». Готовьтесь к коду и архитектурным схемам.
Записаться на урок
Вопросы про RAG и Fine-tuning стали стандартом на интервью для ML-инженеров. Приходи разобраться в теме на практике.
Разберём на открытом уроке:
— выбор между
Retrieval-Augmented Generation и дообучением весов;— работа с векторными эмбеддингами (`FAISS`, `Chroma`);
— построение продакшн-пайплайна с использованием
LangChain.Один из спикеров — Алексей Яндутов, ML-инженер в поиске Яндекса.
Это вводное занятие курса «Разработка AI-агентов». Готовьтесь к коду и архитектурным схемам.
Записаться на урок
proglib.academy
Курс| Разработка AI-агентов
Курс про контролируемую разработку AI-агентов: качество, стоимость, наблюдаемость и тестирование. С первого занятия — практическая работа.
Вы используете инициализацию весов He и Batch Normalization после каждого сверточного слоя. Несмотря на это, в ResNet в начале обучения растёт дисперсия активаций с глубиной, что ухудшает сходимость.
Какое решение лучше всего устраняет это?
Какое решение лучше всего устраняет это?
Anonymous Quiz
53%
Замена ReLU на Leaky ReLU с α=0.01 для обеспечения протекания градиента в отрицательной области
22%
Dropout с вероятностью p=0.5 непосредственно перед операцией сложения для регуляризации
16%
Weight Decay исключительно к весам на основном пути, исключая параметры в shortcut-соединениях
9%
Zero-γ инициализация последней BatchNorm в residual-блоке
👍3🤔2
На интервью по DS спрашивают про Agentic Workflow, а ты всё ещё «жаришь» промпты?
Настоящий Шеф проектирует Систему. В понедельник, 26 января, стартует интенсив по разработке ИИ-агентов. Получи знания, которые отличают Middle от Senior. 📊
В программе:
— мультиагентные системы в
— сложная логика в
—
Записаться на курс
Настоящий Шеф проектирует Систему. В понедельник, 26 января, стартует интенсив по разработке ИИ-агентов. Получи знания, которые отличают Middle от Senior. 📊
В программе:
— мультиагентные системы в
CrewAI: управление пулом агентов;— сложная логика в
LangGraph: проектирование стейт-менеджмента;—
tool use интеграция: связь моделей с API и базами данных. 🧠Записаться на курс
Как называется статистическое явление, при котором алгоритм A лучше в общей статистике, но хуже алгоритма B в каждом подмножестве данных (например, по устройствам)?
Anonymous Quiz
9%
Эффект выжившего (Survivorship Bias): мы не учитываем пользователей, которые вообще не кликают
66%
Парадокс Симпсона: из-за «скрытой переменной», которая неравномерно распределена между группами
12%
Мультиколлинеарность: признаки слишком сильно коррелируют друг с другом, что «раздувает» веса модели
13%
Проблема подглядывания: мы перебираем разбиения данных до тех пор, пока не найдем аномалию
👍3
Завтра стартуем: курс по разработке ИИ-агентов 📊
Будьте готовы к вопросам по архитектуре автономных пайплайнов. Мы научим проектировать агентные системы на
👉 Успейте занять место до начала занятий
Будьте готовы к вопросам по архитектуре автономных пайплайнов. Мы научим проектировать агентные системы на
CrewAI, управлять графами в LangGraph и подключать модели к реальным бизнес-инструментам.👉 Успейте занять место до начала занятий