Библиотека собеса по Data Science | вопросы с собеседований
4.31K subscribers
439 photos
10 videos
1 file
443 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
Как управлять случайностью в генетических алгоритмах, чтобы обеспечить воспроизводимость результатов

Генетические алгоритмы используют случайные процессы — инициализацию, выбор родителей, точки скрещивания и мутации. Это приводит к вариативности результатов.

Чтобы повысить воспроизводимость:
Используют контроль начальных условий генератора случайных чисел, чтобы получить повторяемые последовательности в однопоточных запусках.

Ведут детальный лог каждой особи и всех случайных решений, которые привели к её появлению — это помогает восстановить ход поиска.

Проводят несколько независимых запусков с разными начальными условиями и анализируют разброс результатов — так оценивают стабильность алгоритма и параметры настройки.

Помнят, что в многопоточных и распределённых вычислениях точная битовая воспроизводимость невозможна из-за особенностей параллельных операций и вычислений с плавающей точкой.

Главное — стремиться к воспроизводимости не в точности битов, а в качестве и поведении алгоритма в целом.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🔗 В чём ключевое отличие между предобучением self-supervised и supervised моделей, если обе используют один и тот же датасет

Разница не в данных, а в цели задачи (proxy task). Supervised-модель учится напрямую предсказывать метки — например, класс объекта. А self-supervised модель создаёт искусственную задачу (например, предсказать пропущенное слово или порядок кадров в видео), которая не требует ручной разметки.

➡️ Это позволяет модели выучить общие представления (features), которые полезны и для других задач.

Важно, что self-supervised обучение часто извлекает более структурированные и универсальные признаки, потому что не фиксируется на конкретной метке, а вынуждена «понимать» контекст и структуру входа.

➡️ На практике это даёт мощную и масштабируемую альтернативу ручной разметке — особенно при работе с текстом, изображениями или аудио.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🗂 Почему важно учитывать порядок признаков в табличных данных, даже если большинство моделей вроде бы инвариантны к нему

Хотя многие алгоритмы (например, деревья решений) действительно не чувствительны к порядку колонок, сам порядок может влиять на всё, что вокруг модели:
на предобработку (например, при стандартизации пакетами или сохранении схемы);
на обратную совместимость при обновлении моделей;
на работу в продакшене, где порядок может нарушиться при сериализации/десериализации.

Более того, некоторые модели (особенно нейронные сети для табличных данных) могут использовать позиционную информацию, особенно если данные подаются как последовательность. А при autoML или feature selection шаги могут зависеть от начального порядка, если нет явной нормализации.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2