Библиотека собеса по Data Science | вопросы с собеседований

🐍

Решение задачи на Python «сумма двух» (Two sum)

Вам даны массив и число N. Нужно вернуть True, если в массиве есть такие два числа A и B, что их сумма A + B даёт N. В противном случае нужно вернуть False.
Примеры:
[1, 2, 3, 4], 5 ⇒ True
[3, 4, 6], 6 ⇒ False

✔️Можно, конечно, применить брутфорс, но есть решение получше. Его сложность составит O(n). Вот как оно выглядит:



def two_sum(numbers, target):
    index = {num: i for (i, num) in enumerate(numbers)}

    n = len(numbers)

    for i in range(n):
        a = numbers[i]
        b = target - a

        if b in index:
            j = index[b]
            if i != j:
                return True

    return False

Здесь сначала создаётся словарь index, который хранит числа из массива в качестве ключей и их индексы в массиве в качестве значений. Затем идёт перебор элементов массива. Для каждого элемента a вычисляется число b, которое необходимо для достижения суммы target. Далее проверяется, содержится ли b в словаре index. Если да, то дополнительно проверяется, не совпадает ли индекс текущего элемента a с индексом элемента b. Если индексы различны, это означает, что была найдена пара чисел, сумма которых равна target.

#алгоритмы
#python

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views12:03

Библиотека собеса по Data Science | вопросы с собеседований

Какие существуют методы улучшения простого градиентного бустинга?

✔️Усечение деревьев.
Можно обрезать деревья до определённой глубины или ограничить количество листьев, чтобы контролировать сложность модели и уменьшить переобучение.
✔️Использование регуляризации.
Добавление регуляризации (например, L1 или L2) также помогает снизить риск переобучения.
✔️Введение темпа обучения (learning rate).
Присутствие этого параметра означает, что каждый базовый алгоритм вносит относительно небольшой вклад во всю композицию. Это тоже помогает бороться с переобучением.
✔️Применение стохастического градиентного бустинга.
Это, по сути, внесение рандомизации в процесс обучения базовых алгоритмов. Они обучаются не по всей выборке, а лишь по её случайному подмножеству.

#машинное_обучение

1.6K views12:30

Библиотека собеса по Data Science | вопросы с собеседований

Что такое дистилляция модели (Knowledge Distillation)?

Это метод, который позволяет малой модели имитировать поведение большой модели. Чаще всего используется в NLP и компьютерном зрении. Позволяет снизить требования к вычислительным ресурсам при инференсе моделей без существенной потери качества.

При дистилляции «знания» из большой модели переносятся в малую благодаря минимизации функции потерь, в которой целевая переменная — это распределение вероятностей классов, предсказанных большой моделью. Также часто используется параметр «температура» для сглаживания вероятностей, предоставляемых большой моделью. При более высокой температуре вероятности становятся более сглаженными, что помогает передать более тонкие отношения между различными классами.

Подробнее можно прочитать здесь

#NLP
#глубокое_обучение

1.5K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Чем LSTM отличается от традиционной RNN?

▫️Рекуррентные нейронные сети (recurrent networks, RNN) были придуманы для работы с последовательностями данных, такими как текст или временные ряды. Чтобы сеть могла хранить информацию о предыдущих токенах, было введено понятие внутренней памяти или скрытого состояния (hidden state). В простейшем случае оно выражается одним вектором фиксированной размерности. На каждом шаге в сеть подаются данные, при этом происходит обновление скрытого состояния. После этого по скрытому состоянию предсказывается выходной сигнал.
✍️ Традиционные RNN страдают от проблемы исчезающего градиента, когда в процессе обратного распространения ошибки градиенты становятся настолько малыми, что обучение становится очень неэффективным для длинных последовательностей.
▫️Сети с долговременной и кратковременной памятью (Long short term memory, LSTM) были созданы для решения вышеозначенной проблемы. Все рекуррентные сети можно представить в виде цепочки из повторяющихся блоков. В RNN таким блоком обычно является один линейный слой с гиперболическим тангенсом в качестве функции активации. В LSTM повторяющийся блок имеет более сложную структуру, состоящую не из одного, а из четырёх компонентов. Кроме скрытого состояния, в LSTM появляется понятие состояния блока (cell state). Hidden state же теперь передаётся наружу (не только в следующий блок, но и на следующий слой или выход всей сети). Также LSTM может добавлять или удалять определённую информацию из cell state с помощью специальных механизмов, которые называются gates.

Всё это позволяет LSTM более тонко контролировать поток информации, улучшая способность сети обучаться и стать более устойчивой к проблемам, связанным с градиентами.

#глубокое_обучение

1.4K viewsedited 12:02

Библиотека собеса по Data Science | вопросы с собеседований

Как может переобучиться SVM?

Идея метода опорных векторов (support vector machine, SVM) заключается в построении гиперплоскости, разделяющей объекты выборки оптимальным способом. Модель строится в предположении, что чем больше расстояние (зазор) между разделяющей гиперплоскостью и объектами разделяемых классов, тем меньше будет средняя ошибка классификатора.

В SVM, как и в других алгоритмах машинного обучения, переобучение возникает, когда модель становится слишком сложной и начинает заучивать шум или случайные особенности обучающего набора данных, вместо того чтобы извлекать общие закономерности.

В нелинейных случаях в методе опорных векторов используется ядерный трюк, который позволяет ему работать в пространстве более высокой размерности без необходимости явного отображения данных. Некоторая функция ядра заменяет скалярное произведение. Здесь переобучение может возникнуть, если выбрано слишком сложное ядро или параметры ядра не оптимальны, что позволяет модели захватывать шум и нерелевантные особенности данных.

Кроме того, в SVM может использоваться параметр регуляризации, который контролирует компромисс между максимизацией ширины зазора и минимизацией ошибки классификации. Если параметр слишком велик, модель стремится уменьшить ошибки классификации, что может привести к переобучению.

#машинное_обучение

1.4K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

1.4K views06:02

Библиотека собеса по Data Science | вопросы с собеседований

Что вы знаете о метрике perplexity (перплексия)?

Эта метрика применяется для оценки языковых моделей. Если описать грубо, это недоумение, которое испытывает модель, когда генерирует новое предложение. Нам нужно, чтобы языковая модель давала высокие вероятности настоящим, синтаксически корректным предложениям, и низкие вероятности — ненастоящим, некорректным или редко встречающимся предложениям. Если тестовый набор данных состоит из настоящих и корректных предложений, то лучшей моделью будет та, которая назначит наивысшую вероятность этому тестовому набору. В этом случае перплексия будет низкой. Так, чем меньше perplexity, тем лучше.

Подробнее про перплексию можно прочесть здесь.

#NLP
#глубокое_обучение

1.5K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Может ли быть такое, что модель даёт вероятность какого-то класса более 90%, но при этом всё равно ошибается?

Да, такое возможно. По сути, вероятность 90% или выше указывает на высокую уверенность модели в своём предсказании, но это не исключает возможности ошибки. Причиной может быть, например, дисбаланс классов. Из-за этого модель может склоняться просто к предсказанию более часто встречающегося класса.

Кроме дисбаланса классов, ошибки могут происходить из-за переобучения модели. В таких случаях, модель слишком точно подстраивается под тренировочные данные и теряет способность к обобщению.

#машинное_обучение

1.4K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

В каком случае вы будете наблюдать изменение метрики specificity?

Specificity отражает то, насколько часто классификатор правильно не относит объекты к классу.

Метрика будет изменяться, если:

▫️изменится количество правильно классифицированных отрицательных случаев.
▫️изменится количество ложноположительных (FP) результатов.
▫️изменится порог решения классификатора.

▶️ Например, у нас есть группа пациентов, проходящих тест на определённое заболевание. Specificity определяется как доля правильно идентифицированных здоровых пациентов (TN) от общего числа действительно здоровых пациентов (TN + FP). Предположим, что из 100 пациентов 20 действительно болеют, а 80 здоровы. Тест правильно определил 70 здоровых как здоровых (TN) и ошибочно определил 10 здоровых как больных (FP). В этом случае метрика будет равна 0.875. Затем тест улучшили, и он правильно идентифицирует 75 здоровых пациентов как здоровых (TN) и 5 здоровых пациентов как больных (FP). Specificity выросла до 0.9375.

#машинное_обучение

1.5K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Что такое псевдо-разметка?

Это процесс автоматического добавления новых тестовых данных с разметкой к тренировочным данным. Включает 5 шагов:
▫️ Обучение модели на тренировочных данных.
▫️ Предсказание меток для тестового набора данных.
▫️ Предсказанные метки считаются «псевдо-метками», и данные, для которых они были сгенерированы, превращаются в «псевдо-размеченный» набор данных.
▫️ Построение новой модели с использованием как первоначального тренировочного набора данных, так и псевдо-размеченного.
▫️ Использование новой модели для дальнейших предсказаний.

Было показано, что метод псевдо-разметки может быть эффективен для многих моделей.

#машинное_обучение

1.5K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Почему может быть предпочтительнее использовать меньшее количество предикторов?

▫️Использование нерелевантных признаков увеличивает тенденцию модели к переобучению, потому что эти признаки вносят больше шума.
▫️Когда две переменные скоррелированы, модель может быть сложнее интерпретировать.
▫️Может возникнуть проклятие размерности.
▫️Вырастают вычислительные затраты.

В целом, использование меньшего числа предикторов часто улучшает обобщающую способность модели. Это означает, что модель лучше работает с новыми данными, не участвовавшими в обучении.

#машинное_обучение

1.5K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Что такое сглаживание Лапласа и зачем его используют в наивном байесовском классификаторе?

В наивном байесовском классификаторе условная вероятность события при заданной метке класса определяется как P(событие|класс). При использовании этого метода (скажем, при классификации текстов) может возникнуть ситуация, когда какое-то слово не встречалось в определённом классе. В таких случаях вероятность признака при заданной метке класса будет равна нулю. Это проблема.

Чтобы её решить, используется сглаживание Лапласа. Оно устраняет проблему нулевой вероятности, добавляя небольшую постоянную к количеству каждого признака в каждом классе и к общему количеству признаков в каждом классе.

#машинное_обучение

1.5K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Объясните, как учится Word2Vec? Какая функция потерь? Что максимизируется?

Word2Vec — это метод обучения векторных представлений слов. Он использует одну из двух архитектур: CBOW (Continuous Bag of Words) или Skip-gram.

▪️CBOW прогнозирует текущее слово на основе контекста (окружающих слов).
▪️Skip-gram наоборот использует текущее слово для предсказания контекста.

В процессе обучения Word2Vec использует нейронную сеть с одним скрытым слоем. Входные данные представляют собой слова в форме «one-hot encoded» векторов. Сеть обучается так, чтобы векторные представления слов в скрытом слое кодировали семантические и синтаксические характеристики слов.

Word2Vec может использовать несколько разных функций потерь, но наиболее распространёнными являются Negative Sampling Loss и Hierarchical Softmax. Цель обучения — максимизировать косинусное сходство между векторами слов, которые встречаются в похожих контекстах, и минимизировать его для слов, которые не встречаются вместе.

#NLP
#машинное_обучение

1.5K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Объясните разницу между SQL и NoSQL базами данных?

SQL (Structured Query Language) базы данных являются реляционными и используют табличную структуру с чётко определенными схемами. NoSQL (Not Only SQL) базы данных могут быть неструктурированными или полуструктурированными и поддерживают различные типы данных.

В SQL-базах данных используется транзакционная модель, которая позволяет сохранять целостность данных и обеспечивать ACID (Atomicity, Consistency, Isolation, Durability) свойства для отказоустойчивости и надёжности. NoSQL-базы данных редко используют транзакционные модели, обычно там применяется распределённая архитектура, чтобы повысить надёжность и отказоустойчивость.

Примеры SQL-баз: MySQL, PostgreSQL.
Примеры NoSQL-баз: MongoDB, Redis.

#SQL

1.7K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

⚡️Самые полезные каналы по Data Science в одной папке

В ней:
➖интересные задачи
➖основной канал
➖книги по Data Science
➖лучшие вакансии из сферы
➖и наш чат, в котором можно общаться и задавать вопросы

Добавляйте 👉 тык сюда

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K viewsedited 17:42

Библиотека собеса по Data Science | вопросы с собеседований

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

1.5K views20:01

Библиотека собеса по Data Science | вопросы с собеседований

У вас есть смесь из двух нормальных распределений с одинаковым стандартным отклонением. Насколько далеко должны быть друг от друга средние значения, чтобы это общее распределение было бимодальным?

По сути, это распределение с двумя чётко выраженными пиками и впадиной между ними. Практическое правило для оценки бимодальности в смеси двух нормальных распределений тут такое: средние значения должны быть разделены как минимум на два стандартных отклонения.

Математически это выражается так: пусть σ — стандартное отклонение обоих распределений, а μ1 и μ2 — их средние значения. Распределение будет бимодальным, если:
|μ1 — μ2| ≥ 2σ

#теория_вероятностей
#статистика

1.5K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

Что такое доверительный интервал и как вы его интерпретируете?

Доверительный интервал — это диапазон значений, в пределах которого, с определённой степенью уверенности, находится истинное значение некоторого параметра.

Интерпретация доверительного интервала включает в себя его «уровень доверия», обычно выражаемый в процентах. Если мы говорим о 95% доверительном интервале для среднего значения, это означает, что если бы мы многократно отбирали выборки и для каждой рассчитывали бы интервал, то примерно в 95% случаев эти интервалы содержали бы истинное среднее значение всей генеральной совокупности.

#статистика

1.5K views12:13

Библиотека собеса по Data Science | вопросы с собеседований

Как работает EM-алгоритм?

Алгоритм EM (англ. expectation-maximization) — это итеративный алгоритм поиска оценок максимума правдоподобия модели, когда она зависит от скрытых (ненаблюдаемых) переменных. Используется для решения задачи кластеризации.

Каждая итерация алгоритма состоит из двух шагов:
✔️Expectation-шаг — поиск наиболее вероятных значений скрытых переменных.
✔️Maximization-шаг — поиск наиболее вероятных значений параметров для полученных на шаге Expectation значений скрытых переменных.

Алгоритм выполняется до сходимости.

#машинное_обучение

1.5K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Объясните концепцию метрики Силуэт для кластеризации

Силуэт (silhouette) — это мера того, насколько хорошо объекты сгруппированы в кластерах и как чётко эти кластеры отделены друг от друга. Метрика принимает значения в диапазоне от -1 до 1. Близкие к 1 значения указывают на хорошо отделённые кластеры с плотно сгруппированными объектами, а значения близкие к -1 указывают на плохую кластеризацию.

Силуэт для каждого объекта рассчитывается по формуле (b — a) / max(a, b), где:
- a — среднее расстояние от объекта до всех других объектов в том же кластере.
- b — среднее расстояние от объекта до всех объектов в ближайшем кластере.

#машинное_обучение

1.4K views12:03

Библиотека собеса по Data Science | вопросы с собеседований

Что такое alignment в языковых моделях?

Alignment в контексте ИИ означает процесс настройки модели таким образом, чтобы её ответы соответствовали этике, законам и ценностям общества.

Обычно alignment происходит во время файн-тюнинга. Процесс включает в себя два этапа:
▪️Фаза обучения на инструкциях.
На этой фазе LLM дают примеры целевых задач.
▪️Фаза оценки.
На этой фазе человек или другая модель взаимодействуют с LLM и оценивают её ответы в режиме реального времени. На этом этапе может использоваться обучение с подкреплением, чтобы внести фидбэк в знания исходной модели.

#NLP
#глубокое_обучение

1.4K views12:50

About

Blog

Apps

Platform