DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
DenoiseLAB pinned Deleted message
100 вопросов по Машинному обучению (Machine Learning) - Вопрос_1

1/ В чем разница обучение с учетелем и обучение без учителя ? (Explain the difference between supervised and unsupervised machine learning ?)

Основное отличие между обучением с учителем и обучением без учителя заключается в наличии или отсутствии структурированной информации о правильных ответах на заданные вопросы.

- Обучение с учителем: в процессе обучения существует учитель (например, преподаватель, специалист в определенной области), который предоставляет учащимся структурированные данные и правильные ответы на вопросы. Информация в этом случае может быть представлена в форме классифицированных данных, меток, разметки объектов и т.д. Точность и эффективность обучения с учителем высоки, но этот подход зависит от качества и количества обучающих данных.

- Обучение без учителя: в этом подходе информация для обучения не размечена, то есть нет правильных ответов на вопросы. Обучающая система должна самостоятельно искать закономерности и структуры данных. Обучение без учителя используется для задач кластеризации, сокращения размерности, обнаружения аномалий и т.д. Точность и эффективность обучения без учителя ниже, но его преимущество заключается в том, что система сама формирует кластеры и группы данных, что может открыть новые пути для анализа и использования данных.

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 вопросов по Машинному обучению (Machine Learning) - Вопрос_2

2/ Что такое параметрические/непараметрические модели машинного обучения и приведите примеры ?

Параметрические модели машинного обучения - это модели, в которых число параметров заранее определено и не зависит от размера обучающей выборки. Примеры параметрических моделей машинного обучения включают линейную регрессию, логистическую регрессию, метод опорных векторов и некоторые модели на основе искусственных нейронных сетей.

С другой стороны, непараметрические модели машинного обучения не ограничены заранее определенным числом параметров, что позволяет более гибко обучаться на основе сложных данных и отображать непрерывные функции. Примеры непараметрических моделей машинного обучения включают решающие деревья, случайные леса и метод k-ближайших соседей.

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 вопросов по Машинному обучению (Machine Learning) - Вопрос_3

2/ В чем разница между классификацией и регрессией ?

- Классификация используется для прогнозирования принадлежности объекта к определенному классу. Например, классификация может быть использована для определения, является ли электронный письмо "спамом" или "не спамом". Она обычно основана на обучении алгоритма на уже размеченных данных, чтобы он мог прогнозировать класс новых данных.

- Регрессия, с другой стороны, используется для прогнозирования непрерывного числового значения. Например, регрессия может использоваться для прогнозирования цены на недвижимость на основе ее характеристик, таких как площадь, количество комнат и т.д. Она также основана на обучении алгоритма на уже размеченных данных, чтобы он мог прогнозировать значения для новых данных.

Таким образом, основная разница между классификацией и регрессией заключается в том, что классификация используется для прогнозирования принадлежности к классу, тогда как регрессия используется для прогнозирования непрерывных значений.

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
100 CEH (Certified Ethical Hacker) - Вопрос_1

Q:1-Which of the following is component of a risk assessment?

- Logical interface;
- DMZ;
- Administrative safeguards;
- Physical security;

Ответ: Administrative safeguards

💬Administrative safeguards относится к мерам защиты информационной системы, которые связаны с организационными политиками, процедурами, стандартами и методологиями, используемыми для управления информационной безопасностью.

💬К таким мерам относятся, например, политики на управление условиями доступа, процедуры настройки параметров безопасности, программы обучения для персонала, управление резервными копиями и т.д.

💬Эти меры позволяют администраторам систем обеспечить единство и последовательность процессов в управлении безопасностью, что повышает безопасность информационных технологий в организации.

⛔️⛔️⛔️Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
100 CEH (Certified Ethical Hacker) - Вопрос_3

Q:3-An attacker gains access to a Web servers database and display the contents of the table that holds all of the names, passwords, and other user information. The attacker did this by entering information into the Web site's user login page that the software's designers did not expect to be entered. This is an example of what kind of software design problem?

- Insufficient security management;
- Insufficient database hardening;
- Insufficient exception handling;
- Insufficient input validation.

Ответ: Insufficient input validation

💬"Insufficient input validation" - это уязвимость, которая возникает, когда входные данные, которые получает веб-приложение, не проверяются на соответствие ожидаемому формату или типу. Это может позволить злоумышленнику отправлять вредоносные данные, которые могут служить началом других атак, например SQL-инъекции или кросс-сайтовых скриптов. Кроме того, недостаточная проверка ввода может также стать причиной ошибок приложения или отказа в обслуживании.

▶️ https://habr.com/ru/articles/328810/

⛔️⛔️⛔️Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
100 вопросов по Машинному обучению (Machine Learning) - Вопрос_4

4/ Что такое переобучение и как с ним борются при разработке моделей машинного обучения ?

💬Переобучение (overfitting) — это явление в машинном обучении, когда модель слишком точно подгоняется под тренировочные данные, что приводит к низкой обобщающей способности модели на новые данные. То есть, модель "запоминает" все особенности тренировочных данных, но не умеет обобщать свои знания на новые данные вне тренировочного набора.

🔠Существуют несколько способов борьбы с переобучением:

1. Регуляризация: добавление к функции ошибки дополнительных слагаемых, которые штрафуют большие веса признаков. Это ограничивает сложность модели и заставляет ее обобщать лучше.

2. Сокращение количества признаков: удаление наименее значимых признаков, которые могут увеличивать шум и делать модель более сложной, что ведет к переобучению.

3. Кросс-валидация: разделение тренировочных данных на несколько частей и проверка, как модель работает на каждой части. Это позволяет определить, возникает ли переобучение и настраивать параметры модели для лучшей обобщающей способности.

4. Добавление шума: добавление случайного шума в данные может помочь модели лучше обобщать знания и избежать переобучения.

5. Использование алгоритмов, которые устойчивы к переобучению, таких как случайный лес, градиентный бустинг или нейронные сети с регуляризацией.

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_5

🔠5/ Что такое ROC-AUC и Accuracy как их можно интерпретировать в рамках модели машинного обучения и в чем их разница ?

ROC-AUC (Receiver Operating Characteristic - Area Under the Curve) и Accuracy (точность) - это две разные метрики, используемые для оценки качества моделей машинного обучения.

Accuracy - это мера того, насколько хорошо модель предсказывает правильные ответы. Он показывает процент правильных ответов, которые модель дает на тестовом наборе данных. Например, если у вас есть 100 тестовых данных, и модель правильно классифицирует 85 из них, то точность модели будет равна 85%.

ROC-AUC, с другой стороны, измеряет, насколько хорошо модель отделяет положительные и отрицательные случаи. Она оценивает способность модели различать два класса и вычисляет площадь под кривой приемника операционной характеристики (ROC curve), построенной на основе отношения ложных положительных и ложных отрицательных результатов. Значение ROC-AUC находится в диапазоне от 0,0 до 1,0, где более высокие значения указывают на более высокое качество модели.

https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_6

🔠6/ В чем разница между Shapley и Feature Importance при анализе фичей разве они не одно и тоже делают ?

✔️Ответ: Метод Shapley и feature importance - это два разных подхода для определения важности признаков в задаче машинного обучения.

Метод Shapley основывается на теории коалиционных игр и позволяет определить, какой вклад вносят каждый признак в прогноз модели с учетом объектов. Он учитывает взаимодействия между признаками и позволяет установить относительную важность каждого признака в зависимости от его вклада в конечный результат.

Feature importance, с другой стороны, не учитывает взаимодействия между признаками, а лишь определяет, насколько сильно каждый признак влияет на конечный результат. Эта метрика может быть вычислена разными способами, например, с помощью моделей, встроенных в библиотеки машинного обучения, или с помощью пермутационного тестирования.

Таким образом, метод Shapley более точен, потому что он учитывает взаимодействия между признаками, но он также может быть более сложен в вычислении, чем feature importance. Feature importance может быть более простым подходом, но может дать менее точные результаты, особенно если есть сильные взаимодействия между признаками.

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по машинному обучению (Machine Learning) - Вопрос_7

🔠 Вопрос_7: Как справится с отсутствующими или поврежденными данными в датасете ?

✔️Ответ:

1. Удаление проблемных данных: если проблемные данные составляют небольшую долю от общего объема данных, то их можно просто удалить из датасета. Однако, если их много, это может привести к уменьшению объема данных, что может негативно сказаться на результате обучения. В этом случае рекомендуется не удалять данные, а записать их в отдельный датасет, возможно потом они понадобятся в какой-то части или удасться их восстановить.

2. Заполнение пропущенных значений: другой способ - это заполнение пропущенных значений средним или медианным значением. Если в датасете много пропущенных данных, то можно использовать методы, такие как KNN-заполнение.

3. Кодирование пропущенных значений: вместо удаления или заполнения пропущенных значений можно закодировать их как отдельные значения, которые будут использоваться в качестве фактора в обучении модели.

4. Использование алгоритмов, устойчивых к пропущенным данным: некоторые модели машинного обучения, например, случайный лес, являются устойчивыми к пропущенным данным, что позволяет использовать такие данные без необходимости их предварительной обработки.

https://habr.com/ru/articles/663414/

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_8

🔠Вопрос_8: В Чем разница между стохастический градиентным спуском и обычным градиентным спуском ?

✔️Ответ:

Градиентный спуск и стохастический градиентный спуск - это два различных алгоритма оптимизации для обучения моделей машинного обучения.

Градиентный спуск (Gradient Descent) является итеративным методом, который минимизирует функцию потерь, обновляя веса (параметры) модели в направлении, противоположном градиенту функции потерь. Этот метод подходит для обучения на небольших наборах данных, но может работать медленно на больших наборах данных.

Стохастический градиентный спуск (Stochastic Gradient Descent) - это вариант градиентного спуска, которым минимизируется функция потерь путем случайного выбора подмножества данных и вычисления градиента на каждой итерации. Это делает SGD гораздо быстрее, чем градиентный спуск, на больших наборах данных. Однако, такой метод может быть менее точным, чем обычный градиентный спуск, и может иметь проблемы с сходимостью.

Таким образом, основная разница между градиентным спуском и стохастическим градиентным спуском заключается в том, как они обновляют веса модели. Градиентный спуск использует полный набор данных для вычисления градиента, в то время как SGD использует случайно выбранные подмножества данных, что делает его более быстрым на больших наборах данных. Однако, SGD может оказаться менее точным и может не обеспечивать такой стабильности, как градиентный спуск.

https://habr.com/ru/articles/472300/
https://habr.com/ru/articles/716380/

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 CEH (Certificated Ethical Hacker) - Вопрос_4

⚠️Q4: The replication of which of the following applications requires a host application?

- Micro
- Worm
- Trojan
- Virus

✔️Ответ: Virus

Для репликации вируса, его выполнения и распространения на другие системы требуется хост-приложение. Все остальные не требуют наличия хост-приложения для репликации.

Хост-приложение - это программное обеспечение, которое обеспечивает ресурсы и условия для выполнения другого приложения на компьютере или сервере. Оно предоставляет среду выполнения для других приложений, позволяет им использовать общие ресурсы, такие как процессор, оперативную память, жесткие диски и т.д., и управляет взаимодействием между приложениями. Примеры хост-приложений включают в себя веб-серверы, базы данных, виртуальные машины и т.д.

https://habr.com/ru/companies/AflexDistribution/articles/123180/

⛔️⛔️⛔️Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
100 CEH (Certificated Ethical Hacker) - Вопрос_5

⚠️Q5: Which of the following attacks is it attempting to protect against if your organization installs mantraps in the entranceway?

- Dumpster diving
- Shoulder surfing
- Tailgating
- Eavesdropping

✔️Ответ: Tailgating

Мантрапы (Tailgating) - это механизмы физической безопасности, используемые для ограничения несанкционированного доступа в охраняемую зону. Они работают, позволяя только одному человеку входить в обозначенную зону одновременно. Пропуск происходит, когда неавторизованное лицо следует за авторизованным лицом в запретную зону без прохождения надлежащей процедуры проверки.

https://habr.com/ru/companies/kingservers/articles/313268/

⛔️⛔️⛔️Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_9

🔠Вопрос_9: Когда регуляризация используется в машинном обучении?

✔️Ответ:

Регуляризация используется в машинном обучении для предотвращения переобучения модели. Она применяется с целью уменьшения весовых коэффициентов модели, что уменьшает их чувствительность к шуму в данных и повышает обобщающую способность модели. Регуляризация применяется при обучении моделей с помощью методов, таких как линейная регрессия, логистическая регрессия и нейронные сети. Различные виды регуляризации включают L1, L2 и Elastic Net регуляризацию.

https://habr.com/ru/companies/ods/articles/323890/

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

🔠Вопрос_10: Что такое Bias, Variance и что вы подразумеваете под Bias-Variance Tradeoff?

✔️Ответ:

В машинном обучении bias и variance - это две основные ошибки, которые возникают при обучении модели.

Bias указывает, насколько ошибочны прогнозы модели относительно истинных значений. Когда модель имеет высокое значение bias, это значит, что она слишком простая и не имеет достаточно гибкости, чтобы захватить все зависимости между переменными в данных. Это может привести к недообучению, когда модель плохо работает на данных обучения.

Variance, с другой стороны, указывает на то, насколько "шумны" прогнозы модели. Если модель имеет высокую дисперсию, это значит, что она слишком сложная и способна улавливать случайные шумы в данных. Это может привести к переобучению, когда модель работает хорошо на данных обучения, но плохо на новых данных.

Bias-variance tradeoff - это компромисс между между моделями, которые имеют высокую точность, но могут быть переобучены (высокая дисперсия), и моделями, которые имеют менее точные результаты, но лучше обобщаются на новые данные (низкая дисперсия). Идея заключается в том, чтобы найти оптимальное сочетание bias и variance, которое обеспечивает наилучшую обобщающую способность модели.

https://habr.com/ru/companies/microsoft/articles/334556/

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_11

🔠Вопрос_11: На сегодняшний день существует множество алгоритмов машинного обучения. Если дан набор данных, как определить, какой алгоритм следует использовать для этого?

✔️Ответ:
При выборе алгоритма машинного обучения для конкретного набора данных, необходимо учитывать несколько факторов:

1. Тип задачи: классификация, регрессия или кластеризация.
2. Масштаб данных: количество объектов и признаков.
3. Структура данных: присутствуют ли пропущенные значения, выбросы, корреляции между признаками.
4. Наличие признаков различных типов: бинарных, категориальных, числовых.
5. Выборка данных: случайная ли выборка, сбалансированы ли классы в задаче классификации.
6. Возможные ограничения на время обучения или размер модели.

Например: Если данные линейны, то мы используем линейную регрессию. Если данные нелинейны, то лучше использовать алгоритм bagging. Если данные должны быть проанализированы/интерпретированы для каких-то бизнес-целей, то мы можем использовать деревья решений или SVM. Если набор данных состоит из изображений, видео, аудио, то нейронные сети помогут получить точное решение.

Таким образом, не существует определенной метрики, чтобы решить, какой алгоритм следует использовать для данной ситуации или набора данных. Нам необходимо изучить данные с помощью EDA (Exploratory Data Analysis) и понять цель использования набора данных, чтобы найти наиболее подходящий алгоритм. Поэтому важно подробно изучить все алгоритмы.

https://habr.com/ru/companies/microsoft/articles/317512/

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 CEH (Certificated Ethical Hacker) - Вопрос_5

⚠️Q5: What is XSS or Cross-Site Scripting?

✔️Ответ: Как объясняет OWASP, "атаки межсайтового скриптинга (XSS) - это тип инъекции, при котором вредоносные скрипты внедряются в доброкачественные и надежные веб-сайты. XSS-атаки происходят, когда злоумышленник использует веб-приложение для отправки вредоносного кода, обычно в виде сценария на стороне браузера, другому конечному пользователю. Недостатки, которые позволяют этим атакам быть успешными, довольно широко распространены и встречаются везде, где веб-приложение использует ввод от пользователя в генерируемом им выводе без его проверки или кодирования".

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12

🔠Вопрос_12: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Ковариация не учитывает, насколько сильно/слабо эти переменные меняются.

Корреляция учитывает не только направление, но и силу отношения. +1 означает, что переменные имеют прямую связь и коррелируют. -1 означает, что переменные находятся в обратной пропорциональной связи. 0 означает, что между двумя переменными нет связи.

https://chance.nanoquant.ru/correlation.htm

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12

🔠Вопрос_12: Объясните что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных??

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов. Label Encoding - это преобразование меток/слов в числовую форму. Использование one-hot encoding увеличивает размерность набора данных.

Label Encoding не влияет на размерность набора данных. One-hot encoding создает новую переменную для каждого уровня переменной, в то время как при Label Encoding уровни переменной кодируются как 1 и 0.

https://habr.com/ru/articles/666234/

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_13

🔠Вопрос_13: Как можно связать стандартное отклонение и дисперсию?

✔️Ответ: Стандартное отклонение относится к разбросу ваших данных от среднего значения. Дисперсия - это средняя степень, в которой каждая точка отличается от среднего значения, т.е. среднего значения всех точек данных. Мы можем связать стандартное отклонение и дисперсию, поскольку оно является квадратным корнем из дисперсии. Другими словами, если вы возьмете квадратный корень из дисперсии, то получите стандартное отклонение. А если вы возьмете квадрат стандартного отклонения, то получите дисперсию.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score