2/ В чем разница между классификацией и регрессией ?
- Классификация используется для прогнозирования принадлежности объекта к определенному классу. Например, классификация может быть использована для определения, является ли электронный письмо "спамом" или "не спамом". Она обычно основана на обучении алгоритма на уже размеченных данных, чтобы он мог прогнозировать класс новых данных.
- Регрессия, с другой стороны, используется для прогнозирования непрерывного числового значения. Например, регрессия может использоваться для прогнозирования цены на недвижимость на основе ее характеристик, таких как площадь, количество комнат и т.д. Она также основана на обучении алгоритма на уже размеченных данных, чтобы он мог прогнозировать значения для новых данных.
Таким образом, основная разница между классификацией и регрессией заключается в том, что классификация используется для прогнозирования принадлежности к классу, тогда как регрессия используется для прогнозирования непрерывных значений.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Q:1-Which of the following is component of a risk assessment?
- Logical interface;
- DMZ;
- Administrative safeguards;
- Physical security;
Ответ: Administrative safeguards
#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
Q:3-An attacker gains access to a Web servers database and display the contents of the table that holds all of the names, passwords, and other user information. The attacker did this by entering information into the Web site's user login page that the software's designers did not expect to be entered. This is an example of what kind of software design problem?
- Insufficient security management;
- Insufficient database hardening;
- Insufficient exception handling;
- Insufficient input validation.
Ответ: Insufficient input validation
#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
4/ Что такое переобучение и как с ним борются при разработке моделей машинного обучения ?
1. Регуляризация: добавление к функции ошибки дополнительных слагаемых, которые штрафуют большие веса признаков. Это ограничивает сложность модели и заставляет ее обобщать лучше.
2. Сокращение количества признаков: удаление наименее значимых признаков, которые могут увеличивать шум и делать модель более сложной, что ведет к переобучению.
3. Кросс-валидация: разделение тренировочных данных на несколько частей и проверка, как модель работает на каждой части. Это позволяет определить, возникает ли переобучение и настраивать параметры модели для лучшей обобщающей способности.
4. Добавление шума: добавление случайного шума в данные может помочь модели лучше обобщать знания и избежать переобучения.
5. Использование алгоритмов, которые устойчивы к переобучению, таких как случайный лес, градиентный бустинг или нейронные сети с регуляризацией.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
ROC-AUC (Receiver Operating Characteristic - Area Under the Curve) и Accuracy (точность) - это две разные метрики, используемые для оценки качества моделей машинного обучения.
Accuracy - это мера того, насколько хорошо модель предсказывает правильные ответы. Он показывает процент правильных ответов, которые модель дает на тестовом наборе данных. Например, если у вас есть 100 тестовых данных, и модель правильно классифицирует 85 из них, то точность модели будет равна 85%.
ROC-AUC, с другой стороны, измеряет, насколько хорошо модель отделяет положительные и отрицательные случаи. Она оценивает способность модели различать два класса и вычисляет площадь под кривой приемника операционной характеристики (ROC curve), построенной на основе отношения ложных положительных и ложных отрицательных результатов. Значение ROC-AUC находится в диапазоне от 0,0 до 1,0, где более высокие значения указывают на более высокое качество модели.
https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
Метод Shapley основывается на теории коалиционных игр и позволяет определить, какой вклад вносят каждый признак в прогноз модели с учетом объектов. Он учитывает взаимодействия между признаками и позволяет установить относительную важность каждого признака в зависимости от его вклада в конечный результат.
Feature importance, с другой стороны, не учитывает взаимодействия между признаками, а лишь определяет, насколько сильно каждый признак влияет на конечный результат. Эта метрика может быть вычислена разными способами, например, с помощью моделей, встроенных в библиотеки машинного обучения, или с помощью пермутационного тестирования.
Таким образом, метод Shapley более точен, потому что он учитывает взаимодействия между признаками, но он также может быть более сложен в вычислении, чем feature importance. Feature importance может быть более простым подходом, но может дать менее точные результаты, особенно если есть сильные взаимодействия между признаками.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
1. Удаление проблемных данных: если проблемные данные составляют небольшую долю от общего объема данных, то их можно просто удалить из датасета. Однако, если их много, это может привести к уменьшению объема данных, что может негативно сказаться на результате обучения. В этом случае рекомендуется не удалять данные, а записать их в отдельный датасет, возможно потом они понадобятся в какой-то части или удасться их восстановить.
2. Заполнение пропущенных значений: другой способ - это заполнение пропущенных значений средним или медианным значением. Если в датасете много пропущенных данных, то можно использовать методы, такие как KNN-заполнение.
3. Кодирование пропущенных значений: вместо удаления или заполнения пропущенных значений можно закодировать их как отдельные значения, которые будут использоваться в качестве фактора в обучении модели.
4. Использование алгоритмов, устойчивых к пропущенным данным: некоторые модели машинного обучения, например, случайный лес, являются устойчивыми к пропущенным данным, что позволяет использовать такие данные без необходимости их предварительной обработки.
https://habr.com/ru/articles/663414/
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
Градиентный спуск и стохастический градиентный спуск - это два различных алгоритма оптимизации для обучения моделей машинного обучения.
Градиентный спуск (Gradient Descent) является итеративным методом, который минимизирует функцию потерь, обновляя веса (параметры) модели в направлении, противоположном градиенту функции потерь. Этот метод подходит для обучения на небольших наборах данных, но может работать медленно на больших наборах данных.
Стохастический градиентный спуск (Stochastic Gradient Descent) - это вариант градиентного спуска, которым минимизируется функция потерь путем случайного выбора подмножества данных и вычисления градиента на каждой итерации. Это делает SGD гораздо быстрее, чем градиентный спуск, на больших наборах данных. Однако, такой метод может быть менее точным, чем обычный градиентный спуск, и может иметь проблемы с сходимостью.
Таким образом, основная разница между градиентным спуском и стохастическим градиентным спуском заключается в том, как они обновляют веса модели. Градиентный спуск использует полный набор данных для вычисления градиента, в то время как SGD использует случайно выбранные подмножества данных, что делает его более быстрым на больших наборах данных. Однако, SGD может оказаться менее точным и может не обеспечивать такой стабильности, как градиентный спуск.
https://habr.com/ru/articles/472300/
https://habr.com/ru/articles/716380/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
- Micro
- Worm
- Trojan
- Virus
Для репликации вируса, его выполнения и распространения на другие системы требуется хост-приложение. Все остальные не требуют наличия хост-приложения для репликации.
Хост-приложение - это программное обеспечение, которое обеспечивает ресурсы и условия для выполнения другого приложения на компьютере или сервере. Оно предоставляет среду выполнения для других приложений, позволяет им использовать общие ресурсы, такие как процессор, оперативную память, жесткие диски и т.д., и управляет взаимодействием между приложениями. Примеры хост-приложений включают в себя веб-серверы, базы данных, виртуальные машины и т.д.
https://habr.com/ru/companies/AflexDistribution/articles/123180/
#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
- Dumpster diving
- Shoulder surfing
- Tailgating
- Eavesdropping
Мантрапы (Tailgating) - это механизмы физической безопасности, используемые для ограничения несанкционированного доступа в охраняемую зону. Они работают, позволяя только одному человеку входить в обозначенную зону одновременно. Пропуск происходит, когда неавторизованное лицо следует за авторизованным лицом в запретную зону без прохождения надлежащей процедуры проверки.
https://habr.com/ru/companies/kingservers/articles/313268/
#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
Регуляризация используется в машинном обучении для предотвращения переобучения модели. Она применяется с целью уменьшения весовых коэффициентов модели, что уменьшает их чувствительность к шуму в данных и повышает обобщающую способность модели. Регуляризация применяется при обучении моделей с помощью методов, таких как линейная регрессия, логистическая регрессия и нейронные сети. Различные виды регуляризации включают L1, L2 и Elastic Net регуляризацию.
https://habr.com/ru/companies/ods/articles/323890/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
В машинном обучении bias и variance - это две основные ошибки, которые возникают при обучении модели.
Bias указывает, насколько ошибочны прогнозы модели относительно истинных значений. Когда модель имеет высокое значение bias, это значит, что она слишком простая и не имеет достаточно гибкости, чтобы захватить все зависимости между переменными в данных. Это может привести к недообучению, когда модель плохо работает на данных обучения.
Variance, с другой стороны, указывает на то, насколько "шумны" прогнозы модели. Если модель имеет высокую дисперсию, это значит, что она слишком сложная и способна улавливать случайные шумы в данных. Это может привести к переобучению, когда модель работает хорошо на данных обучения, но плохо на новых данных.
Bias-variance tradeoff - это компромисс между между моделями, которые имеют высокую точность, но могут быть переобучены (высокая дисперсия), и моделями, которые имеют менее точные результаты, но лучше обобщаются на новые данные (низкая дисперсия). Идея заключается в том, чтобы найти оптимальное сочетание bias и variance, которое обеспечивает наилучшую обобщающую способность модели.
https://habr.com/ru/companies/microsoft/articles/334556/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
При выборе алгоритма машинного обучения для конкретного набора данных, необходимо учитывать несколько факторов:
1. Тип задачи: классификация, регрессия или кластеризация.
2. Масштаб данных: количество объектов и признаков.
3. Структура данных: присутствуют ли пропущенные значения, выбросы, корреляции между признаками.
4. Наличие признаков различных типов: бинарных, категориальных, числовых.
5. Выборка данных: случайная ли выборка, сбалансированы ли классы в задаче классификации.
6. Возможные ограничения на время обучения или размер модели.
Например: Если данные линейны, то мы используем линейную регрессию. Если данные нелинейны, то лучше использовать алгоритм bagging. Если данные должны быть проанализированы/интерпретированы для каких-то бизнес-целей, то мы можем использовать деревья решений или SVM. Если набор данных состоит из изображений, видео, аудио, то нейронные сети помогут получить точное решение.
Таким образом, не существует определенной метрики, чтобы решить, какой алгоритм следует использовать для данной ситуации или набора данных. Нам необходимо изучить данные с помощью EDA (Exploratory Data Analysis) и понять цель использования набора данных, чтобы найти наиболее подходящий алгоритм. Поэтому важно подробно изучить все алгоритмы.
https://habr.com/ru/companies/microsoft/articles/317512/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Please open Telegram to view this post
VIEW IN TELEGRAM
#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
Please open Telegram to view this post
VIEW IN TELEGRAM
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12
🔠Вопрос_12: Чем ковариация и корреляция отличаются друг от друга?
✔️Ответ:
Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.
Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Ковариация не учитывает, насколько сильно/слабо эти переменные меняются.
Корреляция учитывает не только направление, но и силу отношения. +1 означает, что переменные имеют прямую связь и коррелируют. -1 означает, что переменные находятся в обратной пропорциональной связи. 0 означает, что между двумя переменными нет связи.
https://chance.nanoquant.ru/correlation.htm
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
🔠Вопрос_12: Чем ковариация и корреляция отличаются друг от друга?
✔️Ответ:
Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.
Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Ковариация не учитывает, насколько сильно/слабо эти переменные меняются.
Корреляция учитывает не только направление, но и силу отношения. +1 означает, что переменные имеют прямую связь и коррелируют. -1 означает, что переменные находятся в обратной пропорциональной связи. 0 означает, что между двумя переменными нет связи.
https://chance.nanoquant.ru/correlation.htm
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12
🔠Вопрос_12: Объясните что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных??
✔️Ответ:
One-hot encoding - это представление категориальных переменных в виде двоичных векторов. Label Encoding - это преобразование меток/слов в числовую форму. Использование one-hot encoding увеличивает размерность набора данных.
Label Encoding не влияет на размерность набора данных. One-hot encoding создает новую переменную для каждого уровня переменной, в то время как при Label Encoding уровни переменной кодируются как 1 и 0.
https://habr.com/ru/articles/666234/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
🔠Вопрос_12: Объясните что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных??
✔️Ответ:
One-hot encoding - это представление категориальных переменных в виде двоичных векторов. Label Encoding - это преобразование меток/слов в числовую форму. Использование one-hot encoding увеличивает размерность набора данных.
Label Encoding не влияет на размерность набора данных. One-hot encoding создает новую переменную для каждого уровня переменной, в то время как при Label Encoding уровни переменной кодируются как 1 и 0.
https://habr.com/ru/articles/666234/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_13
🔠Вопрос_13: Как можно связать стандартное отклонение и дисперсию?
✔️Ответ: Стандартное отклонение относится к разбросу ваших данных от среднего значения. Дисперсия - это средняя степень, в которой каждая точка отличается от среднего значения, т.е. среднего значения всех точек данных. Мы можем связать стандартное отклонение и дисперсию, поскольку оно является квадратным корнем из дисперсии. Другими словами, если вы возьмете квадратный корень из дисперсии, то получите стандартное отклонение. А если вы возьмете квадрат стандартного отклонения, то получите дисперсию.
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
🔠Вопрос_13: Как можно связать стандартное отклонение и дисперсию?
✔️Ответ: Стандартное отклонение относится к разбросу ваших данных от среднего значения. Дисперсия - это средняя степень, в которой каждая точка отличается от среднего значения, т.е. среднего значения всех точек данных. Мы можем связать стандартное отклонение и дисперсию, поскольку оно является квадратным корнем из дисперсии. Другими словами, если вы возьмете квадратный корень из дисперсии, то получите стандартное отклонение. А если вы возьмете квадрат стандартного отклонения, то получите дисперсию.
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_15
🔠Вопрос_15: Что такое временные ряды?
✔️Ответ:
Временной ряд - это последовательность числовых точек данных, расположенных в последовательном порядке. Он отслеживает движение выбранных точек данных в течение определенного периода времени и записывает точки данных через регулярные промежутки времени. Временные ряды не требуют ввода минимального или максимального времени. Аналитики часто используют временные ряды для изучения данных в соответствии с их конкретными требованиями.
https://habr.com/ru/articles/553658/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
🔠Вопрос_15: Что такое временные ряды?
✔️Ответ:
Временной ряд - это последовательность числовых точек данных, расположенных в последовательном порядке. Он отслеживает движение выбранных точек данных в течение определенного периода времени и записывает точки данных через регулярные промежутки времени. Временные ряды не требуют ввода минимального или максимального времени. Аналитики часто используют временные ряды для изучения данных в соответствии с их конкретными требованиями.
https://habr.com/ru/articles/553658/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_16
🔠Вопрос_16: Что такое преобразование Бокса-Кокса?
✔️Ответ:
Преобразование Бокса-Кокса - это преобразование, которое преобразует ненормальные зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно имеет параметр лямбда, который при значении 0 означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения.
https://habr.com/ru/articles/695556/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
🔠Вопрос_16: Что такое преобразование Бокса-Кокса?
✔️Ответ:
Преобразование Бокса-Кокса - это преобразование, которое преобразует ненормальные зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно имеет параметр лямбда, который при значении 0 означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения.
https://habr.com/ru/articles/695556/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_17
🔠Вопрос_17: В чем заключается проблема взрыва градиента при использовании метода обратного распространения?
✔️Ответ:
Когда большие градиенты ошибок накапливаются и приводят к большим изменениям весов нейронной сети во время обучения, это называется проблемой взрывающегося градиента. Значения весов могут стать настолько большими, что переполнятся и приведут к значениям NaN. Это делает модель нестабильной, и обучение модели застопоривается, как и в случае проблемы исчезающего градиента.
https://neerc.ifmo.ru/wiki/index.php?title=Проблемы_нейронных_сетей
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
🔠Вопрос_17: В чем заключается проблема взрыва градиента при использовании метода обратного распространения?
✔️Ответ:
Когда большие градиенты ошибок накапливаются и приводят к большим изменениям весов нейронной сети во время обучения, это называется проблемой взрывающегося градиента. Значения весов могут стать настолько большими, что переполнятся и приведут к значениям NaN. Это делает модель нестабильной, и обучение модели застопоривается, как и в случае проблемы исчезающего градиента.
https://neerc.ifmo.ru/wiki/index.php?title=Проблемы_нейронных_сетей
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_18
🔠Вопрос_17: Объясните различия между машинами Random Forest и Gradient Boosting ?
✔️Ответ:
Случайные леса представляют значительное количество деревьев решений, объединенных с использованием средних значений или правил большинства в конце. Он создает каждое дерево независимо от других, в то время как градиентное усиление развивает одно дерево за раз. Случайные леса хорошо работают для многоклассового обнаружения объектов.
Градиентный бустинг дает лучшие результаты, чем лес, если параметры тщательно подобраны, но это не лучший вариант, если набор данных содержит много выбросов/аномалий/шума, поскольку это может привести к переподгонке модели. Gradient Boosting хорошо работает, когда есть данные, которые не сбалансированы, например, при оценке рисков в режиме реального времени.
https://habr.com/ru/companies/aligntechnology/articles/303750/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
🔠Вопрос_17: Объясните различия между машинами Random Forest и Gradient Boosting ?
✔️Ответ:
Случайные леса представляют значительное количество деревьев решений, объединенных с использованием средних значений или правил большинства в конце. Он создает каждое дерево независимо от других, в то время как градиентное усиление развивает одно дерево за раз. Случайные леса хорошо работают для многоклассового обнаружения объектов.
Градиентный бустинг дает лучшие результаты, чем лес, если параметры тщательно подобраны, но это не лучший вариант, если набор данных содержит много выбросов/аномалий/шума, поскольку это может привести к переподгонке модели. Gradient Boosting хорошо работает, когда есть данные, которые не сбалансированы, например, при оценке рисков в режиме реального времени.
https://habr.com/ru/companies/aligntechnology/articles/303750/
#work #coding #testing #optimization #ml #learning #deep #data_science #model #score