DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_35

🔠Вопрос_35: Объясните термин "обучение на основе примеров" ?

✔️Ответ:

Обучение на основе экземпляров - это набор процедур регрессии и классификации, которые позволяют предсказать метку класса на основе сходства с его ближайшими соседями в наборе обучающих данных. Эти алгоритмы просто собирают все данные и получают ответ, когда это требуется или запрашивается. Простыми словами, они представляют собой набор процедур для решения новых задач, основанных на решениях уже решенных проблем в прошлом, которые аналогичны текущей проблеме.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_36

🔠Вопрос_36: Что такое теорема Байеса? Укажите хотя бы 1 вариант использования в отношении контекста машинного обучения ?

✔️Ответ:

Теорема Байеса - это статистическая теорема, которая позволяет обновлять вероятности событий на основе новой информации. Формально она выглядит так:

P(A|B) = (P(B|A) * P(A)) / P(B)

Где:
P(A|B) - вероятность события A при условии B,
P(B|A) - вероятность события B при условии A,
P(A) и P(B) - вероятность событий A и B соответственно.

Пример использования теоремы Байеса в контексте машинного обучения - это классификация текстов. Предположим, у нас есть набор текстов, разделенных на категории, и мы хотим классифицировать новый текст. Мы можем использовать теорему Байеса, чтобы обновить вероятности принадлежности текста к определенным категориям на основе уже имеющихся данных.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
⚠️100 CEH (Certificated Ethical Hacker) - Вопрос_29

🔠Q29: Что такое STRIDE?

✔️Ответ: STRIDE - это аббревиатура от системы моделирования угроз. Это помогает классифицировать все кибератаки по приведенным ниже методам:

- Spoofing;
- Tampering;
- Repudiation;
- Information disclosure;
- Denial of service (DoS);
- Elevation of privilege;

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
⚠️100 CEH (Certificated Ethical Hacker) - Вопрос_30

🔠Q30: Можете ли вы настроить таргетинг на любой IP-адрес для тестирования на проникновение?

✔️Ответ: Тестирование на проникновение начинвается только после детального обсуждения целевых показателей с руководством и технической командой компании. Юридическое соглашение подписывается между агентством по тестированию и компанией заказчиком, в котором упоминаются все IP-адреса, подпадающие под действие теста.

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_37

🔠Вопрос_37: Каково значение гаммы и регуляризации в SVM?

✔️Ответ:

Гамма в SVM отвечает за ширину радиальной базисной функции (RBF), которая используется для преобразования признакового пространства. Более высокое значение гаммы приводит к более сложной модели, которая может более точно разделить данные в исходном пространстве, но может страдать от переобучения. Снижение значения гаммы позволяет модели быть более гибкой и генерализировать лучше, но может ухудшить точность классификации.

Регуляризация в SVM контролирует баланс между уменьшением ошибки обучения и сложностью модели. Чем больше значение регуляризации, тем более простая модель, что может помочь в избежании переобучения. Уменьшение значения регуляризации позволяет модели быть более сложной и точной на обучающих данных, но также может привести к переобучению.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_38

🔠Вопрос_38: В чем разница между порождающей и дискриминативной моделями?

✔️Ответ:

Генеративная модель моделирует совместное распределение вероятностей входных данных и меток классов. Она пытается понять, каким образом данные были сгенерированы, и генерирует новые примеры данных, а также метки классов для этих данных. Генеративная модель может использоваться для генерации новых данных, классификации данных и оценки плотности распределения данных.

Дискриминативная модель, на другой стороне, моделирует прямое отображение между входными данными и метками классов. Она фокусируется на том, какие признаки в данных отличают один класс от других. Дискриминативная модель используется для классификации данных и оценки вероятности принадлежности к определенному классу.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
⚠️100 CEH (Certificated Ethical Hacker) - Вопрос_31

🔠Q31: Что такое XSS и SSRF ?

✔️Ответ:

XSS - это атака, при которой злоумышленник внедряет вредоносный скрипт на веб-страницу, которая потом выполняется в браузере пользователей. Это позволяет злоумышленнику перехватывать данные пользователя, модифицировать содержимое страницы, или выполнять действия от имени пользователя.

SSRF - это атака, при которой злоумышленник заставляет уязвимое приложение отправлять запросы на внутренние сетевые адреса или внешние ресурсы, включая конфиденциальную информацию. Это может привести к компрометации системы, обходу ее защиты или раскрытию конфиденциальных данных.

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
⚠️100 CEH (Certificated Ethical Hacker) - Вопрос_31

🔠Q31: Что такое OWASP ZAP ?

✔️Ответ:

OWASP ZAP (Zed Attack Proxy) - это инструмент для тестирования безопасности веб-приложений с открытым исходным кодом. ZAP предоставляет возможности сканирования и анализа уязвимостей веб-приложений, включая нахождение уязвимостей XSS (межсайтового скриптинга), SQL-инъекций, уязвимостей безопасности авторизации и многое другое. ZAP позволяет обнаружить и исследовать потенциальные проблемы безопасности, помогая девелоперам и тестировщикам улучшить безопасность своих веб-приложений.

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #qa #analysis #penetration #testing #account
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_39

🔠Вопрос_39: Что такое гиперпараметры и чем они отличаются от параметров?

✔️Ответ:

Гиперпараметры - это настройки модели, которые определяют ее структуру и поведение в процессе обучения. Они не настраиваются напрямую в процессе обучения и задаются вручную перед началом обучения модели. Примерами гиперпараметров могут быть количество скрытых слоев нейронной сети, количество нейронов в каждом слое, скорость обучения и количество эпох обучения.

Параметры, с другой стороны, являются внутренними характеристиками модели, которые модель настраивает во время обучения на тренировочных данных. Они определяют веса и смещения в нейронной сети или другие внутренние переменные модели.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_40

🔠Вопрос_40: Что такое Bag-of-words ?

✔️Ответ:

Bag-of-words (мешок слов) - это модель представления текстовых данных, используемая в обработке естественного языка. Она предполагает, что содержимое документа представляется в виде набора слов, игнорируя грамматическую информацию и порядок слов. В этой модели каждое слово в документе рассматривается отдельно и создается словарь, содержащий все уникальные слова из всех документов. Затем каждый документ представляется в виде вектора, где каждая компонента вектора представляет наличие или отсутствие определенного слова в данном документе. Bag-of-words широко используется в задачах анализа текстов, классификации документов, поиска информации и многих других областях.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_41

🔠Вопрос_41: Что такое Bag-of-NGrams?

✔️Ответ:

Bag-of-ngrams (сумка n-грамм) - это модель представления текста, используемая в обработке естественного языка. Она представляет текстовый документ как набор всех возможных n-грамм (последовательностей из n слов) из этого документа. В этой модели порядок слов игнорируется, и каждая n-грамма считается отдельным элементом.

Например, для текста "Кот сидит на коврике" и n=2, его bag-of-ngrams будет содержать следующие элементы: ["Кот сидит", "сидит на", "на коврике"].

Bag-of-ngrams часто применяется для задач классификации текста, когда важно учитывать вхождение определенных слов или фраз в текст, независимо от их порядка.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_42

🔠Вопрос_42: Что такое TF-IDF?

✔️Ответ:

TF-IDF (Term Frequency-Inverse Document Frequency) - это статистическая мера, используемая для оценки важности терминов в документах в коллекции или корпусе текстов. TF-IDF комбинирует два компонента: TF, который отражает, насколько часто термин появляется в документе, и IDF, который вычисляет обратную частоту встречаемости термина в коллекции документов.

TF (частота термина) рассчитывается как отношение числа вхождений термина к общему количеству слов в документе. Более высокий TF означает, что термин чаще встречается в документе.

IDF (обратная документная частота) рассчитывается как логарифм отношения общего числа документов к числу документов, содержащих данный термин. IDF позволяет уменьшить вес общих терминов (например, "а", "и", "в"), а повысить вес более редких и информативных терминов.

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_43

🔠Вопрос_43: Что такое BERT?

✔️Ответ:

BERT (Bidirectional Encoder Representations from Transformers) - это метод для предобучения нейронной сети, который был разработан компанией Google. Он использует модель трансформера, которая обеспечивает более эффективное представление текста.

BERT обучается на больших объемах данных, а затем может быть дообучен для выполнения различных задач в области обработки естественного языка, таких как вопросно-ответная система, анализ тональности текста, машинный перевод и другие.

Он позволяет модели более полно учитывать контекст и смысл текста, что делает его более эффективным в решении различных задач. BERT получил широкое распространение и считается одним из ведущих подходов в области NLP (Natural Language Processing).

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
Ввиду высокой загрузки посты выходят не часто, скоро исправимся ))
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_44

🔠Вопрос_44: Что такое Семантическая сегментация?

Semantic segmentation (семантическая сегментация) - это задача компьютерного зрения, в которой каждый пиксель на изображении классифицируется и присваивается одной или более семантическим категориям или объектам. В отличие от обычной сегментации, где каждый пиксель относится к одному классу, семантическая сегментация обеспечивает детализированную информацию о расположении и классификации различных объектов на изображении. Она широко используется во многих приложениях, таких как автономные автомобили, медицинская диагностика, анализ снимков спутников и т.д. В результате семантической сегментации каждый пиксель принимает участие в образовании объектов на изображении.

https://habr.com/ru/articles/723646/

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
⚠️100 CEH (Certificated Ethical Hacker) - Вопрос_32

🔠Q31: Напишите код для генерации JSON в CSV ?

✔️Ответ:

Import json
if name == ‘main’:
try:
with open('input.json', 'r') as f:
data = json.loads(f.read())
output = ','.join([*data[0]])
for obj in data:
output += f'\n{obj['Name']}, {obj['age']},{obj['birthyear']}'
with open('output.csv', 'w') as f:
f.write(output)
except Exception as ex:
print(f'Error: {str(ex)}')

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #secutity #coding #malware #vulnerabilities #coding #csv #analysis #penetration #testing #json
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_45

🔠Вопрос_45: Что такое Procedure aware pretraining?

Procedure aware pretraining (Процедура-ориентированное предварительное обучение) - это метод обучения модели генерации текста, который учитывает структуру и порядок действий в текстах вопросов-ответов. Вместо простого предсказания следующего слова или фразы, модель предварительно обучается с учетом шагов, процедур или алгоритмов, которые обычно присутствуют в задачах, связанных с обработкой естественного языка.

Это позволяет модели лучше понимать возможные шаги для ответа на вопросы и более последовательно генерировать ответы. При использовании принципа "Процедура-ориентированное предварительное обучение" модель получает более структурированный и информативный результат.

https://arxiv.org/pdf/2303.18230.pdf

#work #coding #testing #optimization #ml #learning #deep #data_science #model #score
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_45

🔠Вопрос_45: Что такое Video-node matching?

✔️Ответ:

Video-node matching - это метод в нейросетях, который используется для анализа и сопоставления видео-контента. Он позволяет находить сходства или соответствия между различными видео-фрагментами. Этот метод основывается на представлении видео-контента в виде графа узлов, где каждый узел представляет собой определенное визуальное или семантическое свойство видео (например, объекты, действия, сцены и т.д.). Video-node matching использует алгоритмы обработки графов и нейронные сети для анализа этих узлов и определения степени их схожести или соответствия. Этот подход может быть использован в таких областях, как поиск видео, классификация контента, распознавание действий и другие задачи анализа видео.

https://arxiv.org/pdf/2303.02665.pdf

#work #coding #testing #optimization #ml #learning #video #matching #model #score
⚠️100 CEH (Certificated Ethical Hacker) - Вопрос_32

🔠Q31: Что такое P2SCP ?

✔️Ответ:

P2SCP (Peer-to-Secure Cloud Protocol) - это протокол безопасной передачи данных между узлами в распределенной системе облачных вычислений. Он разработан для обеспечения защиты и конфиденциальности данных, передаваемых между узлами, используя принципы шифрования и аутентификации. P2SCP позволяет эффективно и безопасно обмениваться данными в облачной среде, минимизируя риски утечки информации или несанкционированного доступа к данным.

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #P2SCP #coding #malware #vulnerabilities #coding #qa #analysis #penetration
⚠️100 CEH (Certificated Ethical Hacker) - Вопрос_33

🔠Q33: Что такое Metasploit ?

✔️Ответ:

Metasploit - это известный инструмент в области информационной безопасности (ИБ), который применяется для проверки уязвимостей, тестирования на проникновение, эксплуатации и управления удаленными системами. Он предлагает множество функций, включая сканирование сети, анализ уязвимостей, разработку эксплойтов и создание back door. Metasploit является мощным инструментом для проведения тестирования на проникновение и аудита безопасности в целях обнаружения и исправления уязвимостей.

🔥🔥🔥Отказ от ответственности: Материалы публикуем в канале несут лишь информационный характер, редакция канала не несет ответственности за ваши возможные действия и последующие за ними последствия. Мы также не призываем вас нарушать закон.

#cyber #metasploit #coding #malware #vulnerabilities #coding #qa #analysis #penetration #scaner
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_46

🔠Q_46: Что такое Multimodal deep learning ?

✔️Ответ:

Multimodal deep learning - это подход, который объединяет информацию из разных модальностей, таких как текст, изображения, аудио и видео, для решения задач машинного обучения. Вместо работы с каждой модальностью отдельно, модели мультимодального глубокого обучения обрабатывают и объединяют данные из разных источников для получения более полного и глубокого понимания контекста. Это позволяет моделям лучше анализировать и извлекать информацию из различных типов данных, что может привести к более точным и совершенным результатам в различных задачах, таких как распознавание объектов, машинный перевод или генерация описаний изображений.

https://arxiv.org/pdf/2306.16413.pdf

#work #coding #testing #optimization #ml #learning #video #matching #multi #modal #learning