Хабр / ML & AI

Nearest-Neighbors (python 3)
Исходный код + Описание команд программы + Описание идеи алгоритмаsklearn.neighbors — это библиотека, которая предоставляет возможности работы с алгоритмами, основанными на соседях (как для случая обучения с учителем, так и для случая обучения без учителя).Метод ближайших соседей без учителя является основой для многих других алгоритмов машинного обучения, в частности, manifold learning и спектральной кластеризации.Обучение с учителем, основанное на соседях представляется в двух вариантах: классификация (для данных с дискретными метками) и регрессия (для данных с непрерывными метками).Принцип метода ближайших соседей заключается в поиске предопределенного количества тренировочных (учебных) образцов, ближайших по расстоянию до новой точки, и предсказать метку по ним. Число образцов может быть определено пользователем константой (k‑ближайших соседей), либо варьироваться в зависимости от локальной плотности точек (радиус‑ориентированное обучение). Расстояние, вообще говоря, может быть любой метрической мерой: стандартное евклидово расстояние является наиболее распространенным выбором. Методы, основанные на соседях, известны как не обобщающие методы машинного обучения, так как они просто «запоминают» все свои учебные данные (возможно, превращаются в быструю структуру индексирования, такую как дерево шаров или KD дерево).Несмотря на свою простоту, ближайшие соседи успешно справились с большим количеством проблем классификации и регрессии, включая рукописные цифры или сцены спутникового изображения. Будучи непараметрическим методом, он часто бывает успешным в ситуациях классификации, где граница решения очень нерегулярна. Читать далее

#nearest_neighbor #scikit_learn #pyhon | @habr_ai

Хабр

Nearest-Neighbors (python 3)

Исходный код + Описание команд программы + Описание идеи алгоритма sklearn.neighbors — это библиотека, которая предоставляет возможности работы с алгоритмами, основанными на соседях...

8 views23:14

Хабр / ML & AI

Мы так и не смогли защитить свою модель машинного обучения от состязательных атак. Пока

Наша команда разработчиков Исследовательского центра доверенного искусственного интеллекта ИСП РАН первые два года занималась построением сетевой системы обнаружения вторжений, основанной на применении методов машинного обучения. А в последний год мы сменили щит на меч и начали атаковать состязательными атаками (adversarial attacks) синтезированную нами же модель.

Задача была простой: оценить устойчивость модели к состязательным атакам. Спойлер: модель не устойчива, а как это исправить — мы пока не знаем. Подробности ниже. Читать далее

#machine_learning #система_обнаружения_вторжений #random_forest #artificial_intelligence #network_security #ids #scikit_learn #обучение_с_учителем | @habr_ai

Хабр

Мы так и не смогли защитить свою модель машинного обучения от состязательных атак. Пока

Наша команда разработчиков Исследовательского центра доверенного искусственного интеллекта ИСП РАН первые два года занималась построением сетевой системы обнаружения вторжений, основанной на...

35 views18:25

Хабр / ML & AI

Где лучше всего пробовать идеи для обучающихся систем?

Для того, чтобы разобраться в сложной и объемной теме машинного обучения, попробовать свои силы и отточить навыки, оптимально подходит библиотека scikit-learn (sklearn).

Читать далее

#python #машинной_обучение #scikit_learn #sklearn #кривые_обучения | @habr_ai

Хабр

Где лучше всего пробовать идеи для обучающихся систем?

Для того, чтобы разобраться в сложной и объемной теме машинного обучения, попробовать свои силы и отточить навыки, оптимально подходит библиотека scikit-learn (sklearn). Это среда языка Python, она...

30 views09:20

Хабр / ML & AI

Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров

Подготовили гайд о том, какие бывают признаки, когда и с помощью каких методов проводить генерацию фич и как решить распространенные ошибки при работе с признаками.

Составить его помогла Виктория Тюфякова, Senior Data Scientist компании ecom.tech.

Читать далее

#feature_engineering #features #фичи #scaling #one_hot_encoding #scikit_learn #xgboost #shap #lime #feature_selection | @habr_ai

Хабр

Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров

Feature Engineering, или генерация признаков — это процесс создания новых признаков (характеристик или фич) из имеющихся данных, чтобы улучшить работу модели машинного обучения. Он может включать...

20 views15:23

Хабр / ML & AI

[Перевод] Пошаговое руководство по созданию синтетических данных в Python

Простое руководство для новичков: как самому генерировать данные для анализа и тестирования

Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опубликовать научную статью о пользовательском решении в области Data Science, но имеющиеся датасеты нельзя использовать из-за юридических ограничений. А может быть, в рамках проекта машинного обучения вы занимаетесь отладкой и исправлением ошибок и вам нужны данные, чтобы идентифицировать и устранить проблемы.

В этих, да и во многих других ситуациях могут пригодиться синтетические данные. Реальные данные часто недоступны: уже кому-то принадлежат или дорого стоят. Так что умение создавать синтетические данные — важный навык для дата-сайентистов.

В этой статье я расскажу, с помощью каких приёмов и методов можно с нуля создать в Python синтетические данные, игрушечные датасеты и фиктивные значения. В некоторых решениях применяются методы из библиотек Python, в других — приёмы, основанные на встроенных функциях Python.

Читать далее

#python #синтетические_данные #ml_модель #обучение_модели #генерация_данных #sdv #faker #scipy #scikit_learn #numpy | @habr_ai

Хабр

Пошаговое руководство по созданию синтетических данных в Python

Простое руководство для новичков: как самому генерировать данные для анализа и тестирования Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в...

34 views09:25

Хабр / ML & AI

Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих

Data Scientist рассказывает, зачем обрабатывать данные перед загрузкой в модель, как провести предобработку и какие инструменты использовать.

Читать далее

#предобработка_данных #предобработка #предварительная_обработка #машинное_обучение #ml #data_science #preprocessing #data #scikit_learn #pandas | @habr_ai

Хабр

Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих

Вместе с Марией Жаровой, Data Scientist компании Wildberries, рассказываем, зачем обрабатывать данные перед загрузкой в модель, как провести предобработку и какие инструменты использовать. Мария...

42 views17:55

Хабр / ML & AI

Матрица ошибок confusion_matrix() в scikit-learn

Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для классификационной модели. В этой матрице строки представляют истинные классы (реальные метки), а столбцы представляют предсказанные классы (метки, которые предсказала модель). Размер матрицы соответствует количеству классов.

Обычно для бинарной классификации она выглядит так:

Читать далее

#scikit_learn #confusion_matrix | @habr_ai

Хабр

Матрица ошибок confusion_matrix() в scikit-learn

Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество...

42 views15:27

Хабр / ML & AI

Решение задачи классификации при помощи Deep Learning и классического Machine Learning

Решаем задачу классификации синтетических данных при помощи TensorFlow и scikit-learn. Сравним время обучения и его зависимость от размера исходного набора данных. Рассмотрим однослойную нейронную сетку с 8-ю нейронами в слое и сравним её с SVC и Decision Tree.

Читать далее

#tensorflow #scikit_learn #benchmark | @habr_ai

Хабр

Решение задачи классификации при помощи Deep Learning и классического Machine Learning

Небольшой бенчмарк (вроде этого ): генерируем данные, потом тренируем на них нейросеть (DL - deep learning) и статистические модели (ML - machine learning). Оценивать результат будем по точности (...

52 views22:45

Хабр / ML & AI

Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

В одном из недавних интервью Марк Цукерберг заявил, что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии.

С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

Читать далее

#машинное_обучение #ml_инженер #ai_talent_hub #mlops #разработка_веб_сервисов #рынок_труда_it #pytorch #scikit_learn #apache_airflow #postgresql | @habr_ai

38 views08:07

Хабр / ML & AI

Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ). Читать далее

#python3 #chatgpt_4 #api #flask #ai_product #machine_learning #logistic_regression #scikit_learn #ml #data_science | @habr_ai

Хабр

Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта. Кто я и зачем...

63 views20:29

Хабр / ML & AI

Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.

В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях. Почитать гайд →

#scikit_learn #sklearn #пайплайн #python #pandas #машинное_обучение #machine_learning #ml #классификация #регрессия | @habr_ai

Хабр

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже...

50 views11:45

Хабр / ML & AI

Фундаментальные вопросы по ML/DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение.

Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять, но так же не лишая полноты!

Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу! Это самое важное, оно происходит в секции с кодом.

Будет здорово получить ваши задачи и разобрать в следующих выпусках! Взглянуть на старое под новым углом

#machine_learning #data_science #python #scikit_learn #ml_интервью #svm #naive_bayes #регуляризация #линейная_регрессия #алгоритмы | @habr_ai

Хабр

Фундаментальные вопросы по ML/DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение....

79 views03:10

Хабр / ML & AI

[Перевод] Линейная регрессия в ML для самых маленьких

В мире машинного обучения есть много всего интересного, но тем, кто только начинает свой путь в этой области часто бывает многое непонятно. В этой статье мы попробуем разобраться с линейной регрессией.

Линейная регрессия — это статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Проще говоря, он помогает понять, как изменение одного или нескольких предикторов (независимых переменных) влияет на результат (зависимую переменную). Подумайте об этом, как о проведении прямой линии через диаграмму рассеяния точек данных, которая наилучшим образом отражает связь между этими точками. Читать далее

#ml #linear_regression #линейная_регрессия #обучение_модели #scikit_learn #python #data_science | @habr_ai

Хабр

Линейная регрессия в ML для самых маленьких

В мире машинного обучения есть много всего интересного, но тем, кто только начинает свой путь в этой области часто бывает многое непонятно. В этой статье мы попробуем...

87 views10:18

Хабр / ML & AI

Главное по ML/DL, часть 2: Вопрос → Краткий ответ → Разбор → Пример кода. SVD/PCA. Bias-variance. Деревья. Бустинг

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение.

Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять, но так же не лишая полноты!

💻 Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу! Это самое важное, оно происходит в секции с кодом. Поэтому попробуйте сами решить предложенную задачку и придумать свою!

Будет здорово получить ваши задачи и в следующих выпусках разобрать!

Мы продолжаем. Обязательно испытайте себя в предыдущей [1] части! Взглянуть на старое под новым углом

#machine_learning #ds #python #scikit_learn #svd #pca #bias_variance_trade_off #random_forest #gradient_boosting #алгоритмы | @habr_ai

Хабр

Главное по ML/DL, часть 2: Вопрос → Краткий ответ → Разбор → Пример кода. SVD/PCA. Bias-variance. Деревья. Бустинг

62 views00:26

Хабр / ML & AI

Нейросеть приближается к опыту профессионального дерматолога

Наконец наступило лето, а с ним и пора отпусков. Уезжая на южные моря, не забывайте: большинство из нас имеет типичную для северянина кожу с пониженным содержанием меланина — пигмента, отвечающего за защиту от ультрафиолета. Если кожа отреагировала непонятным новообразованием, вызывающим опасения, теперь можно проконсультироваться с искусственным интеллектом. Он предварительно осмотрит кожу и посоветует, бежать ли ко врачу, за которым, конечно, всегда последнее слово. К слову, данная медицинская ИИ-технология, как и публикация, не является медицинской рекомендацией: диагноз ставит лечащий врач. Читать далее

#медицина #красота_и_здоровье #приложения #сверточные_сети #нейросети #поиск_по_изображениям #стартапы #разработка_приложений #scikit_learn #opencv | @habr_ai

Хабр

Нейросеть приближается к опыту профессионального дерматолога

Наконец наступило лето, а с ним и пора отпусков. Уезжая на южные моря, не забывайте: большинство из нас имеет типичную для северянина кожу с пониженным содержанием меланина — пигмента, отвечающего за...

65 views14:52

About

Blog

Apps

Platform