Data Scientist | IT

Обнаружение DGA-доменов (тестовое интерна ML)

#почитать

В этой статье мы рассмотрим простую задачу, которая используется одной компанией в качестве тестового задания для стажеров на позицию ML-engineer. Она включает обнаружение DGA-доменов — задача, решаемая с помощью базовых инструментов машинного обучения. Мы покажем, как с ней справиться, применяя самые простые методы. Знание сложных алгоритмов важно, но куда важнее — понимать базовые концепции и уметь применять их на практике, чтобы успешно демонстрировать свои навыки.

DGA (Domain Generation Algorithm) — это алгоритм, который автоматически генерирует доменные имена, часто используемые злоумышленниками для обхода блокировок и связи с командными серверами.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

312 views13:10

Data Scientist | IT

Саммаризация

#почитать

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией.

Хотя саммаризация может использоваться для совершенно разных задач, в контексте работы с отзывами на платформе заключалась в том, чтобы предоставить пользователю сжатую и объективную информацию, а также помочь быстро сформировать представление о продукте, услуге или товаре. Это особенно актуально в условиях переизбытка информации, ведь внимание пользователя ограничено несколькими секундами.

Отзывы можно разбить на три ключевые категории: преимущества, недостатки и дополнительно. Такая саммаризация экономит время и усилия пользователей, которые иначе вынуждены были бы читать десятки или сотни отзывов, чтобы сделать вывод. А еще структура саммари дает более сбалансированную оценку товара.

Но процесс автоматической саммаризации, особенно в текстах, содержащих эмоционально окрашенные мнения, требует тщательной проработки алгоритмов. Например, важно научить систему различать сарказм, субъективные оценки и выделять действительно значимые аспекты. Бывают и трудности: часто встречается сложность обработки многозначных слов, разный стиль написания и полисемия, когда одно слово имеет несколько значений в зависимости от контекста.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

319 views05:07

Data Scientist | IT

HH: курьеры в России стали зарабатывать больше аналитиков

#почитать

К ноябрю курьеры зарабатывали больше некоторых IT-специалистов. Так, зарплата BI-аналитиков и аналитиков данных составила 114,2 тысячи рублей.

Кроме того, курьеры получали больше врачей (88,4 тысячи рублей), менеджеров по логистике и внешнеэкономической деятельности (79,5 тысячи), дизайнеров (70 тысяч), бухгалтеров (62,3 тысячи), журналистов (50,4 тысячи) и учителей (47 тысяч).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

394 views04:52

Data Scientist | IT

Введение в синтетические данные для ML

#почитать

Синтетические данные — это искусственно созданные данные, которые отражают особенности реальных наблюдений и используются для обучения моделей машинного обучения в случаях, когда получить реальные данные сложно или дорого.

Допустим, у нас есть набор данных с фотографиями настоящих людей. Аугментация данных — это процесс, при котором к набору добавляются слегка измененные копии уже существующих элементов. Если применить аугментацию к нашему набору, мы получим те же лица, но с небольшими изменениями, например, с разными оттенками глаз или кожи, с шумами на фото и цветовым фильтром.

Рандомизация, в отличие от этого, лишь перемешивает элементы внутри набора данных, не создавая новых. Так, используя рандомизацию, мы могли бы «поменять местами» черты лиц: взять волосы одного человека, рот другого и глаза третьего. В итоге мы получаем новые лица, не тратя ресурсы на сбор дополнительных данных.

Синтетические данные не копируют реальные данные, а создают новые примеры, основанные на характеристиках оригинала. Они как бы "переосмысливают" реальность, улавливая её основные черты и закономерности, но генерируя совершенно новые, уникальные экземпляры. Представьте, что вы описываете художнику портрет: он не скопирует фотографию, а напишет новую картину, передающую суть человека, сохраняя при этом индивидуальный стиль. Так и синтетические данные — это не копии, а новая интерпретация реальности, сохраняющая её статистические свойства и структуру.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

274 views10:34

Data Scientist | IT

Линейная регрессия: A/B тесты в одном уравнении

#почитать

Как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.

Например, использование таких методов, как t-тест, стратификация, CUPED, CUMPED, по сути, сводятся к построению линейной регрессии и проверке гипотезы в рамках построенной модели. Наши коллеги из команды ad-hoc аналитики Х5 Tech уже писали про стратификацию здесь и про CUPED здесь, а по этой ссылке лежит статья про CUMPED и подобные вариации CUPED.

Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?

Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

270 views10:36

Data Scientist | IT

Модели Take-Rate ценообразования

#почитать

Перед тем как перейти к построению модели, нужно чётко определить, какую задачу мы решаем. В нашем случае это задача классификации:

1 — по комбинации клиент+оффер была совершена сделка.
0 — по комбинации клиент+оффер сделки не произошло.

Так как это модель ценообразования, то важно, чтобы она сохраняла монотонность по управляемым параметрам (ставка, сумма и требования документов). Это означает, что чем выше ставка и другие факторы, тем меньше вероятность, что клиент согласится на предложение.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3👍2❤1

283 views05:03

Data Scientist | IT

Предобработка данных: инструкция, инструменты, ресурсы для начинающих

#почитать

Предобработка — это подготовка набора данных перед загрузкой в модель. Данные в исходном виде часто содержат артефакты, такие как шум, пропуски или дубликаты, которые усложняют их анализ и снижают качество работы алгоритмов.

Артефакты могут появляться по разным причинам:

Человеческий фактор: ошибки при ручном вводе — опечатки, пропуски или неправильные значения.
Неполные данные: информация может быть недоступна, например, сотрудник не указал свое место проживания.
Ошибки при сборе: сбои в автоматических системах, например, временные проблемы с сетью, из-за чего часть данных теряется.
Объединение данных из разных источников: разные форматы или отсутствие значений при объединении нескольких баз.
Технические ограничения: например, система принимает только положительные числа, а передали отрицательное значение.
Устаревшая информация: данные не обновляются вовремя, из-за чего информация устаревает.
Ошибки при миграции: повреждение или потеря данных при переносе из одной системы в другую.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

302 views10:34

Data Scientist | IT

Прокрашиваем серые метрики в А/B — тестах

#почитать

К сожалению, нырнуть в базы данных X5 мы не имеем возможности, но провести синтезацию похожих по распределению данных мы можем легко с помощью инструментов библиотек для анализа данных.

Возьмем 1000 магазинов (shop_id), для каждого магазина создадим равное количеству дней эксперимента число строк (пусть наш синтетический тест будет длиться 2 недели), каждой записи shop_id-date присвоим значение метрики. Метрика может быть любой: количество доставок, среднее время доставки заказа, количество отмен, среднее количество заказов на курьера в этот день и др. Для наглядности предлагаю взять курьерскую доставку и обозначить в качестве целевой метрики "Среднее количество доставленных заказов за день".

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

254 views10:57

Data Scientist | IT

ML в оценке кредитных рисков

#почитать

Эта система рассчитывает балл на основе информации о клиенте и выдает ответ «выдать» или «не выдать» кредит. Но традиционные кредитные модели исключают значительную часть населения, которая не набрала внушительной кредитной истории или просто имеет слишком мало данных для оценки. По данным TransUnion, США более 45 миллионов человек «невидимы» для кредитных систем. В других странах доля людей, находящихся за пределами внимания кредитных бюро, еще выше. В Индии количество таких «невидимок» составляет почти 63%, в ЮАР 51%, а в Гонконге 16%. И тут в игру вступает ML.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

274 views04:59

Data Scientist | IT

ООП для типовых ML задач

#почитать

В данной статье НЕ будет идти речи о способах построения продвинутых моделей с различными наворотами. Рассказ пойдет о том, как автоматизировать построение типовой модели.

Дело в том, что в отличие от задач из учебника, в реальной работе зачастую приходится строить много вариантов модели, делать различную сопутствующую аналитику. Может варьироваться: таргет, период для семпла разработки (если имеем дело с историческими данными), добавляются разбивки на канал продаж или ещё какие-либо продуктовые разбивки. Также возможен сценарий, что на последнем этапе, когда заказчику представили модель , решили исключить некоторую фичу. Соответственно, нужно заново прогонять часть расчетов. При этом хочется от каждого варианта расчёта сохранить результаты.

Полагаю, что по этому описанию многим на ум уже пришло слово AutoML. Да, пожалуй по смыслу подходит. Однако я предлагаю рассмотреть более узкую задачу, а именно "как это все запрогать, чтобы не утонуть в море кода". Здесь мне на помощь как раз придет ООП.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

333 views05:02

Data Scientist | IT

Big Data мертвы, да здравствуют Smart Data

#почитать

Big Data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2❤1

330 views05:01

Data Scientist | IT

Анализ тональности текста за 7 минут

#почитать

Анализ тональности помогает компаниям получать ценные инсайты из необработанных данных, таких как переписки с клиентами, упоминания в блогах и социальных сетях.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

284 views10:40

Data Scientist | IT

Топология в нейросетях

#почитать

Вот часто, когда слышишь про математику в ML, звучат только байесовские методы, производные, интерполяции, а еще иногда тензоры... Но математический аппарат в машинном обучении может уходить глубоко в корни даже, как кажется, совершенно фундаментальных и абстрактных направлений этой науки.

Сегодня мы немного коснемся TDA, топологического анализа данных. Постараемся писать просто. Чтобы даже самому неопытному студенту было понятно. Цель статьи заинтересовать, ведь TDA - авангардная штука. Но начать нужно с самой базы: "Зачем и для чего, да и что такое... эта ваша топология?"

Топология занимается исследованием свойств пространств, сохраняющихся при непрерывных деформациях. Первым здесь представляется теория "гравитации", искажения пространства-времени... В отличие от геометрии, где важны размеры и формы, топология концентрируется на свойствах, устойчивых к изменениям без разрывов и склеек.

Чтобы понять, что это означает, можно представить резиновый лист, который можно сгибать, растягивать, сжимать, но нельзя рвать или склеивать — те свойства, которые сохраняются при таких изменениях, и интересуют топологов.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

317 views05:06

Data Scientist | IT

Исследование опенсорс-инструментов в области ML/DS от ИТМО: выводы и инсайты

#почитать

Задались вопросом: куда мы уже пришли и как эта отрасль изменится в ближайшие годы. А чтобы на него ответить, провели масштабное аналитическое исследование open source ― посмотрели как разработки крупных компаний, так и университетов, поговорили с экспертами рынка и проанализировали выложенный на GitHub код. На Хабре уже выходила новость с перечнем основных игроков и некоторыми результатами.

В этой статье ― более подробные выводы и инсайты от экспертов ― как тех, что уже участвовали в исходном исследовании, так и тех, кто решил прокомментировать результаты уже после публикации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2❤1

268 views05:12

Data Scientist | IT

Support Vector Machine для начинающих

#почитать

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2👌1

268 views10:40

Data Scientist | IT

Обзор платформы Kaggle для начинающих: от состязаний до менторской программы

#почитать

Kaggle.com — открытая площадка, на которой собрано огромное количество информации по Data Science и машинному обучению:

датасетов — больших наборов данных на какую-то тему, которые нужны для обучения модели;

«ноутбуков» — так называются записи с примерами кода или готовыми проектами, выложенными в открытый доступ;

моделей — готовых моделей для машинного обучения, в том числе нейросетевых.

Одна из ключевых функций Kaggle — организация соревнований по машинному обучению. Организаторами чаще всего выступают компании: они регистрируют на площадке новое состязание, а пользователи могут в них поучаствовать. Победители получают «медали», внутренние достижения Kaggle, и призы от организатора.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

348 views05:10

Data Scientist | IT

Линейная регрессия и её регуляризация в Scikit-learn

#почитать

В этой статье мы рассмотрим модели линейной регрессии, доступные в scikit-learn. Обсудим, что такое регуляризация, на примерах Ridge, Lasso и Elastic Net, а также покажем, как эти методы можно реализовать на Python.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

359 views10:40

Data Scientist | IT

Необычные вкусы покупателей: что такое товарные пары и как их исследовать

#почитать

с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание;

как география, время суток и другие факторы влияют на выбор покупателей;

как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍1

304 views05:17

Data Scientist | IT

Семантическая сегментация

#почитать

Если объяснять в двух словах, то это одна из ключевых задач в области компьютерного зрения, она помогает машинам отличать разные классы объектов и фоновые регионы на изображении.

Для семантической классификации мы выделяем каждый пиксель изображения, при этом каждый сегмент изображения соотносится с определенным классом. Например, на снимке с городским пейзажем модель выделяет здания, дороги, деревья и небо, причисляя каждый пиксель к своему классу. Это помогает машине «видеть» изображение так, как это делает человек, идентифицируя отдельные объекты и области.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2

324 views05:19

Data Scientist | IT

KAN модель

#почитать

Для начала вспомним, что собой представляет KAN с точки зрения математики. Эту часть мы попросили прокомментировать руководителя лаборатории композитного искусственного интеллекта ИТМО, кандидата физико-математических наук Александра Хватова.

― Во главе всего машинного обучения стоит некоторая модель, выражающая определенную функцию, например распознавание лица человека на изображении. Как правило, для сложных задач с изображениями это сверточная нейронная сеть, для более простых ― полносвязная нейронная сеть, для обработки временных рядов (того же предсказания погоды на следующие промежутки времени) ― сети с памятью.

В основе большинства существующих архитектур лежит многослойный перцептрон, предложенный еще в 50-60-х годах прошлого века ― во время первой весны искусственного интеллекта. Эта сущность хорошо изучена, уже сложилась определенная практика эффективных компьютерных вычислений. За прошедшие 50 лет перцептрон претерпевал некоторые эволюционные изменения ― мы перешли на более сложные модели, вроде LLM, но никакой революции с ним не происходило.

Авторы из MIT предложили отойти от этой классической архитектуры ― от многослойного перцептрона ― заменив его на KAN ― сети Колмогорова-Арнольда. Статья с этой идеей была опубликована в Arxiv.org. Ее влияние на научный мир оказалось действительно масштабным, по крайней мере, в части того, что множество научных групп взялись попробовать отойти от классического многослойного перцептрона. В первой статье от MIT есть своеобразная затравочка ― пример, как применить эту архитектуру для решения дифференциальных уравнений. Позже появились публикации о том, как KAN справляется с распознаванием изображений, прогнозированием временных рядов и так далее.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥1

271 views10:20

About

Blog

Apps

Platform