Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

651 photos

3 videos

1 file

707 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

ML-подход к оттоку рекламодателей

#почитать

Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

331 views10:43

Data Scientist | IT

Четыре уровня адаптации open-source моделей

#почитать

Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

327 views10:36

Data Scientist | IT

▫️ Не взяли в Мету на Data Science

#посмотреть

Все лето я проходил собеседование в Мету*, дошел до самого последнего этапа и к сожалению не получил оффер. В этом видео рассказываю, как мне удалось пройти так далеко, как я готовился, что спрашивали на интервью и что же все-таки пошло не так. Покажу резюме, по которому меня нашел рекрутер из Меты* и позвал на собеседование на Senior Data Scientist.

⏱

Смотреть на YouTube ⏱️35 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

345 views05:07

Data Scientist | IT

▫️

Intuitive SQL for Data Analytics

#посмотреть

11 часов теории и практики (PostgreSQL) - freeCodeCamp.

⏱

Смотреть на YouTube ⏱️11 часов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥1

339 views10:30

Data Scientist | IT

Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей

#почитать

Есть три главных столпа тестирования LLM:

Пользовательский фидбэк: Самый очевидный, но запоздалый способ понять, работает ли ваше приложение. Ведь фидбэк возможен только после релиза. А если ошибки спрятаны до продакшна?

Ручное тестирование: Трудозатратное занятие, способное исчерпать даже самую энергичную команду. О плюсах и минусах применения на практике вы, вероятно, уже знаете: субъективность и, увы, тоже ошибки.

Автоматическое тестирование: Спасительная гавань для всех разработчиков LLM. Однако есть нюанс — оно все еще развивается, как и сами LLM, и всегда требует свежих подходов.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2🔥1

365 views05:09

Data Scientist | IT

Анализ временных рядов: полное руководство для начинающих

#почитать

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤1👍1

308 views10:51

Data Scientist | IT

"Мы в разгаре лета искусственного интеллекта"

#почитать

— В целом развитие науки о данных у нас в стране идёт в рамках общемировых трендов. Конечно, здесь можно найти свою специфику. Например, мы живём в условиях некоторого дефицита вычислительных мощностей. Пока поставки в Россию и Китай наиболее продвинутых GPU запрещены. Поэтому для строительства мощных тензорных кластеров нужна особая внешнеэкономическая магия.

С другой стороны, у нас в «активе» советская математическая школа, развитая ИТ-индустрия и современная экосистема с информационно-технологической инфраструктурой. А это подразумевает развитую культуру ИТ-разработки, наличие профильных кадров, больших и хорошо структурированных массивов данных.

В нашумевшей статье бывшего сотрудника OpenAI Леопольда Ашенбреннера «Осведомленность о ситуации: Предстоящее десятилетие» есть оценка. На мой взгляд немного оптимистичная. По его мнению, прогресс в этой области в ближайшие 2 года позволит обучать модели той же «мощности» на том же оборудовании в 10 раз быстрее. Примерно такой же эффект даёт развитие аппаратных платформ. Дополнительные эффекты позволяют больше «выжать» из уже обученных моделей. Методы, которые позволяют это сделать, Ашенбреннер объединяет под зонтичным термином «unhobbling». Дословно: «растреноживание», раскрепощение. Это применение мультиагентного подхода, моделирование рассуждений: цепочки, деревья и графы рассуждений. А ещё скаффолдинг: создание алгоритмического «каркаса» вокруг большой языковой модели.

Но важно понимать, что со временем эффект от всех этих улучшений будет снижаться. Экспоненты такого рода не могут продолжаться бесконечно.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

296 views11:09

Data Scientist | IT

Обнаружение DGA-доменов (тестовое интерна ML)

#почитать

В этой статье мы рассмотрим простую задачу, которая используется одной компанией в качестве тестового задания для стажеров на позицию ML-engineer. Она включает обнаружение DGA-доменов — задача, решаемая с помощью базовых инструментов машинного обучения. Мы покажем, как с ней справиться, применяя самые простые методы. Знание сложных алгоритмов важно, но куда важнее — понимать базовые концепции и уметь применять их на практике, чтобы успешно демонстрировать свои навыки.

DGA (Domain Generation Algorithm) — это алгоритм, который автоматически генерирует доменные имена, часто используемые злоумышленниками для обхода блокировок и связи с командными серверами.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

312 views13:10

Data Scientist | IT

Саммаризация

#почитать

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией.

Хотя саммаризация может использоваться для совершенно разных задач, в контексте работы с отзывами на платформе заключалась в том, чтобы предоставить пользователю сжатую и объективную информацию, а также помочь быстро сформировать представление о продукте, услуге или товаре. Это особенно актуально в условиях переизбытка информации, ведь внимание пользователя ограничено несколькими секундами.

Отзывы можно разбить на три ключевые категории: преимущества, недостатки и дополнительно. Такая саммаризация экономит время и усилия пользователей, которые иначе вынуждены были бы читать десятки или сотни отзывов, чтобы сделать вывод. А еще структура саммари дает более сбалансированную оценку товара.

Но процесс автоматической саммаризации, особенно в текстах, содержащих эмоционально окрашенные мнения, требует тщательной проработки алгоритмов. Например, важно научить систему различать сарказм, субъективные оценки и выделять действительно значимые аспекты. Бывают и трудности: часто встречается сложность обработки многозначных слов, разный стиль написания и полисемия, когда одно слово имеет несколько значений в зависимости от контекста.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

319 views05:07

Data Scientist | IT

HH: курьеры в России стали зарабатывать больше аналитиков

#почитать

К ноябрю курьеры зарабатывали больше некоторых IT-специалистов. Так, зарплата BI-аналитиков и аналитиков данных составила 114,2 тысячи рублей.

Кроме того, курьеры получали больше врачей (88,4 тысячи рублей), менеджеров по логистике и внешнеэкономической деятельности (79,5 тысячи), дизайнеров (70 тысяч), бухгалтеров (62,3 тысячи), журналистов (50,4 тысячи) и учителей (47 тысяч).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

394 views04:52

Data Scientist | IT

Введение в синтетические данные для ML

#почитать

Синтетические данные — это искусственно созданные данные, которые отражают особенности реальных наблюдений и используются для обучения моделей машинного обучения в случаях, когда получить реальные данные сложно или дорого.

Допустим, у нас есть набор данных с фотографиями настоящих людей. Аугментация данных — это процесс, при котором к набору добавляются слегка измененные копии уже существующих элементов. Если применить аугментацию к нашему набору, мы получим те же лица, но с небольшими изменениями, например, с разными оттенками глаз или кожи, с шумами на фото и цветовым фильтром.

Рандомизация, в отличие от этого, лишь перемешивает элементы внутри набора данных, не создавая новых. Так, используя рандомизацию, мы могли бы «поменять местами» черты лиц: взять волосы одного человека, рот другого и глаза третьего. В итоге мы получаем новые лица, не тратя ресурсы на сбор дополнительных данных.

Синтетические данные не копируют реальные данные, а создают новые примеры, основанные на характеристиках оригинала. Они как бы "переосмысливают" реальность, улавливая её основные черты и закономерности, но генерируя совершенно новые, уникальные экземпляры. Представьте, что вы описываете художнику портрет: он не скопирует фотографию, а напишет новую картину, передающую суть человека, сохраняя при этом индивидуальный стиль. Так и синтетические данные — это не копии, а новая интерпретация реальности, сохраняющая её статистические свойства и структуру.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

274 views10:34

Data Scientist | IT

Линейная регрессия: A/B тесты в одном уравнении

#почитать

Как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.

Например, использование таких методов, как t-тест, стратификация, CUPED, CUMPED, по сути, сводятся к построению линейной регрессии и проверке гипотезы в рамках построенной модели. Наши коллеги из команды ad-hoc аналитики Х5 Tech уже писали про стратификацию здесь и про CUPED здесь, а по этой ссылке лежит статья про CUMPED и подобные вариации CUPED.

Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?

Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

270 views10:36

Data Scientist | IT

Модели Take-Rate ценообразования

#почитать

Перед тем как перейти к построению модели, нужно чётко определить, какую задачу мы решаем. В нашем случае это задача классификации:

1 — по комбинации клиент+оффер была совершена сделка.
0 — по комбинации клиент+оффер сделки не произошло.

Так как это модель ценообразования, то важно, чтобы она сохраняла монотонность по управляемым параметрам (ставка, сумма и требования документов). Это означает, что чем выше ставка и другие факторы, тем меньше вероятность, что клиент согласится на предложение.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3👍2❤1

283 views05:03

Data Scientist | IT

Предобработка данных: инструкция, инструменты, ресурсы для начинающих

#почитать

Предобработка — это подготовка набора данных перед загрузкой в модель. Данные в исходном виде часто содержат артефакты, такие как шум, пропуски или дубликаты, которые усложняют их анализ и снижают качество работы алгоритмов.

Артефакты могут появляться по разным причинам:

Человеческий фактор: ошибки при ручном вводе — опечатки, пропуски или неправильные значения.
Неполные данные: информация может быть недоступна, например, сотрудник не указал свое место проживания.
Ошибки при сборе: сбои в автоматических системах, например, временные проблемы с сетью, из-за чего часть данных теряется.
Объединение данных из разных источников: разные форматы или отсутствие значений при объединении нескольких баз.
Технические ограничения: например, система принимает только положительные числа, а передали отрицательное значение.
Устаревшая информация: данные не обновляются вовремя, из-за чего информация устаревает.
Ошибки при миграции: повреждение или потеря данных при переносе из одной системы в другую.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

302 views10:34

Data Scientist | IT

Прокрашиваем серые метрики в А/B — тестах

#почитать

К сожалению, нырнуть в базы данных X5 мы не имеем возможности, но провести синтезацию похожих по распределению данных мы можем легко с помощью инструментов библиотек для анализа данных.

Возьмем 1000 магазинов (shop_id), для каждого магазина создадим равное количеству дней эксперимента число строк (пусть наш синтетический тест будет длиться 2 недели), каждой записи shop_id-date присвоим значение метрики. Метрика может быть любой: количество доставок, среднее время доставки заказа, количество отмен, среднее количество заказов на курьера в этот день и др. Для наглядности предлагаю взять курьерскую доставку и обозначить в качестве целевой метрики "Среднее количество доставленных заказов за день".

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

254 views10:57

Data Scientist | IT

ML в оценке кредитных рисков

#почитать

Эта система рассчитывает балл на основе информации о клиенте и выдает ответ «выдать» или «не выдать» кредит. Но традиционные кредитные модели исключают значительную часть населения, которая не набрала внушительной кредитной истории или просто имеет слишком мало данных для оценки. По данным TransUnion, США более 45 миллионов человек «невидимы» для кредитных систем. В других странах доля людей, находящихся за пределами внимания кредитных бюро, еще выше. В Индии количество таких «невидимок» составляет почти 63%, в ЮАР 51%, а в Гонконге 16%. И тут в игру вступает ML.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

274 views04:59

Data Scientist | IT

ООП для типовых ML задач

#почитать

В данной статье НЕ будет идти речи о способах построения продвинутых моделей с различными наворотами. Рассказ пойдет о том, как автоматизировать построение типовой модели.

Дело в том, что в отличие от задач из учебника, в реальной работе зачастую приходится строить много вариантов модели, делать различную сопутствующую аналитику. Может варьироваться: таргет, период для семпла разработки (если имеем дело с историческими данными), добавляются разбивки на канал продаж или ещё какие-либо продуктовые разбивки. Также возможен сценарий, что на последнем этапе, когда заказчику представили модель , решили исключить некоторую фичу. Соответственно, нужно заново прогонять часть расчетов. При этом хочется от каждого варианта расчёта сохранить результаты.

Полагаю, что по этому описанию многим на ум уже пришло слово AutoML. Да, пожалуй по смыслу подходит. Однако я предлагаю рассмотреть более узкую задачу, а именно "как это все запрогать, чтобы не утонуть в море кода". Здесь мне на помощь как раз придет ООП.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

333 views05:02

Data Scientist | IT

Big Data мертвы, да здравствуют Smart Data

#почитать

Big Data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2❤1

330 views05:01

Data Scientist | IT

Анализ тональности текста за 7 минут

#почитать

Анализ тональности помогает компаниям получать ценные инсайты из необработанных данных, таких как переписки с клиентами, упоминания в блогах и социальных сетях.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

284 views10:40

Data Scientist | IT

Топология в нейросетях

#почитать

Вот часто, когда слышишь про математику в ML, звучат только байесовские методы, производные, интерполяции, а еще иногда тензоры... Но математический аппарат в машинном обучении может уходить глубоко в корни даже, как кажется, совершенно фундаментальных и абстрактных направлений этой науки.

Сегодня мы немного коснемся TDA, топологического анализа данных. Постараемся писать просто. Чтобы даже самому неопытному студенту было понятно. Цель статьи заинтересовать, ведь TDA - авангардная штука. Но начать нужно с самой базы: "Зачем и для чего, да и что такое... эта ваша топология?"

Топология занимается исследованием свойств пространств, сохраняющихся при непрерывных деформациях. Первым здесь представляется теория "гравитации", искажения пространства-времени... В отличие от геометрии, где важны размеры и формы, топология концентрируется на свойствах, устойчивых к изменениям без разрывов и склеек.

Чтобы понять, что это означает, можно представить резиновый лист, который можно сгибать, растягивать, сжимать, но нельзя рвать или склеивать — те свойства, которые сохраняются при таких изменениях, и интересуют топологов.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

317 views05:06

Data Scientist | IT

Исследование опенсорс-инструментов в области ML/DS от ИТМО: выводы и инсайты

#почитать

Задались вопросом: куда мы уже пришли и как эта отрасль изменится в ближайшие годы. А чтобы на него ответить, провели масштабное аналитическое исследование open source ― посмотрели как разработки крупных компаний, так и университетов, поговорили с экспертами рынка и проанализировали выложенный на GitHub код. На Хабре уже выходила новость с перечнем основных игроков и некоторыми результатами.

В этой статье ― более подробные выводы и инсайты от экспертов ― как тех, что уже участвовали в исходном исследовании, так и тех, кто решил прокомментировать результаты уже после публикации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2❤1

268 views05:12