Data Scientist | IT

Скиллы для промышленных проектов Data Science

#почитать

К дата-аналитике мы пришли с появлением предиктивных моделей, цель которых — прогнозировать события или переменные на основе исторических данных. Чтобы создать модель, их нужно проанализировать и предобработать.

Первоначально этим занимались специалисты Data Science, но, оптимизируя процессы, мы решили попробовать подход, когда все задачи по анализу данных будут закреплены за отдельным специалистом. Так появились дата-аналитики. Но проектов, где нужен анализ данных и предиктивная аналитика, оказалось не так много, чтобы мы могли их полноценно загрузить. Поэтому решили вернуться к предыдущей концепции, когда анализом данных занимается DS.

В таких проектах бизнес-аналитик сначала изучает предметную область, помогает сформулировать потребности и задачи клиента к анализу данных, передаёт это DS — и тот выполняет свою часть. На практике стало понятно, что BA нужно хорошо ориентироваться в переданных данных, а это тоже предполагает анализ.

Поэтому мы решили попробовать подход, когда задачи по анализу данных разделены между BA и DS. Для этого потребовалось обучить бизнес-аналитиков. Вместе с DS мы придумали, как будет выглядеть разделение по задачам, какие навыки нам нужны, — и они нас обучили.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

418 views10:31

Data Scientist | IT

Как научить Transformer обрабатывать длинные тексты

#почитать

Стоит отметить, что в задачах генерации короткого текста по длинному контексту хорошо показывают себя и модели на основе декодировщика Transformer, и полный Transformer. Но если речь идёт о задачах типа суммаризации, то при фиксированных размерах моделей лучше могут справиться именно полные Transformer-ы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

399 views05:15

Data Scientist | IT

Методы работы со смещением и дисперсией в моделях машинного обучения

#почитать

Переобучение и недообучение – это Сцилла и Харибда в ML, между которыми нужно лавировать. С тех давних времен появилось множество методов для решения этой проблемы. Рассмотрим их кратко.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍1

384 views05:17

Data Scientist | IT

Приручаем нейросети

#почитать

Сегодня будем говорить и применять новые инструменты для создания RAG, улучшим качество наших результатов относительно прошлой статьи за счет использования других моделей для embeddings. Также затронем использование трушной векторной БД Chroma.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

411 views10:41

Data Scientist | IT

Дифференциальная приватность в машинном обучении

#почитать

Концепция дифференциальной приватности впервые появилась в начале 2000-х. Она позволяет проводить анализ данных, сохраняя информацию о личности индивидов неприкосновенной. В машинном обучение это означает возможность обучать модели, делающие общие выводы, не раскрывая информацию о конкретных индивидах в наборе данных.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

415 views05:01

Data Scientist | IT

Из пенсионного фонда в Data Science

#почитать

Я окончила экономический факультет в Оренбурге, училась на отделении финансов и кредитов. Хорошо знала банковское дело, бухгалтерский учёт. После университета вышла на должность аналитика в государственном пенсионном фонде.

С IT соприкосновений было мало — разве что работала с SQL, «тянула» информацию из витрин юридических и физических лиц из хранилища данных. С отделом разработчиков мы почти не пересекались.

Во время ковида мы ушли на удалёнку. Когда пандемия закончилась, нас попросили выйти в офис. Мне это не подходило из-за семейных обстоятельств, и я написала заявление на увольнение. Тогда же ко мне пришло осознание, что пора как минимум повышать квалификацию, а лучше — повернуть жизнь вспять и всё кардинально изменить.

В один момент мой взгляд пал на Data Science. Стандартный стек дата-сайентиста показался тяжёлым. В частности меня пугал Python. После ресёрча поняла, что этот язык вообще много где требуется — поэтому решила сконцентрироваться на нём и поступила на курс по Python.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍1

435 views05:02

Data Scientist | IT

Предсказание остановок оборудования с использованием LSTM и Байесовского подхода

#почитать

Для предсказания внеплановых остановок оборудования используется комбинация нейронных сетей с долгосрочной краткосрочной памятью (LSTM) и Байесовский подход. LSTM и Байесовская модель обучаются на периодах, когда оборудование находилось в хорошем рабочем состоянии (эталонные периоды).

Вместо данных с датчиков на вход LSTM подаются сгенерированные с помощью PCA латентные переменные и рассчитанные метрики Hotelling's T-Squared и Q residuals.

На полученных в результате инференса LSTM Hotelling's T-Squared и Q residuals обучается Байесовская модель.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

382 views05:07

Data Scientist | IT

▫️ Анализ данных на Pandas. Объект dataframe и работа с датасетом

#посмотреть

▫️Что такое DataFrame и его структура.
▫️Создание DataFrame из различных источников: CSV, Excel, SQL и др.
▫️Просмотр и навигация по DataFrame: индексы, столбцы, строки.
▫️Индексация и выборка данных: по одному или нескольким критериям.
▫️Работа с датасетом:
▫️Загрузка и изучение реального датасета.
▫️Очистка данных: удаление пропусков, дубликатов, преобразование типов.
▫️Анализ данных: вычисление статистических показателей, агрегация данных, группировка.
▫️Визуализация данных: гистограммы, диаграммы, scatter plots.

⏱

Смотреть на YouTube ⏱ 30 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

397 views05:10

Data Scientist | IT

Разметка данных при помощи GPT-4

#почитать

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥1

412 views05:14

Data Scientist | IT

NLP для поиска грамматических ошибок

#почитать

Для создания инструмента было принято решение использовать модель T5, предварительно обученную для исправления текста после транскрибации аудио. T5 — нейросетевая модель для генерации текста, разработанная специалистами Google. Название отражает суть модели text‑to‑text transfer transformer. Google выпустил две ее версии: первая понимает только английский язык, зато дообучалась на 24 разных задачах, а вторая понимает 101 язык (включая русский).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

436 views05:16

Data Scientist | IT

Лучшие инструменты аннотирования изображений для Computer Vision

#почитать

▪️Encord Annotate
▪️Scale
▪️CVAT
▪️Labelbox
▪️Playment
▪️Appen
▪️Dataloop
▪️V7 Labs
▪️Hive

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

435 views10:32

Data Scientist | IT

Геокодирование для Data Scientists: вводное руководство с примерами

#почитать

Когда вы работаете с реальными данными, вы не можете полагаться на то, что в базах содержится вся необходимая информация для реализации вашего проекта Data Science. Чаще всего вы располагаете частичной информацией и должны обогатить данные дополнительными характеристиками.

Может возникнуть ситуация, когда набор данных содержит адрес, но в то же время широта и долгота отсутствуют. В этом случае первым шагом для дополнения данных будет добавление этой пары координат. Мы называем этот процесс преобразования адреса в широту и долготу геокодированием.

Геокодирование востребовано во многих областях, таких как недвижимость, финансы и логистика. Без этой технологии вы не сможете анализировать и визуализировать полученные данные на карте. В этом руководстве мы будем заниматься геокодированием на Python с помощью библиотеки Geopy.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

368 views10:26

Data Scientist | IT

Устроиться аналитиком в Яндекс за выходные

6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.

В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Нанимаем в офисы России и Республике Беларусь.

Узнать подробности и зарегистрироваться можно здесь.

👍7❤2🔥2

404 views13:22

Data Scientist | IT

🖼

Please open Telegram to view this post

VIEW IN TELEGRAM

😁10🤡2🔥1

400 views17:03

Data Scientist | IT

▫️ MLOps в Билайн: как катить машинное обучение в production без ML-инженеров

#посмотреть

Наш стек – Python, Hadoop, Spark, K8S, Docker, JupyterHub, MLFlow, Airflow, Argo, Cookiecutter

⏱

Смотреть на YouTube ⏱35 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

436 views10:31

Data Scientist | IT

Математические основы генеративных нейронных сетей: что нужно знать для их изучения

#почитать

Генеративный ИИ получил широкую известность в 2022 году, благодаря появлению ChatGPT и Midjourney. Однако идея GenAI зародилась очень давно – в конце 1950-х годов, вместе с появлением концепции машинного обучения, а первый математический метод для генерации данных (цепи Маркова) был представлен еще раньше – в 1906 году. Какие разделы математики нужно знать для разработки современных генеративных моделей – расскажем в статье.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

419 views10:34

Data Scientist | IT

Генеративные 3D-модели

#почитать

Современные методы генерации 2D-контента, такие, как 2D-диффузионные модели (Kandinsky 3.0, SDXL), уже достигли впечатляющих результатов и несколько лет являются неотъемлемой частью современности, генеративные видео модели также активно развиваются. Кульминацией развития таких подходов, вероятно, станет представленная не так давно модель Sora.

Тем не менее большинство из этих моделей до сих пор испытывают проблемы при генерации консистентных 3D-сцен и объектов.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

421 views10:40

Data Scientist | IT

Stable Diffusion: text-to-person. Большой гайд

#почитать

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

422 views10:43

Data Scientist | IT

Фича стор, CLTV и как построить много моделей в короткий срок

#почитать

В рознице Альфа-Банка на февраль 2024 года больше десятка млн активных клиентов, но я уже не успеваю следить за этим числом, потому что оно очень быстро растёт. И CLTV (Customer LifeTime Value) — это один из инструментов, который позволит увеличивать это количество. В статье я расскажу, что такое CLTV, как от бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

353 views10:52

Data Scientist | IT

Большой гайд по Apache Spark для самых маленьких (с картинками)

#почитать

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объемов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍2

375 views10:56

Data Scientist | IT

Большой гайд по резюме для Data Scientist

#почитать

CV – это формализованный процесс, который является первым шагом в поиске работы, но возможно он существенно повлияет на Ваш Job Offer. Поэтому сохраняя честность, по поводу своей реальной работы и результатов, не следует быть скромными. Важно указывать реальный опыт в ИТ, количество лет опыта, включая победы в олимпиадах и опыт, который был в юности. Будьте честны и достаточно смелы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

369 views10:59

About

Blog

Apps

Platform