Data Scientist | IT

Анализ зависимостей бинарных файлов на основе ML

#почитать

Мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

403 views10:51

Data Scientist | IT

40 Полезных инструментов Дата Саентиста

#почитать

Благодаря активному сообществу разработчиков, практически для любой задачи на Python можно найти готовый и полезный инструмент, который поможет вам в решении самых сложных задач. Надеюсь, вы найдете что-то полезное для себя.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

421 views10:54

Data Scientist | IT

Подготовка к собеседованию на позицию DS. Специализированное машинное обучение

#почитать

▪️Глубокое обучение
▪️Обработка текстов на естественном языке
▪️Компьютерное зрение
▪️Графовые нейронные сети
▪️Обучение с подкреплением
▪️Рекомендательные системы
▪️Временные ряды
▪️Big Data

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

505 views10:57

Data Scientist | IT

Требования к данным для систем ИИ по верификации людей

#почитать

▫️Системы верификации
▫️Общие требования к данным
▫️Требования к эталонному набору данных
▫️Требования к сравниваемым объектам

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

535 views05:01

Data Scientist | IT

Разговариваем с BI на естественном языке

#почитать

Искусственный интеллект уже научился писать простые запросы к базам данных, но можно ли совсем избавиться от кода в работе аналитиков? Мы расскажем про наши нейросетевые эксперименты, в которых мы научили BI-систему слушать, понимать и отрабатывать запросы аналитиков на естественном языке.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

430 views05:02

Data Scientist | IT

Как сделать pruning, чтобы потом не плакать

#почитать

Обрезка нейросетей или же, если вникать в термины, pruning — то, что помогает уменьшить размер нашей модели без потери ее эффективности. Идея проста: мы просто убираем из модели все, что нам не нужно. Как в магазине, когда решил экономить: если в корзине лежат лишние товары, то почему бы их не убрать? Так и здесь — мы убираем избыточные нейроны и связи, которые только занимают место, но не приносят особой пользы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2

414 views05:04

Data Scientist | IT

Архитектурный паттерн для обработки больших данных: Kappa

#почитать

Архитектурный паттерн Kappa представляет собой эффективный подход к обработке больших данных. Он основывается на идее обработки данных в реальном времени без необходимости разделения данных на два потока, как это делается в архитектуре Lambda.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

425 views05:06

Data Scientist | IT

Алгебра смысла

#почитать

Знаковые последовательности (например, вербальные и нотные тексты) можно превратить в математические объекты. Слова и числа стали одной сущностью, представлением матричной единицы, которая является матричным обобщением целых чисел и гиперкомплексным числом. Матричная единица — это матрица в которой один элемент равен единице, а остальные — нули.

Если слова текста представить такими матрицами, то конкатенация (объединение с сохранением порядка) слов и текстов становится операцией сложения матриц.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

436 views05:08

Data Scientist | IT

Скиллы для промышленных проектов Data Science

#почитать

К дата-аналитике мы пришли с появлением предиктивных моделей, цель которых — прогнозировать события или переменные на основе исторических данных. Чтобы создать модель, их нужно проанализировать и предобработать.

Первоначально этим занимались специалисты Data Science, но, оптимизируя процессы, мы решили попробовать подход, когда все задачи по анализу данных будут закреплены за отдельным специалистом. Так появились дата-аналитики. Но проектов, где нужен анализ данных и предиктивная аналитика, оказалось не так много, чтобы мы могли их полноценно загрузить. Поэтому решили вернуться к предыдущей концепции, когда анализом данных занимается DS.

В таких проектах бизнес-аналитик сначала изучает предметную область, помогает сформулировать потребности и задачи клиента к анализу данных, передаёт это DS — и тот выполняет свою часть. На практике стало понятно, что BA нужно хорошо ориентироваться в переданных данных, а это тоже предполагает анализ.

Поэтому мы решили попробовать подход, когда задачи по анализу данных разделены между BA и DS. Для этого потребовалось обучить бизнес-аналитиков. Вместе с DS мы придумали, как будет выглядеть разделение по задачам, какие навыки нам нужны, — и они нас обучили.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

418 views10:31

Data Scientist | IT

Как научить Transformer обрабатывать длинные тексты

#почитать

Стоит отметить, что в задачах генерации короткого текста по длинному контексту хорошо показывают себя и модели на основе декодировщика Transformer, и полный Transformer. Но если речь идёт о задачах типа суммаризации, то при фиксированных размерах моделей лучше могут справиться именно полные Transformer-ы.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

399 views05:15

Data Scientist | IT

Методы работы со смещением и дисперсией в моделях машинного обучения

#почитать

Переобучение и недообучение – это Сцилла и Харибда в ML, между которыми нужно лавировать. С тех давних времен появилось множество методов для решения этой проблемы. Рассмотрим их кратко.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍1

384 views05:17

Data Scientist | IT

Приручаем нейросети

#почитать

Сегодня будем говорить и применять новые инструменты для создания RAG, улучшим качество наших результатов относительно прошлой статьи за счет использования других моделей для embeddings. Также затронем использование трушной векторной БД Chroma.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

411 views10:41

Data Scientist | IT

Дифференциальная приватность в машинном обучении

#почитать

Концепция дифференциальной приватности впервые появилась в начале 2000-х. Она позволяет проводить анализ данных, сохраняя информацию о личности индивидов неприкосновенной. В машинном обучение это означает возможность обучать модели, делающие общие выводы, не раскрывая информацию о конкретных индивидах в наборе данных.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

415 views05:01

Data Scientist | IT

Из пенсионного фонда в Data Science

#почитать

Я окончила экономический факультет в Оренбурге, училась на отделении финансов и кредитов. Хорошо знала банковское дело, бухгалтерский учёт. После университета вышла на должность аналитика в государственном пенсионном фонде.

С IT соприкосновений было мало — разве что работала с SQL, «тянула» информацию из витрин юридических и физических лиц из хранилища данных. С отделом разработчиков мы почти не пересекались.

Во время ковида мы ушли на удалёнку. Когда пандемия закончилась, нас попросили выйти в офис. Мне это не подходило из-за семейных обстоятельств, и я написала заявление на увольнение. Тогда же ко мне пришло осознание, что пора как минимум повышать квалификацию, а лучше — повернуть жизнь вспять и всё кардинально изменить.

В один момент мой взгляд пал на Data Science. Стандартный стек дата-сайентиста показался тяжёлым. В частности меня пугал Python. После ресёрча поняла, что этот язык вообще много где требуется — поэтому решила сконцентрироваться на нём и поступила на курс по Python.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍1

435 views05:02

Data Scientist | IT

Предсказание остановок оборудования с использованием LSTM и Байесовского подхода

#почитать

Для предсказания внеплановых остановок оборудования используется комбинация нейронных сетей с долгосрочной краткосрочной памятью (LSTM) и Байесовский подход. LSTM и Байесовская модель обучаются на периодах, когда оборудование находилось в хорошем рабочем состоянии (эталонные периоды).

Вместо данных с датчиков на вход LSTM подаются сгенерированные с помощью PCA латентные переменные и рассчитанные метрики Hotelling's T-Squared и Q residuals.

На полученных в результате инференса LSTM Hotelling's T-Squared и Q residuals обучается Байесовская модель.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

382 views05:07

Data Scientist | IT

▫️ Анализ данных на Pandas. Объект dataframe и работа с датасетом

#посмотреть

▫️Что такое DataFrame и его структура.
▫️Создание DataFrame из различных источников: CSV, Excel, SQL и др.
▫️Просмотр и навигация по DataFrame: индексы, столбцы, строки.
▫️Индексация и выборка данных: по одному или нескольким критериям.
▫️Работа с датасетом:
▫️Загрузка и изучение реального датасета.
▫️Очистка данных: удаление пропусков, дубликатов, преобразование типов.
▫️Анализ данных: вычисление статистических показателей, агрегация данных, группировка.
▫️Визуализация данных: гистограммы, диаграммы, scatter plots.

⏱

Смотреть на YouTube ⏱ 30 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

397 views05:10

Data Scientist | IT

Разметка данных при помощи GPT-4

#почитать

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥1

412 views05:14

Data Scientist | IT

NLP для поиска грамматических ошибок

#почитать

Для создания инструмента было принято решение использовать модель T5, предварительно обученную для исправления текста после транскрибации аудио. T5 — нейросетевая модель для генерации текста, разработанная специалистами Google. Название отражает суть модели text‑to‑text transfer transformer. Google выпустил две ее версии: первая понимает только английский язык, зато дообучалась на 24 разных задачах, а вторая понимает 101 язык (включая русский).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

436 views05:16

Data Scientist | IT

Лучшие инструменты аннотирования изображений для Computer Vision

#почитать

▪️Encord Annotate
▪️Scale
▪️CVAT
▪️Labelbox
▪️Playment
▪️Appen
▪️Dataloop
▪️V7 Labs
▪️Hive

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

435 views10:32

Data Scientist | IT

Геокодирование для Data Scientists: вводное руководство с примерами

#почитать

Когда вы работаете с реальными данными, вы не можете полагаться на то, что в базах содержится вся необходимая информация для реализации вашего проекта Data Science. Чаще всего вы располагаете частичной информацией и должны обогатить данные дополнительными характеристиками.

Может возникнуть ситуация, когда набор данных содержит адрес, но в то же время широта и долгота отсутствуют. В этом случае первым шагом для дополнения данных будет добавление этой пары координат. Мы называем этот процесс преобразования адреса в широту и долготу геокодированием.

Геокодирование востребовано во многих областях, таких как недвижимость, финансы и логистика. Без этой технологии вы не сможете анализировать и визуализировать полученные данные на карте. В этом руководстве мы будем заниматься геокодированием на Python с помощью библиотеки Geopy.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

368 views10:26

Data Scientist | IT

Устроиться аналитиком в Яндекс за выходные

6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.

В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Нанимаем в офисы России и Республике Беларусь.

Узнать подробности и зарегистрироваться можно здесь.

👍7❤2🔥2

404 views13:22

About

Blog

Apps

Platform