Анализ зависимостей бинарных файлов на основе ML
#почитать
⏱ Читать статью
#почитать
Мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
40 Полезных инструментов Дата Саентиста
#почитать
⏱ Читать статью
#почитать
Благодаря активному сообществу разработчиков, практически для любой задачи на Python можно найти готовый и полезный инструмент, который поможет вам в решении самых сложных задач. Надеюсь, вы найдете что-то полезное для себя.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Подготовка к собеседованию на позицию DS. Специализированное машинное обучение
#почитать
▪️Глубокое обучение
▪️Обработка текстов на естественном языке
▪️Компьютерное зрение
▪️Графовые нейронные сети
▪️Обучение с подкреплением
▪️Рекомендательные системы
▪️Временные ряды
▪️Big Data
⏱ Читать статью
#почитать
▪️Глубокое обучение
▪️Обработка текстов на естественном языке
▪️Компьютерное зрение
▪️Графовые нейронные сети
▪️Обучение с подкреплением
▪️Рекомендательные системы
▪️Временные ряды
▪️Big Data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Требования к данным для систем ИИ по верификации людей
#почитать
▫️Системы верификации
▫️Общие требования к данным
▫️Требования к эталонному набору данных
▫️Требования к сравниваемым объектам
⏱ Читать статью
#почитать
▫️Системы верификации
▫️Общие требования к данным
▫️Требования к эталонному набору данных
▫️Требования к сравниваемым объектам
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Разговариваем с BI на естественном языке
#почитать
Искусственный интеллект уже научился писать простые запросы к базам данных, но можно ли совсем избавиться от кода в работе аналитиков? Мы расскажем про наши нейросетевые эксперименты, в которых мы научили BI-систему слушать, понимать и отрабатывать запросы аналитиков на естественном языке.
⏱ Читать статью
#почитать
Искусственный интеллект уже научился писать простые запросы к базам данных, но можно ли совсем избавиться от кода в работе аналитиков? Мы расскажем про наши нейросетевые эксперименты, в которых мы научили BI-систему слушать, понимать и отрабатывать запросы аналитиков на естественном языке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Как сделать pruning, чтобы потом не плакать
#почитать
Обрезка нейросетей или же, если вникать в термины, pruning — то, что помогает уменьшить размер нашей модели без потери ее эффективности. Идея проста: мы просто убираем из модели все, что нам не нужно. Как в магазине, когда решил экономить: если в корзине лежат лишние товары, то почему бы их не убрать? Так и здесь — мы убираем избыточные нейроны и связи, которые только занимают место, но не приносят особой пользы.
⏱ Читать статью
#почитать
Обрезка нейросетей или же, если вникать в термины, pruning — то, что помогает уменьшить размер нашей модели без потери ее эффективности. Идея проста: мы просто убираем из модели все, что нам не нужно. Как в магазине, когда решил экономить: если в корзине лежат лишние товары, то почему бы их не убрать? Так и здесь — мы убираем избыточные нейроны и связи, которые только занимают место, но не приносят особой пользы.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2
Архитектурный паттерн для обработки больших данных: Kappa
#почитать
⏱ Читать статью
#почитать
Архитектурный паттерн Kappa представляет собой эффективный подход к обработке больших данных. Он основывается на идее обработки данных в реальном времени без необходимости разделения данных на два потока, как это делается в архитектуре Lambda.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Алгебра смысла
#почитать
⏱ Читать статью
#почитать
Знаковые последовательности (например, вербальные и нотные тексты) можно превратить в математические объекты. Слова и числа стали одной сущностью, представлением матричной единицы, которая является матричным обобщением целых чисел и гиперкомплексным числом. Матричная единица — это матрица в которой один элемент равен единице, а остальные — нули.
Если слова текста представить такими матрицами, то конкатенация (объединение с сохранением порядка) слов и текстов становится операцией сложения матриц.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Скиллы для промышленных проектов Data Science
#почитать
⏱ Читать статью
#почитать
К дата-аналитике мы пришли с появлением предиктивных моделей, цель которых — прогнозировать события или переменные на основе исторических данных. Чтобы создать модель, их нужно проанализировать и предобработать.
Первоначально этим занимались специалисты Data Science, но, оптимизируя процессы, мы решили попробовать подход, когда все задачи по анализу данных будут закреплены за отдельным специалистом. Так появились дата-аналитики. Но проектов, где нужен анализ данных и предиктивная аналитика, оказалось не так много, чтобы мы могли их полноценно загрузить. Поэтому решили вернуться к предыдущей концепции, когда анализом данных занимается DS.
В таких проектах бизнес-аналитик сначала изучает предметную область, помогает сформулировать потребности и задачи клиента к анализу данных, передаёт это DS — и тот выполняет свою часть. На практике стало понятно, что BA нужно хорошо ориентироваться в переданных данных, а это тоже предполагает анализ.
Поэтому мы решили попробовать подход, когда задачи по анализу данных разделены между BA и DS. Для этого потребовалось обучить бизнес-аналитиков. Вместе с DS мы придумали, как будет выглядеть разделение по задачам, какие навыки нам нужны, — и они нас обучили.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Как научить Transformer обрабатывать длинные тексты
#почитать
⏱ Читать статью
#почитать
Стоит отметить, что в задачах генерации короткого текста по длинному контексту хорошо показывают себя и модели на основе декодировщика Transformer, и полный Transformer. Но если речь идёт о задачах типа суммаризации, то при фиксированных размерах моделей лучше могут справиться именно полные Transformer-ы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Методы работы со смещением и дисперсией в моделях машинного обучения
#почитать
Переобучение и недообучение – это Сцилла и Харибда в ML, между которыми нужно лавировать. С тех давних времен появилось множество методов для решения этой проблемы. Рассмотрим их кратко.
⏱ Читать статью
#почитать
Переобучение и недообучение – это Сцилла и Харибда в ML, между которыми нужно лавировать. С тех давних времен появилось множество методов для решения этой проблемы. Рассмотрим их кратко.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1
Приручаем нейросети
#почитать
⏱ Читать статью
#почитать
Сегодня будем говорить и применять новые инструменты для создания RAG, улучшим качество наших результатов относительно прошлой статьи за счет использования других моделей для embeddings. Также затронем использование трушной векторной БД Chroma.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Дифференциальная приватность в машинном обучении
#почитать
Концепция дифференциальной приватности впервые появилась в начале 2000-х. Она позволяет проводить анализ данных, сохраняя информацию о личности индивидов неприкосновенной. В машинном обучение это означает возможность обучать модели, делающие общие выводы, не раскрывая информацию о конкретных индивидах в наборе данных.
⏱ Читать статью
#почитать
Концепция дифференциальной приватности впервые появилась в начале 2000-х. Она позволяет проводить анализ данных, сохраняя информацию о личности индивидов неприкосновенной. В машинном обучение это означает возможность обучать модели, делающие общие выводы, не раскрывая информацию о конкретных индивидах в наборе данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Из пенсионного фонда в Data Science
#почитать
⏱ Читать статью
#почитать
Я окончила экономический факультет в Оренбурге, училась на отделении финансов и кредитов. Хорошо знала банковское дело, бухгалтерский учёт. После университета вышла на должность аналитика в государственном пенсионном фонде.
С IT соприкосновений было мало — разве что работала с SQL, «тянула» информацию из витрин юридических и физических лиц из хранилища данных. С отделом разработчиков мы почти не пересекались.
Во время ковида мы ушли на удалёнку. Когда пандемия закончилась, нас попросили выйти в офис. Мне это не подходило из-за семейных обстоятельств, и я написала заявление на увольнение. Тогда же ко мне пришло осознание, что пора как минимум повышать квалификацию, а лучше — повернуть жизнь вспять и всё кардинально изменить.
В один момент мой взгляд пал на Data Science. Стандартный стек дата-сайентиста показался тяжёлым. В частности меня пугал Python. После ресёрча поняла, что этот язык вообще много где требуется — поэтому решила сконцентрироваться на нём и поступила на курс по Python.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1
Предсказание остановок оборудования с использованием LSTM и Байесовского подхода
#почитать
⏱ Читать статью
#почитать
Для предсказания внеплановых остановок оборудования используется комбинация нейронных сетей с долгосрочной краткосрочной памятью (LSTM) и Байесовский подход. LSTM и Байесовская модель обучаются на периодах, когда оборудование находилось в хорошем рабочем состоянии (эталонные периоды).
Вместо данных с датчиков на вход LSTM подаются сгенерированные с помощью PCA латентные переменные и рассчитанные метрики Hotelling's T-Squared и Q residuals.
На полученных в результате инференса LSTM Hotelling's T-Squared и Q residuals обучается Байесовская модель.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
#посмотреть
▫️Что такое DataFrame и его структура.
▫️Создание DataFrame из различных источников: CSV, Excel, SQL и др.
▫️Просмотр и навигация по DataFrame: индексы, столбцы, строки.
▫️Индексация и выборка данных: по одному или нескольким критериям.
▫️Работа с датасетом:
▫️Загрузка и изучение реального датасета.
▫️Очистка данных: удаление пропусков, дубликатов, преобразование типов.
▫️Анализ данных: вычисление статистических показателей, агрегация данных, группировка.
▫️Визуализация данных: гистограммы, диаграммы, scatter plots.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Разметка данных при помощи GPT-4
#почитать
Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?
⏱ Читать статью
#почитать
Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥1
NLP для поиска грамматических ошибок
#почитать
Для создания инструмента было принято решение использовать модель T5, предварительно обученную для исправления текста после транскрибации аудио. T5 — нейросетевая модель для генерации текста, разработанная специалистами Google. Название отражает суть модели text‑to‑text transfer transformer. Google выпустил две ее версии: первая понимает только английский язык, зато дообучалась на 24 разных задачах, а вторая понимает 101 язык (включая русский).
⏱ Читать статью
#почитать
Для создания инструмента было принято решение использовать модель T5, предварительно обученную для исправления текста после транскрибации аудио. T5 — нейросетевая модель для генерации текста, разработанная специалистами Google. Название отражает суть модели text‑to‑text transfer transformer. Google выпустил две ее версии: первая понимает только английский язык, зато дообучалась на 24 разных задачах, а вторая понимает 101 язык (включая русский).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Лучшие инструменты аннотирования изображений для Computer Vision
#почитать
▪️Encord Annotate
▪️Scale
▪️CVAT
▪️Labelbox
▪️Playment
▪️Appen
▪️Dataloop
▪️V7 Labs
▪️Hive
⏱ Читать статью
#почитать
▪️Encord Annotate
▪️Scale
▪️CVAT
▪️Labelbox
▪️Playment
▪️Appen
▪️Dataloop
▪️V7 Labs
▪️Hive
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Геокодирование для Data Scientists: вводное руководство с примерами
#почитать
⏱ Читать статью
#почитать
Когда вы работаете с реальными данными, вы не можете полагаться на то, что в базах содержится вся необходимая информация для реализации вашего проекта Data Science. Чаще всего вы располагаете частичной информацией и должны обогатить данные дополнительными характеристиками.
Может возникнуть ситуация, когда набор данных содержит адрес, но в то же время широта и долгота отсутствуют. В этом случае первым шагом для дополнения данных будет добавление этой пары координат. Мы называем этот процесс преобразования адреса в широту и долготу геокодированием.
Геокодирование востребовано во многих областях, таких как недвижимость, финансы и логистика. Без этой технологии вы не сможете анализировать и визуализировать полученные данные на карте. В этом руководстве мы будем заниматься геокодированием на Python с помощью библиотеки Geopy.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Устроиться аналитиком в Яндекс за выходные
6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.
В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Нанимаем в офисы России и Республике Беларусь.
Узнать подробности и зарегистрироваться можно здесь.
6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.
В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Нанимаем в офисы России и Республике Беларусь.
Узнать подробности и зарегистрироваться можно здесь.
👍7❤2🔥2