Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
19K subscribers
2.07K photos
109 videos
64 files
4.49K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/f83f07f1

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
S4 лучше трансформеров?

Архитектура Структурированного пространства состояний для моделирования последовательностей (S4) — это новый подход к задачам моделирования длинных последовательностей для задач компьютерного зрения, анализа языка и звука, демонстрирующий способность фиксировать зависимости на протяжении десятков тысяч шагов.

В источнике подробно и с примерами кода и графиков описывается новый подход.
Курс лекций ИТМО по распознаванию и синтезу речи

Курсу уже несколько лет, но при этом он очень подробно погружает в тему, после чего намного проще разобраться в новом материале
Гайд по обучению модели на PyTorch и MLlib

PyTorch - один из самых удобных пакетов для обучения нейронных сетей, MLlib - конвейер с открытым исходным кодом для управления пайплайнами и вывода в прод. В источнике гайд по их совместному использованию.
Pytorch + C++ = TorchScript

Гайд от ODS по TorchScript - инструмент, который позволяет с помощью пары строк кода и нескольких щелчков мыши сделать из пайплайна на питоне отчуждаемое решение, которое можно встроить в систему на C++
Как ускорить инференс классификатора BERT с помощью ONNX?

ONNX - открытый стандарт для конвертации моделей машинного обучения из разных фреймворков в единый формат, а также для обмена моделями между фреймворками, для которого существует библиотека ONNX Runtime.

Гайд по ссылке по сути является альтернаттивой TorchScript из предыдущего поста, в будущем постараемся их сравнить.
Когда какие базы данных лучше использовать?

Большой обзор видов баз данных. В нынешних реалиях даже research engineer должен уметь работать с базами данных, но с развитием технологий (особенно с появлением LLM) уже не очевидно, что всегда лучший вариант - хранить данные в sql.
Трансформеры везде?

Статья про все области применения трансформеров от берт, до компьютерного зрения
FastAPI + pickle

Как в несколько строк кода запустить экспериментальный апи с сохранением результата в хэш таблицу для экспериментального проекта.
Старый добрый LDA

Часто в NLP для решения некоторых задач все еще используется метод Latent Dirichlet Allocation (LDA) - подход для тематического моделирования. Основная задача ТМ заключается в том что бы полученные темы были хорошего качество, понятными, самозначимыми и разделенными. Достижение этих целей во многом зависит от качества предварительной обработки текста и стратегии поиска оптимального количества тем. Алгоритм реализован в sklearn и gensim, но решение gensim кажется более простым в использовании и удобным и о нем вместе с предобработкой данных пойдет речь в статье по ссылке.
Углубляясь в тематическое моделирование. BigARTM

Задача тематического моделирования похожа на кластеризацию, но тематическая кластеризация является «мягкой» и допускает, чтобы документ относился к нескольким кластерам-темам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы имеет эта пара текстов».

Поэтому, как и в кластеризации часто нельзя ограничиваться одним K-Means, так и в тематическом моделировании есть альтернативы и улучшения LDA.

Additive Regularization for Topic Modeling (ARTM) - технология регуляризации модели тематического моделирования, позволяющая задать сразу несколько критериев-регуляризаторов. Например, создавать дополнительные темы и подтемы.

Ссылка на источник с более подробным теоретическим обзором модели и библиотеки, гайд по установке и использованию в следующем посте.
Как использовать BigARTM, чтобы улучшить результат LDA

В предыдущем посте разбиралась теоретическая база ARTM, сейчас ознакомимся с использованием.

Так как с установкой на Windows могут возникнуть проблемы, то в первом источнике отдельная статья про установку на случай, если не получится установить простым путем.

В основной статье подробно разбирается работа библиотеки в несколько этапов:
🟠 установка
🟠 стемминг
🟠 удаление стоп слов
🟠 выделение словосочетаний
🟠 моделирование
Задача ранжирования. Метрики

Открываем блок постов про задачу ранжированием статьей про описание задачи и метрики, оценивающие качество.

Задача ранжирования сейчас возникает повсюду: сортировка веб-страниц согласно заданному поисковому запросу, персонализация новостной ленты, рекомендации видео, товаров и т.д.

Ранжирование — задача сортировки набора элементов из соображения их релевантности.
Ранжирование. Пример пайплайна с точки зрения бизнеса

Чтобы правильно применять модель, в первую очередь нужно понимать как это поможет бизнесу и нужно ли это вообще - обо всем в источнике.

Завтра в постах рассмотрим гайды и примеры реализаций некоторых подходов.
Будущим специалистам по DS или аналитикам данных важно подружиться с математикой🤜 🤛

Математика умножит ваши шансы на хороший оффер. И обычно именно на этих позициях ценится классическое образование в хорошем ВУЗе.

Но а что делать тем, кто не знал в 18 лет, что свяжет свою жизнь с DS?

Для этого есть полугодовой курс от преподавателей МГУ! Он объемный и довольно сложный, так как соответсвует университестким стандартам.

Подробности – https://proglib.academy/mathspro?utm_source=tg_ds

Там все по канонам классического образования:

1. Лекции по 1,5 часа.
2. Много практики, подробная обратная связь от преподателей.
3. Общий чатик со студентами, где можно получить поддержку от сокурсников.

Посмотрите примеры занятий
🤖📄 ChatGPT: эффективная суммаризация с помощью LLM

В этой статье разберём суммаризацию с помощью LLM на примере обработки отзывов в e-commerce.

🔗Читать статью
🔗Зеркало
🎓💼 ТОП-9 не самых очевидных компаний для стажировки в ИТ

Везде просят опыт работы... Но где его взять? Как раз об этом сейчас и расскажем!

🔗Читать статью
🔗Зеркало
🥳 Мы рады объявить о запуске новой еженедельной email-рассылки, посвященной последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.

🤖 В рассылке вы найдете:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей.
● Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
● Статьи об этических аспектах развития технологий.
● Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
● Обзоры инструментов и библиотек для разработки нейронных сетей.
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
● Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.

🔥 Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
LambdaMART - база в задаче ранжирования

Продолжая тему с задачей ранжирования, в первую очередь стоит ознакомиться с применением алгоритма LambdaMart - алгоритм классического машинного обучения, оптимизирующий ранжирование объектов, учитывая их релевантность, и использует функцию потерь LambdaLoss.

"Lambda" представляет собой весовой коэффициент, который определяет важность каждого объекта (например, веб-страницы или продукта) в обучающем наборе данных для задачи ранжирования.

Гайд в источнике.
🐍 Дорожная карта Python-разработчика в 2023 году

Расскажем, что и в какой последовательности нужно изучить, чтобы стать Python-джуном и найти первую работу.

Читать статью
💬🦙 LlamaIndex: создаем чат-бота без боли и страданий. Часть 3

Завершаем исследование фреймворка LlamaIndex. В этой части разбираемся с ретриверами, которые обеспечивают различные способы извлечения релевантного контекста из индексов документов.

🔗 Читать статью
🔗 Зеркало