Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.9K subscribers
2.01K photos
106 videos
64 files
4.43K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/f83f07f1

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Marqo - векторная поисковая система с открытым исходным кодом для приложений искусственного интеллекта

Генерация, хранение и извлечение векторов с помощью единого API.

Векторные базы данных — это невоспетые герои современного движения ИИ, хранящие неструктурированные данные, такие как изображения, видео и текст, чтобы люди и системы могли искать некатегоризированный контент. Они особенно важны для больших языковых моделей (LLM), таких как GPT-4 (который поддерживает ChatGPT), во многом благодаря способности баз данных обеспечивать индексацию и поиск в реальном времени по мере создания или обновления данных — это важно для функций персонализации, систем рекомендаций, анализа настроений и многого другого.

Подробнее по ссылке на источник
Promptitude - самый простой и быстрый способ интегрировать GPT

Шаги по использованию:
🔸 Вставить ключ API чтобы использовать Promptitude для запросов
🔸 Настроить свои входные данные и персонализировать результат
🔸 Получить ключ API Promptitude
🔸 Просмотр истории использования

Ссылка на источник
В связи с недавним всплеском исследований в области машинного обучения и LLM широкой публике трудно быть в курсе последних событий.

Для исследователей, ученых и, в частности, инженеров оставаться в курсе последних исследований в области машинного обучения - настоящая проблема. Более того, типичного поиска редко бывает достаточно.

Cambrian создан для более сложного глубокого поиска более 240 000 статей с машинным обучением, постоянно поглощая недавно выпущенные работы.

Быстрый поиск знаний обеспечивается с помощью CambrianGPT, внутреннего LLM для запросов по отдельным статьям.

Ссылка на источник
LangChain для Gen AI и LLM

Подробный туториал по аугментации данных в LangChain: автор рассказывает, как предоставить LLM доступ к дополнительной информации и сократить количество галлюцинаций.

Ссылка на источник
Как развитие технологий повлияет на будущее нейронных сетей?

Есть мнение, что текущее состояние рынка нейронных сетей - пузырь, который скоро лопнет, автор стати в источнике отвечает на вопросы перспектив глубокого обучения относительно железа, архитектур, технологий и внедрения в бизнес.
Где взять эмеддинги на русском?

🟠 deeppavlov - open-source библиотека от лаборатории МФТИ с большим количеством предобученных моделей для NLP задач
🟠 ResVectores - семантические модели для русского языка с возможностью поиграться прямо на сайте
Чего ждать от языка Mojo?

Несколько дней назад новый язык программирования Mojo (Python++) стал доступен для локальной загрузки. А в статье из источника подробно разбираются перспективы этого языка.

Люди, как обычно, разделились на два лагеря и комментарии варьируются от "Вау, они изобрели Cython" до восхищения.

В любом случае язык еще слишком сырой и, не смотря на неофициальное название Python++ еще не поддерживает некоторые конструкции Python, но предварительные тесты выглядят очень сильно.
Deep Learning в Swift

Пример обучения модели для распознавания цифр на Swift с возможностью легко добавить в свое приложение.

Подробный гайд в официальном источнике
S4 лучше трансформеров?

Архитектура Структурированного пространства состояний для моделирования последовательностей (S4) — это новый подход к задачам моделирования длинных последовательностей для задач компьютерного зрения, анализа языка и звука, демонстрирующий способность фиксировать зависимости на протяжении десятков тысяч шагов.

В источнике подробно и с примерами кода и графиков описывается новый подход.
Курс лекций ИТМО по распознаванию и синтезу речи

Курсу уже несколько лет, но при этом он очень подробно погружает в тему, после чего намного проще разобраться в новом материале
Гайд по обучению модели на PyTorch и MLlib

PyTorch - один из самых удобных пакетов для обучения нейронных сетей, MLlib - конвейер с открытым исходным кодом для управления пайплайнами и вывода в прод. В источнике гайд по их совместному использованию.
Pytorch + C++ = TorchScript

Гайд от ODS по TorchScript - инструмент, который позволяет с помощью пары строк кода и нескольких щелчков мыши сделать из пайплайна на питоне отчуждаемое решение, которое можно встроить в систему на C++
Как ускорить инференс классификатора BERT с помощью ONNX?

ONNX - открытый стандарт для конвертации моделей машинного обучения из разных фреймворков в единый формат, а также для обмена моделями между фреймворками, для которого существует библиотека ONNX Runtime.

Гайд по ссылке по сути является альтернаттивой TorchScript из предыдущего поста, в будущем постараемся их сравнить.
Когда какие базы данных лучше использовать?

Большой обзор видов баз данных. В нынешних реалиях даже research engineer должен уметь работать с базами данных, но с развитием технологий (особенно с появлением LLM) уже не очевидно, что всегда лучший вариант - хранить данные в sql.
Трансформеры везде?

Статья про все области применения трансформеров от берт, до компьютерного зрения
FastAPI + pickle

Как в несколько строк кода запустить экспериментальный апи с сохранением результата в хэш таблицу для экспериментального проекта.
Старый добрый LDA

Часто в NLP для решения некоторых задач все еще используется метод Latent Dirichlet Allocation (LDA) - подход для тематического моделирования. Основная задача ТМ заключается в том что бы полученные темы были хорошего качество, понятными, самозначимыми и разделенными. Достижение этих целей во многом зависит от качества предварительной обработки текста и стратегии поиска оптимального количества тем. Алгоритм реализован в sklearn и gensim, но решение gensim кажется более простым в использовании и удобным и о нем вместе с предобработкой данных пойдет речь в статье по ссылке.
Углубляясь в тематическое моделирование. BigARTM

Задача тематического моделирования похожа на кластеризацию, но тематическая кластеризация является «мягкой» и допускает, чтобы документ относился к нескольким кластерам-темам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы имеет эта пара текстов».

Поэтому, как и в кластеризации часто нельзя ограничиваться одним K-Means, так и в тематическом моделировании есть альтернативы и улучшения LDA.

Additive Regularization for Topic Modeling (ARTM) - технология регуляризации модели тематического моделирования, позволяющая задать сразу несколько критериев-регуляризаторов. Например, создавать дополнительные темы и подтемы.

Ссылка на источник с более подробным теоретическим обзором модели и библиотеки, гайд по установке и использованию в следующем посте.
Как использовать BigARTM, чтобы улучшить результат LDA

В предыдущем посте разбиралась теоретическая база ARTM, сейчас ознакомимся с использованием.

Так как с установкой на Windows могут возникнуть проблемы, то в первом источнике отдельная статья про установку на случай, если не получится установить простым путем.

В основной статье подробно разбирается работа библиотеки в несколько этапов:
🟠 установка
🟠 стемминг
🟠 удаление стоп слов
🟠 выделение словосочетаний
🟠 моделирование
Задача ранжирования. Метрики

Открываем блок постов про задачу ранжированием статьей про описание задачи и метрики, оценивающие качество.

Задача ранжирования сейчас возникает повсюду: сортировка веб-страниц согласно заданному поисковому запросу, персонализация новостной ленты, рекомендации видео, товаров и т.д.

Ранжирование — задача сортировки набора элементов из соображения их релевантности.