Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Marqo - векторная поисковая система с открытым исходным кодом для приложений искусственного интеллекта

Генерация, хранение и извлечение векторов с помощью единого API.

Векторные базы данных — это невоспетые герои современного движения ИИ, хранящие неструктурированные данные, такие как изображения, видео и текст, чтобы люди и системы могли искать некатегоризированный контент. Они особенно важны для больших языковых моделей (LLM), таких как GPT-4 (который поддерживает ChatGPT), во многом благодаря способности баз данных обеспечивать индексацию и поиск в реальном времени по мере создания или обновления данных — это важно для функций персонализации, систем рекомендаций, анализа настроений и многого другого.

Подробнее по ссылке на источник

3.4K views09:02

Promptitude - самый простой и быстрый способ интегрировать GPT

Шаги по использованию:
🔸 Вставить ключ API чтобы использовать Promptitude для запросов
🔸 Настроить свои входные данные и персонализировать результат
🔸 Получить ключ API Promptitude
🔸 Просмотр истории использования

Ссылка на источник

3.5K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

В связи с недавним всплеском исследований в области машинного обучения и LLM широкой публике трудно быть в курсе последних событий.

Для исследователей, ученых и, в частности, инженеров оставаться в курсе последних исследований в области машинного обучения - настоящая проблема. Более того, типичного поиска редко бывает достаточно.

Cambrian создан для более сложного глубокого поиска более 240 000 статей с машинным обучением, постоянно поглощая недавно выпущенные работы.

Быстрый поиск знаний обеспечивается с помощью CambrianGPT, внутреннего LLM для запросов по отдельным статьям.

Ссылка на источник

4.1K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

LangChain для Gen AI и LLM

Подробный туториал по аугментации данных в LangChain: автор рассказывает, как предоставить LLM доступ к дополнительной информации и сократить количество галлюцинаций.

Ссылка на источник

3.8K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как развитие технологий повлияет на будущее нейронных сетей?

Есть мнение, что текущее состояние рынка нейронных сетей - пузырь, который скоро лопнет, автор стати в источнике отвечает на вопросы перспектив глубокого обучения относительно железа, архитектур, технологий и внедрения в бизнес.

3.9K views07:19

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Где взять эмеддинги на русском?

🟠 deeppavlov - open-source библиотека от лаборатории МФТИ с большим количеством предобученных моделей для NLP задач
🟠 ResVectores - семантические модели для русского языка с возможностью поиграться прямо на сайте

3.9K views11:24

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Чего ждать от языка Mojo?

Несколько дней назад новый язык программирования Mojo (Python++) стал доступен для локальной загрузки. А в статье из источника подробно разбираются перспективы этого языка.

Люди, как обычно, разделились на два лагеря и комментарии варьируются от "Вау, они изобрели Cython" до восхищения.

В любом случае язык еще слишком сырой и, не смотря на неофициальное название Python++ еще не поддерживает некоторые конструкции Python, но предварительные тесты выглядят очень сильно.

4.2K views21:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Deep Learning в Swift

Пример обучения модели для распознавания цифр на Swift с возможностью легко добавить в свое приложение.

Подробный гайд в официальном источнике

4.3K views07:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

S4 лучше трансформеров?

Архитектура Структурированного пространства состояний для моделирования последовательностей (S4) — это новый подход к задачам моделирования длинных последовательностей для задач компьютерного зрения, анализа языка и звука, демонстрирующий способность фиксировать зависимости на протяжении десятков тысяч шагов.

В источнике подробно и с примерами кода и графиков описывается новый подход.

5.3K views19:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Курс лекций ИТМО по распознаванию и синтезу речи

Курсу уже несколько лет, но при этом он очень подробно погружает в тему, после чего намного проще разобраться в новом материале

4.5K views07:37

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Гайд по обучению модели на PyTorch и MLlib

PyTorch - один из самых удобных пакетов для обучения нейронных сетей, MLlib - конвейер с открытым исходным кодом для управления пайплайнами и вывода в прод. В источнике гайд по их совместному использованию.

4.6K views19:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Pytorch + C++ = TorchScript

Гайд от ODS по TorchScript - инструмент, который позволяет с помощью пары строк кода и нескольких щелчков мыши сделать из пайплайна на питоне отчуждаемое решение, которое можно встроить в систему на C++

4.1K views08:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как ускорить инференс классификатора BERT с помощью ONNX?

ONNX - открытый стандарт для конвертации моделей машинного обучения из разных фреймворков в единый формат, а также для обмена моделями между фреймворками, для которого существует библиотека ONNX Runtime.

Гайд по ссылке по сути является альтернаттивой TorchScript из предыдущего поста, в будущем постараемся их сравнить.

3.9K views20:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Когда какие базы данных лучше использовать?

Большой обзор видов баз данных. В нынешних реалиях даже research engineer должен уметь работать с базами данных, но с развитием технологий (особенно с появлением LLM) уже не очевидно, что всегда лучший вариант - хранить данные в sql.

4.2K views10:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Трансформеры везде?

Статья про все области применения трансформеров от берт, до компьютерного зрения

3.7K views18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

FastAPI + pickle

Как в несколько строк кода запустить экспериментальный апи с сохранением результата в хэш таблицу для экспериментального проекта.

3.7K views08:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Старый добрый LDA

Часто в NLP для решения некоторых задач все еще используется метод Latent Dirichlet Allocation (LDA) - подход для тематического моделирования. Основная задача ТМ заключается в том что бы полученные темы были хорошего качество, понятными, самозначимыми и разделенными. Достижение этих целей во многом зависит от качества предварительной обработки текста и стратегии поиска оптимального количества тем. Алгоритм реализован в sklearn и gensim, но решение gensim кажется более простым в использовании и удобным и о нем вместе с предобработкой данных пойдет речь в статье по ссылке.

4.1K views20:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Углубляясь в тематическое моделирование. BigARTM

Задача тематического моделирования похожа на кластеризацию, но тематическая кластеризация является «мягкой» и допускает, чтобы документ относился к нескольким кластерам-темам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы имеет эта пара текстов».

Поэтому, как и в кластеризации часто нельзя ограничиваться одним K-Means, так и в тематическом моделировании есть альтернативы и улучшения LDA.

Additive Regularization for Topic Modeling (ARTM) - технология регуляризации модели тематического моделирования, позволяющая задать сразу несколько критериев-регуляризаторов. Например, создавать дополнительные темы и подтемы.

Ссылка на источник с более подробным теоретическим обзором модели и библиотеки, гайд по установке и использованию в следующем посте.

3.6K views07:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как использовать BigARTM, чтобы улучшить результат LDA

В предыдущем посте разбиралась теоретическая база ARTM, сейчас ознакомимся с использованием.

Так как с установкой на Windows могут возникнуть проблемы, то в первом источнике отдельная статья про установку на случай, если не получится установить простым путем.

В основной статье подробно разбирается работа библиотеки в несколько этапов:
🟠 установка
🟠 стемминг
🟠 удаление стоп слов
🟠 выделение словосочетаний
🟠 моделирование

3.4K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Задача ранжирования. Метрики

Открываем блок постов про задачу ранжированием статьей про описание задачи и метрики, оценивающие качество.

Задача ранжирования сейчас возникает повсюду: сортировка веб-страниц согласно заданному поисковому запросу, персонализация новостной ленты, рекомендации видео, товаров и т.д.

Ранжирование — задача сортировки набора элементов из соображения их релевантности.

3.6K views07:39

About

Blog

Apps

Platform