Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.67K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Алгебраическая топология для специалистов по данным

Эта книга дает подробное введение в топологический анализ данных, применение алгебраической топологии в науке о данных.

Читать статью
3
💬🦙 LlamaIndex: создаем чат-бота без боли и страданий. Часть 2

Продолжаем изучать фреймворк для создания AI-ботов. В этой части узнаем про тонкости индексирования собственной базы документов.

🔗Читать статью
🔥3
Создание файлов шаблонов с помощью R

Если вы регулярно копируете и вставляете контент между файлами, вы можете использовать R, чтобы сделать это за вас! Для повторяющихся задач, которые вы не можете полностью автоматизировать, использование файлов шаблонов — отличный способ сэкономить время, и в этом посте описано, как их выполнить в R.

Читать статью
Какие могут быть опасности при работе с LLM и как защитить решения, основанные на них?

На этот вопрос ответят ребята из VK в своем онлайн-семинаре Adversarial Prompting and Jailbreaking of LLMs.

Регистрация
Overdetection или SFTE. Другие возможности применения YOLO

В этой статье описан подход (идея), как при помощи детектирующей нейросети решать более сложные задачи, чем детекция. Идея, лежащая в основе: давайте решать не задачу детекции объекта, а задачу детекции ситуации. Причем, вместо того, чтобы конструировать новую нейросетевую архитектуру, мы будем конструировать входящий кадр. А решать саму задачу будем при помощи стандартных предобученных сетей.

Читать статью
👍3
Очередной #дайджест по Python:

🐍 Профилирование Python — почему и где тормозит ваш код
Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный? Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).

🐍 Анализ текстовых данных с использованием тематического моделирования
Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду.

🐍 Разбираемся в «базовых» алгоритмах для высоконагруженного проекта
Автор собрал примерный список алгоритмов, которые использует в работе с высоконагруженным проектом с большой кодовой базой.

🐍Использование конечных автоматов с несколькими активными состояниями для автоматизации бизнес-процессов
Необычная статья про слияние теории ведения бизнеса и программирования.

🐍 JSON и XML для новичков
Практическое введение в тему.
👍4
Любите ли вы писать тесты? Или считаете эту работу слишком скучной и бесполезной?
#интерактив
aquarel: стилизация Matplotlib стала проще

Aquarel — это легкий механизм создания шаблонов и оболочка вокруг rcparams, упрощающая стилизацию графиков. Шаблоны Aquarel можно определять программно, сериализовать и публиковать в формате JSON.

Открыть репозиторий
👍8
Какие проблемы могут решить нейронные сети?

Нейронные сети хороши для решения нелинейных задач. Хорошими примерами являются задачи, которые относительно просты для людей (из-за опыта, интуиции, понимания и т. д.), но сложны для традиционных моделей регрессии: распознавание речи, распознавание рукописного текста, идентификация изображений и т. д.
#вопросы_с_собеседований
🧮 Большие языковые модели: стоит ли бояться больших калькуляторов?

Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет).

Читать статью
👍21
Делаем LLM легче с помощью AutoGPTQ и трансформаторов

Сообщение в блоге, в котором представлена ​​интеграция библиотеки AutoGPTQ в Transformers, позволяющая квантовать LLM с помощью метода GPTQ.

Читать статью
🔥3👍21
🧐 Почему детектирование — самая недооцененная часть обработки речи

Но при этом одна из самых важных

👉 VAD (voice activity detection) — модель детектирования человеческой речи на аудио сигналах, характеристики которой во многом определяют качество работы всей системы.

Легче всего в этом убедиться на примере умной колонки. В ней обычно задействованы все три основные речевые модели: детектирование, распознавание и синтез. VAD работает в фоне, по его результатам активируется модель ASR (automatic speech recognition) и, затем, синтез. Соответственно, чем больше ресурсов потребляет фоновый VAD, тем меньше их остается основным моделям. Так же и с качеством: детектирование не всей речи напрямую сказывается на результатах распознавания, а если детектируются лишние звуки, то ASR работает дольше и увеличивается время на ответ пользователю.

➡️Несмотря на это, по запросам voice activity detection, speech to text, speech synthesis на arxiv находится 58, 539 и 427 статей соответственно. Почему не смотря на свою важность, детектирование практически в 10 раз менее популярно, чем распознавание и синтез?

1. Ограниченность в ресурсах

На VAD всегда ставится много ограничений: обработка в режиме реального времени, высокие показатели полноты детектирования, работа модели в фоновом режиме и тд. Поэтому исследователям часто интереснее заниматься обучением моделей в других задачах с большей нацеленностью на качество обучения, а в детектировании использовать классические алгоритмы, не требующие больших затрат оперативной памяти.

2. Невидимость для пользователей

В большинстве случаев пользователи взаимодействуют с голосовыми интерфейсами, приложениями или системами распознавания речи, в которых не виден сам процесс детектирования речи, из-за чего создается впечатление, что эта часть менее значима.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
-35% на самый хардкорный курс по вышмату!

🌟 «Математика для Data Science»🌟

19 490 рублей 29 990 рублей до 5 сентября

Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

🔥 Переходите и активируйте пробную версию курса https://proglib.io/w/f95360e1
1👾1
Дайджест ресурсов для построения модели детектирования речи

- Одна из прорывных статей по VAD за последние 10 лет. За основу архитектуры взяты слои GRU и CNN, есть быстрая версия, работающая на сыром оцифрованном потоке и более качественная, с предварительным мел-спектрограммным преобразованием.
- Репозиторий с блокнотом на pytorch. В реализации используется архитектура, похожая на приведенную в статье выше.
- Предобученный VAD с отличными результатами и ссылкой на репозиторий с примерами использования и сравнением с другими решениями. Создатели, к сожалению не делятся исходным кодом и архитектурой модели.
- Самое популярное классическое решение от гугла: webRTC VAD. Нетребовательное стабильное решение с недостатками, с которого стоит начать и с которым стоит сравнивать свое решение.
- Удобный пакет для работы со звуком на питон.
- Еще одно хорошее решение, обходящее webRTC.
- Статья про работу с аудио и представлением сигнала.
7
Почему Swift может заменить Python в мл?

Статья про перспективы языка Swift, поддержку от некоторых популярных фреймворков (TensorFlow) и плюсы языка относительно Python.

Основные тезисы:
🔸 Поддержка от передовых фреймворков из мл
🔸 Математические функции
🔸 Скорость
🔸 Импортируемость Python в Swift
🔸 Возможность писать как высокоуровневый, так и низкоуровневый код

Статье уже почти 4 года, но существенные обновления для Swift происходят только последнее время, так что будет интересно как уже в ближайшие пол года изменится индустрия и какую роль в этом сыграет Swift.

Ссылка на статью
😁12👍5🤯31👾1
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека шарписта
Библиотека мобильного разработчика
Библиотека хакера
Библиотека питониста
Библиотека devops’a
Библиотека тестировщика
Библиотека пхпшника

💼Каналы с вакансиями

Вакансии по питону, Django, Flask
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии по C#, .NET, Unity
Вакансии по PHP, Symfony, Laravel
Вакансии по DevOps & SRE
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
👍21
ДС обзор LLM

Большие языковые модели изменяют обработку языка. Они полезны для разных задач, но их эффективное использование требует понимания их возможностей и ограничений.
Модели отличаются стратегиями обучения, архитектурами и областями применения. Они подразделяются на два типа: модели с архитектурой кодер-декодер или только кодер и только декодер. На эволюционном дереве моделей видно, что:

🔷 Модели только декодировщика постепенно стали доминировать. После внедрения GPT-3 в 2021 году, они стали популярными, а модели только кодировщика постепенно ушли на второй план.
🔷 OpenAI по-прежнему лидирует в разработке LLM. Другие компании и институты пытаются догнать OpenAI, но пока это сложно.
🔷 Meta активно вносит вклад в открытые LLM и содействует исследованиям. Они отличаются направленносттью в сторону открытых LLM.
🔷 LLM все же становятся более закрытыми. С GPT-3 многие компании начали закрывать свои разработки, что затрудняет исследования для ученых. Это может способствовать более популярному исследованию на основе API.
🔷 Модели с архитектурой кодировщик-декодировщик все еще обещают выпустить, но модели только декодировщика на данный момент более гибки и универсальны.
👍6