Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Алгебраическая топология для специалистов по данным

Эта книга дает подробное введение в топологический анализ данных, применение алгебраической топологии в науке о данных.

Читать статью

❤3

3.01K views07:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬🦙 LlamaIndex: создаем чат-бота без боли и страданий. Часть 2

Продолжаем изучать фреймворк для создания AI-ботов. В этой части узнаем про тонкости индексирования собственной базы документов.

🔗Читать статью

🔥3

17.1K views14:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Создание файлов шаблонов с помощью R

Если вы регулярно копируете и вставляете контент между файлами, вы можете использовать R, чтобы сделать это за вас! Для повторяющихся задач, которые вы не можете полностью автоматизировать, использование файлов шаблонов — отличный способ сэкономить время, и в этом посте описано, как их выполнить в R.

Читать статью

2.88K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие могут быть опасности при работе с LLM и как защитить решения, основанные на них?

На этот вопрос ответят ребята из VK в своем онлайн-семинаре Adversarial Prompting and Jailbreaking of LLMs.

Регистрация

2.72K views06:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Overdetection или SFTE. Другие возможности применения YOLO

В этой статье описан подход (идея), как при помощи детектирующей нейросети решать более сложные задачи, чем детекция. Идея, лежащая в основе: давайте решать не задачу детекции объекта, а задачу детекции ситуации. Причем, вместо того, чтобы конструировать новую нейросетевую архитектуру, мы будем конструировать входящий кадр. А решать саму задачу будем при помощи стандартных предобученных сетей.

Читать статью

👍3

2.73K views09:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест по Python:

🐍 Профилирование Python — почему и где тормозит ваш код
Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный? Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).

🐍 Анализ текстовых данных с использованием тематического моделирования
Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду.

🐍 Разбираемся в «базовых» алгоритмах для высоконагруженного проекта
Автор собрал примерный список алгоритмов, которые использует в работе с высоконагруженным проектом с большой кодовой базой.

🐍Использование конечных автоматов с несколькими активными состояниями для автоматизации бизнес-процессов
Необычная статья про слияние теории ведения бизнеса и программирования.

🐍 JSON и XML для новичков
Практическое введение в тему.

👍4

2.91K views11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Любите ли вы писать тесты? Или считаете эту работу слишком скучной и бесполезной?
#интерактив

2.97K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

aquarel: стилизация Matplotlib стала проще

Aquarel — это легкий механизм создания шаблонов и оболочка вокруг rcparams, упрощающая стилизацию графиков. Шаблоны Aquarel можно определять программно, сериализовать и публиковать в формате JSON.

Открыть репозиторий

👍8

3.15K views07:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие проблемы могут решить нейронные сети?

Нейронные сети хороши для решения нелинейных задач. Хорошими примерами являются задачи, которые относительно просты для людей (из-за опыта, интуиции, понимания и т. д.), но сложны для традиционных моделей регрессии: распознавание речи, распознавание рукописного текста, идентификация изображений и т. д.
#вопросы_с_собеседований

2.95K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧮 Большие языковые модели: стоит ли бояться больших калькуляторов?

Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет).

Читать статью

👍2❤1

13.3K views07:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Делаем LLM легче с помощью AutoGPTQ и трансформаторов

Сообщение в блоге, в котором представлена интеграция библиотеки AutoGPTQ в Transformers, позволяющая квантовать LLM с помощью метода GPTQ.

Читать статью

🔥3👍2❤1

3.13K views11:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Часто ли вы прибегаете к помощи нейросетей в работе?
#интерактив

2.77K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍1

2.58K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧐

Почему детектирование — самая недооцененная часть обработки речи

Но при этом одна из самых важных

👉 VAD (voice activity detection) — модель детектирования человеческой речи на аудио сигналах, характеристики которой во многом определяют качество работы всей системы.

Легче всего в этом убедиться на примере умной колонки. В ней обычно задействованы все три основные речевые модели: детектирование, распознавание и синтез. VAD работает в фоне, по его результатам активируется модель ASR (automatic speech recognition) и, затем, синтез. Соответственно, чем больше ресурсов потребляет фоновый VAD, тем меньше их остается основным моделям. Так же и с качеством: детектирование не всей речи напрямую сказывается на результатах распознавания, а если детектируются лишние звуки, то ASR работает дольше и увеличивается время на ответ пользователю.

➡️Несмотря на это, по запросам voice activity detection, speech to text, speech synthesis на arxiv находится 58, 539 и 427 статей соответственно. Почему не смотря на свою важность, детектирование практически в 10 раз менее популярно, чем распознавание и синтез?

1. Ограниченность в ресурсах

На VAD всегда ставится много ограничений: обработка в режиме реального времени, высокие показатели полноты детектирования, работа модели в фоновом режиме и тд. Поэтому исследователям часто интереснее заниматься обучением моделей в других задачах с большей нацеленностью на качество обучения, а в детектировании использовать классические алгоритмы, не требующие больших затрат оперативной памяти.

2. Невидимость для пользователей

В большинстве случаев пользователи взаимодействуют с голосовыми интерфейсами, приложениями или системами распознавания речи, в которых не виден сам процесс детектирования речи, из-за чего создается впечатление, что эта часть менее значима.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

2.86K viewsedited 07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

-35% на самый хардкорный курс по вышмату!

🌟 «Математика для Data Science»‎ 🌟

19 490 рублей ~~29 990 рублей~~ до 5 сентября

Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

🔥 Переходите и активируйте пробную версию курса – https://proglib.io/w/f95360e1

❤1👾1

2.89K views10:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Дайджест ресурсов для построения модели детектирования речи

- Одна из прорывных статей по VAD за последние 10 лет. За основу архитектуры взяты слои GRU и CNN, есть быстрая версия, работающая на сыром оцифрованном потоке и более качественная, с предварительным мел-спектрограммным преобразованием.
- Репозиторий с блокнотом на pytorch. В реализации используется архитектура, похожая на приведенную в статье выше.
- Предобученный VAD с отличными результатами и ссылкой на репозиторий с примерами использования и сравнением с другими решениями. Создатели, к сожалению не делятся исходным кодом и архитектурой модели.
- Самое популярное классическое решение от гугла: webRTC VAD. Нетребовательное стабильное решение с недостатками, с которого стоит начать и с которым стоит сравнивать свое решение.
- Удобный пакет для работы со звуком на питон.
- Еще одно хорошее решение, обходящее webRTC.
- Статья про работу с аудио и представлением сигнала.

❤7

3.05K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Почему Swift может заменить Python в мл?

Статья про перспективы языка Swift, поддержку от некоторых популярных фреймворков (TensorFlow) и плюсы языка относительно Python.

Основные тезисы:
🔸 Поддержка от передовых фреймворков из мл
🔸 Математические функции
🔸 Скорость
🔸 Импортируемость Python в Swift
🔸 Возможность писать как высокоуровневый, так и низкоуровневый код

Статье уже почти 4 года, но существенные обновления для Swift происходят только последнее время, так что будет интересно как уже в ближайшие пол года изменится индустрия и какую роль в этом сыграет Swift.

Ссылка на статью

😁12👍5🤯3❤1👾1

4.59K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы

☕Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека шарписта
Библиотека мобильного разработчика
Библиотека хакера
Библиотека питониста
Библиотека devops’a
Библиотека тестировщика
Библиотека пхпшника

💼Каналы с вакансиями

Вакансии по питону, Django, Flask
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии по C#, .NET, Unity
Вакансии по PHP, Symfony, Laravel
Вакансии по DevOps & SRE
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

👍2❤1

2.93K views20:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍8🤯2👾1

2.74K views07:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

ДС обзор LLM

Большие языковые модели изменяют обработку языка. Они полезны для разных задач, но их эффективное использование требует понимания их возможностей и ограничений.
Модели отличаются стратегиями обучения, архитектурами и областями применения. Они подразделяются на два типа: модели с архитектурой кодер-декодер или только кодер и только декодер. На эволюционном дереве моделей видно, что:

🔷 Модели только декодировщика постепенно стали доминировать. После внедрения GPT-3 в 2021 году, они стали популярными, а модели только кодировщика постепенно ушли на второй план.
🔷 OpenAI по-прежнему лидирует в разработке LLM. Другие компании и институты пытаются догнать OpenAI, но пока это сложно.
🔷 Meta активно вносит вклад в открытые LLM и содействует исследованиям. Они отличаются направленносттью в сторону открытых LLM.
🔷 LLM все же становятся более закрытыми. С GPT-3 многие компании начали закрывать свои разработки, что затрудняет исследования для ученых. Это может способствовать более популярному исследованию на основе API.
🔷 Модели с архитектурой кодировщик-декодировщик все еще обещают выпустить, но модели только декодировщика на данный момент более гибки и универсальны.

👍6

3K views07:30

About

Blog

Apps

Platform