Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Обнаружение галлюцинаций для абстрактных изложений

Абстрактное резюме — это задача искусственного интеллекта, которая перефразирует и сжимает текстовое содержимое в резюме. Эта статья представляет собой глубокое погружение в то, как обеспечить правильность и математику, необходимую для обеспечения беглости, связности, актуальности и последовательности.

Читать статью
😁2
70% программистов пользуются ИИ-ассистентами. Скоро код будут писать алгоритмы?

Проведенный в июне 2022 года опрос на платформе Stack Overflow показал, что 77% программистов положительно оценивают перспективы искусственного интеллекта в разработке, а 70% уже применяют «роботов-ассистентов» либо планируют их освоить во второй половине года.

Читать статью
😁4👍1
Очередной #дайджест по Python и DS:

🐍 Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform
Статья для тех, кому впервые понадобится реализовать схожие задачи на GCP без опыта работы с аналогичными облачными платформами.

🐍 Как PaaS решил проблемы стандартизации разработки сервиса одной утилитой
Command line interface приложение, запуск которого на локальной машине разработчика может превышать количество запусков команды git (спойлер: статистика в конце статьи).

🐍 Введение в библиотеку Diffusers и диффузионные модели
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.

🐍 «Консервируем» данные: сравниваем модуль pickle и альтернативные способы сериализации
В процессе работы периодически возникает необходимость выгрузить обрабатываемую в программе информацию для её хранения или дальнейшей передачи. И тогда на помощь приходит сериализация данных.
👍1
Тяжелая экономика продажи веб-данных

Было бы разумно покупать предварительно очищенные данные вместо того, чтобы создавать новый код с нуля. Тем не менее, многие попытки, предпринятые в прошлом по продаже наборов данных, не увенчались успехом. Почему так?

Читать статью
👍1
🔥 8 вопросов Data Scientist'у

Team lead по безопасности личных данных рассказывает новичкам про жизнь в Data Science и отвечает на вопросы, которые волнуют начинающих.

В видео дают ответы на вопросы о том, где лучше учиться на специалиста по данным, что должен уметь Data Scientists и сколько получает специалист.

Смотреть видео
⚡️ Что такое Apache Kafka?

Apache Kafka используется для организации работы серверных проектов любого уровня, позволяя создавать масштабируемые и отказоустойчивые системы.

Что такое Apache Kafka, почему она так популярна в Big Data и при чём тут микросервисы — обо всём этом рассказывает автор ролика.

Смотреть видео
👍4
Каковы хорошие исходные данные при построении рекомендательной системы?

✍️ Хорошая система рекомендаций должна предоставлять актуальную и персонализированную информацию.
✍️ Она не должна рекомендовать элементы, которые пользователь хорошо знает или легко находит.
✍️ Она должна вносить разнообразные предложения.
✍️ Пользователь должен исследовать новые предметы.
#вопросы_с_собеседований
Если добавить в тестовое задание запрещенные или нецензурные слова, то ChatGPT откажется решать это тестовое и кандидату придется подумать своей головой.

Пользуйтесь!
😁9👾4👍1
Geopandas

Geopandas — это библиотека для работы с геопространственными данными. Она базируется на библиотеке Pandas и интегрируется с другими инструментами геоинформатики, такими как Shapely, Fiona, PyProj.

Geopandas позволяет эффективно работать с географическими данными в виде векторных и растровых слоев.

Основные области применения:
— Картография и визуализация пространственных данных.
— Анализ и обработка данных, содержащих географическую привязку.
— Работа с геометрическими объектами: точки, линии, полигоны.
— Преобразование и проектирование геоданных.
— Пространственный анализ и геостатистика.
— Моделирование географических процессов.
— ГИС-приложения и веб-картография.
#код
👏3
Очередной #дайджест по Data Science:

✍️ Как автоматизировать переобучение моделей?
Как организовать переобучение моделей таким образом, чтобы можно было вести несколько процессов параллельно.

✍️ LLM как оптимизатор для задачи линейной регрессии
Как языковая модель Mistral-7B-Instruct на основании текстовых инструкций справится с задачей линейной регрессии.

✍️ Используем Hugging Face для обучения GPT-2 генерации музыки
К концу туториала вы сможете обучить модель GPT-2 генерации музыки.

✍️ Проблема омографов в ударениях и как я ее решал
История о том, почему в опенсорсе нет TTS с нормальными ударениями, и как автор пытался это исправить.
PyBrain

PyBrain — это модульная библиотека машинного обучения для Python.
Ее цель — предложить гибкие, простые в использовании, но все же мощные алгоритмы для задач машинного обучения и разнообразные предопределенные среды для тестирования и сравнения ваших алгоритмов.

В этом примере мы создаем набор данных для классификации с двумя входными и тремя выходными значениями и добавляем данные в набор данных. Затем данные разделяются на обучающую и тестовую выборки и преобразуются для использования с PyBrain.
Далее создается нейронная сеть с двумя входными узлами, тремя скрытыми узлами и тремя выходными узлами и тренер для обучения сети. Сеть обучается в течение 100 эпох и выводится результат на обучающей и тестовой выборках.
👾4👍2😁1
У вас есть ряд только с одной переменной «y», измеренной в момент времени t. Как предсказать «y» в момент времени t+1? Какие подходы вы бы использовали? ‍

Мы хотим посмотреть на корреляцию между различными наблюдениями y. Эта мера корреляции называется автокорреляцией. Модели авторегрессии — это модели множественной регрессии, в которых временные ряды рассматриваются как несколько независимых переменных.
Нейронаука для машинного обучения

Это бесплатно доступный онлайн-курс по нейробиологии для людей, имеющих опыт машинного обучения. Цель состоит в том, чтобы объединить эти две области, имеющие общую цель – понимание интеллектуальных процессов.

Читать статью
👍2🤩1
CI/CD для инженерии данных (Python)

CI/CD очень важно. Но начать может быть сложно. Эта короткая статья рассказывает, как это сделать.

Читать статью
😁7👍4
Вы используете механическую клавиатуру для печати или мембранную?
#интерактив
👍3
Новости с конференции PyTorch 2023

Привет с конференции PyTorch в Сан-Франциско! Мы очень рады тому, что нам удалось объединить ведущих исследователей, разработчиков и академические сообщества для дальнейшего обучения и развития среды сквозного машинного обучения…

Читать статью
Очередной #дайджест по Python:

✍️ Прием платежей с помощью Stripe, Vue.js и Flask
Если вы создаете сайт, чтобы зарабатывать деньги, в какой-то момент вам придется собирать деньги. В этом руководстве показано, как создать приложение Flask, которое интегрируется с Stripe для обработки платежей через платформу Vue.js.

✍️ Создание коннектора RisingWave для Django ORM
В этой статье показано внутреннее устройство Django ORM. Мы создаем прототип коннектора к базе данных потоковой передачи событий RisingWave и включаем возможности информационной панели в Django.

✍️ Автодифференциальные головоломки
Этот блокнот содержит серию отдельных головоломок для изучения производных в тензорных библиотеках.

✍️ Основы PyTimeTK
Введение в библиотеку pytimetk и то, как вы можете использовать ее для анализа временных рядов.
👍4
Исследование рыночной корзины на основе данных розничной торговли в Стамбуле

Целью работы было получить представление о тенденциях и моделях покупок в Стамбуле и определить наиболее оптимальную модель для анализа данных.

Читать статью