Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.63K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Очередной #дайджест по Data Science:

✍️ 10 забавных сервисов в области ИИ
Нейросети, генерирующие эмодзи, анимации 3D моделей и многое другое.

✍️ Многоклассовая и многозадачная классификация
Многоклассовая и многозадачная классификация обладают огромным потенциалом для решения разнообразных задач. Для того чтобы правильно понять их значимость, надо разобраться, в чем заключается необходимость в этих двух подходах.

✍️ Моделирование нелинейных функций и ограничений в задачах линейного программирования
Используя достаточно ограниченный спектр математических преобразований (введение и замена переменных, добавление вспомогательных ограничений), автор разбирает процедуры линеаризации некоторых нелинейных задач.

✍️ Дообучение ruGPT-3.5 13B с LoRA
Подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML.
2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍1
❤️‍🔥 Как работает нейросеть?

Нейросети уже заполонили мир, особенно ChatGPT и Midjourney, поэтому важно приблизительно понимать как они работают. В этом ролике речь пойдёт об общем строении ИИ, что такое нейрон, вес и как подбирается результат.

Смотреть видео
🔥3😁2
Что такое ReLU? Чем он лучше sigmoid или tanh?

ReLU — это аббревиатура Rectified Linear Unit. Это функция активации, которая дает значение 0 для всех отрицательных значений и значение f(x) = x для всех положительных значений. ReLU имеет простую функцию активации, которая ускоряет вычисления, и в то время как функции активации sigmoid и tanh насыщаются при более высоких значениях, ReLU имеет потенциально бесконечную активацию, которая решает проблему исчезновения градиентов.
👍7😁1
🤖История о том, как можно обойти защиту ИИ, если надавить на жалость

В Bing есть работа с изображениями, в которую встроена защита от чтения капчи. При этом если сделать вид, что это не капча вовсе, а надпись на медальоне бабушки, то модель ее отлично считывает.

Источник: Denis Sexy IT
😁17👍2
🐍 Где изучать Python в 2023 году: 75 ресурсов для начинающих

Мы отобрали лучшие бесплатные курсы на русском языке, онлайн-тренажеры и телеграм-каналы, которые помогут новичку реализовать свой потенциал в Python-разработке.

Читать статью
👍8
Обнаружение галлюцинаций для абстрактных изложений

Абстрактное резюме — это задача искусственного интеллекта, которая перефразирует и сжимает текстовое содержимое в резюме. Эта статья представляет собой глубокое погружение в то, как обеспечить правильность и математику, необходимую для обеспечения беглости, связности, актуальности и последовательности.

Читать статью
😁2
70% программистов пользуются ИИ-ассистентами. Скоро код будут писать алгоритмы?

Проведенный в июне 2022 года опрос на платформе Stack Overflow показал, что 77% программистов положительно оценивают перспективы искусственного интеллекта в разработке, а 70% уже применяют «роботов-ассистентов» либо планируют их освоить во второй половине года.

Читать статью
😁4👍1
Очередной #дайджест по Python и DS:

🐍 Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform
Статья для тех, кому впервые понадобится реализовать схожие задачи на GCP без опыта работы с аналогичными облачными платформами.

🐍 Как PaaS решил проблемы стандартизации разработки сервиса одной утилитой
Command line interface приложение, запуск которого на локальной машине разработчика может превышать количество запусков команды git (спойлер: статистика в конце статьи).

🐍 Введение в библиотеку Diffusers и диффузионные модели
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.

🐍 «Консервируем» данные: сравниваем модуль pickle и альтернативные способы сериализации
В процессе работы периодически возникает необходимость выгрузить обрабатываемую в программе информацию для её хранения или дальнейшей передачи. И тогда на помощь приходит сериализация данных.
👍1
Тяжелая экономика продажи веб-данных

Было бы разумно покупать предварительно очищенные данные вместо того, чтобы создавать новый код с нуля. Тем не менее, многие попытки, предпринятые в прошлом по продаже наборов данных, не увенчались успехом. Почему так?

Читать статью
👍1
🔥 8 вопросов Data Scientist'у

Team lead по безопасности личных данных рассказывает новичкам про жизнь в Data Science и отвечает на вопросы, которые волнуют начинающих.

В видео дают ответы на вопросы о том, где лучше учиться на специалиста по данным, что должен уметь Data Scientists и сколько получает специалист.

Смотреть видео
⚡️ Что такое Apache Kafka?

Apache Kafka используется для организации работы серверных проектов любого уровня, позволяя создавать масштабируемые и отказоустойчивые системы.

Что такое Apache Kafka, почему она так популярна в Big Data и при чём тут микросервисы — обо всём этом рассказывает автор ролика.

Смотреть видео
👍4
Каковы хорошие исходные данные при построении рекомендательной системы?

✍️ Хорошая система рекомендаций должна предоставлять актуальную и персонализированную информацию.
✍️ Она не должна рекомендовать элементы, которые пользователь хорошо знает или легко находит.
✍️ Она должна вносить разнообразные предложения.
✍️ Пользователь должен исследовать новые предметы.
#вопросы_с_собеседований
Если добавить в тестовое задание запрещенные или нецензурные слова, то ChatGPT откажется решать это тестовое и кандидату придется подумать своей головой.

Пользуйтесь!
😁9👾4👍1
Geopandas

Geopandas — это библиотека для работы с геопространственными данными. Она базируется на библиотеке Pandas и интегрируется с другими инструментами геоинформатики, такими как Shapely, Fiona, PyProj.

Geopandas позволяет эффективно работать с географическими данными в виде векторных и растровых слоев.

Основные области применения:
— Картография и визуализация пространственных данных.
— Анализ и обработка данных, содержащих географическую привязку.
— Работа с геометрическими объектами: точки, линии, полигоны.
— Преобразование и проектирование геоданных.
— Пространственный анализ и геостатистика.
— Моделирование географических процессов.
— ГИС-приложения и веб-картография.
#код
👏3
Очередной #дайджест по Data Science:

✍️ Как автоматизировать переобучение моделей?
Как организовать переобучение моделей таким образом, чтобы можно было вести несколько процессов параллельно.

✍️ LLM как оптимизатор для задачи линейной регрессии
Как языковая модель Mistral-7B-Instruct на основании текстовых инструкций справится с задачей линейной регрессии.

✍️ Используем Hugging Face для обучения GPT-2 генерации музыки
К концу туториала вы сможете обучить модель GPT-2 генерации музыки.

✍️ Проблема омографов в ударениях и как я ее решал
История о том, почему в опенсорсе нет TTS с нормальными ударениями, и как автор пытался это исправить.