Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
❤️‍🔥 Как работает нейросеть?

Нейросети уже заполонили мир, особенно ChatGPT и Midjourney, поэтому важно приблизительно понимать как они работают. В этом ролике речь пойдёт об общем строении ИИ, что такое нейрон, вес и как подбирается результат.

Смотреть видео
🔥3😁2
Что такое ReLU? Чем он лучше sigmoid или tanh?

ReLU — это аббревиатура Rectified Linear Unit. Это функция активации, которая дает значение 0 для всех отрицательных значений и значение f(x) = x для всех положительных значений. ReLU имеет простую функцию активации, которая ускоряет вычисления, и в то время как функции активации sigmoid и tanh насыщаются при более высоких значениях, ReLU имеет потенциально бесконечную активацию, которая решает проблему исчезновения градиентов.
👍7😁1
🤖История о том, как можно обойти защиту ИИ, если надавить на жалость

В Bing есть работа с изображениями, в которую встроена защита от чтения капчи. При этом если сделать вид, что это не капча вовсе, а надпись на медальоне бабушки, то модель ее отлично считывает.

Источник: Denis Sexy IT
😁17👍2
🐍 Где изучать Python в 2023 году: 75 ресурсов для начинающих

Мы отобрали лучшие бесплатные курсы на русском языке, онлайн-тренажеры и телеграм-каналы, которые помогут новичку реализовать свой потенциал в Python-разработке.

Читать статью
👍8
Обнаружение галлюцинаций для абстрактных изложений

Абстрактное резюме — это задача искусственного интеллекта, которая перефразирует и сжимает текстовое содержимое в резюме. Эта статья представляет собой глубокое погружение в то, как обеспечить правильность и математику, необходимую для обеспечения беглости, связности, актуальности и последовательности.

Читать статью
😁2
70% программистов пользуются ИИ-ассистентами. Скоро код будут писать алгоритмы?

Проведенный в июне 2022 года опрос на платформе Stack Overflow показал, что 77% программистов положительно оценивают перспективы искусственного интеллекта в разработке, а 70% уже применяют «роботов-ассистентов» либо планируют их освоить во второй половине года.

Читать статью
😁4👍1
Очередной #дайджест по Python и DS:

🐍 Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform
Статья для тех, кому впервые понадобится реализовать схожие задачи на GCP без опыта работы с аналогичными облачными платформами.

🐍 Как PaaS решил проблемы стандартизации разработки сервиса одной утилитой
Command line interface приложение, запуск которого на локальной машине разработчика может превышать количество запусков команды git (спойлер: статистика в конце статьи).

🐍 Введение в библиотеку Diffusers и диффузионные модели
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.

🐍 «Консервируем» данные: сравниваем модуль pickle и альтернативные способы сериализации
В процессе работы периодически возникает необходимость выгрузить обрабатываемую в программе информацию для её хранения или дальнейшей передачи. И тогда на помощь приходит сериализация данных.
👍1
Тяжелая экономика продажи веб-данных

Было бы разумно покупать предварительно очищенные данные вместо того, чтобы создавать новый код с нуля. Тем не менее, многие попытки, предпринятые в прошлом по продаже наборов данных, не увенчались успехом. Почему так?

Читать статью
👍1
🔥 8 вопросов Data Scientist'у

Team lead по безопасности личных данных рассказывает новичкам про жизнь в Data Science и отвечает на вопросы, которые волнуют начинающих.

В видео дают ответы на вопросы о том, где лучше учиться на специалиста по данным, что должен уметь Data Scientists и сколько получает специалист.

Смотреть видео
⚡️ Что такое Apache Kafka?

Apache Kafka используется для организации работы серверных проектов любого уровня, позволяя создавать масштабируемые и отказоустойчивые системы.

Что такое Apache Kafka, почему она так популярна в Big Data и при чём тут микросервисы — обо всём этом рассказывает автор ролика.

Смотреть видео
👍4
Каковы хорошие исходные данные при построении рекомендательной системы?

✍️ Хорошая система рекомендаций должна предоставлять актуальную и персонализированную информацию.
✍️ Она не должна рекомендовать элементы, которые пользователь хорошо знает или легко находит.
✍️ Она должна вносить разнообразные предложения.
✍️ Пользователь должен исследовать новые предметы.
#вопросы_с_собеседований
Если добавить в тестовое задание запрещенные или нецензурные слова, то ChatGPT откажется решать это тестовое и кандидату придется подумать своей головой.

Пользуйтесь!
😁9👾4👍1
Geopandas

Geopandas — это библиотека для работы с геопространственными данными. Она базируется на библиотеке Pandas и интегрируется с другими инструментами геоинформатики, такими как Shapely, Fiona, PyProj.

Geopandas позволяет эффективно работать с географическими данными в виде векторных и растровых слоев.

Основные области применения:
— Картография и визуализация пространственных данных.
— Анализ и обработка данных, содержащих географическую привязку.
— Работа с геометрическими объектами: точки, линии, полигоны.
— Преобразование и проектирование геоданных.
— Пространственный анализ и геостатистика.
— Моделирование географических процессов.
— ГИС-приложения и веб-картография.
#код
👏3
Очередной #дайджест по Data Science:

✍️ Как автоматизировать переобучение моделей?
Как организовать переобучение моделей таким образом, чтобы можно было вести несколько процессов параллельно.

✍️ LLM как оптимизатор для задачи линейной регрессии
Как языковая модель Mistral-7B-Instruct на основании текстовых инструкций справится с задачей линейной регрессии.

✍️ Используем Hugging Face для обучения GPT-2 генерации музыки
К концу туториала вы сможете обучить модель GPT-2 генерации музыки.

✍️ Проблема омографов в ударениях и как я ее решал
История о том, почему в опенсорсе нет TTS с нормальными ударениями, и как автор пытался это исправить.
PyBrain

PyBrain — это модульная библиотека машинного обучения для Python.
Ее цель — предложить гибкие, простые в использовании, но все же мощные алгоритмы для задач машинного обучения и разнообразные предопределенные среды для тестирования и сравнения ваших алгоритмов.

В этом примере мы создаем набор данных для классификации с двумя входными и тремя выходными значениями и добавляем данные в набор данных. Затем данные разделяются на обучающую и тестовую выборки и преобразуются для использования с PyBrain.
Далее создается нейронная сеть с двумя входными узлами, тремя скрытыми узлами и тремя выходными узлами и тренер для обучения сети. Сеть обучается в течение 100 эпох и выводится результат на обучающей и тестовой выборках.
👾4👍2😁1
У вас есть ряд только с одной переменной «y», измеренной в момент времени t. Как предсказать «y» в момент времени t+1? Какие подходы вы бы использовали? ‍

Мы хотим посмотреть на корреляцию между различными наблюдениями y. Эта мера корреляции называется автокорреляцией. Модели авторегрессии — это модели множественной регрессии, в которых временные ряды рассматриваются как несколько независимых переменных.
Нейронаука для машинного обучения

Это бесплатно доступный онлайн-курс по нейробиологии для людей, имеющих опыт машинного обучения. Цель состоит в том, чтобы объединить эти две области, имеющие общую цель – понимание интеллектуальных процессов.

Читать статью
👍2🤩1