Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🟰Математические основы генеративных нейронных сетей: что нужно знать для их изучения

Генеративный ИИ — это тип искусственного интеллекта, который после обучения на огромных массивах существующих данных способен создавать новый контент (текст, программный код, изображения, аудио, видео).

🪅Первыми примитивными примерами генеративного ИИ можно считать статистические модели, которые могли генерировать новые последовательности на основе заданных входных данных. Одна из таких моделей была использована для предсказания итогов президентских выборов в США в 1952 году.

↗️ Стремительное развитие генеративного ИИ началось в 2014 году, когда Ян Гудфеллоу и его коллеги представили генеративную состязательную сеть (GAN). Параллельно с этим, вариационные автокодировщики (VAE) и рекуррентные нейронные сети (RNN) тоже продемонстрировали впечатляющие способности к генерации нового контента. С тех пор генеративный ИИ развивается с головокружительной скоростью.

В новой статье рассказываем, какие разделы математики нужно знать для разработки современных генеративных моделей.

🔗 Читать статью
🔗 Зеркало
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍1
📊🎲 Несколько полезных шпаргалок для дата-сайентистов

Могут пригодиться при подготовке к собеседованию.

🔹Введение в теорию вероятностей
🔹Обзор способов визуализации данных
🔹Описательная статистика
👍3
Media is too big
VIEW IN TELEGRAM
Визуализация эмбеддингов в браузере

У TensorFlow есть онлайн-инструмент, который позволяет изучить пространство эмбеддингов (векторных представлений). Это не только залипательно, но и может быть полезно. Для пространств высокой размерности инструмент предварительно использует методы сокращения размерности (например, PCA).


На странице доступны предобученные эмбеддинги — Word2Vec, Mnist (в виде картинок!) и Iris. Кроме того, есть возможность загрузить собственные.

🔗 Ссылка на инструмент TensorFlow
4👍1
🛠️ NLP по-русски: подборка инструментов

🔹
Natasha
Набор инструментов Natasha позволяет решать базовые NLP-задачи: токенизацию, сегментацию на предложения, морфологический и синтаксический анализ, лемматизацию, извлечение именованных сущностей.
🔹 DeepPavlov
Это библиотека, созданная на базе PyTorch. Позволяет создавать чат-ботов и сложные диалоговые системы. Включает предобученные модели для русского языка.
🔹pymorphy2
Морфологический анализатор для русского и украинского языков. Может приводить слово к начальной форме и возвращать грамматическую информацию о нём. Также можно использовать форк pymorphy3, который сейчас развивается.
🔹SpaCy
Библиотека для обработки естественного языка, поддерживающая 75+ языков, а также включающая предобученные векторы слов.

NLP — Natural Language Processing, обработка естественного языка
👍61
💬 А вы используете в своей работе Jupyter Notebook?

❤️ — использую постоянно
👍 — иногда использую
🤔 — нет

#интерактив
114👍31🤔12👾3😁1
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍41
🚀 Awesome Machine Learning — фреймворки и библиотеки для ML

Этот репозиторий был вдохновлён другим — awesome-php. Включает в себя библиотеки, фреймворки и инструменты для машинного обучения на всех языках программирования: от С до Julia (Python, конечно, тоже есть).

Вот темы, которые есть в списке, на примере Python:
🔸 Компьютерное зрение
SimpleCV
pytessarct
🔸 Обработка естественного языка
NLTK
Transformers
🔸 Анализ данных/визуализация
plotly
DataComPy
🔸 Код соревнований Kaggle
🔸 Обучение с подкреплением
DeepMind Lab
ViZDoom

🔗 Ссылка на репозиторий Awesome Machine Learning
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
🥺 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘Искусственный интеллект успешно прошёл сложные экзамены и сравнился по с человеческим IQ во многих областях. Например, ИИ так же хорош, как человек в понимании, объяснении и обсуждение текста, изображений и видео.
🔘Microsoft выпустила новую модель VASA-1, которая генерирует потрясающе реалистичные видео на основе одного фото и одной аудиозаписи.
🔘Появился первый в мире конкурс красоты и успешности для ИИ-инфлюенсеров Мисс AI.

🛠 Инструменты

🔘Vidyard AI Avatars — генерирует видео с участием вашего ИИ-двойника.
🔘Flim — ИИ-поисковик для креативных людей.
🔘EasyFolders — сохраняет диалоги с ChatGPT и Claude в удобных древовидных папках.

📈 Исследования

🔘ИИ помог учёным определить области мозга, связанные с психозом. Анализ данных МРТ с помощью нового алгоритма машинного обучения выявил характерные «подписи» в мозге людей с расстройствами.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
⚡️ Вышел PyTorch 2.3

Основное нововведение — поддержка пользовательских ядер Triton в torch.compile. Их можно переносить без снижения производительности или сбоев в графике.

Triton — языковой компилятор для создания сильно оптимизированных ядер CUDA.

Помимо этого в PyTorch 2.3:
▫️Tensor Parallel API, который позволяет реализовать распределённые вычисления. API был специально адаптирован для обучения трансформеров с очень большим количеством параметров.
▫️Подкласс torch.sparse.SparseSemiStructuredTensor, который реализует полуструктурированную разреженность и позволяет добиться ускорения вычислений до 1.6 раза по сравнению с умножениями плотных (dense) матриц.

🔗 Прочесть о релизе подробнее можно здесь
👍4🔥1
🦾🧠🏋Качаем мозги к лету!

Хотите начать работать с большими данными, применять методы машинного обучения, статистический анализ, а также разрабатывать алгоритмы для извлечения информации?

Тогда наш полугодовой курс «Математика для Data Science» от преподавателей МГУ, подходит для этого. И мы можете попасть на него со скидкой 40%

➡️ Математика для Data Science 29 990 ₽ 17 994 ₽

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

⭐️ Переходите и активируйте бесплатные вводные занятия курса https://proglib.io/w/b1ca6fe9
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🐍🤔 «Задумчивый» код: временная сложность операций со структурами данных в Python

Вы когда-нибудь задумывались, почему некоторые операции в Python выполняются мгновенно, а другие заставляют ваш код «задумчиво» работать? В новой статье разбираемся во временной сложности и узнаём, как писать быстрый и эффективный код.

🔗 Читать статью
🔗 Зеркало
👍3
💬 Итак, настало время расшифровать аббревиатуры. На выбор:

🔹AI/ИИ
🔹ML
🔹DL
🔹GPT
🔹DS

👇Только неправильные ответы👇
😁82
PySpark_SQL_Cheat_Sheet.pdf
5.1 MB
PySpark: небольшой гайд по библиотеке

PySpark — это Python API для Apache Spark. А Apache Spark, в свою очередь, представляет собой движок для распределённой обработки задач, связанных с большими данными. Так, PySpark позволяет работать с данными любого размера.

Библиотека поддерживает все функции Spark, включая Spark SQL и DataFrames.

🔸Spark SQL предназначен для работы со структурированными данными и позволяет сочетать SQL-запросы с программами Spark.
🔸PySpark DataFrames позволяет читать, записывать, трансформировать и анализировать данные.

👆К посту мы прикрепили небольшую шпаргалку по этим двум основным инструментам PySpark
👍5
🎓 Небольшая подборка бесплатных курсов по классическому машинному обучению

▫️Stanford CS229: Machine Learning by Andrew Ng
Культовый курс по основам машинного обучения с Эндрю Ыном, американским учёным-информатиком. Представляет собой набор видеолекций.

▫️Алгоритмы Машинного обучения с нуля
Курс на Stepik, на котором подробно разбираются основные алгоритмы классического ML: линейная и логистическая регрессии, метод k-ближайших соседей, случайный лес, метод главных компонент и др.

▫️HarvardX: CS50's Introduction to Artificial Intelligence with Python
Курс, рассказывающий о концептах и алгоритмах, лежащих в основе современного ML. Также в программе есть теория вероятностей, нейросети, NLP и др.

▫️Машинное обучение (курс лекций, К.В. Воронцов)
В курсе делается упор на глубокое понимание математических основ. Автор — зав. лаб. «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ.
👍65
💵Моделирование курса валют методом Монте-Карло

Метод Монте-Карло позволяет исследовать какой-либо случайный процесс, многократно имитируя его.

Новая статья на «Хабре» посвящена анализу и прогнозированию валютных курсов с помощью такого подхода. Автор привёл примеры кода на Python и объяснил каждую используемую функцию.

🔗 Читать статью целиком
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6
🤖🖼️ Как работают визуальные трансформеры: магия превращения пикселей в знания

Визуальные трансформеры (Vision Transformers, ViTs) — класс моделей глубокого обучения, которые достигли выдающихся результатов в задачах классификации изображений. В основе ViTs лежит архитектура трансформеров, изначально разработанная для обработки естественного языка.

В новой статье подробно рассказываем (с картинками), как работают такие модели компьютерного зрения.

🔗 Читать статью
🔗 Зеркало
👍52😁1