Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.25K photos
111 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
⬆️ Методы оптимизации в машинном и глубоком обучении. От простого к сложному

Новая статья (в отличной серии статей о машинном обучении) рассказывает о:

🔹классическом градиентном спуске;
🔹momentum-оптимизации;
🔹AdaGrad;
🔹RMSProp;
🔹и др. модификациях алгоритмов оптимизации.

🔗 Ссылка на статью
👍6👏6🔥1😁1
А вам интересно следить за деятельностью OpenAI?

Вчера компания провела презентацию, на которой представила новую мультимодальную модель GPT-4o, голосового ассистента с эмоциями, а также десктопное приложение ChatGPT с распознаванием изображений. Теперь, кажется, весь интернет обсуждает это. Каково ваше отношение?

❤️ — интересно, слежу за новостями
👍 — иногда почитываю, что у них там
👾 — в целом, всё равно

#интерактив
54👍28👾5🥱4
🧠 Как работают большие языковые модели (LLM): объяснение без математики

Новая статья в блоге Miguel Grinberg рассказывает основы работы LLM для новичков в области. Автор старается избегать математики в объяснениях, но зато иллюстрирует концепции рабочим кодом на Python.

Из статьи вы узнаете:
▫️что такое токены;
▫️как модель делает предсказания;
▫️особенности архитектуры Transformers.

🔗 Читать статью
❤‍🔥3👍2
Что такое latent space (скрытое пространство)?

Допустим, вы работаете в клинике и у вас есть много данных пациентов, а конкретно их вес и рост. Вы можете рассматривать каждую точку на первом графике выше как кусочек информации о каждом человеке. Ваша задача — генерировать записи пациентов на основе этих данных.

Рассмотрим тот же набор данных, но закодированный цветом согласно индексу массы тела (ИМТ). Можно заметить, что цвета почти совпадают с линиями. Тогда почему бы нам не рассмотреть другие оси, которые могут быть удобнее для генерации новых пациентов?

Мы можем назвать одну из этих осей Zoom, так как вдоль неё ИМТ не изменяется. Вторая ось может быть названа ИМТ. Эти новые оси предлагают более удобный способ взглянуть на данные и упростить генерацию.

Именно такое математическое пространство, из которого мы генерируем синтетические объекты, называется скрытым пространством.
🤔9👍7🔥4
Zeus — инструмент для измерения количества потребляемой DL-моделями энергии

Глубокое обучение требует много энергии. Например, на обучение одной языковой модели с 200 млрд параметров на AWS p4d инстансах уходит столько же энергии, сколько бы хватило на обеспечение более тысячи средних американских домохозяйств в течение года.

Zeus — это опенсорсный инструмент, который позволяет измерять и оптимизировать потребление энергии при выполнении задач глубокого обучения.

🔗 Здесь вы можете найти примеры кода Zeus
🔗 А это ссылка на репозиторий
🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
👆Инженер-программист наблюдает за тем, как дата-сайентист пишет код👆
😁475👍1
👆Ловите бинго Python-разработчика👆

Авторские версии бинго приветствуются
😁11🔥5👍2
📹 Почему нейросети любят Softmax?

Функция Softmax действительно часто используется в архитектурах нейронных сетей. Она преобразует выходные значения модели в вероятности, которые в сумме не превышают единицу. Это особенно полезно в задачах классификации, где важно получить вероятностное распределение по классам.

Специалисты по DS хвалят ролик YouTube-канала Mutual Information, автор которого постарался объяснить этот феномен.

🔗 Ссылка на ролик
👍4👏21
✉️ Как завалить собеседование, даже не начав его: 8 ошибок в сопроводительных письмах

Откликаетесь, но сразу получаете отказы? Не торопитесь с выводами — возможно, все дело в вашем сопроводительном письме.

👉Сопроводительное — это первое впечатление, которое мы производим на эйчара, а первое впечатление, как известно, очень важно.

Собрали для вас несколько распространенных ошибок по составлению такого письма — а в статье по ссылке можно найти остальные ошибки и пример идеального сопроводительного.

Кстати, вакансии можно поискать в наших профильных каналах:
🤮Data Science, анализ данных, аналитика
🤮Python
🤮Frontend
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
👥 Pramp — симулятор собеседований с реальными людьми

Если вам предстоит техническое интервью (или вы просто хотите с кем-нибудь поболтать), то Pramp — отличный выбор. Платформа назначает вам встречу со случайным человеком, с которым вы будете собеседовать друг друга на выбранную тему.

Регистрация бесплатная. Сразу после этого вам доступны 6 слотов для планирования интервью. Вот темы, на которые вы можете провести собеседование:

🔹прикладной Data Science (конечно, иначе мы бы не сделали этот пост);
🔹поведенческое интервью;
🔹структуры данных и алгоритмы;
🔹системный дизайн;
🔹фронтенд.

Нужно быть готовым к тому, что собеседование будет проходить на английском, так как это международная платформа. Это обстоятельство может быть и плюсом, и минусом.

🔗 Ссылка на Pramp
🔥11🥰41
🐍🆕 Змея сбросила старую кожу: что нового в Python 3.13

Версия 3.13 принесла ряд важных нововведений, нацеленных на повышение скорости выполнения кода, улучшение читаемости и новые возможности для интерактивной работы. В новой статье перечислили главные изменения, которые должен знать каждый Python-разработчик.

👉 Читать статью
👉 Зеркало
🔥11