🤖 Автоматизация управления ML-экспериментами с помощью СI/CD
CI/CD — это автоматизированный процесс, при котором код автоматически интегрируется в репозиторий, проходит сборку, тестирование и, в случае успеха, автоматически разворачивается на production-сервере.
В новой статье на «Хабре» описана настройка CI/CD для управления ML-экспериментами с помощью GitHub Actions и Neptune.ai. Процесс включает:
▪️Создание скриптов для обучения моделей и экспериментов.
▪️Настройку GitHub Actions для автоматической сборки окружения, установки зависимостей и запуска экспериментов при каждом коммите.
▪️Интеграцию с Neptune.ai для отслеживания результатов экспериментов, логов и метрик в реальном времени.
🔗 Читать подробнее по этой ссылке
В новой статье на «Хабре» описана настройка CI/CD для управления ML-экспериментами с помощью GitHub Actions и Neptune.ai. Процесс включает:
▪️Создание скриптов для обучения моделей и экспериментов.
▪️Настройку GitHub Actions для автоматической сборки окружения, установки зависимостей и запуска экспериментов при каждом коммите.
▪️Интеграцию с Neptune.ai для отслеживания результатов экспериментов, логов и метрик в реальном времени.
🔗 Читать подробнее по этой ссылке
👍2🔥2
Forwarded from ML Underhood
Как мы работали над YaFSDP
Недавно запустилась библиотека YaFDP, которая ускоряет обучение больших языковых моделей. Подробнее о ней можно почитать в статье на Хабре. А сегодня руководитель группы претрейна YandexGPT Михаил Хрущев ответил на несколько наших вопросов о том, как создавалась библиотека.
Когда и как началась работа над YaFSDP?
За 2 недели до Нового года в 2023-м. К концу года стало ясно, что некоторые наши оптимизации не дают ускорения, которого мы ожидали. Я пошёл искать причины такого и нашел праздничную «ёлочку».
Ориентировались ли на существующие решения? Были ли какие-то референсы, может?
Сам алгоритм предложили в статье ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. Его реализация была также представлена в фреймворке DeepSpeed. К сожалению, она не очень масштабировалась и содержала много багов. Другая реализация, FSDP, сильно лучше, но и там есть проблемы с аллокацией памяти и коммуникациями. Поэтому я начал разрабатывать свою реализацию, к которой впоследствии подключились и другие ребята из моей команды.
Какие трудности возникали во время работы?
Было несколько технических трудностей. Вообще, от начала реализации до выкатки в обучение прошло чуть более месяца — разработка была более или менее гладкой. Самым сложным было продумать идею реализации, на это потребовалось больше месяца.
Здесь труднее всего было реализовать кода, который должен исполняться сразу после backward (обратного распространения ошибки) по слою. Я неожиданно столкнулся с тем, что torch (фреймворк глубокого обучения) совсем не приспособлен для такой хитрой логики. Но решение тем не менее нашлось.
На этом на сегодня все. Рассказывайте о своём опыте работы с LLM в комментариях!
ML Underhood
Недавно запустилась библиотека YaFDP, которая ускоряет обучение больших языковых моделей. Подробнее о ней можно почитать в статье на Хабре. А сегодня руководитель группы претрейна YandexGPT Михаил Хрущев ответил на несколько наших вопросов о том, как создавалась библиотека.
Когда и как началась работа над YaFSDP?
За 2 недели до Нового года в 2023-м. К концу года стало ясно, что некоторые наши оптимизации не дают ускорения, которого мы ожидали. Я пошёл искать причины такого и нашел праздничную «ёлочку».
Ориентировались ли на существующие решения? Были ли какие-то референсы, может?
Сам алгоритм предложили в статье ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. Его реализация была также представлена в фреймворке DeepSpeed. К сожалению, она не очень масштабировалась и содержала много багов. Другая реализация, FSDP, сильно лучше, но и там есть проблемы с аллокацией памяти и коммуникациями. Поэтому я начал разрабатывать свою реализацию, к которой впоследствии подключились и другие ребята из моей команды.
Какие трудности возникали во время работы?
Было несколько технических трудностей. Вообще, от начала реализации до выкатки в обучение прошло чуть более месяца — разработка была более или менее гладкой. Самым сложным было продумать идею реализации, на это потребовалось больше месяца.
Здесь труднее всего было реализовать кода, который должен исполняться сразу после backward (обратного распространения ошибки) по слою. Я неожиданно столкнулся с тем, что torch (фреймворк глубокого обучения) совсем не приспособлен для такой хитрой логики. Но решение тем не менее нашлось.
На этом на сегодня все. Рассказывайте о своём опыте работы с LLM в комментариях!
ML Underhood
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья! 👋
Мы готовим статью о том, что делать, если вы наврали в резюме, и нам нужна ваша помощь! 🤔 Поделитесь своим опытом и мнением, а самые интересные и полезные советы мы обязательно включим в нашу статью.
❓ Сталкивались ли вы когда-нибудь с ситуацией, когда пришлось преувеличить свои навыки в резюме? Как вы с этим справились?
❓ Какой, по вашему мнению, самый эффективный способ исправить ситуацию, если вы немного приукрасили свое резюме?
❓ Как вы думаете, какая «ложь» в резюме может быть простительной, а какая — абсолютно недопустимой?
Не стесняйтесь делиться своими историями и мнениями в комментариях! 💬 Ваш опыт может помочь другим избежать подобных ситуаций или найти выход, если они уже в них оказались. Спасибо за участие!
Мы готовим статью о том, что делать, если вы наврали в резюме, и нам нужна ваша помощь! 🤔 Поделитесь своим опытом и мнением, а самые интересные и полезные советы мы обязательно включим в нашу статью.
❓ Сталкивались ли вы когда-нибудь с ситуацией, когда пришлось преувеличить свои навыки в резюме? Как вы с этим справились?
❓ Какой, по вашему мнению, самый эффективный способ исправить ситуацию, если вы немного приукрасили свое резюме?
❓ Как вы думаете, какая «ложь» в резюме может быть простительной, а какая — абсолютно недопустимой?
Не стесняйтесь делиться своими историями и мнениями в комментариях! 💬 Ваш опыт может помочь другим избежать подобных ситуаций или найти выход, если они уже в них оказались. Спасибо за участие!
😁2
Media is too big
VIEW IN TELEGRAM
Первая вещь, которая, скорее всего, приходит вам в голову при упоминании scikit-learn — это
pipeline.fit().predict()
Однако в библиотеке сокрыто куда больше интересного. Об этом Vincent D. Warmerdam рассказывает в своей лекции.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2
Forwarded from Proglib.academy | IT-курсы
🧠⬇️ Есть мнение: уровень знаний айтишников снизился
В последнее время тревожные мнения о снижении уровня знаний среди IT-специалистов все чаще звучат в профессиональном сообществе и СМИ. В этой статье мы выясним, так ли это на самом деле, рассмотрев конкретные примеры и факторы, влияющие на уровень знаний IT-специалистов.
Не согласен, что знания убывают — тогда забирай курс по Алгоритмам от базы до эксперт уровня:
🔵 Алгоритмы и структуры данных
🔗 Ссылка
В последнее время тревожные мнения о снижении уровня знаний среди IT-специалистов все чаще звучат в профессиональном сообществе и СМИ. В этой статье мы выясним, так ли это на самом деле, рассмотрев конкретные примеры и факторы, влияющие на уровень знаний IT-специалистов.
Не согласен, что знания убывают — тогда забирай курс по Алгоритмам от базы до эксперт уровня:
🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👏2❤1😁1
☀️ Как нейросети научились давать более точный локальный прогноз
В новой статье команда Яндекса рассказала, как работала над нейросетевой технологией OmniCast и как она устроена. Благодаря OmniCast Яндекс Погода стала в 36 раз чаще получать данные о температуре и давать более точный прогноз для каждого городского квартала размером 500 на 500 метров.
🔗 Читать статью на Хабре
В новой статье команда Яндекса рассказала, как работала над нейросетевой технологией OmniCast и как она устроена. Благодаря OmniCast Яндекс Погода стала в 36 раз чаще получать данные о температуре и давать более точный прогноз для каждого городского квартала размером 500 на 500 метров.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🎨 ТОП-7 библиотек визуализации данных в 2024 году: обзор и сравнение
Подробный обзор 7 популярных библиотек для визуализации данных. Сравниваем функциональность, производительность и удобство использования Latitude, D3.js, Chart.js, Apache ECharts, Nivo, Plotly и Victory.
👉 Читать статью
👉 Зеркало
Подробный обзор 7 популярных библиотек для визуализации данных. Сравниваем функциональность, производительность и удобство использования Latitude, D3.js, Chart.js, Apache ECharts, Nivo, Plotly и Victory.
👉 Читать статью
👉 Зеркало
😁5
This media is not supported in your browser
VIEW IN TELEGRAM
Руководитель исследовательских проектов в области транспорта в VisionLabs в новой статье на «Хабре» рассказала, как устроен пайплайн распознавания автомобилей.
Вот основные шаги:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Forwarded from Библиотека питониста | Python, Django, Flask
🐍📈 Бэктест на Python: оцениваем торговую стратегию
Бэктестинг — это метод, который используется в трейдинге и инвестировании для оценки эффективности торговой стратегии (или инвестиционного подхода) с помощью исторических рыночных данных.
Проще говоря, это процесс проверки того, как стратегия работала бы в прошлом, если бы её применяли к реальным данным.
👉 В новой статье разбираемся, как реализовать бэктестинг на Python
Бэктестинг — это метод, который используется в трейдинге и инвестировании для оценки эффективности торговой стратегии (или инвестиционного подхода) с помощью исторических рыночных данных.
Проще говоря, это процесс проверки того, как стратегия работала бы в прошлом, если бы её применяли к реальным данным.
👉 В новой статье разбираемся, как реализовать бэктестинг на Python
❤4
Реддитор собрал данные сотен объявлений с LinkedIn и создал отчёт с распределением требуемых навыков. Можно посмотреть информацию по вакансиям как для начинающих дата-сайентистов, так и для мидлов и сеньоров.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🥱5
👀 Андрей Карпаты создал генератор комментариев к коммитам
На это его вдохновил мем, который он увидел в X. В результате Карпаты написал небольшую утилиту, которая генерирует сообщения к коммитам на базе изменений (diff) в пулл-реквесте.
Нужно просто ввести
🔗 Ссылка на утилиту на GitHub Gist
На это его вдохновил мем, который он увидел в X. В результате Карпаты написал небольшую утилиту, которая генерирует сообщения к коммитам на базе изменений (diff) в пулл-реквесте.
Нужно просто ввести
gcm
(сокращение для git commit -m), чтобы получить готовый комментарий. Его можно редактировать. 🔗 Ссылка на утилиту на GitHub Gist
👍12🥱3🥰2
🤗 Hugging Face выпустила Deep Learning Containers для Google Cloud
Это набор Docker-образов для обучения и развёртывания различных моделей (в том числе, конечно же, Transformers) на платформах Google Cloud Vertex AI и Google Kubernetes Engine (GKE).
В репозитории представлены примеры, демонстрирующие, как использовать эти контейнеры для задач обучения и инференса на Google Cloud.
Это набор Docker-образов для обучения и развёртывания различных моделей (в том числе, конечно же, Transformers) на платформах Google Cloud Vertex AI и Google Kubernetes Engine (GKE).
В репозитории представлены примеры, демонстрирующие, как использовать эти контейнеры для задач обучения и инференса на Google Cloud.
👏1
🤖 6 основных алгоритмов машинного обучения: руководство для начинающих
В новой статье мы расскажем о шести основных алгоритмах машинного обучения и их практическом применении в различных отраслях.
Вот алгоритмы, которые мы рассмотрим:
🔹линейная регрессия;
🔹SVM;
🔹дерево решений;
🔹случайный лес;
🔹наивный байес;
🔹логистическая регрессия.
🔗 Читать статью
В новой статье мы расскажем о шести основных алгоритмах машинного обучения и их практическом применении в различных отраслях.
Вот алгоритмы, которые мы рассмотрим:
🔹линейная регрессия;
🔹SVM;
🔹дерево решений;
🔹случайный лес;
🔹наивный байес;
🔹логистическая регрессия.
🔗 Читать статью
👍9❤2🔥1