🦾 Как улучшить производительность моделей без огромных вычислительных затрат
Авторы новой статьи изучили методы улучшения производительности моделей, которые можно применить к ним после обучения. Прелесть методов в том, что они не требуют больших вычислительных ресурсов. Их разбили на пять категорий:
✔️ Использование дополнительных инструментов.
✔️ Улучшение промптов.
✔️ Применение программ, которые структурируют reasoning модели и потоки информации между копиями модели.
✔️ Применение методов генерации и последующего выбора между несколькими вариантами решения проблемы.
✔️ Генерация более качественных данных для файн-тюнинга.
🔗 Блогпост по статье
📖 Сама статья
Авторы новой статьи изучили методы улучшения производительности моделей, которые можно применить к ним после обучения. Прелесть методов в том, что они не требуют больших вычислительных ресурсов. Их разбили на пять категорий:
✔️ Использование дополнительных инструментов.
✔️ Улучшение промптов.
✔️ Применение программ, которые структурируют reasoning модели и потоки информации между копиями модели.
✔️ Применение методов генерации и последующего выбора между несколькими вариантами решения проблемы.
✔️ Генерация более качественных данных для файн-тюнинга.
🔗 Блогпост по статье
📖 Сама статья
❤6👍2
👾 В каком направлении вам хотелось бы начать разбираться?
❤️ — NLP (обработка естественного языка)
👍 — компьютерное зрение
👾 — обучение с подкреплением
#интерактив
❤️ — NLP (обработка естественного языка)
👍 — компьютерное зрение
👾 — обучение с подкреплением
#интерактив
❤75👾56👍53
-35% на самый хардкорный курс по вышмату
🎄 Новый год начинается с подарков, а хороший подарок для себя — новые знания со скидкой 35%!
🌟«Математика для Data Science» — 19 490 ₽ (вместо 29 990 ₽)
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте вводные занятия курса — https://proglib.io/w/4468ec03
🎄 Новый год начинается с подарков, а хороший подарок для себя — новые знания со скидкой 35%!
🌟«Математика для Data Science» — 19 490 ₽ (вместо 29 990 ₽)
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте вводные занятия курса — https://proglib.io/w/4468ec03
🔥2🥱1
⭐ Простая сегментация изображений в KerasCV
В KerasCV появилась модель Segment Anything, которая позволяет сегментировать изображения с помощью так называемых points prompts (точек-подсказок).
Инструмент легко использовать: достаточно передать модели координаты точки, и она выделит несколько участков на выбор. В примере сверху Segment Anything вернула как выделенное окно, так и машину целиком.
Создатель Keras Франсуа Шолле утверждает, что с бэкендом JAX инструмент работает в 5 раз быстрее на GPU, чем оригинальная реализация в PyTorch.
🔗Официальный туториал по Segment Anything в KerasCV
В KerasCV появилась модель Segment Anything, которая позволяет сегментировать изображения с помощью так называемых points prompts (точек-подсказок).
Инструмент легко использовать: достаточно передать модели координаты точки, и она выделит несколько участков на выбор. В примере сверху Segment Anything вернула как выделенное окно, так и машину целиком.
Создатель Keras Франсуа Шолле утверждает, что с бэкендом JAX инструмент работает в 5 раз быстрее на GPU, чем оригинальная реализация в PyTorch.
🔗Официальный туториал по Segment Anything в KerasCV
❤5
❤️ Подборка лучших книг для дата сайентистов
Все эти книги доступны в нашем канале «Книги для дата сайентистов | Data Science».
▪️Communicating with Data (2023)
В книге рассказывается, как эффективно работать с данными, анализировать и визуализировать их.
▪️Data Science Bookcamp (2021)
Описывает пять DS-проектов. На их примере автор разбирает распространённые проблемы, такие как отсутствие данных, бардак в данных и плохой выбор алгоритма.
▪️Learning Data Science (2023)
Книга даёт фундаментальные навыки как в программировании, так и в статистике.
▪️R for Data Science (2023)
В книге объясняется, как работать с помощью R и RStudio, а также tidyverse — коллекции пакетов R.
▪️Data Science from Scratch: First Principles with Python, Second Edition (2019)
Содержит ускоренный курс по Python, основы линейной алгебры, статистики и теории вероятностей, а также основы машинного обучения.
Все эти книги доступны в нашем канале «Книги для дата сайентистов | Data Science».
▪️Communicating with Data (2023)
В книге рассказывается, как эффективно работать с данными, анализировать и визуализировать их.
▪️Data Science Bookcamp (2021)
Описывает пять DS-проектов. На их примере автор разбирает распространённые проблемы, такие как отсутствие данных, бардак в данных и плохой выбор алгоритма.
▪️Learning Data Science (2023)
Книга даёт фундаментальные навыки как в программировании, так и в статистике.
▪️R for Data Science (2023)
В книге объясняется, как работать с помощью R и RStudio, а также tidyverse — коллекции пакетов R.
▪️Data Science from Scratch: First Principles with Python, Second Edition (2019)
Содержит ускоренный курс по Python, основы линейной алгебры, статистики и теории вероятностей, а также основы машинного обучения.
👍15🔥5
🤖 Искусственный интеллект объяснит предсказания нейронной сети
Интерпретация результатов работы нейронных сетей — это нерешённая задача. И она становится всё труднее по мере того, как модели увеличиваются и усложняются.
👨⚕️Исследователи из MIT предложили новый подход, который использует ИИ-алгоритм для проведения экспериментов на других моделях и объяснения их поведения. Этот алгоритм они назвали «automated interpretability agent» (AIA). Он способен выдавать объяснения результатов работы других ИИ в нескольких формах: языковое описание того, что система делает и в каких местах она ошибается, а также код для воспроизведения поведения системы.
Новый подход также включает набор тестов FIND для оценки методов интерпретации.
📖Прочесть статью исследователей
Интерпретация результатов работы нейронных сетей — это нерешённая задача. И она становится всё труднее по мере того, как модели увеличиваются и усложняются.
👨⚕️Исследователи из MIT предложили новый подход, который использует ИИ-алгоритм для проведения экспериментов на других моделях и объяснения их поведения. Этот алгоритм они назвали «automated interpretability agent» (AIA). Он способен выдавать объяснения результатов работы других ИИ в нескольких формах: языковое описание того, что система делает и в каких местах она ошибается, а также код для воспроизведения поведения системы.
Новый подход также включает набор тестов FIND для оценки методов интерпретации.
📖Прочесть статью исследователей
👍7👾2🔥1
cheat_sheet_rag.pdf
11.3 MB
✏️ Шпаргалка по RAG (Retrieval-Augmented Generation)
RAG — это способ улучшить ответы большой языковой модели (LLM), предоставляя ей доступ к конкретным документам.
🦙 Шпаргалка от создателей LlamaIndex рассказывает, как устроен простейший RAG и какие существуют методы его улучшения.
🔗Ссылка на шпаргалку и статью
RAG — это способ улучшить ответы большой языковой модели (LLM), предоставляя ей доступ к конкретным документам.
🦙 Шпаргалка от создателей LlamaIndex рассказывает, как устроен простейший RAG и какие существуют методы его улучшения.
🔗Ссылка на шпаргалку и статью
👍9
👨🎓 Очень много туториалов по машинному обучению на Python
На GitHub обнаружили репозиторий с инструкциями, охватывающими обширный список тем. На каждую тему есть Jupyter Notebook с кодом и подробными объяснениями.
Вот какие темы можно найти:
▪️глубокое обучение: разные виды нейронных сетей,
▪️развёртывание моделей,
▪️извлечение информации из дополнительных источников для LLM,
▪️временные ряды,
▪️A/B-тестирование,
▪️классический ML,
▪️большие данные,
▪️скрипты на Python.
🔗 Ссылка на репозиторий
На GitHub обнаружили репозиторий с инструкциями, охватывающими обширный список тем. На каждую тему есть Jupyter Notebook с кодом и подробными объяснениями.
Вот какие темы можно найти:
▪️глубокое обучение: разные виды нейронных сетей,
▪️развёртывание моделей,
▪️извлечение информации из дополнительных источников для LLM,
▪️временные ряды,
▪️A/B-тестирование,
▪️классический ML,
▪️большие данные,
▪️скрипты на Python.
🔗 Ссылка на репозиторий
👍15❤7
✏️Что такое коэффициент детерминации в машинном обучении
Также известен как R-квадрат. Он измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной.
👉В контексте линейной регрессии, например, R-квадрат показывает, насколько хорошо линия регрессии аппроксимирует реальные точки данных.
Значение коэффициента детерминации варьируется от 0 до 1. Чем ближе к единице, тем лучше модель объясняет данные.
❗Стоит учитывать, что высокий R-квадрат не всегда означает, что модель будет хорошо работать на новых данных.
✔️ Пример расчёта коэффициента детерминации в scikit-learn:
Также известен как R-квадрат. Он измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной.
👉В контексте линейной регрессии, например, R-квадрат показывает, насколько хорошо линия регрессии аппроксимирует реальные точки данных.
Значение коэффициента детерминации варьируется от 0 до 1. Чем ближе к единице, тем лучше модель объясняет данные.
❗Стоит учитывать, что высокий R-квадрат не всегда означает, что модель будет хорошо работать на новых данных.
✔️ Пример расчёта коэффициента детерминации в scikit-learn:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred)) # -> 0.948...
👍14🥱5❤1🤔1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
👍2
🧑💻 Особенности работы в айти: результаты опроса подписчиков
В декабре мы провели среди вас опрос, изучили результаты и сделали аналитическую статью на vc.ru.
Вот некоторые выводы:
🧔♂️ В основном наша аудитория состоит из мужчин — 92,1% опрошенных. Женщин, соответственно, всего 7,9%.
🐍 В ТОП-10 специальностей входят питонисты — их 12,4%. Дата-инженерами или дата-сайентистами себя назвали 3.7% респондентов.
👨🎓 25% аудитории — самоучки, у которых нет профильного образования, и они не заканчивали никаких платных курсов.
💲 У разработчиков с опытом менее года преобладают зарплаты до 90 000 рублей (88%). Если опыта 1-3 года, то доля получающих 150 000+ увеличивается до 53,6%.
💰 Опытные и образованные Python-разработчики (15,44%) также входят в шестёрку самых высокооплачиваемых специалистов.
🔗 Полный отчёт можно прочесть по этой ссылке
💬 Пишите, какие ещё подобные материалы вам было бы интересно почитать
В декабре мы провели среди вас опрос, изучили результаты и сделали аналитическую статью на vc.ru.
Вот некоторые выводы:
🧔♂️ В основном наша аудитория состоит из мужчин — 92,1% опрошенных. Женщин, соответственно, всего 7,9%.
🐍 В ТОП-10 специальностей входят питонисты — их 12,4%. Дата-инженерами или дата-сайентистами себя назвали 3.7% респондентов.
👨🎓 25% аудитории — самоучки, у которых нет профильного образования, и они не заканчивали никаких платных курсов.
💲 У разработчиков с опытом менее года преобладают зарплаты до 90 000 рублей (88%). Если опыта 1-3 года, то доля получающих 150 000+ увеличивается до 53,6%.
💰 Опытные и образованные Python-разработчики (15,44%) также входят в шестёрку самых высокооплачиваемых специалистов.
🔗 Полный отчёт можно прочесть по этой ссылке
💬 Пишите, какие ещё подобные материалы вам было бы интересно почитать
👍3🔥2👾2😁1
🤖 Гайд: пишем Transformer с нуля
Отличный Jupyter-блокнот, в котором пошагово описан процесс создания собственной модели Transformer. Каждый кусок кода сопровождается подробным комментарием.
Автор начинает с предобработки текста и заканчивает полной сборкой работающей архитектуры. За основу он взял классическую статью Attention Is All You Need и видео Андрея Карпаты Let's build GPT: from scratch, in code, spelled out.
🔗 Ссылка на гайд
Отличный Jupyter-блокнот, в котором пошагово описан процесс создания собственной модели Transformer. Каждый кусок кода сопровождается подробным комментарием.
Автор начинает с предобработки текста и заканчивает полной сборкой работающей архитектуры. За основу он взял классическую статью Attention Is All You Need и видео Андрея Карпаты Let's build GPT: from scratch, in code, spelled out.
🔗 Ссылка на гайд
👍24❤3⚡1
😵💫 Чат-бот без галлюцинаций (ну, почти)
Команда Stanford's Open Virtual Assistant Lab создала WikiChat, который опирается на информацию из Wikipedia при генерации ответов. Это, по заверениям авторов, позволяет добиться 97.9% фактической точности при обсуждении свежих тем (на 55% лучше, чем у GPT-4.
Также благодаря дистилляции WikiChat получил значительный прирост в скорости работы.
👩💻 Репозиторий проекта на GitHub
💬 Онлайн-демо
📖 Исследовательская статья
Команда Stanford's Open Virtual Assistant Lab создала WikiChat, который опирается на информацию из Wikipedia при генерации ответов. Это, по заверениям авторов, позволяет добиться 97.9% фактической точности при обсуждении свежих тем (на 55% лучше, чем у GPT-4.
Также благодаря дистилляции WikiChat получил значительный прирост в скорости работы.
👩💻 Репозиторий проекта на GitHub
💬 Онлайн-демо
📖 Исследовательская статья
👍10❤3
☁️ Облачные среды для ML-разработки
🔵 Google Colaboratory
Скорее всего, вам известна эта платформа для выполнения кода Python в браузере. Бесплатная версия даёт доступ к GPU и TPU, но количество вычислительных единиц ограничено. Также недавно в Colab появился ИИ-помощник, что ускоряет написание кода.
- максимум 12 часов работы ноутбуков.
- около 80 ГБ дискового пространства.
⚪ Kaggle Notebooks
У Kaggle тоже есть своя бесплатная среда разработки. Предлагает:
- 12 часов работы для CPU- и GPU-сессий, а также 9 часов — для TPU-сессий.
- 20 ГБ дискового пространства.
- поддержка R.
🔵 Deepnote
Бесплатная версия поддерживает только до пяти проектов. Также можно опробовать Team-версию в течение двух недель.
- 5 ГБ RAM и 2vCPU для бесплатной версии.
- Поддержка Python, SQL и R.
- ИИ-помощник.
- Фишки для командной работы.
⚪ Amazon SageMaker
Можно попробовать бесплатно, но в этом случае доступ к GPU не предоставляется. Зато SageMaker позволяет создавать, обучать и развёртывать модели машинного обучения, используя блокноты, отладчики, конвейеры, MLOps и многое другое.
🔵 Yandex DataSphere
Это среда для ML-разработки полного цикла. В DataSphere можно не только проводить вычисления и обучать модели, но и запускать обученные модели в эксплуатацию. В качестве IDE предоставляет Jupyter Notebook. Для работы нужно подключить платёжный аккаунт.
🔵 Google Colaboratory
Скорее всего, вам известна эта платформа для выполнения кода Python в браузере. Бесплатная версия даёт доступ к GPU и TPU, но количество вычислительных единиц ограничено. Также недавно в Colab появился ИИ-помощник, что ускоряет написание кода.
- максимум 12 часов работы ноутбуков.
- около 80 ГБ дискового пространства.
⚪ Kaggle Notebooks
У Kaggle тоже есть своя бесплатная среда разработки. Предлагает:
- 12 часов работы для CPU- и GPU-сессий, а также 9 часов — для TPU-сессий.
- 20 ГБ дискового пространства.
- поддержка R.
🔵 Deepnote
Бесплатная версия поддерживает только до пяти проектов. Также можно опробовать Team-версию в течение двух недель.
- 5 ГБ RAM и 2vCPU для бесплатной версии.
- Поддержка Python, SQL и R.
- ИИ-помощник.
- Фишки для командной работы.
⚪ Amazon SageMaker
Можно попробовать бесплатно, но в этом случае доступ к GPU не предоставляется. Зато SageMaker позволяет создавать, обучать и развёртывать модели машинного обучения, используя блокноты, отладчики, конвейеры, MLOps и многое другое.
🔵 Yandex DataSphere
Это среда для ML-разработки полного цикла. В DataSphere можно не только проводить вычисления и обучать модели, но и запускать обученные модели в эксплуатацию. В качестве IDE предоставляет Jupyter Notebook. Для работы нужно подключить платёжный аккаунт.
❤9
💬 Сколько времени вы посвящаете самообразованию в области DS/ML?
👾 — стараюсь заниматься почти каждый день хотя бы час
🤩 — я сейчас в активной стадии обучения, уделяю этому по несколько часов в день
👍 — иногда (возможно, раз в две недели) узнаю что-то новое
🤔 — в основном работаю, на обучение времени не хватает
❤️ — свой вариант (делитесь в комментариях)
#интерактив
👾 — стараюсь заниматься почти каждый день хотя бы час
🤩 — я сейчас в активной стадии обучения, уделяю этому по несколько часов в день
👍 — иногда (возможно, раз в две недели) узнаю что-то новое
🤔 — в основном работаю, на обучение времени не хватает
❤️ — свой вариант (делитесь в комментариях)
#интерактив
👾52🤔39🤩36👍31❤2😁1
Forwarded from Библиотека питониста | Python, Django, Flask
🎉 Python и неопытные программисты: наши лучшие статьи за 2023 год
За 2023 год «Библиотека программиста» опубликовала 227 статей, и Питон второй год подряд в ТОПе.
Вот 5 самых популярных материалов (сохраняй, если не читал):
🐛 9 признаков неопытного программиста
😢 Обратная сторона медали: 9 причин, почему тебе не нужно идти в IT
🚩 Кому не подходит работа в IT: 6 красных флагов
🐍📚 ТОП-15 книг по Python для начинающих и опытных разработчиков в 2023 году
🐍 Самоучитель по Python для начинающих. Часть 11: Функции с позиционными и именованными аргументами
Ещё больше итогов года, а также ссылки на «Самоучитель по Python для начинающих» здесь 👈
За 2023 год «Библиотека программиста» опубликовала 227 статей, и Питон второй год подряд в ТОПе.
Вот 5 самых популярных материалов (сохраняй, если не читал):
🐛 9 признаков неопытного программиста
😢 Обратная сторона медали: 9 причин, почему тебе не нужно идти в IT
🚩 Кому не подходит работа в IT: 6 красных флагов
🐍📚 ТОП-15 книг по Python для начинающих и опытных разработчиков в 2023 году
🐍 Самоучитель по Python для начинающих. Часть 11: Функции с позиционными и именованными аргументами
Ещё больше итогов года, а также ссылки на «Самоучитель по Python для начинающих» здесь 👈
👍3😁3🥱1