Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
Инсайты с Data елки 🌲
На прошлых выходных ходил на Data елку в VK. В этом году по ощущениям бОльшая часть конфы была про RecSys и LLM: немало интересных докладов и кулуарных разговоров. Вот что мне запомнилось больше всего
1. VK RecSys Challenge: однозначного лидера в моделях RecSys все еще нет
Среди победителей на достаточно большом датасете VK.клипов есть решения на траснформерных нейронках, классических MLP и даже просто бустингах. В общем, успех зависел скорее от того, насколько качественно вы умеете варить мл-алгоритм, чем от самого алгоритма. Ну а на среднего размера датасетах консенсусно рулят EASE + бустинги
2. Foundational models в рекомендациях 💡
Нейросети в рекомендациях все больше идут в сторону Foundational models = единая модель для всех типов действий, которая используется везде (лента перс рекомендаций, поиск, похожие) ипредвидит будущее предсказывает будущие действия пользователей
3. LLM файнтюнят все, но используют активно в проде не только лишь все
Все файнтюнят open-source LLM (в основном llama) на своих данных - внедряют в основном для автоматизации поддержки. Но для подавляющего большинства задач все еще рулят BERT-ы. Кстати, с времен RoBERTa вышло много апгрейдов - почитайте про вышедший месяц назад modernBERT
4. Ставка на LLM-агенты в 2024 году не оправдалась 🥷
Все еще крайне мало успешных внедрений в бизнес. Но посмотрим, что нам сулит 2025 год, уже есть подающие надежды кейсы
В общем, в интересное время живем - продолжаю активно наблюдать за областями RecSys и LLM/NLP, и даже в некоторой степени их трогать)
На прошлых выходных ходил на Data елку в VK. В этом году по ощущениям бОльшая часть конфы была про RecSys и LLM: немало интересных докладов и кулуарных разговоров. Вот что мне запомнилось больше всего
1. VK RecSys Challenge: однозначного лидера в моделях RecSys все еще нет
Среди победителей на достаточно большом датасете VK.клипов есть решения на траснформерных нейронках, классических MLP и даже просто бустингах. В общем, успех зависел скорее от того, насколько качественно вы умеете варить мл-алгоритм, чем от самого алгоритма. Ну а на среднего размера датасетах консенсусно рулят EASE + бустинги
2. Foundational models в рекомендациях 💡
Нейросети в рекомендациях все больше идут в сторону Foundational models = единая модель для всех типов действий, которая используется везде (лента перс рекомендаций, поиск, похожие) и
3. LLM файнтюнят все, но используют активно в проде не только лишь все
Все файнтюнят open-source LLM (в основном llama) на своих данных - внедряют в основном для автоматизации поддержки. Но для подавляющего большинства задач все еще рулят BERT-ы. Кстати, с времен RoBERTa вышло много апгрейдов - почитайте про вышедший месяц назад modernBERT
4. Ставка на LLM-агенты в 2024 году не оправдалась 🥷
Все еще крайне мало успешных внедрений в бизнес. Но посмотрим, что нам сулит 2025 год, уже есть подающие надежды кейсы
В общем, в интересное время живем - продолжаю активно наблюдать за областями RecSys и LLM/NLP, и даже в некоторой степени их трогать)
arXiv.org
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder...
Encoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger decoder-only models. Despite being the workhorse...
Forwarded from Data Blog
🎄 Привет, друзья!
Часто можно столкнуться с ситуацией, когда фреймворк, в котором реализован метод объяснения, просто не "дружит" с реализацией модели.
На днях я решала именно такую проблему — в рамках практики на заводе (🗿) мне нужно было проанализировать стабильность YOLO NAS. Так и появился туториал, в котором я решила разобрать, как использовать CAM (class activation map) для объяснения моделей зрения.
Почему CAM?
Class Activation Maps (CAM) — базовый инструмент для визуализации того, какие области изображения наиболее важны для модели при принятии решения. Он позволяет понять:
1. Какие признаки извлекает модель на разных слоях свертки;
2. Какие зоны изображения вносят вклад в прогноз конкретного класса;
С практической точки зрения:
1. Его почти всегда можно реализовать руками (если у вас есть задача классификации и сверточный слой);
2. Его можно использовать практически в любой задаче классификации с использованием сверточных нейронных сетей.
Прошу к чтению!
1. Туториал на Хабр
2. Туториал на гитхаб (ноутбук файлом)
3. Туториал на английском (коллаб)
P.S. а ещё там милые животные и красивые картинки — можно позапускать и поиграть =)
Всё ещё Ваш,
Дата-автор!
Часто можно столкнуться с ситуацией, когда фреймворк, в котором реализован метод объяснения, просто не "дружит" с реализацией модели.
На днях я решала именно такую проблему — в рамках практики на заводе (🗿) мне нужно было проанализировать стабильность YOLO NAS. Так и появился туториал, в котором я решила разобрать, как использовать CAM (class activation map) для объяснения моделей зрения.
Почему CAM?
Class Activation Maps (CAM) — базовый инструмент для визуализации того, какие области изображения наиболее важны для модели при принятии решения. Он позволяет понять:
1. Какие признаки извлекает модель на разных слоях свертки;
2. Какие зоны изображения вносят вклад в прогноз конкретного класса;
С практической точки зрения:
1. Его почти всегда можно реализовать руками (если у вас есть задача классификации и сверточный слой);
2. Его можно использовать практически в любой задаче классификации с использованием сверточных нейронных сетей.
Прошу к чтению!
1. Туториал на Хабр
2. Туториал на гитхаб (ноутбук файлом)
3. Туториал на английском (коллаб)
Всё ещё Ваш,
Дата-автор!
Хабр
Анализ обработки признаков в YOLO NAS S при помощи CAM
Методы объяснения моделей — практичный инструмент для понимания модели, оценки её точности и стабильности. Однако, часто можно столкнуться с ситуацией, когда фреймворк, в котором метод реализован,...
Forwarded from Сиолошная
Какие материалы у меня есть / чем я могут быть полезен / что посмотреть:
<--ЛЁГКИЕ, НЕТЕХНИЧЕСКИЕ МАТЕРИАЛЫ-->
Текст:
—🔥 Блогпост на хабре про историю развития GPT от Т9 к ChatGPT, написанный для объяснения простым языком (он же на VC, а в клубе Вастрика краткая история рождения статья); ВИДЕОВЕРСИЯ (1M+ просмотров!)
—🔥 Блогпост на хабре про Sora, модель генерации видео (которая на самом деле должна симулировать виртуальные миры, лол)
— Блогпост на хабре про GPT-4 и новую политику "Open"AI по непубликации исследований; ВИДЕОВЕРСИЯ
— Блогпост на хабре про обновление и развитие GPT-4 и обзор OpenAI DevDay 2023;
—🔥 Блогпост на хабре про новую линейку моделей OpenAI, o1. Почему это реально прорыв и смена парадигмы работы с моделями, а не хайп;
— Блокпост Вастрика про опасности AI, и почему не нужно закрывать глаза на (некоторые) тезисы Юдковского. Я помогал в качестве редактора, не основного автора; ВИДЕОВЕРСИЯ
Видео:
— Интервью на канале Karpov.Courses (чтобы лучше понять, кто что где я);
— Подкаст-интервью с Александром Ильиным на тему ChatGPT, AGI, их влияния на нашу жизнь. Последние 20 минут трещим про мою карьеру;
—🔥 Открывающий доклад конференции Global CIO (на английском 🇬🇧), в котором я рассказываю, что такое AI и почему его можно (нужно) начинать использовать сотрудникам уже сегодня, для увеличения персональной эффективности;
—🔥 Доклад с Podlodka Product Crew про текущее состояние LLM / AI-ассистентов, где простым и понятным языком сначала развеиваю 4 мифа, а затем рассказываю про будущее AI.
<--ЛЁГКИЕ, НЕТЕХНИЧЕСКИЕ МАТЕРИАЛЫ-->
Текст:
—
—
— Блогпост на хабре про GPT-4 и новую политику "Open"AI по непубликации исследований; ВИДЕОВЕРСИЯ
— Блогпост на хабре про обновление и развитие GPT-4 и обзор OpenAI DevDay 2023;
—
— Блокпост Вастрика про опасности AI, и почему не нужно закрывать глаза на (некоторые) тезисы Юдковского. Я помогал в качестве редактора, не основного автора; ВИДЕОВЕРСИЯ
Видео:
— Интервью на канале Karpov.Courses (чтобы лучше понять, кто что где я);
— Подкаст-интервью с Александром Ильиным на тему ChatGPT, AGI, их влияния на нашу жизнь. Последние 20 минут трещим про мою карьеру;
—
—
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
_________________________________________________________________________
<--СРЕДНЯЯ СЛОЖНОСТЬ, ПОПУЛЯРНО ПРО ТЕХНОЛОГИИ-->
Текст:
— Бесплатный курс по базовому Python (очень простым и понятным языком, специально для быстрого старта);
—🔥 Блогпост на хабре про WebGPT (модель с подключением к браузеру) как способ решения проблем ChatGPT;
—🔥 Блогпост на хабре с разбором статьи DeepMind, в которой заявляется, что LLM впервые совершила научное открытие;
— Блогпост на хабре с объяснением основ интерпретируемости нейросетей (применительно к LLM) и разбором трёх методов;
Видео:
—🔥 Лекция «What's next for OpenAI?», в которой рассказываю про дальнейший рисерч OpenAI и 8 потенциальных направлений исследований;
—🔥 Лекция (обзорная) для ИТМО про то, как работают LLM, как они подключаются к реальному миру и могут на него влиять, и описывающая наше ближайшее будущее и самые интересные направления работы;
— Видео-подкаст с Алексеем Хахуновым про устройство плагинов для ChatGPT, в котором на пальцах разберем, как работает интеграция с поиском Bing;
— Видео-подкаст на Рабкоре с Кали Новской про опасности ИИ, политику и многое другое;
— Рассказ моей команды в AliExpress о том, как у нас работает матчинг в проде: блог с первой частью рассказа, полное видео с митапа (приглашенные спикеры из Яндекса и Озона, см. таймкоды);
<--СРЕДНЯЯ СЛОЖНОСТЬ, ПОПУЛЯРНО ПРО ТЕХНОЛОГИИ-->
Текст:
— Бесплатный курс по базовому Python (очень простым и понятным языком, специально для быстрого старта);
—
—
— Блогпост на хабре с объяснением основ интерпретируемости нейросетей (применительно к LLM) и разбором трёх методов;
Видео:
—
—
— Видео-подкаст с Алексеем Хахуновым про устройство плагинов для ChatGPT, в котором на пальцах разберем, как работает интеграция с поиском Bing;
— Видео-подкаст на Рабкоре с Кали Новской про опасности ИИ, политику и многое другое;
— Рассказ моей команды в AliExpress о том, как у нас работает матчинг в проде: блог с первой частью рассказа, полное видео с митапа (приглашенные спикеры из Яндекса и Озона, см. таймкоды);
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
_________________________________________________________________________
<--ВЫСОКАЯ СЛОЖНОСТЬ, ТЕХНИЧЕСКИЕ ДЕТАЛИ И РАЗБОРЫ-->
Текст:
— гайд по промптингу LLM для генерации синтетических данных: Generating Synthetic Dataset for RAG и Tackling Generated Datasets Diversity
Видео:
—🔥 Детальнейшая видео-лекция про устройство трансформера, со всеми нюансами;
—🔥 (плейлист на YouTube) 10+ часовой мини-курс по NLP «Полная история семейства GPT»;
—🔥 Лекция «RLHF Intro: from Zero to Aligned Intelligent Systems» в рамках DataFest 2023 (была признана лучей лекцией ODS в 2023);
— Мини-серия комментариев к ML System Design Interviews, с Валерой Бабушкиным: (1) выбор рекламы к показу в ленте соцсети, (2) ценообразование на маркетплейсе, (3) матчинг товаров в онлайн-магазине;
— Лекция по деревьям решений, методам ансамблирования и (ГЛАВНОЕ) градиентным бустингам;
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2;
— Вебинар по неградиентным методам оптимизации, с большим количеством практики;
<--ВЫСОКАЯ СЛОЖНОСТЬ, ТЕХНИЧЕСКИЕ ДЕТАЛИ И РАЗБОРЫ-->
Текст:
— гайд по промптингу LLM для генерации синтетических данных: Generating Synthetic Dataset for RAG и Tackling Generated Datasets Diversity
Видео:
—
—
—
— Мини-серия комментариев к ML System Design Interviews, с Валерой Бабушкиным: (1) выбор рекламы к показу в ленте соцсети, (2) ценообразование на маркетплейсе, (3) матчинг товаров в онлайн-магазине;
— Лекция по деревьям решений, методам ансамблирования и (ГЛАВНОЕ) градиентным бустингам;
— Лекция про языковые модели, основанные на принципе поиска ближайших соседей: часть 1, часть 2;
— Вебинар по неградиентным методам оптимизации, с большим количеством практики;
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Базы данных & SQL
Хабр
Руководство по построению коннекторов к СУБД на примере Tarantool
В сложных ИТ-системах важны не только основные модули, но и механизмы их взаимодействия — коннекторы (они же драйверы). Например, без них сложно выстроить связь приложения с базой данных. Но закрыть...
Forwarded from Kogut Ivan Tutoring
This media is not supported in your browser
VIEW IN TELEGRAM
Рюкзак
#АлгоЕжемесячныеТемы
1️⃣ 1️⃣
Предисловие + теория: TODO
По мотивам задачи C со 2 тура региона 2025 года...
Это классическая задача и алгоритм, который рассказывают почти сразу же после базовых задач на динамическое программирование и я уверен, что многие знают как его писать. НО! У него много разных вариаций и можно еще кучу похожих придумать. Поэтому, как и во всех других темах, нужно не заучить алгоритм, а осознать детально его принцип действия. Иначе случится задача C со 2 тура региона
Пререквизиты:
🔙 Базовые задачи ДП
🔙 Базовые задачи на двумерное ДП
Еще теория + первые задачи:
📚 Материал от Яндекс Кружка - кратко формулировки и решение 4 разновидностей рюкзака с кодом на C++
📼 Лекция Паши Маврина - до 28 минуты стандарт, а дальше как при мелком n решать (перебор и MITM)
💻 Задача с информатикса 1 - 0-1 рюкзак: точный вес
💻 Задача с информатикса 2 - 0-1 рюкзак: наибольший вес
💻 Задача с информатикса 3 - 0-1 рюкзак: минимум предметов
💻 Задача с информатикса 4 - рюкзак
💻 Задача с информатикса 5 - рюкзак с восстановлением ответа
KIT контест по теме с периодически пополняемыми задачами:
🔄 Контест - сейчас там пока 3 задачи, но будут еще. Для решения нужно вступить в группу на кф - ссылка
Вопросы на понимание темы:
❓ Задача: есть 2n игроков, у каждого свой скилл ai. Нужно разделить их на две команды равные по суммарному скиллу, но не обязательно равные по количеству игроков. Как решать?
❗️ Если сумма всех ai не делится на 2, то такого разделения точно нет. Иначе скилл каждой из команд = sum(ai) / 2. То есть, если соберем команду с таким суммарным скиллом, то вторая команда автоматически будет с таким же скиллом. А сборка одной команды это задача о рюкзаке 0-1: точный вес (в данном случае, скилл)
❓ Та же самая задача, что и сверху, но теперь команды должны быть равны еще и по количеству игроков. Как решать?
❗️ В добавку к прошлому решению в команде должно быть n игроков. Давайте в ДП добавим еще одно измерение: dp[i][w][k] - можем брать игроков с 0 по i, нужно набрать суммарно w скилла и уже k игроков взято. Тем самым, асимптотика O(n^2W)
Делитесь с друзьями, задачи будут интересны любому уровню!
💬 Следующие темы смело предлагайте в комментариях. Также, делитесь интересными задачами и материалами по этой теме, тут их точно еще полно)
#АлгоЕжемесячныеТемы
Предисловие + теория: TODO
По мотивам задачи C со 2 тура региона 2025 года...
Это классическая задача и алгоритм, который рассказывают почти сразу же после базовых задач на динамическое программирование и я уверен, что многие знают как его писать. НО! У него много разных вариаций и можно еще кучу похожих придумать. Поэтому, как и во всех других темах, нужно не заучить алгоритм, а осознать детально его принцип действия. Иначе случится задача C со 2 тура региона
Пререквизиты:
🔙 Базовые задачи ДП
🔙 Базовые задачи на двумерное ДП
Еще теория + первые задачи:
📚 Материал от Яндекс Кружка - кратко формулировки и решение 4 разновидностей рюкзака с кодом на C++
📼 Лекция Паши Маврина - до 28 минуты стандарт, а дальше как при мелком n решать (перебор и MITM)
💻 Задача с информатикса 1 - 0-1 рюкзак: точный вес
💻 Задача с информатикса 2 - 0-1 рюкзак: наибольший вес
💻 Задача с информатикса 3 - 0-1 рюкзак: минимум предметов
💻 Задача с информатикса 4 - рюкзак
💻 Задача с информатикса 5 - рюкзак с восстановлением ответа
KIT контест по теме с периодически пополняемыми задачами:
Вопросы на понимание темы:
Делитесь с друзьями, задачи будут интересны любому уровню!
💬 Следующие темы смело предлагайте в комментариях. Также, делитесь интересными задачами и материалами по этой теме, тут их точно еще полно)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Advertising
Продолжаем тему LLM. Сегодня речь пойдет про Mistral
Для справки, Mistral - это французский стартап серии B, разрабатывающий LLM. Поднял в 2024 году $640M. Релизят предобученные и затюненные модели и часть из них с открытыми весами. Также предоставляют бесплатный доступ к своим моделям по API.
Запустим из коробки бесплатную модельку Mistral NeMo (12B параметров и контекстное окно на 128k токенов). Не забываем получить API-key на сайте мистраля.
Лимиты такие:
- 1 запрос в секунду
- 500 000 токенов в минуту
- 1 миллиард токенов в месяц
Полный список моделей можно найти по ссылке
#llm
Для справки, Mistral - это французский стартап серии B, разрабатывающий LLM. Поднял в 2024 году $640M. Релизят предобученные и затюненные модели и часть из них с открытыми весами. Также предоставляют бесплатный доступ к своим моделям по API.
Запустим из коробки бесплатную модельку Mistral NeMo (12B параметров и контекстное окно на 128k токенов). Не забываем получить API-key на сайте мистраля.
#!pip install mistralai -q
from mistralai import Mistral
#free
#model_id = "pixtral-12b-2409"
#model_id = "open-codestral-mamba"
model_id = 'open-mistral-nemo'
api_key = 'XXX'
client = Mistral(api_key=api_key)
chat_response = client.chat.complete(
model= model_id,
messages = [{
"role": "user",
"content": "Ответ на Главный вопрос жизни, вселенной и вообще - 42. Докажи это через цепочку рассуждений."
}]
)
resp = chat_response.choices[0].message.content
print(resp)
Лимиты такие:
- 1 запрос в секунду
- 500 000 токенов в минуту
- 1 миллиард токенов в месяц
Полный список моделей можно найти по ссылке
#llm
mistral.ai
Frontier AI LLMs, assistants, agents, services | Mistral AI
The most powerful AI platform for enterprises. Customize, fine-tune, and deploy AI assistants, autonomous agents, and multimodal AI with open models.
Forwarded from grokaem себя
Моя жизнь за последние пару месяцев стала более занятой, менее нервозной и менее продуктивной на посты. Одна из штук, которыми я занималась и занимаюсь - это F5TTS для русского.
Так как париться с красивыми постами (а они когда-то были?) мне не хочется, будут посты более расслабленные и легкие. Вот давайте послушаем новые примеры с нового подхода, который я поставила.
В этот раз это смесь russian и english (total 268h) так как заметила сильный forgetting для английского при обучении чисто на русском.
До этого были эксперименты с IPA и ударениями. Сейчас русский стоит только с ударениями от ruaccent, ударения с пометкой на +. Хочется рассказать о том, как работает расширение, что не так с длинными записями и как сделать condition на source lang != target lang. А также про то, как я собственно проверяю модели, выбираю данные и колдую над генерацией без изменения моделей.
#grokaem_audio
Так как париться с красивыми постами (а они когда-то были?) мне не хочется, будут посты более расслабленные и легкие. Вот давайте послушаем новые примеры с нового подхода, который я поставила.
В этот раз это смесь russian и english (total 268h) так как заметила сильный forgetting для английского при обучении чисто на русском.
До этого были эксперименты с IPA и ударениями. Сейчас русский стоит только с ударениями от ruaccent, ударения с пометкой на +. Хочется рассказать о том, как работает расширение, что не так с длинными записями и как сделать condition на source lang != target lang. А также про то, как я собственно проверяю модели, выбираю данные и колдую над генерацией без изменения моделей.
#grokaem_audio
Forwarded from grokaem себя
Так как я за открытый research, прикладываю source записи, чтобы вы также могли их юзать 🦕
Forwarded from grokaem себя