Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Get Rejected
Кстати хотел всем порекомендовать курс по дегустации вина на ресурсе Coursera:
Wine Tasting: Sensory Techniques for Wine Analysis

Я уже его прошел достаточно давно в 2020 году и благодаря ему я начал получать офферы.
Перед началом курса нужно хорошо подготовиться и закупить необходимые материалы для урока.

Курс достаточно хороший. Добрый дядька на фоне злаковых полей рассказывает как вкушать сыр с вином.
Как чувствовать аромат, как различать вино и так далее.
🎙 Выступления аналитиков

Отобрал 4 конференции, на которых аналитики делятся опытом решения боевых задая.

Чтобы вам не копаться в архивах youtube, собрал все выступления в отдельные плейлисты.

- Avito analytics meetup
Авито выпустили уже 13 эпизодов, в каждом из которых по 3 выступления на полчаса с секцией вопросов.

- Матемаркетинг
Наверное самая популярная оффлайн конференция по аналитике на русскоязычном пространстве.

- Kolesa conf data
Казахская IT-компания, которая устраивает IT-конференции с 2018 года.

- Product analytics, код желтый
Выступления аналитиков Т-банка и приглашенных гостей

Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
Уничтожение Self-Attention

Self-Attention или механизм внимания - это такой механизм, который используется сейчас во всех современный LLMках. До него многие задачи решались с помощью рекуррентных нейросетей (RNN), но они обладали некоторыми недостатками:
- сложность в учёте длинных последовательностей
- проблема взрыва/затухание градиентов
- нельзя параллелить вычисления
- сложная в интерпретации

Как итог гугл выкладывает статью Attention Is All You Need. В ней гугл показывает концепцию, которая может решить данные недостатки 💥

Как устроен Self-Attention 💪
1️⃣ Векторизация и создание матриц Query, Key, Value.
На вход подаётся векторные представления слов (зелёные матрицы с 1 картинки). Каждая "строка" в этой матрице - это векторное представление слова. Входящие матрица умножаются на матрицы весов Key, Query, Values. После умножение уже получается матрицы Query, Key, Values (розовая, оранжевая и голубая матрица справа на первой картинке).

2️⃣ Подсчёт значимости между токенами
Умножается матрица Query на транспонированную матрицу Key (Q*K.T). Мы получаем промежуточную матрицу, отражающую значимость токенов друг для друга.

3️⃣ Нормировка
Для нормировки матрицы Q*K.T, матрица делится на корень из значения размерности векторов модели (например, на sqrt(512) для модели с размерностью 512). Нам нужно делить, так как при умножении Q на K.T у нас увеличивается дисперсия на sqrt(размерность).

4️⃣ Применение softmax для вычисления внимания
Потом применяется функция softmax для, чтобы нормализовать значения и получить attention-матрицу. На картинке 3 предложение "Life is short eat desert first", допусти каждое слово - это токен. Проделав шаги 1 - 4 у нас получится примерно такая attention-матрица, как на картинке 3, где каждый с каждым токеном имеет свою оценку "внимания" между собой. Если скор большой, то эти токены как-то связаны между собой, возможно они вместе образуют какую-то общую информацию.

5️⃣ Маскирование (при необходимости)
Зависит от задачи (например обучение генеративной модели), но на attention-матрицу может наложиться маска, например как на картинке 4

6️⃣ Получение итоговых значений
attention-матрица
умножается на матрицу Values по итогу получается матрица, которая идёт в последующие слои.

Почему выбор сделан на self-attention или его преимущества, которые вас обязательно спросят на собесе 💪
1️⃣ Self-Attention может учитывать зависимость между дальними токенами, так как скоры между токенами считаются непосредственно друг с другом
2️⃣ С помощью Multi-Head-Attention достигается параллельный расчёт, что позволяет вычислять всё более большой объём данных.
3️⃣ Self-Attention легче интерпретировать в отличие от RNN

Это была краткая сводка материала, чтобы понять концепцию Self-Attention и рассказать на собесе. Если вы хотите больше узнать более подробно про Self-Attention, то прошу к прочтению 😊
- Всем смотреть базу от Котенкова, здесь мы с ручкой и листком переписываем архитектуру, чтобы в полной мере понимать, как она работает
- Трансформеры в картинках - эту статью прочитать в качестве закрепления материала от Котенкова
- Transformers Explained Visually (Part 3): Multi-head Attention, deep dive
- Attention Networks: A simple way to understand Self-Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Основные стадии обучения LLM 😡

Если вас спросят на собеседовании "Какие есть стадии обучения ЛЛМ, если ты хочешь получать много деняк, то обязательно расскажи!", то почитай этот пост, чтобы знать как именно нужно отвечать.

Есть следующие стадии обучения LLM:
1️⃣ Pretrain
Мы пихаем в модель весь интернет и учим её предсказывать следующее слово. Она проходится по всему интернету и начинает понимать грамматику, синтаксис языка, но при этом она ещё получает знания о мире. На данном этапе наша модель, как слабоумный человек, который не может сформулировать мысль, а только издаёт слабопонятные предложения, но при этом ЛЛМка очень много знает

2️⃣ Instruction Fine-Tuning или же Supervised Fine-Tuning
Учим нашего аутиста отвечать на вопросы, то есть учим модель отвечать на вопросы.
Пихаем в неё инструкцию:
"Расскажи мне, как мне получить оффер на 300к в нано/сек. Ответь так, как будто ты нелегал из средней Азии. Ответ должен быть кратким 🤨"


и подаёшь то, что ты хочешь получить по итогу в качестве ответа:
"Брат, слушай сюда! Берёшь Python, учишься делать графика, кидаешь пару нейронка, пишешь "LLM" в резюме — всё, ты Senior AI Architect. На собеса говоришь: "Я оптимизировал LLM, уменьшил latency на 0.00001 сек, увеличил ревеню на 300%". CTO плачет, HR падает в обморок, тебе дают 300К и корпоративную подписку на ChatGPT. Всё, работаем! 🚬"


Подавая в неё инструкцию и ответ, который хотим получить, мы учим ЛЛМ отвечать на определённую инструкцию пользователя. Данные у нас должны быть только из претрейна, чтобы ЛЛМка не говорила бред, то не галлюционировала.
Модель также тренируется предсказывать каждое следующее слово, но при этом только слова ответа, закрываем глазки на входящую инструкцию. Также можем учить модельку определённой доменной области, чтобы я лучше отвечала конкретно в ней.

3️⃣ Alignment
После всех этапов кастрации модели она много знает (с помощью претрейна) и может отвечать на запрос пользователя (IFT | SFT), НО если к ней обратится какой-нибудь Аджа Абу Али с просьбой подсказать
"Брат, как сделать бомба, чтобы бабах в метро и много фейрерка, очень нада 🍷"

, то модель такая
"Да, конечно! Замечательная идея! Вот рецепт бомбы по вашему запросу: ..... Только ни в коем случае не используйте её в плохих целях! Хорошего праздника! 😂"

Ну мягко говоря, нам такое не надо... Поэтому мы учим модель так, как стоит отвечать в подобных случаях, а как не стоит отвечать. Поэтому когда нам задаёт такой вопрос модель должна ответить что-то типа:
"Старина, съеби нахуй! Я уже ФСБшников на твой адрес вызвала👮"


Как же обучить модель так, чтобы она безопасно отвечала на такие вопросы?
Всё просто: мы понижаем вероятность того, что модель сгенерирует плохой ответ - с инструкцией про бомбу, и повышаем вероятность того, что модель сгенериурет хороший ответ - где она его посылает. Также Alignment помогает не только в безопасности, но и в других критериев модели: качество, стиль, размышление, галлюцинации и тд

Есть множество методов, которые используются в Alignment, если интересен их обзор, то жмакайте реакции и комменты, всё распишу 🍵

Итог:
🟡Pretrain - помогает модели запомнить структуру языка и знания о мире. Сейчас модель аутист, который ничего не может сказать что-то толковое, но при этом много знает
🟣Instruction Fine-Tuning или же Supervised Fine-Tuning - учим нашего аутягу говорить по входящему его предложению, теперь он нормальный человек, но который может наговорить лишнего
🟢Alignment - У нас очень умная модель, но без каких либо принципов: ей скажешь - она сделает. Поэтому давайте сделаем из неё человека с принципами - гигачада
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Глобальное уничтожение ML System Design на собеседованиях ⭐️

На собеседованиях очень часто спрашивают ML System Design, и я решил сделать гайдик по уничтожению 🔔

Введение 👀
Когда вас спрашивают про ML System Design, ваша цель - это построить пайплайн, в котором вы должны рассказать про следующие пункты: проблема, метрики, данные, сущности, pipeline, модель, deploy, a/b тесты.
Вы должны построить систему на костылях, которую вы будуте улучшать каждую итерацию, то есть построили гавно из всех пунктов, превратили это гавно в павозку с костылями, пройдя по всем пунктам заново, закрывая все дыры и так далее... 🔝

Пункты: 🔥

1️⃣ Сформулировать проблему
Очень важно изначально понять и сформулировать задачу для себя, чтобы понимать куда и зачем идти

- Поставить бизнес задачу - тут самое главное - это понять, что от вас требуют. Задавайте вопрос: "правильно ли я понял, что..."
- Обговорить ограничения - в кейсе, который вас просят задизайнить могут быть ограничения на память, на ресурсы и тд

2️⃣ Метрики
Нужно дизайнить с метрик, так как вы должны понимать к чему вы идёте, и вы должны уметь как-то сравнивать модели в последующих апдейтах

- Бизнес метрики - одно из самых важных, на что будет ориентироваться бизнес
- Online метрики - это те метрики, которые будут измеряться во время A/B теста, чтобы понять хуже/лучше модель
- Offline метрики - метрики, которая проверяются на train/test во время обучения модели

3️⃣ Данные
Знаем метрики, теперь нужно разобрать какие данные у нас есть для последующего обучения моделей

- Сущности - Нужно определить какие у нас сущности: пользователь, карточка товара....
- Характеристики сущностей - У каждой сущности есть свои характеристики. Для пользователя это - фио, пол, возраст и тд, для карточки товара - это цена, описание, бренд...
- Сбор Данных - Как мы будем собирать данные: cпарсим, копирайтеры, возьмём из БД

4️⃣ Pipeline
- Как работает сервис
- Необходимо описать как сервис будет работать в целом: какие есть блоки, как они взаимодействуют между собой, что и как друг другу передаёт.

5️⃣ Модель
Нужно лучше начать с бейзлайна - с самой просто задачи.
Если у вас задача рекомендации, то для начала стоит просто сказать: "пусть бейзлайном будет выдача самих лучших товаров по рейтингу, чуть позже улучшим модель, опираясь на online и offline метрики". Помни, твоя задача всего интервью- построить полностью готовый пайплайн решения.

После того как вы закрыли данные пункты, то улучшайте бейзлайн, рассказывая про это:
- Задача - классификация, ранжирование, регрессия
- Loss - для каждой задачи свой лосс
- X/y - необходимо написать на каких данных вы обучаетесь
- Train/Test Split - Как вы разбиваете данные для обучениия: на чём тренируетесь, на чём валидируетесь
- Фичи и их сбор - Как вы собираете данные, и как вы преобразовывайте данные

6️⃣ Deploy
Как вы будете деплоить, лично я обычно говорю про данные пункты, упоминая технологии.

- Пайплайн хранения данных и транспорт даты - Amazon S3, MySQL, FEAST, HDFS, Kafka
- Пайплайн создания фичей - Apache Spark
- Пайплайн дообучения модели - Airflow
- Пайплайн мониторинга - ML Flow
- Архитектуры: микросервис - Docker, K8s

7️⃣ A/B Test
A/B тест - это та вещь, на которую вы будете смотреть, чтобы понять, как изменяется модель в "реальном мире", а не в ноутбуке.

- На какую метрику смотрим в тесте - обычно это онлайн метрика: CVR, CTR, Retention
- Контрольная тестовая группа - как будем делить A выборку и B выборку, обычно я говорю "A (старая модель) - 70% выборки, B (новая модель)- 30% выборки. Главное, чтобы и в А, и в В выборке количество данных было таковым, чтобы была статистическая значимость A/B теста."
- Сколько наблюдений - "Главное, чтобы и в А, и в В выборке количество данных было таковым, чтобы была статистическая значимость A/B теста."

Материалы (Очень рекомендую к просмотру)
💥
ML System Design:
Выпуск 1, Выпуск 2, Выпуск 3

‼️ Если вы хотите заботать мл систем дизайн или получить оффер в вашу любимую компанию, то обращайтесь ко мне, я стал ментром. Обратившись ко мне, вы можете сэкономить кучуууу своего времени ‼️
Please open Telegram to view this post
VIEW IN TELEGRAM
Извините! Я почему вредный был? Потому что у меня cloudpathlib не было! А теперь я сразу добреть начну. И какую-нибудь папку на s3 заведу. Чтоб жить веселее. Ты домой приходишь, и удобно файлы на s3 кладешь… Э-эх!


Вечно спотыкался об интерфейс boto3. Как-то там не по-питоновски всё. А я pathlib.Path люблю.

Вот и попробовал cloudpathlib, который дает интерфейс Path для s3 (а также gs и azure). Понравилось. Теперь и Вам советую

Еще он хорошо комбинируется с тредингом, если надо много файликов загрузить или скачать. Сильно бодрее в моем случае грузил

#tool
Forwarded from Reliable ML
Reasoning vs. Instruct (GPT) models
Перевод: о различиях в применении Reasoning и GPT моделей

Решили сделать краткий перевод недавней статьи от Open.AI про различия в применении reasoning (o-series) и GPT-моделей. Тема горячая, иметь идеи на эту тему в понятном виде под рукой кажется полезным. Если текст наберет много лайков, будем и дальше публиковать подобные посты с тегом "перевод" - на актуальные темы.

Ключевые различия Instruct (GPT) vs. Reasoning LLM

Reasoning (в случае Open.AI - o-series) и привычные нам чат-модели или instruct-модели (в случае Open.AI - GPT) решают разные задачи и требуют разных подходов.

- Reasoning-модели - планировщики. Созданы для сложных задач, требующих глубокого анализа, стратегического планирования и работы с большими объемами неоднозначной информации. Они медленнее, но точнее Instruct LLM. Идеальны для областей, где важны точность и надежность: математика, наука, инженерия, финансы, юриспруденция.

- GPT-модели (и другие instruct-модели) - рабочие лошадки. Оптимизированы для быстрого выполнения четко определенных задач и подходят для случаев, где важны скорость и низкая стоимость. Меньше подходят для сложных, многошаговых задач.

Успешные кейсы использования Reasoning-моделей (на примере o-series)

- Работа с неоднозначными задачами. Модели задают уточняющие вопросы и обрабатывают сложные документы. Hebbia использует o1 для анализа сложных платежных ограничений в кредитных соглашениях.

- Поиск иголки в стоге сена. Модели находят важные детали в огромных объемах неструктурированной информации. Endex использовал o1 значимой информации в документах компании (контракты, договоры аренды, и проч.), которая может повлиять на сделку о ее покупке. Модель выявила важное положение о «смене контроля» в сносках: если бы компания была продана, ей пришлось бы выплатить кредит в размере $75 млн.

- Выявление взаимосвязей и выводов из сложносоставных данных. Модели находят связи между документами и делают выводы на основе контекста. Blue J улучшила производительность в 4 раза, используя o1 для налоговых исследований, когда нужно было прийти к логическим выводам, которые не были очевидны ни в одном отдельном документе. BlueFlame AI применила o1 для анализа влияния фандрайзинга на существующих акционеров - получив в итоге корректную расчетную таблицу на основе множества документов, на создание которых у финаналитиков ушло бы существенно больше времени.

- Многошаговое планирование. O-series выступает как «планировщик», разбивая задачи на шаги и делегируя их GPT для выполнения. Lindy.AI использует o1 для автоматизации рабочих процессов. Модель забирает информацию из календаря или эл. почты, а затем автоматически помогает пользователю планировать встречи, отправлять e-mail-ы, и др. Декомпозиция и планирование задач были полностью переключены на o1.

- Визуальный анализ. O1 лучше GPT-4o справляется с интерпретацией сложных изображений (графики, чертежи). SafetyKit достигла 88% точности в классификации изображений с помощью o1 - в задаче проверки комплаенс-рисков для миллионов товаров в Интернете, включая подделки ювелирных изделий класса люкс, исчезающие виды и контролируемые вещества.

- Рецензирование и улучшение кода. Модели эффективно анализируют код, находя ошибки, которые могут пропустить люди. CodeRabbit увеличил конверсию в 3 раза, перейдя на o-series для ревью кода - во многом за счет того, что o1 способен обнаруживать ошибки и несоответствия между множеством файлов в репозитории. Кроме того, o1 на голову выше GPT при помощи разработчикам в проектировании сложных систем.

- Оценка и бенчмаркинг. O-series используется для проверки качества ответов других моделей. Braintrust улучшила F1-оценку с 0.12 до 0.74, используя o1 для оценки ответов GPT-4o.

Для нас будет очень ценно, если в комментах вы напишете, насколько такой пост полезен.

Ваш @Reliable ML

#tech #business #перевод #reliable_ml #llm
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
😚Что такое kaggle и с чем его едят?)

Поскольку много новых людей в канале📈, хочется рассказать о том, чем я периодически живу и почему уйти в хакатоны на 2-3 месяца выглядит нормальным🤑.

🤓Kaggle - это платформа для проведения хакатонов и обучения, с огромным количеством ноутбуков и датасетов, а также огромным комьюнити. Причём каждый на этой платформе может найти свое место относительно уровня подготовки, так как здесь есть огромное множество курсов(все на английском, так что еще и язык прокачаете) и большое количество ноутбуков других людей для постоянного развития своих навыков🍀. И так давайте рассмотрим небольшой roadmap для вхождения на kaggle с максимальной отдачей для вас.

1️⃣Понимание основных библиотек
Чтобы там не было, но без pandas и numpy никуда, так что предлагаю парочку курсов на stepik.
Курс по pandas
Курс по numpy
Что в первом курсе, что во втором, не советую проходить полностью, скорее просто пролистать и поделать задания
Курс kaggle по Pandas

Также было бы славно иметь минимальное понимание по теорверу и матстату, от себя могу посоветовать книжку "Статистика и котики"💪🥺

2️⃣Курсы на kaggle для понимания как работает платформа
1. Intro to Machine Learning
2. Intermediate Machine Learning

3️⃣Далее, когда у вас уже есть некоторое понимание, что такое машинное обучение (если все еще что-то непонятно, то купите эту книжку), самое время переходить к практике. Для этого я всем советую курс Алерона(тимлид Додо и вообще классный чувак) под названием "Введение в соревновательный Data Science"🐱. Куча практики, множество ноутбуков, классные гости и неплохое объяснение материала. Также вы в подарок получаете классное комьюнити и возможность найти команду)))😇

4️⃣Теперь вы прокаченные слоны и дальше у вас есть 2 пути. Первое, это понять машинное обучение более фундаментально, понемногу заходить в глубокое обучение. Для этого можно прочитать хендбук по мл от яндекса или пройти курс по мл от вышки. В любом случае, вам придётся это делать перед собеседованиями и если у вас уже есть какие то пет проекты, то все можно пройти вообще месяца за 4⭐️

Или второй путь, который подойдёт тем, кто пока что хочет учиться, а не работать по 40 часов в неделю-это хакатоны на kaggle с призами💲. Они там на любой вкус и на все тематики. Как самый первый хакатон можно будет взять обучающий, которых на kaggle множество👽)

💗В общем, пишите в комментарии, как вам пост, и что бы вы ещё хотели увидеть в этом канале?)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
#ХабрНедели💪

В данной подборке будут включены лучшие статьи недели на хабре для нашего профиля(ml и python). Пишите также какие статьи вы еще читали на этой неделе💗

Машинное обучение:
1. Архитектура RAG: полный гайд
2. Архитектура RAG: часть вторая — Advanced RAG
3. Подготовка текста к машинному переводу на разные языки
4. Как мы собираем данные для обучения Kandinsky
5. Учим нейронную сеть генерировать текст

Повестка дня и полезные статьи:
1. Блокировка Docker Hub для России. Без паники разбираемся как работать дальше

Просто интересно почитать:
1. Метаверс ВТБ: как мы развиваем собственную платформу коммуникаций будущего
2. «Он среди нас»: синдром самозванца как один из самых распространенных недугов у айтишников
3. История подростка, взломавшего Twitter и укравшего миллионы
4. Матричный шрифт с анимацией на микроконтроллере

И поставьте реакцию, если дочитали до конца🤑
Please open Telegram to view this post
VIEW IN TELEGRAM