Forwarded from DeepSchool
Детекторы текста на основе трансформеров. Часть 2
Сегодня мы продолжим знакомство с детекторами текста на базе трансформеров.
Такие детекторы совмещают возможности сегментационных и регрессионных моделей, что позволяет повысить точность детектирования при сохранении высокой скорости работы. Однако каждый подход имеет свои недостатки: сегментационные сети обеспечивают высокую точность при сложных формах текста, но их скорости недостаточно, тогда как регрессионные модели быстры, но менее точны для сложных случаев. SRFormer — пример современной архитектуры, которая стремится объединить сильные стороны двух методов.
Также в статье мы рассмотрим MixNet, лидирующий на ключевых бенчмарках за счёт своей уникальной архитектуры. Его бэкбон FSNet перемешивает признаки высокого и низкого разрешения. Это помогает надёжнее детектировать мелкие объекты. Кроме того, трансформерный блок (CTBlock) улучшает выделение текстов, расположенных близко друг к другу, с помощью прогнозирования центральной линии текста.
Читайте новую статью по ссылке, чтобы познакомиться ближе с данными детекторами текста на базе трансформеров: https://deepschool-pro.notion.site/2-e3a3419463b94ae0a81545109799ecde?pvs=4
Сегодня мы продолжим знакомство с детекторами текста на базе трансформеров.
Такие детекторы совмещают возможности сегментационных и регрессионных моделей, что позволяет повысить точность детектирования при сохранении высокой скорости работы. Однако каждый подход имеет свои недостатки: сегментационные сети обеспечивают высокую точность при сложных формах текста, но их скорости недостаточно, тогда как регрессионные модели быстры, но менее точны для сложных случаев. SRFormer — пример современной архитектуры, которая стремится объединить сильные стороны двух методов.
Также в статье мы рассмотрим MixNet, лидирующий на ключевых бенчмарках за счёт своей уникальной архитектуры. Его бэкбон FSNet перемешивает признаки высокого и низкого разрешения. Это помогает надёжнее детектировать мелкие объекты. Кроме того, трансформерный блок (CTBlock) улучшает выделение текстов, расположенных близко друг к другу, с помощью прогнозирования центральной линии текста.
Читайте новую статью по ссылке, чтобы познакомиться ближе с данными детекторами текста на базе трансформеров: https://deepschool-pro.notion.site/2-e3a3419463b94ae0a81545109799ecde?pvs=4
deepschool-pro on Notion
Детекторы текста на основе трансформеров. Часть 2 | Notion
Автор: Булат Бадамшин
Forwarded from Art, Design & AI (Lena Starkova)
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 Идеальный голос с Hailuo Audio HD
Hailuo (MiniMax) бомбит обновлениями! На прошлой неделе мы увидели прорыв в видео S2V-01, а сегодня они представили T2A-01-HD - новый шаг в эволюции синтеза речи. Эта модель открывает новые горизонты в текст-озвучке text-to-audio.
Что делает T2A-01-HD?
• Безграничная настройка голосов:
Клонируйте голос всего за 10 секунд аудиозаписи, сохраняя все нюансы и эмоции.
Откройте библиотеку из 300+ готовых голосов: по языку, полу, акценту, возрасту и стилю.
Настраивайте высоту, скорость и эмоциональный тон для динамичных результатов.
Добавляйте профессиональные эффекты (акустика помещения, фильтры телефона) для студийного качества.
• Интеллектуальная система эмоций:
Делайте речь "живой" с первой в отрасли системой анализа и передачи эмоций.
Используйте автоматическое определение эмоций или ручное управление для максимальной выразительности.
• Аутентичная работа с языками:
Свободное владение 17+ языками, включая акценты с региональными особенностями.
! Поддерживает русский.
🎧 Попробуйте: hailuo.ai/audio
🔗 API-платформа: intl.minimaxi.com
Арт, дизайн и нейросети
@art_design_ai / #Hailuo@art_design_ai
Hailuo (MiniMax) бомбит обновлениями! На прошлой неделе мы увидели прорыв в видео S2V-01, а сегодня они представили T2A-01-HD - новый шаг в эволюции синтеза речи. Эта модель открывает новые горизонты в текст-озвучке text-to-audio.
Что делает T2A-01-HD?
• Безграничная настройка голосов:
Клонируйте голос всего за 10 секунд аудиозаписи, сохраняя все нюансы и эмоции.
Откройте библиотеку из 300+ готовых голосов: по языку, полу, акценту, возрасту и стилю.
Настраивайте высоту, скорость и эмоциональный тон для динамичных результатов.
Добавляйте профессиональные эффекты (акустика помещения, фильтры телефона) для студийного качества.
• Интеллектуальная система эмоций:
Делайте речь "живой" с первой в отрасли системой анализа и передачи эмоций.
Используйте автоматическое определение эмоций или ручное управление для максимальной выразительности.
• Аутентичная работа с языками:
Свободное владение 17+ языками, включая акценты с региональными особенностями.
! Поддерживает русский.
🎧 Попробуйте: hailuo.ai/audio
🔗 API-платформа: intl.minimaxi.com
Арт, дизайн и нейросети
@art_design_ai / #Hailuo@art_design_ai
Forwarded from Записки MLEшника
Там вышел тренажер SQL в стилистике сериала "Игра в Кальмара"
Приколько потыкать. Вроде отзывчиво и бесплатно 😁
Также мне нравится вот этот тренажер. Тут должно быть поболее тем и заданий
Приколько потыкать. Вроде отзывчиво и бесплатно 😁
Также мне нравится вот этот тренажер. Тут должно быть поболее тем и заданий
Forwarded from Norgey Bilinskiy
Forwarded from Тимлид Очевидность | Евгений Антонов
Я принес. Всех приходится пинать, пинговать и напоминать
В любимом мною журнале «Кинжал» вышла статья про боль читательницы, которую я очень хорошо понимаю. https://kinzhal.media/ask-need-ping/
Вот правда, прям очень хорошо и давно понимаю. Когда был сисадмином и разработчиком, меня это мало касалось. Ну мог про необязательность заказчика поворчать иногда, но не более того.
Потом стал тимлидом, и этого в моей жизни стало больше и чаще. Потом стал менеджером на несколько команд и мультикомандные проекты, стало еще больше. Затеял ремонт, так там вообще мрак, да еще за кучу денег из своего кармана.
Я для себя выделил 3 мысли:
- К моему сожалению, в большинстве случаев это и правда норма, и это надо принять.
- Иногда у этой нормы есть более глубокие контекстные объяснения о загрузке людей, очереди заказов и прочее подобное. А иногда просто сам по себе человек такой необязательный.
- Ну и раз уж мы поняли, что в среднем это довольно регулярное явление, то как мы на это можем влиять? Либо пинговать и пинать, ведь сам о себе не позаботишься, никто не позаботится. Либо стараться не иметь дело с такими гражданами, но идея прям совсем с такими не сталкиваться утопична.
Делитесь в комментариях, как вы решаете подобные проблемы? Как вы вообще, смирились или продолжаете бороться с несовершенством этого мира?)
В любимом мною журнале «Кинжал» вышла статья про боль читательницы, которую я очень хорошо понимаю. https://kinzhal.media/ask-need-ping/
Вот правда, прям очень хорошо и давно понимаю. Когда был сисадмином и разработчиком, меня это мало касалось. Ну мог про необязательность заказчика поворчать иногда, но не более того.
Потом стал тимлидом, и этого в моей жизни стало больше и чаще. Потом стал менеджером на несколько команд и мультикомандные проекты, стало еще больше. Затеял ремонт, так там вообще мрак, да еще за кучу денег из своего кармана.
Я для себя выделил 3 мысли:
- К моему сожалению, в большинстве случаев это и правда норма, и это надо принять.
- Иногда у этой нормы есть более глубокие контекстные объяснения о загрузке людей, очереди заказов и прочее подобное. А иногда просто сам по себе человек такой необязательный.
- Ну и раз уж мы поняли, что в среднем это довольно регулярное явление, то как мы на это можем влиять? Либо пинговать и пинать, ведь сам о себе не позаботишься, никто не позаботится. Либо стараться не иметь дело с такими гражданами, но идея прям совсем с такими не сталкиваться утопична.
Делитесь в комментариях, как вы решаете подобные проблемы? Как вы вообще, смирились или продолжаете бороться с несовершенством этого мира?)
Кинжал
Всех приходится пинать, пинговать и напоминать — Кинжал
Кинжал, почему по любому минимально значимому делу всех всегда приходится пинать, пинговать и напоминать о себе?
Forwarded from Математика, Вычислительные Физика и Финансы
Визуализация данных Мосбиржи и не только / Хабр
https://habr.com/ru/articles/873814/
https://habr.com/ru/articles/873814/
Хабр
Визуализация данных Мосбиржи и не только
Привет! Хочу поделиться инструментом для визуализации данных Мосбиржи, Nasdaq, NYSE и AMEX. Графики можно посмотреть на странице finmap.org . Сейчас я занимаюсь этим проектом один, а планов много,...
Forwarded from Продуктовый взгляд | Аналитика данных
МЛ секция в Яндекс (2025)
Только на той недели мой ученик успешно прошел мл секцию в Яндекс, делюсь с вами вопросами, товарищи. Да его и ответами тоже)
Еще больше инсайдов будет на курсе Старт МЛ и на курсе Хард МЛ. Всех жду, товарищи!
1. Что такое Bias Variance Decomposition. Интервьюер акцентировал внимание на математике, отсюда вытек следующий вопрос.
2. Расписать математически, что такое разброс.
3. Что такое Бэггинг? В чем смысл данной композиции и почему она хорошо работает. (Я написал, что смещение примерно остается то же, а вот дисперсия (разброс) падает. Общий вид predict в дереве для регрессии и классификации.
4. Какие Impurity знаешь? Как высчитывается разделяющее правило?
5. Какие знаешь методы борьбы с переобучением при обучении нейронных сетей? Как дропают отличается в train mode и eval mode.
6. Устная задача - как бы ты решал задачу сетками технически, если тебе нужно было бы по картинкам определить токсичность изображения? (Ну типо взять хороший Бэкбоун, приделать свою голову с out_features=2 и дообучить). На каком слое получаются эмбеддинги картинки?
7. Базовые метрики, как считаются,в чем физический смысл. Написать их формульно.
BVD = ШУМ + Разброс + Смещение
Разброс = E_x E_X(model(X)(x) - E_X(model)(x))^2
БЭГГИНГ - композиция
X_1, X_2, ..., X_n - бутср выборок
model_1(X_1), model_2(X_2), ....
a(x) = 1/n sum (model_i(x))
bias(a) ~ bias(b_i)
variance(a) -> variance(b_i) / N + (n*(n-1)) / n^2 * sum * cov()
H(R_m) ->_split |L|/|TOTAL| * H(L) + |R|/|TOTAL| * H(R) -> min
H(R) = sum_i_k (p_k * (1 - p_k))
1) Аугментации
2) DropOut
train_mode: p
eval_mode: 1/p
precision = (TP) / (TP + FP)
recall = (TP) / (TP + FN)
roc_auc = (y_i, p_i) -> sort p_i по убыванию
thr > p_i -> 0 0 | 1
thr <= p_i -> 1 1 | 1
TPR=recall FPR=(FP)/(FP + FN)
@zadachi_ds
Только на той недели мой ученик успешно прошел мл секцию в Яндекс, делюсь с вами вопросами, товарищи. Да его и ответами тоже)
Еще больше инсайдов будет на курсе Старт МЛ и на курсе Хард МЛ. Всех жду, товарищи!
1. Что такое Bias Variance Decomposition. Интервьюер акцентировал внимание на математике, отсюда вытек следующий вопрос.
2. Расписать математически, что такое разброс.
3. Что такое Бэггинг? В чем смысл данной композиции и почему она хорошо работает. (Я написал, что смещение примерно остается то же, а вот дисперсия (разброс) падает. Общий вид predict в дереве для регрессии и классификации.
4. Какие Impurity знаешь? Как высчитывается разделяющее правило?
5. Какие знаешь методы борьбы с переобучением при обучении нейронных сетей? Как дропают отличается в train mode и eval mode.
6. Устная задача - как бы ты решал задачу сетками технически, если тебе нужно было бы по картинкам определить токсичность изображения? (Ну типо взять хороший Бэкбоун, приделать свою голову с out_features=2 и дообучить). На каком слое получаются эмбеддинги картинки?
7. Базовые метрики, как считаются,в чем физический смысл. Написать их формульно.
Разброс = E_x E_X(model(X)(x) - E_X(model)(x))^2
БЭГГИНГ - композиция
X_1, X_2, ..., X_n - бутср выборок
model_1(X_1), model_2(X_2), ....
a(x) = 1/n sum (model_i(x))
bias(a) ~ bias(b_i)
variance(a) -> variance(b_i) / N + (n*(n-1)) / n^2 * sum * cov()
H(R_m) ->_split |L|/|TOTAL| * H(L) + |R|/|TOTAL| * H(R) -> min
H(R) = sum_i_k (p_k * (1 - p_k))
1) Аугментации
2) DropOut
train_mode: p
eval_mode: 1/p
precision = (TP) / (TP + FP)
recall = (TP) / (TP + FN)
roc_auc = (y_i, p_i) -> sort p_i по убыванию
thr > p_i -> 0 0 | 1
thr <= p_i -> 1 1 | 1
TPR=recall FPR=(FP)/(FP + FN)
@zadachi_ds
Forwarded from Machinelearning
Только что был обновлен популярный бесплатный LLM курс.
Это пошаговое руководство с полезными ресурсами и ноутбуками, как для новичков, так и для тех, кто уже обладает мл-базой
Курс разбит на 3 части:
📌 Курс
#llm #course #opensource #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Душный NLP
Теория игр в RLHF
Врываемся в новый 2025-й с новым разбором. Сегодня рассмотрим, как использование теории игр помогает в RLHF. Авторы статьи назвали свой метод General Preference Modeling (GPM). Он подходит для RLHF, но всё сказанное в статье применимо и к RL общего назначения с моделью предпочтений.
RLHF-обучение состоит из двух шагов: получение модели предпочтений и обучение генеративной модели. Авторы сосредоточились на улучшении модели предпочтений.
Традиционно такая модель учится как модель Брэдли-Терри. В ней каждому возможному ответу LLM присваивается некоторый скаляр, отражающий его качество. Утверждается, что пользователь предпочитает ответы с более высоким качеством. При этом подходе ответы получаются линейно упорядоченными и всегда можно найти лучший, что несомненный плюс.
Из недостатков — модель предполагает, что функция предпочтений человека всегда описывается достаточно простой моделью Брэдли-Терри, в которой всегда есть лучшие и худшие ответы. На практике же несколько ответов могут образовывать нетранзитивный цикл. Скажем, при игре в «Камень-ножницы-бумага» нет лучшего действия, однако модель всё равно попытается их упорядочить.
Чтобы решить эту проблему, авторы обращаются к теории игр. На самом деле эта идея не нова. Скажем, были уже модели попарных сравнений, которые работали не от оценки одного ответа, а от сравнения двух вариантов. У такого подхода тоже есть существенные недостатки — это удар по производительности и отсутствие гарантии антисимметричности. То есть попарная модель должна оценивать, насколько первый ответ лучше второго противоположным числом оценки превосходства второго ответа над первым.
Свой подход авторы статьи строят на основе эмбеддингов. В отличие от модели Брэдли Терри, где каждому ответу приписывается скаляр, здесь приписывается некоторый эмбеддинг. После этого с помощью любой антисимметричной билинейной формы от эмбедингов двух ответов происходит проверка факта, что один из них лучше другого. В такой модели по построению выполняется свойство антисимметричности. Также авторы предлагают конкретный вид для билинейной формы, обеспечивающий простоту вычисления.
В случае, если эмбеддинг состоит из двух скаляров, авторы предлагают в качестве антисимметричного билинейного оператора использовать матрицу поворота на 90 градусов в двухмерном пространстве. А для случаев с большей размерностью эмбеддингов — строить блочно-диагональные матрицы с вышеописанными матрицами поворота на диагонали (вторая картинка выше). Такой оператор способен моделировать циклы в предпочтениях пользователей, располагая эмбеддинги на окружности.
Далее оптимизация языковой модели в соответствии с предпочтениями пользователя представляется в виде матричной игры, где разные LLM играют друг с другом. Выигрыш считается в соответствии с полученной ранее моделью предпочтений как среднее значение предложенной билинейной формы от эмбэддингов ответов двух соревнующихся моделей. Равновесием по Нэшу для такой игры будет модель, которая в среднем обыгрывает все остальные. Эту модель и предлагают искать авторы статьи, для чего адаптируют итеративный алгоритм из теории игр.
Оказывается, что шаг полученного алгоритма эквивалентен запуску классического RL-обучения. Здесь reward для конкретного ответа считается как среднее значение билинейной формы предпочтений для первого ответа и ответа, сгенерированного моделью с предыдущего шага этого алгоритма. К сожалению, на практике среднее значение билинейной формы не берётся из-за необходимости сэмплировать ответы из модели с предыдущего шага. Поэтому авторы в своём алгоритме используют Монте-Карло оценку этого среднего.
Тестирование показало, что обобщённая модель предпочтений даёт большую точность на циклических датасетах, но на стандартных результат сопоставим с тем, который показывают классические методы. Однако при использовании новой reward-функции в RL качество генеративной модели значительно улучшается.
Разбор подготовил❣ Федор Лебедь
Душный NLP
Врываемся в новый 2025-й с новым разбором. Сегодня рассмотрим, как использование теории игр помогает в RLHF. Авторы статьи назвали свой метод General Preference Modeling (GPM). Он подходит для RLHF, но всё сказанное в статье применимо и к RL общего назначения с моделью предпочтений.
RLHF-обучение состоит из двух шагов: получение модели предпочтений и обучение генеративной модели. Авторы сосредоточились на улучшении модели предпочтений.
Традиционно такая модель учится как модель Брэдли-Терри. В ней каждому возможному ответу LLM присваивается некоторый скаляр, отражающий его качество. Утверждается, что пользователь предпочитает ответы с более высоким качеством. При этом подходе ответы получаются линейно упорядоченными и всегда можно найти лучший, что несомненный плюс.
Из недостатков — модель предполагает, что функция предпочтений человека всегда описывается достаточно простой моделью Брэдли-Терри, в которой всегда есть лучшие и худшие ответы. На практике же несколько ответов могут образовывать нетранзитивный цикл. Скажем, при игре в «Камень-ножницы-бумага» нет лучшего действия, однако модель всё равно попытается их упорядочить.
Чтобы решить эту проблему, авторы обращаются к теории игр. На самом деле эта идея не нова. Скажем, были уже модели попарных сравнений, которые работали не от оценки одного ответа, а от сравнения двух вариантов. У такого подхода тоже есть существенные недостатки — это удар по производительности и отсутствие гарантии антисимметричности. То есть попарная модель должна оценивать, насколько первый ответ лучше второго противоположным числом оценки превосходства второго ответа над первым.
Свой подход авторы статьи строят на основе эмбеддингов. В отличие от модели Брэдли Терри, где каждому ответу приписывается скаляр, здесь приписывается некоторый эмбеддинг. После этого с помощью любой антисимметричной билинейной формы от эмбедингов двух ответов происходит проверка факта, что один из них лучше другого. В такой модели по построению выполняется свойство антисимметричности. Также авторы предлагают конкретный вид для билинейной формы, обеспечивающий простоту вычисления.
В случае, если эмбеддинг состоит из двух скаляров, авторы предлагают в качестве антисимметричного билинейного оператора использовать матрицу поворота на 90 градусов в двухмерном пространстве. А для случаев с большей размерностью эмбеддингов — строить блочно-диагональные матрицы с вышеописанными матрицами поворота на диагонали (вторая картинка выше). Такой оператор способен моделировать циклы в предпочтениях пользователей, располагая эмбеддинги на окружности.
Далее оптимизация языковой модели в соответствии с предпочтениями пользователя представляется в виде матричной игры, где разные LLM играют друг с другом. Выигрыш считается в соответствии с полученной ранее моделью предпочтений как среднее значение предложенной билинейной формы от эмбэддингов ответов двух соревнующихся моделей. Равновесием по Нэшу для такой игры будет модель, которая в среднем обыгрывает все остальные. Эту модель и предлагают искать авторы статьи, для чего адаптируют итеративный алгоритм из теории игр.
Оказывается, что шаг полученного алгоритма эквивалентен запуску классического RL-обучения. Здесь reward для конкретного ответа считается как среднее значение билинейной формы предпочтений для первого ответа и ответа, сгенерированного моделью с предыдущего шага этого алгоритма. К сожалению, на практике среднее значение билинейной формы не берётся из-за необходимости сэмплировать ответы из модели с предыдущего шага. Поэтому авторы в своём алгоритме используют Монте-Карло оценку этого среднего.
Тестирование показало, что обобщённая модель предпочтений даёт большую точность на циклических датасетах, но на стандартных результат сопоставим с тем, который показывают классические методы. Однако при использовании новой reward-функции в RL качество генеративной модели значительно улучшается.
Разбор подготовил
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM