Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from DevFM
Diagrams

Нравится мне python, а если с его помощью ещё и архитектурные диаграммы рисовать — вообще красота. Поэтому принес ещё один инструмент, позволяющий кодом на питоне создавать архитектурные схемы. В примерах можно посмотреть как это выглядит: тут и тут.

Затащить в полноценное использование командами такой инструмент у меня, конечно, не получится (да и смысла большого нет), но развернуть локально и потыкать интересно. На практике мы используем Structurizer. А ранее у нас был пост, зачем мы документируем архитектуру.

#tools
#rl #papers

Смотрели на 100 примерах🤦🏼‍♀️
Дамы и господа, выдыхаем: RL всё таки не работает.

Те, кто со мной общаются, знают, что я достаточно скептически отношусь к GRPO и test time scaling прорыву. Когда-то, я прочитал офигенный блогпост с громким названием "There May Not be Aha Moment in R1-Zero-like Training", где авторы попытались критически посмотреть на обучение ризонеров на базе квенов и у них получился неожиданный результат: у квенов aha moment и селф рефлексия возникает на нулевой эпохе обучения — то есть в базовой модели. Сейчас вышла полная статья (правда, как я понял, выложена она в репозитории, а не на архиве или конфе), где более полно раскрываются эти файндинги.

Существующие имплементации GRPO (от HF и от Unsloth — не уверен, что они разные, но вроде разные), используют один и тот же системный промпт от R1 при обучении. Авторы задают вопрос: а точно ли для моделей, на которых хотят воспроизвести aha moment, выбираются правильные промпты? И действительно: оказывается, что если вообще не использовать чат темплейт у базовых моделей (qwen-2.5), то они уже могут работать в чат режиме. Видимо, в претрейн уже подмешивали вопросно-ответные датасеты, например, на математику и модель генерализовалась. При этом, они рисуют ещё более интересную картинку: Qwen-2.5-Math модели без системного промпта работают в полтора раза лучше, чем фью шот на датасетах с математикой. На Deepseek V3 это не воспроизвелось, там темплейт помогает гораздо сильнее.

Затем авторы развернули Deepseek V3 Base самостоятельно (мне бы столько ресурсов), и прогнали через неё вопросы из MATH-500 с использованием промпта от R1. Оказывается, что модель изначально отлично генерировала такие слова как "aha", "wait" и "verify the problem" и показывала примеры селф рефлексии без дообучения.

Потом они решили посмотреть на формулу GRPO и PPO и поняли, что в них есть лишние детали. Во-первых, есть response-level bias, то есть нормировка по длине ответа. Если advantage положительный (ответы верные), наличие нормировки увеличивает апдейты градиента, если отрицательный, то наоборот, ответы становятся длиннее. Это соотносится вот с этим постом, где тоже подтвердили такое поведение моделей. Во-вторых, при подсчёте advantage производится нормировка на std ревардов. Это приводит к тому, что вопросы с меньшим std ревардов больше влияют на веса, что ведёт к менее эффективному обучению. И действительно, если эти два bias убрать, средняя длина ответа довольно быстро выходит на плато, неверные ответы, хоть и длиннее, чем верные, но всё же становятся короче, а качество обученных моделей хуже не становится.

А потом авторы объединили все эти файндинги в единый эксперимент: они взяли qwen-2.5-1.5B с разными системными промптами и проверили, насколько при обучении с GRPO растёт качество на популярных бенчмарках. Результаты напрямую следуют из предыдущих экспериментов: неудобные для модели темплейты её сначала ломают, а потом через RL модель учится отвечать правильно. Это даёт ей офигенный буст в качестве (тот самый +40% on MATH, которым хвастаются в заголовках). Но если не использовать промпт, то модель сразу стартует с удобного начала и отвечает на вопросы очень хорошо — и буст в качестве становится значительно более скромным, в районе 5-6%.

Кроме того, авторы взяли llama-3.2-3b и сравнили, насколько влияет претрейн на высоту плато GRPO. Если не обучать модель на математике, то RL практически не помогает, а вот если сначала обучить на NuminaQA или FineMath, то буст будет достаточно сильным. Модель они учили с R1 промптом, так что предположу, что тут та же история, что и с квеном: скачок в качестве это следствие из нестабильности модели к подающимся в неё промптам, а не из волшебных свойств чисто RL обучения.

Ещё один интересный аблейшн авторы почему-то вынесли в аппендикс: селф рефлексия в R1-Zero больше коррелирует с неправильным ответом, чем с правильным. Конечно, эксперимент проводился всего на 100 примерах, так что может быть это статистически незначимые результаты, но всё равно, клейм интересный.
Forwarded from Синтографист
### Midjourney и языковые модели: как они улучшают креативность?

Обычно, когда языковую модель (LLM) дообучают после основного обучения, это делают, чтобы улучшить качество её ответов. Однако есть проблема: чем больше усилий на это тратится, тем менее креативными и разнообразными становятся ответы модели.

#### Что придумали в Midjourney?
Вместо стандартного метода они добавили новый параметр — «отклонение» (deviation). Это мера того, насколько сгенерированный текст отличается от других возможных вариантов на тот же запрос.

Как это работает:
1. У модели есть несколько вариантов ответа на один и тот же запрос.
2. Чем больше ответ отличается от остальных, тем выше его «отклонение».
3. При обучении используется метод DPO (Direct Preference Optimization) или ORPO (Odds Ratio Preference Optimization), но с добавкой «отклонения».
4. Итог: модель учится давать не только качественные, но и разнообразные ответы.

#### Пример для школьника
Допустим, у нас есть модель, которая пишет сочинения по литературе.
Ты спрашиваешь: «Какие чувства испытывает Евгений Онегин в конце романа?»

Обычная модель (без отклонения) ответит примерно так:
> «Онегин испытывает раскаяние и грусть из-за упущенных возможностей».

Модель с «отклонением» может дать такие ответы:
1. «Онегин ощущает пустоту: любовь к Татьяне пришла слишком поздно, и теперь ему остаётся лишь сожалеть».
2. «Его чувства противоречивы — он одновременно тоскует по Татьяне и злится на себя за свою нерешительность».
3. «Онегин осознаёт, что сам разрушил своё счастье, но вместо того, чтобы бороться, он уходит от Татьяны навсегда».

Все три ответа — правильные, но они звучат по-разному. Это и есть тот самый «буст» креативности.

#### А оно вообще работает?
Тестировали модель на Reddit, и оказалось, что её тексты почти неотличимы от человеческих! Причём она всего 8B параметров (маленькая по меркам топовых LLM).

#### Что в этом интересного?
- Теперь можно делать модели, которые не просто умные, но и креативные.
- Возможно, скоро появятся нейросети для литературного творчества, которые не уступают людям.
- Может, Midjourney когда-нибудь запустят и текстовую нейросеть (а не только для картинок).

### Вывод:
Midjourney придумали способ, как научить модели не только «говорить правильно», но и думать нестандартно. Это особенно полезно для творчества — написания рассказов, стихов, сценариев.


Попросил пояснить ChatGPT тему, поднятую в посте
по статье от Midjourney
Forwarded from Dealer.AI
Midjourney обзор про LM.

Пока свежа память про всякие там RL и Llama. Завезли тут Midjourney обзор про языковые модели. Конечно обзор челы из дата секретов сделали,но кое-что интересное упустили. А мои подписчики не секретами деланы и их раскрывают.

Далее дословно от подсичика, с моими вставками:

Тут немного в тему RL вот такая статья есть, в ней наверное самый забавный момент помимо прочих, что основной авто-«бенч» — это ревард-моделька, которую обучили на тех же данных, из которых и dpo-датасет сварили 🧠 (бусты существенные, duh 🚬).

Дядя: Эт че у нас уже лики пошли из трейна в тест? Логично,что модель такая будет давать сродственнным с dpo сетом предпочтения и завышать скоры. Ну и что ниже мы щас и увидим.

Продолжаем. Потом авторы ещё это все шлифанули человеческой разметкой, но размечали только эти же сами авторы (!), утверждают, что честно-честно не знали (ага щаз 😀), где какая модель 😮‍💨. И разумеется , в итоге их 8В победила GPT-4o с разгромным счётом 🌿, и добить решили перлом 🧖:
>> Note that all authors have years of experience in computational creative writing research. (Ты смотри святые люди, а.)

А, да, размечали ещё при этом не сами генерации, а их суммаризированные (!!!) версии, так как "doing the task with eight lengthy creative writings can be cognitively overloading" ))))) Бедняжки от кожанных могут перегреться. 🦻

В общем, читаем внимательно, может у вас сложится иное мнение и зря мы гоним тут.

За материалы спасибо @walfry
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел мощный ИИ-агент OWL, который получил удобный веб-интерфейс. Это бесплатный аналог Manus, повторяющий все его функции.

Модель занимает первое место среди open-source фреймворков и имеет высокую производительность в задачах автоматизации.

Небольшой список того, что умеет:
— Решает задачи за вас: пишете, что вам нужно, а ИИ-агенты сами всё за вас делают;
— Генерирует любой тип текста и изображения;
— Обрабатывает документы (PDF, Word, Excel);
— Создаёт графики и отчёты;
— Ищет актуальную информацию в интернете, пользуется поисковиками и изучает веб-страницы, автоматизируя работу браузера;
— Анализирует файлы;
— Пишет и сам же выполняет программный код;
— Поддерживает сторонние ИИ-модели: GPT-4, DeepSeek и т.д.

Например, OWL можно попросить проанализировать акции, дать прогнозы, вести соцсети, написать программу и многое другое. То есть отдать ему свою рутинную работу.

Ссылка на гитхаб тут

r/#LocalLLaMA
Forwarded from Quant Valerian
🧠 РЕТРОСПЕКТИВА

• Ретроспектива выходит за рамки процесса командообразования.
Важно проводить её по завершении задач, а не по расписанию.
Избегайте геймификации и игр, чтобы не терять смысл мероприятия.

• Не оставляйте выявленные проблемы без решения.
• Если проблемы не решаются, люди теряют интерес к процедуре.

⭐️ АЛЬТЕРНАТИВА КОМАНДООБРАЗОВАНИЮ - РЕГЛАМЕНТАЦИЯ

• Регламентация может быть альтернативой командному подходу.
• Регламентация описывает все нюансы работы группы.
• Регламентация может быть необходима в опасных или нестабильных условиях.

⭐️ ПРИМЕРЫ РЕГЛАМЕНТАЦИИ

• Регламентация используется в авиации, поездах, энергетике и хирургии.
• Регламентированные группы могут быть более эффективными, но требуют постоянного контроля.
• Регламентация подавляет инициативу, но может быть необходима для безопасности.

⭐️ ТИМБИЛДИНГ И КОМАНДООБРАЗОВАНИЕ

• Тимбилдинг и увеселительные мероприятия не создают настоящую команду.
• Настоящая команда формируется через конфликты и конфликты с окружающей средой.
• Тимбилдинг полезен как совместный отдых, но не для командообразования.
Forwarded from КПД
Scale-wise Distillation of Diffusion Models
[Статья] [Демка] [Код soon]

Введение

Диффузионные модели на протяжении последних несколько лет удерживают пальму первенства среди семейств генеративных моделей во многих приложениях. Однако их фундаментальным ограничением является многошаговое сэмплирование, из-за чего генерация занимает много времени.

Научное сообщество предложило вагон и маленькую тележку различных процедур дистилляции многошаговых моделей в малошаговые. Но при приближении количества шагов к 1-му качество неизбежно просаживается даже для самых продвинутых подходов.

Отсюда мысль 🤔 - а что если ускорить генерацию за счет удешевления шагов сэмплирования?

Мы с коллегами из Yandex Research предложили метод дистилляции в несколько-шаговую генерацию, где разрешение изображения увеличивается постепенно, на каждом шаге генерации (SwD). За счет этого удается достичь более чем 2х кратного ускорения по сравнению с эквивалентной дистилляцией в фиксированном разрешении.
Forwarded from КПД
Метод

На первых шагах расшумления изображение представляет собой почти полный шум, где сложно что-либо различить, а не последних - почти сформированную картинку. Ранее была установлена связь между спектральной авторегрессией и процессом диффузии - первые шаги соответствуют низким частотам, а в самом конце формируются высокие частоты. То есть вначале мелкие и тонкие детали все равно неразличимы поверх шума.

Можно попробовать генерировать сначала в низком разрешении, а потом постепенно повышать интерполяцией. Но как 🤔?

Исходная модель может быть не адаптирована под малогашовую генерацию (SDXL в 256x256 выдает безумный поп-арт на любой запрос), да и процедура интерполяции зашумленного латента плохо определена. Наивный upsampling латентов приводит к сильные дефектам. Несколько лучше работает upsampling x0 оценки из предсказанного латента с последующим зашумлением назад, но все равно не здорово.

Потому дообучение неизбежно. При этом дистиллированные модели выполняют две роли одновременно - уменьшение количества шагов сэмплирования и super-resolution в латентном пространстве.

В качестве основы для процедуры дистилляции берется DMD2 как все еще state-of-the-art метод дистилляции. Дополнительно к нему навешивается предложенный Patch Distribution Matching (PDM) лосс, который стремится уравнять прогнанные через исходную диффузионную модель генерации модели-учителя и студента на уровне отдельных токенов.

Итоговый лосс содержит в себе:
🎯обратную KL-дивергенцию
🎯GAN лосс
🎯PDM лосс

В качестве данных для обучения используется синтетика, сгенерированная моделью-учителем (примерно 500к сэмплов).
#database #interview

Варианты партиционирования и секционирования таблиц и какой способ при каких обстоятельствах лично я бы выбирал

Какие индексы могут применяться в секционировании таблиц (два типа всего) и чем отличаются, какие преимущества

Виды физических соединений и чем отличаются Merge Join от Hash Join. Когда что использовать.

Чем отличается нативный динамический sql от какого-то ещё динамического типа. Когда какой применять.

В чем отличие использования пакетов с функциями и процедурами от обычных процедур и функций.

Функция пайплайна и её особенности, назначения.

В целом назвать отличия конвейерной функции от скалярного чего-то там.

Отличия коллекции от массива данных (это в Oracle pl/sql)
Forwarded from Никита ©️
Варианты партиционирования и секционирования таблиц и какой способ при каких обстоятельствах лично я бы выбирал

Какие индексы могут применяться в секционировании таблиц (два типа всего) и чем отличаются, какие преимущества

Виды физических соединений и чем отличаются Merge Join от Hash Join. Когда что использовать.

Чем отличается нативный динамический sql от какого-то ещё динамического типа. Когда какой применять.

В чем отличие использования пакетов с функциями и процедурами от обычных процедур и функций.

Функция пайплайна и её особенности, назначения.

В целом назвать отличия конвейерной функции от скалярного чего-то там.

Отличия коллекции от массива данных (это в Oracle pl/sql)
Алгоритмическое собеседование в Data Science | симметрия деревьев | поиск кратчайшего пути | BFS

Алгоритмы стали базой для собеседований по Data Science, поэтому к ним точно нужно быть готовым, чтобы получить большой и жирный оффер 😘

Поэтому сегодня разбираем задачи с собеседований, которые задают в Российском бигтехе:
- симметрия деревьев , рекурсия
- поиск кратчайшего пути , BFS , поиск в ширину
- оценка сложности алгоритма по времени и по памяти

Новый дроп смотрим здесь 😎
Please open Telegram to view this post
VIEW IN TELEGRAM