Forwarded from Sinекура
Сегодняшние лекции начались с MCMC-сэмплирования (Markov chain Monte Carlo); это один из главных инструментов приближённого вывода в сложных вероятностных моделях, очень красивая идея, которая известна как алгоритм Метрополиса-Гастингса. В детали вдаваться не буду, но любопытно, что придумали его физики ещё в 1953 году, в статье "Equation of State Calculations by Fast Computing Machines"; первым автором был действительно Николас Метрополис, а вот последним — Эдвард Теллер, тот самый, участник Манхэттенского проекта и отец водородной бомбы. Так что Метрополису (и позже обобщившему алгоритм Гастингсу) сильно повезло, что это не алгоритм "Теллера и каких-то ещё непонятных чуваков".
А во второй части показывал свой любимый пример из этой части курса: SIR-модели в эпидемиологии. Я сам узнал об этих моделях как раз когда ковид шагал по планете, и до сих пор в восторге от того, как там всё вместе сходится: глобальная EM-схема для обучения, стохастический алгоритм Витерби в скрытых марковских моделях для E-шага этой схемы, сэмплирование по Гиббсу для M-шага, а потом ещё как вишенка на торте при обучении появляется мини-EM в точности как в моём рейтинге спортивного ЧГК. И это я ещё рассказываю модель в упрощённом виде, с дискретными переходами, а так там по умолчанию всё в непрерывном времени происходит.
Полный восторг, в общем. Правда, к концу лекции компьютер мой не выдержал неизвестно чего, и в записи появились статтеры и целые небольшие участки в 5fps. Но вроде ничего страшного.
https://youtu.be/xOuUiPkXmw8
А во второй части показывал свой любимый пример из этой части курса: SIR-модели в эпидемиологии. Я сам узнал об этих моделях как раз когда ковид шагал по планете, и до сих пор в восторге от того, как там всё вместе сходится: глобальная EM-схема для обучения, стохастический алгоритм Витерби в скрытых марковских моделях для E-шага этой схемы, сэмплирование по Гиббсу для M-шага, а потом ещё как вишенка на торте при обучении появляется мини-EM в точности как в моём рейтинге спортивного ЧГК. И это я ещё рассказываю модель в упрощённом виде, с дискретными переходами, а так там по умолчанию всё в непрерывном времени происходит.
Полный восторг, в общем. Правда, к концу лекции компьютер мой не выдержал неизвестно чего, и в записи появились статтеры и целые небольшие участки в 5fps. Но вроде ничего страшного.
https://youtu.be/xOuUiPkXmw8
YouTube
СПбГУ -- 2025.03.25 -- MCMC сэмплирование, развёрнутый пример SIR моделей
Это лекция из курса "Графические вероятностные модели", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения -- "Основами байесовского вывода" и "Глубоким обучением". Все материалы этой…
Forwarded from Sinекура
В последние год-два я рисовал картинки для лекций, постов и (obligatory self-promotion) книги "Машинное обучение: основы" локальными моделями, сначала разными версиями Stable Diffusion, а потом (и до сих пор) следующей итерацией диффузионных моделей — FLUX.1-dev; это очень крутая модель, лучше варианта из тех, что можно себе на десктоп поставить, я не знаю.
Пользовался именно локальными, потому что от порождающих моделей сложно с первого раза добиться того, что требуется, и я всегда генерировал десятки картинок и выбирал из них лучшие, а это не очень сходится ни с usage limits, которые обычно всё-таки есть, ни вообще с концепцией рисовать картинки в чате с моделью.
Но вот вчера OpenAI выкатил интерактивное рисование картинок в GPT-4o, и это для меня может быть game changer. Это то самое редактирование изображений промптами, которое, кажется, действительно хорошо работает и может менять стиль и добавлять детали в готовую картинку — а для иллюстраций ведь именно это и требуется!
Кстати, любопытно, что это авторегрессионное рисование, вот что пишут в system card (правда, деталей сверх этой одной фразы вроде нет нигде):
Попробовал пока один пример, и хотя перерисовать фото с нестандартной композицией GPT-4o всё-таки не справился, если согласиться на более стандартную, всё получается замечательно. ChatGPT по-прежнему не позволяет расшаривать чаты с картинками, так что прилагаю сами картинки, а ниже запросы, которые к ним привели. Как видите, гуру промптинга быть совершенно не требуется (а для Stable Diffusion и FLUX всё-таки надо было что-то понимать). Нумерую запросы по порядку картинок в посте.
Пользовался именно локальными, потому что от порождающих моделей сложно с первого раза добиться того, что требуется, и я всегда генерировал десятки картинок и выбирал из них лучшие, а это не очень сходится ни с usage limits, которые обычно всё-таки есть, ни вообще с концепцией рисовать картинки в чате с моделью.
Но вот вчера OpenAI выкатил интерактивное рисование картинок в GPT-4o, и это для меня может быть game changer. Это то самое редактирование изображений промптами, которое, кажется, действительно хорошо работает и может менять стиль и добавлять детали в готовую картинку — а для иллюстраций ведь именно это и требуется!
Кстати, любопытно, что это авторегрессионное рисование, вот что пишут в system card (правда, деталей сверх этой одной фразы вроде нет нигде):
Unlike DALL·E, which operates as a diffusion model, 4o image generation is an autoregressive model natively embedded within ChatGPT.
Попробовал пока один пример, и хотя перерисовать фото с нестандартной композицией GPT-4o всё-таки не справился, если согласиться на более стандартную, всё получается замечательно. ChatGPT по-прежнему не позволяет расшаривать чаты с картинками, так что прилагаю сами картинки, а ниже запросы, которые к ним привели. Как видите, гуру промптинга быть совершенно не требуется (а для Stable Diffusion и FLUX всё-таки надо было что-то понимать). Нумерую запросы по порядку картинок в посте.
(1) [фото Майлза, приложил его к первому запросу]
(2) hi! can you redraw this photo in disney/pixar animation style while keeping the cat recognizable?
(3) wow, that's nice, thank you! and can you now do the same photo in a renaissance painting style?
(4) all right! and now please make the cat even fatter, Rubens style, and add a peacock feather to one of its paws while keeping the general oil painting style
(5) okay great but please return to the original composition, with the cat lying on its back upside down on a sofa; the fat and the feather are great, keep them; and also add a colorful beret on the cat's head
(6) [переприложил фото Майлза ещё раз]
nah, now the anatomy is wrong; let's start over
please redraw this photo with the same composition but as a Peter Paul Rubens painting, with the cat much fatter; also please add a peacock feather to one of the cat's paws and a colorful beret on its head
Forwarded from rizzearch
Cosmos World Foundation Model Platform for Physical AI
нвидиа в январе анонсировала Cosmos платформу для около фаундейшн-физикал-ворлд-модель суеты, сейчас у них дошли руки расписать, как они такое получили и что это в принципе из себя представляет
конкретно эта работа нацелена на фаундейшн ворлд модель (в последний раз мы писали про масштабные модели мира здесь), которая может генерить динамику реального мира тем или иным образом. получилось очень большое семейство авторегрессивных и диффузионных моделей
но на чем учить? хз, видимо другой опции как 10^8 + 10^7 клипов (для претрена и файнтюна соответственно) у авторов не было. а получили они их из 20 млн видосов разного качества (от 720р до 4к), сами же клипы получились долгим путем обработки
- scene segmentation
- фильтрация на движения, качество, отсутствие перекрывающего текста и тд
- аннотация при помощи VLM
- deduplication
по категориям - от вождения, человеческого движения и активности, nature dynamics до вида от первого лица, динамического движения камеры и тп. собрали все примерно сбалансированно
как в диффузии так и в decoder-only трансформерах для генерации видеокадров используют токенизаторы. ну и авторы в этом месте тоже выпускают свое семейство
- с дискретными токенами (на основе FSQ)
- и непрерывными (на основе ванильного автоэнкодера)
- при том везде в архитектурах есть вейвлет преобразование с темпоральными каузальными свертками и аттеншном
при том виды таких квантизаций, видимо, выбраны таким образом, чтобы не добавлять дополнительных слагаемых в финальный лосс при обучении моделей (ни кл терма например в случае VAE или коммитмент лосса в случае дефолтного VQ-VAE для непрерывного и дискретного случаев соответственно). а обучались эти токенизаторы на reconstruction loss + еще авторы добавили лоссы на optical flow & матрицу грама
для диффузии (помимо того что есть на картинках)
- непрерывные токены (хотя дискретные присутствуют и при обучении)
- не флоу матчинг, а диффьюжн скор (как из EDM) для DiT
- prompt upsampler
- mixed precision
- fsdp + context parallelism
декодер-онли трансформеры
- обучаемый softmax scaling factor
- z-loss как дополнительный терм чтобы логиты по магнитудам были не слишком большими
- tensor parallelism + sequence parallelism
- medusa на инференсе как вид спекулятивного декодинга
так же авторы еще пробовали файнтюнить
- под камера контрол, где надо генерить сцены в соответствии с дополнительным инпутом о положении камеры
- на роботику (кондишн на совершение действий)
- беспилотное вождение, где создают траекторию движения с 6 разными ракурсами (как будто камеры наклеены на настоящую тачку)
помимо метрик типа ошибки сэмпсона, LPIPS или 3д консистенси авторы еще решили прочекать как хорошо модели понимают физику (потому что вся вот эта космическая суета в принципе под эгидой Physical AI развивается) в сравнении и isaac sim в плане падения и движения предметов
пока авторы отмечают, что все так же присутствует проблема с физикой жидкости, гравитацией и светом в более широких сценариях (тут лучше ответить смогут кто непосредственно работает с видеогенерацией)
так же второй из трех подпроектов космоса основывается на этих моделях - Cosmos-Transfer1, где происходит sim2real генерация из разных модальностей (сегментация, карта глубины и edge maps) в видео реальности
👀 link, code
нвидиа в январе анонсировала Cosmos платформу для около фаундейшн-физикал-ворлд-модель суеты, сейчас у них дошли руки расписать, как они такое получили и что это в принципе из себя представляет
конкретно эта работа нацелена на фаундейшн ворлд модель (в последний раз мы писали про масштабные модели мира здесь), которая может генерить динамику реального мира тем или иным образом. получилось очень большое семейство авторегрессивных и диффузионных моделей
но на чем учить? хз, видимо другой опции как 10^8 + 10^7 клипов (для претрена и файнтюна соответственно) у авторов не было. а получили они их из 20 млн видосов разного качества (от 720р до 4к), сами же клипы получились долгим путем обработки
- scene segmentation
- фильтрация на движения, качество, отсутствие перекрывающего текста и тд
- аннотация при помощи VLM
- deduplication
по категориям - от вождения, человеческого движения и активности, nature dynamics до вида от первого лица, динамического движения камеры и тп. собрали все примерно сбалансированно
как в диффузии так и в decoder-only трансформерах для генерации видеокадров используют токенизаторы. ну и авторы в этом месте тоже выпускают свое семейство
- с дискретными токенами (на основе FSQ)
- и непрерывными (на основе ванильного автоэнкодера)
- при том везде в архитектурах есть вейвлет преобразование с темпоральными каузальными свертками и аттеншном
при том виды таких квантизаций, видимо, выбраны таким образом, чтобы не добавлять дополнительных слагаемых в финальный лосс при обучении моделей (ни кл терма например в случае VAE или коммитмент лосса в случае дефолтного VQ-VAE для непрерывного и дискретного случаев соответственно). а обучались эти токенизаторы на reconstruction loss + еще авторы добавили лоссы на optical flow & матрицу грама
для диффузии (помимо того что есть на картинках)
- непрерывные токены (хотя дискретные присутствуют и при обучении)
- не флоу матчинг, а диффьюжн скор (как из EDM) для DiT
- prompt upsampler
- mixed precision
- fsdp + context parallelism
декодер-онли трансформеры
- обучаемый softmax scaling factor
- z-loss как дополнительный терм чтобы логиты по магнитудам были не слишком большими
- tensor parallelism + sequence parallelism
- medusa на инференсе как вид спекулятивного декодинга
We train all of the WFM models reported in the paper using a cluster of 10,000 NVIDIA H100 GPUs in a time span of three months.
так же авторы еще пробовали файнтюнить
- под камера контрол, где надо генерить сцены в соответствии с дополнительным инпутом о положении камеры
- на роботику (кондишн на совершение действий)
- беспилотное вождение, где создают траекторию движения с 6 разными ракурсами (как будто камеры наклеены на настоящую тачку)
помимо метрик типа ошибки сэмпсона, LPIPS или 3д консистенси авторы еще решили прочекать как хорошо модели понимают физику (потому что вся вот эта космическая суета в принципе под эгидой Physical AI развивается) в сравнении и isaac sim в плане падения и движения предметов
пока авторы отмечают, что все так же присутствует проблема с физикой жидкости, гравитацией и светом в более широких сценариях (тут лучше ответить смогут кто непосредственно работает с видеогенерацией)
так же второй из трех подпроектов космоса основывается на этих моделях - Cosmos-Transfer1, где происходит sim2real генерация из разных модальностей (сегментация, карта глубины и edge maps) в видео реальности
👀 link, code
Forwarded from Quant Valerian
Как перестать просирать задачи
В интернете миллиард постов, видео и книг на тему личной продуктивности. Есть целые блоги, посвященные методикам и инструментам. Ребята подтягивают нейронауки, исследования, личный опыт разных специалистов. Но мне это всё сложно и лень!
Да и не хочу я быть ультра продуктивным эффективным человеко-роботом. Мне надо простого — не забывать, что я пообещал и о чем подумал. И я знаю, что такая проблема есть не только у меня. Поэтому расскажу, как я её решил.
Вообще, я много лет уже пытаюсь как-то организовать работу и жизнь в задачки, напоминашки, базы знаний.
У меня была неплохая схема с флажочками в аутлуке, но аутлука у меня больше нет))) И там были только письма.
У меня была трело и яндекс трекер борда со всякими колонками типа, "я жду", "меня ждут", "в работе", "на неделю" и т.п.
С разными вариантами я жил по несколько месяцев или даже лет.
Но всё не то. Рано или поздно что-то шло наперекосяк.
Потом я прочитал книжку Максима Дорофеева "Джедайские техники". Там очень крутой нарратив, что сложные (компликованныемне самому больно ) штуки нам делать тяжело. И подход Максим предлагает очень простой. Но я даже его не смог реализовать. Нужно ЕЩЁ ПРОЩЕ!
Посмотрев на свою рутину и на наивные попытки людей всех рангов и степеней систематизировать и организовать свой телеграм, я обнаружил, что этот мессенджер — главная точка входа. У меня тогда ещё был ноушен с шаренными 1-1 бордами. Начальник мне в телегу написал тему с комментом, что было бы удобно написать "/notion тема на 1-1", а не лезть искать ссылку и заводить задачу. У меня заняло где-то пару часов наклепать бота на make.com, который из текстового сообщения в телеге делал карточку в ноушене и клал на нужную доску. Теперь начальник мог прислать сообщение боту, а не мне — не дергать меня без надобности, но и удобно записать мысль.
А потом ноушен того этого. И скатертью дорожка, если честно.
Поставил я себе todoist, подсмотрев у нескольких коллег. Но в нём все флоу какие-то не для меня. То сложные, то там надо задачам срок проставлять заранее — фу, короче. Нудятина.
Зато ботика переписать на тудуист не составило никакого труда! Поэтому, я начал изучать инструмент и строить что-то более или мене удобное. Кажется, получилось.
В интернете миллиард постов, видео и книг на тему личной продуктивности. Есть целые блоги, посвященные методикам и инструментам. Ребята подтягивают нейронауки, исследования, личный опыт разных специалистов. Но мне это всё сложно и лень!
Да и не хочу я быть ультра продуктивным эффективным человеко-роботом. Мне надо простого — не забывать, что я пообещал и о чем подумал. И я знаю, что такая проблема есть не только у меня. Поэтому расскажу, как я её решил.
Вообще, я много лет уже пытаюсь как-то организовать работу и жизнь в задачки, напоминашки, базы знаний.
У меня была неплохая схема с флажочками в аутлуке, но аутлука у меня больше нет))) И там были только письма.
У меня была трело и яндекс трекер борда со всякими колонками типа, "я жду", "меня ждут", "в работе", "на неделю" и т.п.
С разными вариантами я жил по несколько месяцев или даже лет.
Но всё не то. Рано или поздно что-то шло наперекосяк.
Потом я прочитал книжку Максима Дорофеева "Джедайские техники". Там очень крутой нарратив, что сложные (компликованные
Посмотрев на свою рутину и на наивные попытки людей всех рангов и степеней систематизировать и организовать свой телеграм, я обнаружил, что этот мессенджер — главная точка входа. У меня тогда ещё был ноушен с шаренными 1-1 бордами. Начальник мне в телегу написал тему с комментом, что было бы удобно написать "/notion тема на 1-1", а не лезть искать ссылку и заводить задачу. У меня заняло где-то пару часов наклепать бота на make.com, который из текстового сообщения в телеге делал карточку в ноушене и клал на нужную доску. Теперь начальник мог прислать сообщение боту, а не мне — не дергать меня без надобности, но и удобно записать мысль.
А потом ноушен того этого. И скатертью дорожка, если честно.
Поставил я себе todoist, подсмотрев у нескольких коллег. Но в нём все флоу какие-то не для меня. То сложные, то там надо задачам срок проставлять заранее — фу, короче. Нудятина.
Зато ботика переписать на тудуист не составило никакого труда! Поэтому, я начал изучать инструмент и строить что-то более или мене удобное. Кажется, получилось.