Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from rizzearch
Cosmos World Foundation Model Platform for Physical AI

нвидиа в январе анонсировала Cosmos платформу для около фаундейшн-физикал-ворлд-модель суеты, сейчас у них дошли руки расписать, как они такое получили и что это в принципе из себя представляет

конкретно эта работа нацелена на фаундейшн ворлд модель (в последний раз мы писали про масштабные модели мира здесь), которая может генерить динамику реального мира тем или иным образом. получилось очень большое семейство авторегрессивных и диффузионных моделей

но на чем учить? хз, видимо другой опции как 10^8 + 10^7 клипов (для претрена и файнтюна соответственно) у авторов не было. а получили они их из 20 млн видосов разного качества (от 720р до 4к), сами же клипы получились долгим путем обработки

- scene segmentation
- фильтрация на движения, качество, отсутствие перекрывающего текста и тд
- аннотация при помощи VLM
- deduplication

по категориям - от вождения, человеческого движения и активности, nature dynamics до вида от первого лица, динамического движения камеры и тп. собрали все примерно сбалансированно

как в диффузии так и в decoder-only трансформерах для генерации видеокадров используют токенизаторы. ну и авторы в этом месте тоже выпускают свое семейство

- с дискретными токенами (на основе FSQ)
- и непрерывными (на основе ванильного автоэнкодера)
- при том везде в архитектурах есть вейвлет преобразование с темпоральными каузальными свертками и аттеншном

при том виды таких квантизаций, видимо, выбраны таким образом, чтобы не добавлять дополнительных слагаемых в финальный лосс при обучении моделей (ни кл терма например в случае VAE или коммитмент лосса в случае дефолтного VQ-VAE для непрерывного и дискретного случаев соответственно). а обучались эти токенизаторы на reconstruction loss + еще авторы добавили лоссы на optical flow & матрицу грама

для диффузии (помимо того что есть на картинках)

- непрерывные токены (хотя дискретные присутствуют и при обучении)
- не флоу матчинг, а диффьюжн скор (как из EDM) для DiT
- prompt upsampler
- mixed precision
- fsdp + context parallelism

декодер-онли трансформеры

- обучаемый softmax scaling factor
- z-loss как дополнительный терм чтобы логиты по магнитудам были не слишком большими
- tensor parallelism + sequence parallelism
- medusa на инференсе как вид спекулятивного декодинга

We train all of the WFM models reported in the paper using a cluster of 10,000 NVIDIA H100 GPUs in a time span of three months.

так же авторы еще пробовали файнтюнить

- под камера контрол, где надо генерить сцены в соответствии с дополнительным инпутом о положении камеры
- на роботику (кондишн на совершение действий)
- беспилотное вождение, где создают траекторию движения с 6 разными ракурсами (как будто камеры наклеены на настоящую тачку)

помимо метрик типа ошибки сэмпсона, LPIPS или 3д консистенси авторы еще решили прочекать как хорошо модели понимают физику (потому что вся вот эта космическая суета в принципе под эгидой Physical AI развивается) в сравнении и isaac sim в плане падения и движения предметов

пока авторы отмечают, что все так же присутствует проблема с физикой жидкости, гравитацией и светом в более широких сценариях (тут лучше ответить смогут кто непосредственно работает с видеогенерацией)

так же второй из трех подпроектов космоса основывается на этих моделях - Cosmos-Transfer1, где происходит sim2real генерация из разных модальностей (сегментация, карта глубины и edge maps) в видео реальности

👀 link, code
Forwarded from Quant Valerian
Как перестать просирать задачи

В интернете миллиард постов, видео и книг на тему личной продуктивности. Есть целые блоги, посвященные методикам и инструментам. Ребята подтягивают нейронауки, исследования, личный опыт разных специалистов. Но мне это всё сложно и лень!

Да и не хочу я быть ультра продуктивным эффективным человеко-роботом. Мне надо простого — не забывать, что я пообещал и о чем подумал. И я знаю, что такая проблема есть не только у меня. Поэтому расскажу, как я её решил.

Вообще, я много лет уже пытаюсь как-то организовать работу и жизнь в задачки, напоминашки, базы знаний.
У меня была неплохая схема с флажочками в аутлуке, но аутлука у меня больше нет))) И там были только письма.
У меня была трело и яндекс трекер борда со всякими колонками типа, "я жду", "меня ждут", "в работе", "на неделю" и т.п.
С разными вариантами я жил по несколько месяцев или даже лет.
Но всё не то. Рано или поздно что-то шло наперекосяк.

Потом я прочитал книжку Максима Дорофеева "Джедайские техники". Там очень крутой нарратив, что сложные (компликованные мне самому больно) штуки нам делать тяжело. И подход Максим предлагает очень простой. Но я даже его не смог реализовать. Нужно ЕЩЁ ПРОЩЕ!

Посмотрев на свою рутину и на наивные попытки людей всех рангов и степеней систематизировать и организовать свой телеграм, я обнаружил, что этот мессенджер — главная точка входа. У меня тогда ещё был ноушен с шаренными 1-1 бордами. Начальник мне в телегу написал тему с комментом, что было бы удобно написать "/notion тема на 1-1", а не лезть искать ссылку и заводить задачу. У меня заняло где-то пару часов наклепать бота на make.com, который из текстового сообщения в телеге делал карточку в ноушене и клал на нужную доску. Теперь начальник мог прислать сообщение боту, а не мне — не дергать меня без надобности, но и удобно записать мысль.
А потом ноушен того этого. И скатертью дорожка, если честно.

Поставил я себе todoist, подсмотрев у нескольких коллег. Но в нём все флоу какие-то не для меня. То сложные, то там надо задачам срок проставлять заранее — фу, короче. Нудятина.

Зато ботика переписать на тудуист не составило никакого труда! Поэтому, я начал изучать инструмент и строить что-то более или мене удобное. Кажется, получилось.
Forwarded from Quant Valerian
Входящие
В тудуисте прям раздел есть такой. Очень удобно. Всё, что приходит в голову, сваливаю туда. Могу написать гениальную мысль в бота в телеге, могу переслать сообщение, на которое надо оптом ответить или прочитать, интересные ссылки, видосики, всё подряд — всё летит во входящие.
Пару раз в день я захожу во входящие и разбираю всё, что там лежит. Переформулирую, дополняю, кладу в базу знаний (ну как базу...) и т.д. Из входящих всё должно либо выполниться, либо превратиться в задачку, которую потом делать буду.

Список задач
Он у меня один. Вообще буквально просто один список задач на сегодня. Но разделен на две колонки: обязательные к завершению сегодня и желательные (которые на ближайшее время на самом деле).
Список у меня сделан фильтром. Он ходит по всем проектам и собирает в две колоночки задачки.
Обязательные я помечаю тегом must.
Все остальные задачи попадают либо по признаку срок=сегодня (это всякие запланированные заранее штуки типа сходить к стоматологу или написать пост в канал), либо они лежат в своих проектах в колонке "ближайшее".

Проекты
Есть два проекта: работа и личные дела. В целом большого смысла в этом разделении нет, но в отпуске приятно при планировании недели не вспоминать про работу. Поэтому так.
В этих проектах по три колонки: ближайшее (поедет в фильтр), когда-нибудь (зачастую никогда, да) и периодически (повторяющиеся задачи, чтоб не мешались, они как раз по срокам в фильтр попадают или по гео локации).
У проекта работа есть подпроекты. Это доски для встреч 1-1. Там есть колонки повестка, действия (тоже в фильтр заезжают), старт/стоп/продолжать, о чем говорили (по идее лог беседы, но мне лень записывать, там пара записей за всю историю). Этих подпроектов дохрена. Ну типа, с кем регулярно встречаемся, для каждого есть такой. Удобно на встрече посмотреть в повестку и вспомнить, че хотел обсудить. А попадают задачи в повестку из входящих, да.

Разное
Есть ещё куча заготовок для тудуиста в интернете. Я себе взял Life Admin, чтобы не забывать покупать кофейные зерна и другие жизненно необходимые вещи, но жена справляется без меня.
Кстати, можно дать доступ жене, чтобы она тоже херачила тебе задачи в бэклог. Тоже удобно.

А как этим всем пользоваться-то?
А всё просто.

- Любая мысль, идея (позвонить маме!, а как там тот парень с родительского собрания? надо попросить чуваков сделать крутой дэшборд! подготовить, наконец, ответ тому коллеге в телегу) — пишешь ботику. Ботик заносит во входящие. Всегда можно на бегу надиктовать в телефон или даже часы. Можно переслать откуда-то, потом вспоминать контекст)))

- Открываешь утром фильтр (я назвал его Go Ahead), там задача проверить инбокс. Идешь проверять входящие (в тудуисте и, возможно, других местах, у меня это рабочая почта). Всё обрабатываешь — превращаешь в задачи, записи в базе знаний, действия.

- Идешь в фильтр Go Ahead, берешь там первую же задачу из списка must. Делаешь. Потом следующую.

- Когда задачи в этой колонке закончились, берешь задачку из остальных сегодняшних. Если че-то не успел за сегодня — пофиг. Сделаешь завтра. Вообще волноваться вредно. Не надо напрягаться. Надо радоваться.

- Раз в неделю прилетает задача "еженедельный обзор". Можно прям по GTD канонам, а можно просто по проектам пройтись и посмотреть, что переложить в когда-нибудь, а что, наоборот, из когда-нибудь в ближайшее или удалить.

- Если есть задача с датой, то просто вбей дату в задачу, положи задачу в периодически. Оно в нужный момент вылезет в фильтре.

Я со своей кучей подпроектов купил себе про подписку. Но в целом схема очень простая и легко повторяется в бесплатной версии. Если хотите помощи с no code ботиком, проще всего попросить ChatGPT, но можно и мне написать, я не кусаюсь.

Система эта у меня постоянно эволюционирует, но в скорее в сторону упрощения (так что может и деградирует). Но смысл уже много лет в том, чтобы ничего не пытаться запомнить, а все записать в одно место, где я это найду. Пока что это лучшая схема из всех, что у меня были. Пользуйтесь! Делитесь своими лафхаками для неэффективного и tupovo трекинга задач в комментах.
Kaggle для академиков

Прямо сейчас проходят соревнования, хорошее место в которых позволит опубликовать свой work-note и выступить с воркшопом на конфах CVPR25 (A+) / CLEF (A)

1. AnimalCLEF25 @ CVPR-FGVC & LifeCLEF
2. FungiCLEF25 @ CVPR-FGVC & LifeCLEF
3. PlantCLEF2025 @ LifeCLEF & CVPR-FGVC
4. GeoLifeCLEF25 @ CVPR & LifeCLEF
5. FathomNet 2025 @ CVPR-FGVC

Отдельно от них стоит BirdCLEF+ 2025. Это потому что за нее, в отличие от 5 предыдущих дают медальки, а значит конкуренция кратно выше. И это на самом деле очень хорошо, потому что можно на мягких лапах подкрасться к хорошим местам на первых пяти соревнованиях и против вас не будет драться на смерть весь консалтинг-отдел NVIDIA с 10к A100 в кармане. Отдел будет драться со мной за медальку на птичках.

А там глядишь, воркшоп с work-note на CVPR, магистратура в École Polytechnique и уютный офис Google в Париже с неплохой французской бытностью.

На фото это Эйфелева башня. Знаю, мыло, но ночью с рук сложно сделать совсем четкий снимок на polaroid. А почему я говорю именно про Париж- вы спросите лучше в лс.
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
doc.py
8.6 KB
#наподумать #47 #142

Уже середина марта, а значит самое время для написания курсовых, дипломов и так далее😓. И преподы практически во всех вузах требуют соблюдения ГОСТа, но для меня это было всегда мукой, так как не очень сильно хотелось в этом разбираться. Поэтому я сделал небольшой класс, который форматирует ваш курсач👍(в файле).

Также попробовал сделать с определенной темой(Оптимизация архитектур нейронных сетей с помощью AutoML фреймворк automl MLFlow) и генерацией llm🌟. Результаты можете увидеть в прикрепленном файле. Думаю при лучшем промпте и llm, а также структуре, можно будет писать работы за 10 минут🤨

❤️ - обернуть в тг-бота
🏆 - почаще бы такие посты
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
Модели_ранжирования_текстов.ipynb
16.4 KB
Модели ранжирования в тексте👌

На работе я сталкивался со многими сторонами поиска чего-либо в тексте, одно из них - модели ранжирования. Зачастую их использование дает наибольший прирост в метрики, также можно использовать в качестве второй модели в ансамбле(например, Faiss и bm25). Далее будет общий рассказ про каждый из методов:

1. TF-IDF (Term Frequency-Inverse Document Frequency)
TF-IDF — это классический метод ранжирования, который оценивает важность слова в документе на основе его частоты (TF) и обратной частоты в коллекции документов (IDF). Чем чаще слово встречается в документе и реже в коллекции, тем выше его вес.

Плюсы:

Простота реализации и интерпретации.
Хорошо работает для базовых задач поиска.
Эффективен для выделения ключевых слов.

Минусы:

Не учитывает порядок слов или контекст.
Предполагает независимость терминов, что не всегда верно.
Чувствителен к длине документа без нормализации.

2. BM25

BM25 — это эволюция TF-IDF, добавляющая нормализацию длины документа и насыщение термина (уменьшение влияния чрезмерно частых слов). Использует вероятностный подход для ранжирования.

Плюсы:

Учитывает длину документа, что делает его более справедливым.
Эффективен для поиска в реальных коллекциях (например, веб-поиске).
Хорошо настраивается через параметры (k1, b).

Минусы:

Требует подбора параметров для конкретной задачи.
По-прежнему игнорирует семантические связи между словами.
Может быть менее эффективен для коротких запросов.

3. Divergence from Randomness (DFR)

DFR — это модель, основанная на измерении отклонения наблюдаемого распределения терминов от случайного. Использует концепцию "риска" для оценки релевантности документа запросу.

Плюсы:

Теоретически обоснован, учитывает случайность распределения терминов.
Гибкость за счет различных вариантов реализации (например, INE, PL2).
Хорошо работает с неоднородными коллекциями.

Минусы:

Более сложен в реализации и понимании.
Требует вычислительных ресурсов для больших коллекций.
Чувствителен к выбору параметров нормализации.

4. Language Models (LM)

Модели языка оценивают вероятность генерации запроса документом, используя статистические языковые модели. Часто применяются с сглаживанием (например, Dirichlet, Jelinek-Mercer).

Плюсы:

Учитывает вероятностную природу языка.
Может интегрировать контекст и порядок слов.
Хорошо адаптируется к задачам с естественным языком.

Минусы:

Требует больших вычислительных ресурсов для обучения и работы.
Зависит от качества сглаживания и размера коллекции.
Сложнее настраивать и интерпретировать.

Выбор алгоритма зависит от задачи: для простых случаев достаточно TF-IDF, для поиска в вебе — BM25, для специфичных коллекций — DFR, а для семантического анализа — LM.

Сверху будет представлен ноутбук для практического понимания🧂

Надеюсь вам понравится этот формат постов, обязательно ставьте реакции и пишите комменты💗
Please open Telegram to view this post
VIEW IN TELEGRAM