⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0
Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).
Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.
Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)
⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417
Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).
Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)
Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.
Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)
⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417
Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/
arXiv.org
A new face swap method for image and video domains: a technical report
Deep fake technology became a hot field of research in the last few years. Researchers investigate sophisticated Generative Adversarial Networks (GAN), autoencoders, and other approaches to...
Данные – это сердце и кровеносная система IT-архитектуры, питающая бизнес жизненно важными ресурсами. Эффективное управление ими укрепляет иммунитет компании, помогает достигать высоких результатов, обеспечивать лидерство и открывать новые возможности для развития.
17 апреля приглашаем вас на Дата Саммит «Пульс данных»! Эксперты ведущих компаний и госструктур (к участию приглашены представители Минцифры, Сбербанка, Росатома, Ростеха, Роснефти, Axenix и других крупнейших игроков рынка) – поделятся практическим опытом внедрения решений для управления данными, обсудят ключевые тренды и перспективы.
Что вас ждет на Саммите:
✅ Данные + ИИ: новый уровень
Покажем, как искусственный интеллект уже встроен в решения по управлению данными, какие задачи он автоматизирует и как максимально эффективно его использовать.
❗️ Премьера: Селена – высокопроизводительная Lakehouse-платформа
Впервые представим Селену – платформу для аналитики в реальном времени. Презентацию проведет RnD-инженер, готовый ответить на любые вопросы.
🤝🏻 Нетворкинг с лидерами индустрии
Уникальная возможность пообщаться с CDO, CDTO, директорами по данным и экспертами крупнейших компаний, обменяться опытом и наладить полезные связи.
Присоединяйтесь, чтобы почувствовать пульс ваших данных!
Участвовать можно как лично, так и онлайн.
👉🏻 Зарегистрироваться
17 апреля приглашаем вас на Дата Саммит «Пульс данных»! Эксперты ведущих компаний и госструктур (к участию приглашены представители Минцифры, Сбербанка, Росатома, Ростеха, Роснефти, Axenix и других крупнейших игроков рынка) – поделятся практическим опытом внедрения решений для управления данными, обсудят ключевые тренды и перспективы.
Что вас ждет на Саммите:
✅ Данные + ИИ: новый уровень
Покажем, как искусственный интеллект уже встроен в решения по управлению данными, какие задачи он автоматизирует и как максимально эффективно его использовать.
❗️ Премьера: Селена – высокопроизводительная Lakehouse-платформа
Впервые представим Селену – платформу для аналитики в реальном времени. Презентацию проведет RnD-инженер, готовый ответить на любые вопросы.
🤝🏻 Нетворкинг с лидерами индустрии
Уникальная возможность пообщаться с CDO, CDTO, директорами по данным и экспертами крупнейших компаний, обменяться опытом и наладить полезные связи.
Присоединяйтесь, чтобы почувствовать пульс ваших данных!
Участвовать можно как лично, так и онлайн.
👉🏻 Зарегистрироваться
dis-group-events.timepad.ru
DATA SUMMIT 2025 / События на TimePad.ru
17 апреля в Москве состоится Дата Саммит «Пульс данных», посвященный наиболее востребованным практикам и российским решениям в области управления данными. Ведущие эксперты-практики расскажут, как уже сегодня такие решения помогают достигать поставленных бизнес…
В Москве появятся беспилотные поезда метро — таким образом власти столицы хотят снизить интервалы между поездами в час пик.
Начнут с Большой кольцевой линии — там уже готовят сеть 5G для быстрой связи с «беспилотниками».
Начнут с Большой кольцевой линии — там уже готовят сеть 5G для быстрой связи с «беспилотниками».
🔥1
⚡️ GPT-4.5 ТУТ — OpenAI только что анонсировали новую модель.
Она в РАЗЫ лучше конкурентов по понимаю промтов, почти не выдумывает инфу и самое главное — куда креативнее. Суперского буста в программировании ждать не стоит — o1 и o3 пока делают это лучше.
Начинают раскатывать уже сегодня, пока для подписчиков и по API.
Она в РАЗЫ лучше конкурентов по понимаю промтов, почти не выдумывает инфу и самое главное — куда креативнее. Суперского буста в программировании ждать не стоит — o1 и o3 пока делают это лучше.
Начинают раскатывать уже сегодня, пока для подписчиков и по API.
Openai
Introducing GPT-4.5
We’re releasing a research preview of GPT‑4.5—our largest and best model for chat yet. GPT‑4.5 is a step forward in scaling up pre-training and post-training.
🥱1
ИИ открыл новый способ считать. Но вы всё равно продолжите пользоваться калькулятором
ИИ должен упростить нашу жизнь, да? Ну так вот, вместо того, чтобы просто запомнить, что 2+2=4, GPT-J делает что-то похожее на тригонометрический ритуал. Он кодирует числа на многомерной спирали, раскладывает в базис косинусов, а сложение выполняет через преобразования, которые нормальный человек даже на экзамене по линалу не вспомнит.
Исследователи попытались разобраться, как LLM складывают числа, и обнаружили, что модели вроде GPT-J-6B кодируют и обнаружили метод, который назвали Clock algorithm, потому что сложение выполняется как сложение углов: через cos(a), cos(b) → cos(a+b) и напоминает сложение углов на циферблате.
Векторные представления чисел исследовали через остаточный поток модели, прогоняя GPT-J-6B на всех числах из диапазона [0,360]. Спектральный анализ показал, что представление разрежено в пространстве Фурье, а главная компонента PCA оказалась линейной. А что у нас такое периодическое и линейное? Спираль!🌀
x = r cos t
y = r sin t
y = c t
Проверили это гипотезу, подбирая параметры спирали для представления каждого числа. Оказалось, что токены, представляющие суммы (a+b), хорошо описываются этой же основой, что говорит о реальном использовании модели такого механизма.
🛠 Как проверить, что модель действительно так считает?
✔️ Intervention patching: заменили активации слоёв модели на вычисленные вручную спиральные представления и обнаружили, что это почти так же хорошо, как полная подмена слоя! Значит, модель действительно использует эту структуру.
✔️ Разделение ролей между слоями: слои MLP 14-18 формируют спиральное представление (a+b), а слои 19-27 считывают его и поднимают соответствующий токен в логитах.
✔️ Разбор нейронов: используя атрибуционные техники, исследователи выяснили, что активации нейронов MLP тоже следуют периодическим паттернам, что дополнительно подтверждает гипотезу о геликоидальном (спиральном) сложении.
Почему это важно?
Оказывается, вместо того, чтобы просто запоминать суммы, модель самостоятельно выучивает сложную, но универсальную алгоритмическую структуру! Этот же метод ранее встречался в исследованиях модульного сложения в трансформерах, который раньше описывал Neel Nanda. LLM не просто таблицы с вероятностями, а какие-то самоорганизующиеся вычислительные системы.
В любом случае, может, машинное обучение и не всегда дает интуитивно понятные решения, но точно умеет находить красивые и неожиданные пути.
🔗 Источники:
📜 arxiv
📝 Блог
💻 Код
#articles #models
ИИ должен упростить нашу жизнь, да? Ну так вот, вместо того, чтобы просто запомнить, что 2+2=4, GPT-J делает что-то похожее на тригонометрический ритуал. Он кодирует числа на многомерной спирали, раскладывает в базис косинусов, а сложение выполняет через преобразования, которые нормальный человек даже на экзамене по линалу не вспомнит.
Исследователи попытались разобраться, как LLM складывают числа, и обнаружили, что модели вроде GPT-J-6B кодируют и обнаружили метод, который назвали Clock algorithm, потому что сложение выполняется как сложение углов: через cos(a), cos(b) → cos(a+b) и напоминает сложение углов на циферблате.
Векторные представления чисел исследовали через остаточный поток модели, прогоняя GPT-J-6B на всех числах из диапазона [0,360]. Спектральный анализ показал, что представление разрежено в пространстве Фурье, а главная компонента PCA оказалась линейной. А что у нас такое периодическое и линейное? Спираль!🌀
x = r cos t
y = r sin t
y = c t
Проверили это гипотезу, подбирая параметры спирали для представления каждого числа. Оказалось, что токены, представляющие суммы (a+b), хорошо описываются этой же основой, что говорит о реальном использовании модели такого механизма.
🛠 Как проверить, что модель действительно так считает?
✔️ Intervention patching: заменили активации слоёв модели на вычисленные вручную спиральные представления и обнаружили, что это почти так же хорошо, как полная подмена слоя! Значит, модель действительно использует эту структуру.
✔️ Разделение ролей между слоями: слои MLP 14-18 формируют спиральное представление (a+b), а слои 19-27 считывают его и поднимают соответствующий токен в логитах.
✔️ Разбор нейронов: используя атрибуционные техники, исследователи выяснили, что активации нейронов MLP тоже следуют периодическим паттернам, что дополнительно подтверждает гипотезу о геликоидальном (спиральном) сложении.
Почему это важно?
Оказывается, вместо того, чтобы просто запоминать суммы, модель самостоятельно выучивает сложную, но универсальную алгоритмическую структуру! Этот же метод ранее встречался в исследованиях модульного сложения в трансформерах, который раньше описывал Neel Nanda. LLM не просто таблицы с вероятностями, а какие-то самоорганизующиеся вычислительные системы.
В любом случае, может, машинное обучение и не всегда дает интуитивно понятные решения, но точно умеет находить красивые и неожиданные пути.
🔗 Источники:
📜 arxiv
📝 Блог
💻 Код
#articles #models
arXiv.org
Language Models Use Trigonometry to Do Addition
Mathematical reasoning is an increasingly important indicator of large language model (LLM) capabilities, yet we lack understanding of how LLMs process even simple mathematical tasks. To address...
🔥1
https://github.com/DenoiseLAB/HSE_Assistant_Hack - запушил наше решение по HSE Assistant Hack. Очень долго мы там тюнили все, прям реально долго подбирали гиперпараметы и по итогу взяли первые места на лидерборде как на привате так и на паблике.
GitHub
GitHub - DenoiseLAB/HSE_Assistant_Hack: Решение по HSE assistantHack
Решение по HSE assistantHack. Contribute to DenoiseLAB/HSE_Assistant_Hack development by creating an account on GitHub.
https://github.com/DenoiseLAB?tab=repositories - периодически сюда пушу, неплохие решения которые были за практику.
#coding
#coding
GitHub
DenoiseLAB - Repositories
DenoiseLAB has 14 repositories available. Follow their code on GitHub.
DenoiseLAB pinned «https://github.com/DenoiseLAB?tab=repositories - периодически сюда пушу, неплохие решения которые были за практику. #coding»
This media is not supported in your browser
VIEW IN TELEGRAM
«Бегущий по лезвию 2049»: китайская компания BYD совместно с DJI начала продавать систему запуска дронов с крыши для всех своих авто
По задумке, коптер будет снимать пейзажи и красивые пролеты рядом с тачкой, а также помогать ориентироваться на бездорожье.
Он взлетает по нажатию одной кнопки и автоматически возвращается на место.
#technology
По задумке, коптер будет снимать пейзажи и красивые пролеты рядом с тачкой, а также помогать ориентироваться на бездорожье.
Он взлетает по нажатию одной кнопки и автоматически возвращается на место.
#technology
https://github.com/natasha/slovnet - если вы вдруг ищите NLP на русском, всякие тулзы и корпуса слов, мимо этого вы не пройдете.
GitHub
GitHub - natasha/slovnet: Deep Learning based NLP modeling for Russian language
Deep Learning based NLP modeling for Russian language - natasha/slovnet
Режиссёр-самоучка сделал в бесплатной программе мульт, который нагнул Disney, забрал «Оскар» и превратил чёрного кота в национального героя — рассказываем историю оглушительного успеха «Потока».
Гинтс Зильбалодис с детства мечтал сделать крутой мульт — родители привили любовь к рисованию, оставалось только заставить картинки двигаться. В Латвии нет вышки для аниматоров, поэтому Гинтс вооружился гайдами на Ютубе и засел изучать Blender.
Анимация диалогов получалась у парня хуже всего, поэтому он твёрдо решил — хорошая история обойдётся и без них. На сценарий без единой реплики у Гинтса и его друга ушло больше 3 лет.
Сюжет получился прост: в постапокалиптическом будущем котик выживает в мире, в котором нет людей. Он нашел убежище на лодке вместе с другими животными, однако ужиться с ними оказывается ещё сложнее, чем преодолеть свой страх воды.
Одна из главных фишек мульта — реалистичные движения персонажей. Зильбалодис и его команда просмотрели тысячи мемных видео с котиками и другими животными, параллельно посещая зоопарк. Там нашли и «актёров» — для мульта записывали звуки реальных животных.
Всё испортила капибара: её уговаривали, кормили, щекотали, а в ответ услышали лишь писк, который бил по ушам. В итоге капибару «озвучил» верблюд.
На амбициозного режиссёра с бюджетом в два дошика обратило внимания правительство — фонды Латвии, Франции и Бельгии выделили в сумме 3,5 миллиона евро. Для сравнения масштабов — у «Головоломки 2» от Disney бюджет свыше 200 млн долларов.
Инвестиции отбились — картина стала настоящим хитом, собрала 20 миллионов долларов, забрала «Оскар» за лучший мульт, а сам Гинтс радостно делится в Твиттере историями разработки.
Чёрный кот же стал героем в Латвии — хвостатому поставили статую в Риге, уличные художники рисуют арты с ним, а дата получения «Оскара» стала национальным праздником.
@exploitex
Гинтс Зильбалодис с детства мечтал сделать крутой мульт — родители привили любовь к рисованию, оставалось только заставить картинки двигаться. В Латвии нет вышки для аниматоров, поэтому Гинтс вооружился гайдами на Ютубе и засел изучать Blender.
Анимация диалогов получалась у парня хуже всего, поэтому он твёрдо решил — хорошая история обойдётся и без них. На сценарий без единой реплики у Гинтса и его друга ушло больше 3 лет.
Сюжет получился прост: в постапокалиптическом будущем котик выживает в мире, в котором нет людей. Он нашел убежище на лодке вместе с другими животными, однако ужиться с ними оказывается ещё сложнее, чем преодолеть свой страх воды.
Одна из главных фишек мульта — реалистичные движения персонажей. Зильбалодис и его команда просмотрели тысячи мемных видео с котиками и другими животными, параллельно посещая зоопарк. Там нашли и «актёров» — для мульта записывали звуки реальных животных.
Всё испортила капибара: её уговаривали, кормили, щекотали, а в ответ услышали лишь писк, который бил по ушам. В итоге капибару «озвучил» верблюд.
На амбициозного режиссёра с бюджетом в два дошика обратило внимания правительство — фонды Латвии, Франции и Бельгии выделили в сумме 3,5 миллиона евро. Для сравнения масштабов — у «Головоломки 2» от Disney бюджет свыше 200 млн долларов.
Инвестиции отбились — картина стала настоящим хитом, собрала 20 миллионов долларов, забрала «Оскар» за лучший мульт, а сам Гинтс радостно делится в Твиттере историями разработки.
Чёрный кот же стал героем в Латвии — хвостатому поставили статую в Риге, уличные художники рисуют арты с ним, а дата получения «Оскара» стала национальным праздником.
@exploitex
Настоящее Время
Латвия получила первый в своей истории "Оскар" за мультфильм "Поток"
Мультфильм "Поток" (в оригинале – Straume, в международном прокате – Flow) латвийского режиссера Гинтса Зилбалодиса получил премию "Оскар" в номинации "Лучший анимационный фильм". Впервые в истории работа латвийского производства удостоилась самой престижной…