Forwarded from Нейросети и Блендер
ControlNet для QR кодов
😳 Интересная идея обрабатывать QR коды, жаль не... Наведите и перейдете на одну и ту же ссылку.
☺️ Невероятно круто. Ссылка на реддит. Процесс создания(сайт на китайском, но отлично переводится).
😶🌫️ Модели для ContolNet пока нет в открытом доступе, ожидаем...
P.S. на
реддите есть настройки, чтобы попробовать уже сейчас обработать QR код через SD.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Experimental chill
Сегодня прям праздник статей!
Я тут писал про оптимизации хеширования и сортировок с помощью Reinforcement Learning, Deepmind выложили статью, я в acknowledgements.
AlphaDev discovers faster sorting and hashing algorithms
https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms
Faster sorting algorithms discovered using deep reinforcement learning
https://www.nature.com/articles/s41586-023-06004-9
Из очень хорошего, работать мне с ними понравилось. Из интересного -- результаты не самые революционные, но какие-то циклы серверов сэкономили.
Я тут писал про оптимизации хеширования и сортировок с помощью Reinforcement Learning, Deepmind выложили статью, я в acknowledgements.
AlphaDev discovers faster sorting and hashing algorithms
https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms
Faster sorting algorithms discovered using deep reinforcement learning
https://www.nature.com/articles/s41586-023-06004-9
Из очень хорошего, работать мне с ними понравилось. Из интересного -- результаты не самые революционные, но какие-то циклы серверов сэкономили.
Deepmind
AlphaDev discovers faster sorting algorithms
In our paper published today in Nature, we introduce AlphaDev, an artificial intelligence (AI) system that uses reinforcement learning to discover enhanced computer science algorithms – surpassing those honed by scientists and engineers over decades.
This media is not supported in your browser
VIEW IN TELEGRAM
Гугловый Бард совершенствуется в логике и рассуждениях
Отличные новости для пользователей Барда! Сегодня запускаются два интересных улучшения, которые обещают улучшить его производительность в математических задачах и работе с кодом.
Новая техника под названием "неявное выполнение кода" позволяет Bard обнаруживать вычислительные промпты и выполнять код в фоновом режиме, что приводит к более точным ответам на сложные рассуждения и математические задачи.
Как это работает? Большие языковые модели (LLM), такие как Bard, предсказывают наиболее вероятное следующее слово в ответе, что очень хорошо для творческих задач. Но когда дело доходит до таких областей, как рассуждения и математика, такого подхода недостаточно.
Именно здесь на помощь приходит неявное выполнение кода, сочетающее возможности традиционных вычислений с предсказательной силой LLM для улучшения производительности Bard.
Опираясь на идеи, изложенные в книге Дэниела Канемана "Думай медленно, решай быстро", Бард теперь может балансировать между быстрым, интуитивным мышлением "Системы 1" и медленным, обдуманным мышлением "Системы 2".
Точность ответов Барда на вычислительные промпты в ходе тестирования повысилась примерно на 30%.
А еще, если вы попросите Bard "создать таблицу для регистрации волонтеров в моем приюте для животных" - они сразу будут экспортированы прямо в Sheets.
🎸 Новость
Отличные новости для пользователей Барда! Сегодня запускаются два интересных улучшения, которые обещают улучшить его производительность в математических задачах и работе с кодом.
Новая техника под названием "неявное выполнение кода" позволяет Bard обнаруживать вычислительные промпты и выполнять код в фоновом режиме, что приводит к более точным ответам на сложные рассуждения и математические задачи.
Как это работает? Большие языковые модели (LLM), такие как Bard, предсказывают наиболее вероятное следующее слово в ответе, что очень хорошо для творческих задач. Но когда дело доходит до таких областей, как рассуждения и математика, такого подхода недостаточно.
Именно здесь на помощь приходит неявное выполнение кода, сочетающее возможности традиционных вычислений с предсказательной силой LLM для улучшения производительности Bard.
Опираясь на идеи, изложенные в книге Дэниела Канемана "Думай медленно, решай быстро", Бард теперь может балансировать между быстрым, интуитивным мышлением "Системы 1" и медленным, обдуманным мышлением "Системы 2".
Точность ответов Барда на вычислительные промпты в ходе тестирования повысилась примерно на 30%.
А еще, если вы попросите Bard "создать таблицу для регистрации волонтеров в моем приюте для животных" - они сразу будут экспортированы прямо в Sheets.
🎸 Новость
This media is not supported in your browser
VIEW IN TELEGRAM
Materialistic: Selecting Similar Materials in Images
MIT совместно с Adobe разработали метод сегментации похожих материалов. Этот метод хорошо работает с различными условиями освещения и тенями, и не полагается на семантическую сегментацию.
В этом подходе используется предварительно обученная self-supervised (#SSL) модель DINOv1 от Меты. Несмотря на свои впечатляющие возможности, эмбеддинги в DINO не инвариантны и поэтому не могут быть использованы для сегментации материалов. Для решения этой проблемы, авторы добавили к DINO энкодер материалов, который сопоставляет эмбеддинги из DINO с материалом и преобразует пространственно неточные представления в более точные попиксельные представления. Cross-Similarity модуль позволяет пользователю выбирать материал, который будет сцементирован по всему изображению.
📜 Статья
🌐 Примеры
@karray
MIT совместно с Adobe разработали метод сегментации похожих материалов. Этот метод хорошо работает с различными условиями освещения и тенями, и не полагается на семантическую сегментацию.
В этом подходе используется предварительно обученная self-supervised (#SSL) модель DINOv1 от Меты. Несмотря на свои впечатляющие возможности, эмбеддинги в DINO не инвариантны и поэтому не могут быть использованы для сегментации материалов. Для решения этой проблемы, авторы добавили к DINO энкодер материалов, который сопоставляет эмбеддинги из DINO с материалом и преобразует пространственно неточные представления в более точные попиксельные представления. Cross-Similarity модуль позволяет пользователю выбирать материал, который будет сцементирован по всему изображению.
📜 Статья
🌐 Примеры
@karray
Как поговорить с PDFкой, используя всего 10 строк кода.
Вот что нужно сделать:
1. Загрузите файл PDF.
2. Разделите документ на более мелкие фрагменты.
3. Сделайте эмбеддинг каждого фрагмента используя большую языковую модель (например от OpenAI).
4. Подгрузите эмбеддинги в память векторного хранилища Faiss Vector DB.
5. Задавайте вопросы о PDF.
Все это можно сделать с помощью библиотеки Langchain.
🦜 Langchain
👌 Источник
Вот что нужно сделать:
1. Загрузите файл PDF.
2. Разделите документ на более мелкие фрагменты.
3. Сделайте эмбеддинг каждого фрагмента используя большую языковую модель (например от OpenAI).
4. Подгрузите эмбеддинги в память векторного хранилища Faiss Vector DB.
5. Задавайте вопросы о PDF.
Все это можно сделать с помощью библиотеки Langchain.
🦜 Langchain
👌 Источник
🔬 Обновления OpenAI API - еще на шаг ближе к личному ассистенту
OpenAI объявило о внедрении целого ряда улучшений в свои модели, среди которых большая гибкость управления моделями API, возможность вызова функций, расширение контекста, а также снижение цен.
Среди новшеств стоит отметить:
📍 Возможность вызова функций в Chat Completions API
📍 Обновлённые и более поддерживаемые версии gpt-4 и gpt-3.5-turbo
📍 Новая версия gpt-3.5-turbo с контекстом 16k (против стандартной версии 4k)
📍 Снижение стоимости на 75% для нашей модели векторного представления данных
📍 Снижение стоимости на 25% за входные токены для gpt-3.5-turbo
Нововведение в виде вызова функций позволит разработчикам более надёжно связывать возможности GPT с внешними инструментами и API.
К примеру, теперь разработчики могут:
📨 Создавать чат-ботов, отвечающих на вопросы с помощью внешних инструментов
🔀 Преобразовывать естественный язык в вызовы API или запросы к базам данных
🗂 Извлекать структурированные данные из текста
И что самое удивительное, пока во всем мире инфляция и цены повышаются - OpenAI наоборот демпингует и снижает цены на использование своего API.
Новость
OpenAI объявило о внедрении целого ряда улучшений в свои модели, среди которых большая гибкость управления моделями API, возможность вызова функций, расширение контекста, а также снижение цен.
Среди новшеств стоит отметить:
📍 Возможность вызова функций в Chat Completions API
📍 Обновлённые и более поддерживаемые версии gpt-4 и gpt-3.5-turbo
📍 Новая версия gpt-3.5-turbo с контекстом 16k (против стандартной версии 4k)
📍 Снижение стоимости на 75% для нашей модели векторного представления данных
📍 Снижение стоимости на 25% за входные токены для gpt-3.5-turbo
Нововведение в виде вызова функций позволит разработчикам более надёжно связывать возможности GPT с внешними инструментами и API.
К примеру, теперь разработчики могут:
📨 Создавать чат-ботов, отвечающих на вопросы с помощью внешних инструментов
🔀 Преобразовывать естественный язык в вызовы API или запросы к базам данных
🗂 Извлекать структурированные данные из текста
И что самое удивительное, пока во всем мире инфляция и цены повышаются - OpenAI наоборот демпингует и снижает цены на использование своего API.
Новость
Ай-ЖЕПА: умная модель AI, которая учится понимать мир как люди
Meta представили первую AI модель, основанную на ключевом компоненте видения Яна ЛеКуна. Модель I-JEPA выучивает скрытое представление окружающего мира и отличается высокой эффективностью в различных задачах компьютерного зрения.
В прошлом году главный научный сотрудник по AI в Meta, Ян ЛеКун, предложил новую архитектуру, призванную преодолеть ключевые ограничения даже самых передовых AI систем сегодня. Его видение - создать машины, которые способные понять, как работает мир. Он считает что тогда они и обучаться будут быстрее, и планировать, как выполнять сложные задачи, и легко адаптироваться к незнакомым ситуациям тоже смогут.
И вот, Meta наконец то представили первую AI модель, основанную на ключевом компоненте видения ЛеКуна. Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится создавать модель окружающего мира с помощью сравнения абстрактных образов (вместо сравнения просто пикселей.
I-JEPA демонстрирует потенциал self-supervised (#SSL) архитектур для представлений изображений без необходимости в дополнительном знании, закодированном через ручные преобразования изображений. Это важный шаг к применению и масштабированию self-supervised методов для изучения общей модели мира.
И пусть "Ай-ЖЕПА" в русском языке может и звучать немного забавно, Meta делает ставку на то, что AGI к нам придет от зрения (вообще кажется все компании так или иначе делают ставку на один орган осязания, например на язык как в случае с Open AI).
✌️ Блог-пост
📖 Статья
💾 Код
Meta представили первую AI модель, основанную на ключевом компоненте видения Яна ЛеКуна. Модель I-JEPA выучивает скрытое представление окружающего мира и отличается высокой эффективностью в различных задачах компьютерного зрения.
В прошлом году главный научный сотрудник по AI в Meta, Ян ЛеКун, предложил новую архитектуру, призванную преодолеть ключевые ограничения даже самых передовых AI систем сегодня. Его видение - создать машины, которые способные понять, как работает мир. Он считает что тогда они и обучаться будут быстрее, и планировать, как выполнять сложные задачи, и легко адаптироваться к незнакомым ситуациям тоже смогут.
И вот, Meta наконец то представили первую AI модель, основанную на ключевом компоненте видения ЛеКуна. Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится создавать модель окружающего мира с помощью сравнения абстрактных образов (вместо сравнения просто пикселей.
I-JEPA демонстрирует потенциал self-supervised (#SSL) архитектур для представлений изображений без необходимости в дополнительном знании, закодированном через ручные преобразования изображений. Это важный шаг к применению и масштабированию self-supervised методов для изучения общей модели мира.
И пусть "Ай-ЖЕПА" в русском языке может и звучать немного забавно, Meta делает ставку на то, что AGI к нам придет от зрения (вообще кажется все компании так или иначе делают ставку на один орган осязания, например на язык как в случае с Open AI).
✌️ Блог-пост
📖 Статья
💾 Код
Pinball автоматы
Когда-то давно, еще во времена Windows XP, я мог часами играть в пинбол на своем стареньком Pentium 4. А недавно я столкнулся с этой игрой в новом для себя формате, на этот раз это был реальный, физический пинбол.
В Emporium San Francisco я обнаружил пинбол-автомат, посвященный сериалу Stranger Things. Сразу стало понятно, что игра будет не просто про набор очков. Нет, игра про гораздо большее.
В этой игре есть сюжет. Да, вы не ошиблись, в пинболе оказывается есть сюжет. Игра следует основным событиям сериала, и каждая попытка отбить шарик становится частью большого приключения. Оказывается, чтобы продвигаться по сюжету нужно выполнять определенные задания и миссии. Например забить мячом в левый верхний угол или попасть по светящейся лампочке.
Атмосфера была непередаваема - каждая реплика из сериала, воспроизводимая автоматом, по задумке создателей должна переносить тебя в мир Hawkins (в реальности все кричит и шумит так, что комфортнее играть в шумоподавляющих наушниках со своей музыкой). Но все это вместе - звуки, свет, задания - создавали ощущение, что ты не просто играешь в игру, а ты становишься частью чего-то большего.
Монетки уходили одна за другой, но это того стоило. С каждой новой игрой я погружался все глубже в сюжет. Кстати, поиграть стоит примерно 10 долларов в час.
Так что, если вам когда-либо попадется в глаза пинбол Stranger Things в Emporium San Francisco, не упустите возможность опробовать. Это не просто игра, это путешествие, полное приключений и открытий.
Когда-то давно, еще во времена Windows XP, я мог часами играть в пинбол на своем стареньком Pentium 4. А недавно я столкнулся с этой игрой в новом для себя формате, на этот раз это был реальный, физический пинбол.
В Emporium San Francisco я обнаружил пинбол-автомат, посвященный сериалу Stranger Things. Сразу стало понятно, что игра будет не просто про набор очков. Нет, игра про гораздо большее.
В этой игре есть сюжет. Да, вы не ошиблись, в пинболе оказывается есть сюжет. Игра следует основным событиям сериала, и каждая попытка отбить шарик становится частью большого приключения. Оказывается, чтобы продвигаться по сюжету нужно выполнять определенные задания и миссии. Например забить мячом в левый верхний угол или попасть по светящейся лампочке.
Атмосфера была непередаваема - каждая реплика из сериала, воспроизводимая автоматом, по задумке создателей должна переносить тебя в мир Hawkins (в реальности все кричит и шумит так, что комфортнее играть в шумоподавляющих наушниках со своей музыкой). Но все это вместе - звуки, свет, задания - создавали ощущение, что ты не просто играешь в игру, а ты становишься частью чего-то большего.
Монетки уходили одна за другой, но это того стоило. С каждой новой игрой я погружался все глубже в сюжет. Кстати, поиграть стоит примерно 10 долларов в час.
Так что, если вам когда-либо попадется в глаза пинбол Stranger Things в Emporium San Francisco, не упустите возможность опробовать. Это не просто игра, это путешествие, полное приключений и открытий.
Красивый вид с холма в Сан Хранциско
Как то неожиданно выдался свободный вечер, и я вышел прогуляться по району.
Живем мы в районе Alamo square, о котором я наверное расскажу в другой раз.
Еще с тех пор как я остался в Сан Франциско на первую ночь, я заприметил холмик. Этот холмик меня с завидной регулярностью к себе манил. Но сходить на него было все как-то не в досуг.
После примерно 25 минутной прогулки пешком и подъема в горку ~120м, открывается вот такой вот сумасшедший вид.
Природа - это определенно сумасшедшее, преимущество Сан Франциско. Ведь смотря на такое хочется простить и бесконечную серость и холод.
Кто бы мог подумать что Трондхейм меня застигнет в Калифорнии. Но в тоже время это прям настоящая походная природа. Залезь на горку, преодолей невзгоды и на промозглом ветру сядь на пенопопу, и выпей горячего чайку с друзьями.
📍Corona Heights
Как то неожиданно выдался свободный вечер, и я вышел прогуляться по району.
Живем мы в районе Alamo square, о котором я наверное расскажу в другой раз.
Еще с тех пор как я остался в Сан Франциско на первую ночь, я заприметил холмик. Этот холмик меня с завидной регулярностью к себе манил. Но сходить на него было все как-то не в досуг.
После примерно 25 минутной прогулки пешком и подъема в горку ~120м, открывается вот такой вот сумасшедший вид.
Природа - это определенно сумасшедшее, преимущество Сан Франциско. Ведь смотря на такое хочется простить и бесконечную серость и холод.
Кто бы мог подумать что Трондхейм меня застигнет в Калифорнии. Но в тоже время это прям настоящая походная природа. Залезь на горку, преодолей невзгоды и на промозглом ветру сядь на пенопопу, и выпей горячего чайку с друзьями.
📍Corona Heights
Forwarded from Earth&Climate Tech
Выделение объектов на Лидаре с помощью ML
LiDAR (Light identification, Detection and Ranging) - крутая штука. Это технология получения и обработки информации с помощью активных оптических систем (лазеров). Такой "лазерный дальнометр" для картирования объектов в 3Д и еще с координатами. Используется повсеместно в куче индустрий от беспилотных автомобилей до майнинга. Даже на айфонах есть (но не на моем 😢). На картинке, например, "лидарная" карта залива Линнхейвен в Вирджинии 🤩.
Но я даже не про красивые картинки. Они же просто красивые, а пользы сами по себе приносят мало. Польза есть, если, например, из этих моделей, по сути точек с координатами, вытаскивать реальные объекты. То есть делать сегментацию 💡.
Об этом и интересная статья на Медиуме: Introducing Segment-Lidar: Revolutionizing Unsupervised Instance Segmentation of Aerial LiDAR Data, которая рассказывает как применять крутейший алгоритм по выделению объектов SAM от компании Meta для выделения объектов на геопространственных данных, полученных с помощью Лидара (картинка 2). Статья, собственно, представляет собой пошаговую инструкцию, как это делать с помощью модуля в Питоне segment-lidar.
📖 Medium
💻 Github
#GIS #ML
LiDAR (Light identification, Detection and Ranging) - крутая штука. Это технология получения и обработки информации с помощью активных оптических систем (лазеров). Такой "лазерный дальнометр" для картирования объектов в 3Д и еще с координатами. Используется повсеместно в куче индустрий от беспилотных автомобилей до майнинга. Даже на айфонах есть (но не на моем 😢). На картинке, например, "лидарная" карта залива Линнхейвен в Вирджинии 🤩.
Но я даже не про красивые картинки. Они же просто красивые, а пользы сами по себе приносят мало. Польза есть, если, например, из этих моделей, по сути точек с координатами, вытаскивать реальные объекты. То есть делать сегментацию 💡.
Об этом и интересная статья на Медиуме: Introducing Segment-Lidar: Revolutionizing Unsupervised Instance Segmentation of Aerial LiDAR Data, которая рассказывает как применять крутейший алгоритм по выделению объектов SAM от компании Meta для выделения объектов на геопространственных данных, полученных с помощью Лидара (картинка 2). Статья, собственно, представляет собой пошаговую инструкцию, как это делать с помощью модуля в Питоне segment-lidar.
📖 Medium
💻 Github
#GIS #ML
Forwarded from Neural Shit
Не chatgpt единым.
Тем временем автор проекта llama.cpp и разработчик библиотеки ggml, объявил о создании компании ggml.ai с целью дальнейшего развития этой библиотеки.
ggml позволяет запускать большие языковые модели на центральных процессорах (не нужна йоба-видеокарта) и ужимать их до удобных размеров с незначительными потерями в точности.
Штош, желаем удачи и надеемся, что эти чуваки напилят еще много интересного и крутого!
Тем временем автор проекта llama.cpp и разработчик библиотеки ggml, объявил о создании компании ggml.ai с целью дальнейшего развития этой библиотеки.
ggml позволяет запускать большие языковые модели на центральных процессорах (не нужна йоба-видеокарта) и ужимать их до удобных размеров с незначительными потерями в точности.
Штош, желаем удачи и надеемся, что эти чуваки напилят еще много интересного и крутого!
Media is too big
VIEW IN TELEGRAM
Ура, добывающая профессия теперь и в МЛ. Infinigen - «золотоносная» жила для генерации качественных синтетических 3D сцен для задач компьютерного зрения
Двигатель прогресса в МЛ - качественные данные. С этим много сложностей от этичного сбора до проклято-трудоемкой аннотации (особенно видео). Исследователи давно работают над симуляцией, и пока это не было достаточно хорошим решением (ограниченная вариативность, упрощенные текстуры и геометрии, зависимость от референсов).
Ученые из Принстона представили Infinigen - источник бесконечных возможностей генерации природных 3D сцен с автоматической аннотацией.
Infinigen восхитительный, потому что:
Процедурный. Каждый объект, от формы до текстуры, создается с нуля по стохастическим правилам и настраивается(!), а количество интерпретируемых человеком степеней свободы (типа материала и размера камней, формы листьев и лепестков) не менее 1070.
Геометрически достоверный. В нем не используются рельефные карты или прозрачности. Все детали геометрии реальные. В этом помогает Blender.
Вдохновлен эволюцией. Зрение млекопитающих развивалось в мире растений, животных, ландшафтов и природных явлений: огонь, дождь, снег. И важно в геологоразведке, навигации беспилотников, экологического мониторинга, спасательных работ, автоматизации сельского хозяйства.
Автоматически аннотируется. Для различных задач CV от оптического потока, 3D-flow сцены, нормалей поверхности до паноптической сегментации и границы окклюзии.
Доступный. Открытый код и artist-friendly с конвертацией Blender Nodes в питон.
Теперь почему это труд и нужен инпут сообщества.
Среднее время создания пары изображений 1080p составляет 3,5 часа. Примерно один час из этого времени используется GPU для рендеринга. Требует в среднем 24 Гб памяти (тестировали на 2 процессорах Intel(R) Xeon(R) Silver 4114 @ 2.20GHz и 1 из 5 NVidia-GPU).
Зато получается годно с первого раза.
Обещают в ближайшее время выложить предсимуляции и создать большой репозиторий с общей копилкой генераций.
🔑Сайт
⛏ Код
📖Пейпер
@GingerSpacetail
Двигатель прогресса в МЛ - качественные данные. С этим много сложностей от этичного сбора до проклято-трудоемкой аннотации (особенно видео). Исследователи давно работают над симуляцией, и пока это не было достаточно хорошим решением (ограниченная вариативность, упрощенные текстуры и геометрии, зависимость от референсов).
Ученые из Принстона представили Infinigen - источник бесконечных возможностей генерации природных 3D сцен с автоматической аннотацией.
Infinigen восхитительный, потому что:
Процедурный. Каждый объект, от формы до текстуры, создается с нуля по стохастическим правилам и настраивается(!), а количество интерпретируемых человеком степеней свободы (типа материала и размера камней, формы листьев и лепестков) не менее 1070.
Геометрически достоверный. В нем не используются рельефные карты или прозрачности. Все детали геометрии реальные. В этом помогает Blender.
Вдохновлен эволюцией. Зрение млекопитающих развивалось в мире растений, животных, ландшафтов и природных явлений: огонь, дождь, снег. И важно в геологоразведке, навигации беспилотников, экологического мониторинга, спасательных работ, автоматизации сельского хозяйства.
Автоматически аннотируется. Для различных задач CV от оптического потока, 3D-flow сцены, нормалей поверхности до паноптической сегментации и границы окклюзии.
Доступный. Открытый код и artist-friendly с конвертацией Blender Nodes в питон.
Теперь почему это труд и нужен инпут сообщества.
Среднее время создания пары изображений 1080p составляет 3,5 часа. Примерно один час из этого времени используется GPU для рендеринга. Требует в среднем 24 Гб памяти (тестировали на 2 процессорах Intel(R) Xeon(R) Silver 4114 @ 2.20GHz и 1 из 5 NVidia-GPU).
Зато получается годно с первого раза.
Обещают в ближайшее время выложить предсимуляции и создать большой репозиторий с общей копилкой генераций.
🔑Сайт
⛏ Код
📖Пейпер
@GingerSpacetail
Тренды в Компьютерном Зрении
На этой неделе, в Канаде проходит конференция по компьютерному зрению CVPR. По ней можно судить о самых горячих трендах в области:
Трансформеры для обработки изображений: Эта архитектура уже стала уверенной альтернативой сверточным нейронным сетям, начиная с момента публикации статьи о ней в 2020 году. Однако до сих пор остаются нерешенными вопросы, например, как наиболее эффективно превратить задачу обработки изображений в проблему предсказания токенов.
Генерация изображений: Алгоритмы для генерации изображений становятся все более распространенными в CVPR после появления GAN и моделей диффузии. В этом году было представлено много оригинальных работ по редактированию изображений и предоставлению пользователям более детализированного контроля над тем, что генерируют эти модели.
NeRF: Этот подход к созданию 3D-сцены из набора 2D-изображений набирает обороты уже некоторое время. Исследователи стремятся масштабировать NeRF для больших сцен, сделать его более эффективным, справляться с движущимися сценами, работать с меньшим количеством входных изображений и так далее.
Мультимодальные модели: Также привлекают внимание исследователей, поскольку один трансформер может преобразовывать как изображение, так и текст в последовательность токенов. Многие команды исследуют подобные архитектуры.
Самоуправляемые автомобили: Несмотря на то, что путь к ним оказался длиннее, чем многие ожидали, в этой области продолжаются активные исследования.
Такие тренды указывают на активное развитие отрасли и открывают новые возможности для применения компьютерного зрения в различных областях.
Продолжайте учиться!
На этой неделе, в Канаде проходит конференция по компьютерному зрению CVPR. По ней можно судить о самых горячих трендах в области:
Трансформеры для обработки изображений: Эта архитектура уже стала уверенной альтернативой сверточным нейронным сетям, начиная с момента публикации статьи о ней в 2020 году. Однако до сих пор остаются нерешенными вопросы, например, как наиболее эффективно превратить задачу обработки изображений в проблему предсказания токенов.
Генерация изображений: Алгоритмы для генерации изображений становятся все более распространенными в CVPR после появления GAN и моделей диффузии. В этом году было представлено много оригинальных работ по редактированию изображений и предоставлению пользователям более детализированного контроля над тем, что генерируют эти модели.
NeRF: Этот подход к созданию 3D-сцены из набора 2D-изображений набирает обороты уже некоторое время. Исследователи стремятся масштабировать NeRF для больших сцен, сделать его более эффективным, справляться с движущимися сценами, работать с меньшим количеством входных изображений и так далее.
Мультимодальные модели: Также привлекают внимание исследователей, поскольку один трансформер может преобразовывать как изображение, так и текст в последовательность токенов. Многие команды исследуют подобные архитектуры.
Самоуправляемые автомобили: Несмотря на то, что путь к ним оказался длиннее, чем многие ожидали, в этой области продолжаются активные исследования.
Такие тренды указывают на активное развитие отрасли и открывают новые возможности для применения компьютерного зрения в различных областях.
Продолжайте учиться!