Forwarded from DLStories
В продолжение к посту выше: эта история мне напомнила еще один недавний случай, где метрика сыграла большую роль. Не так давно в Твиттере/Реддите стали появляться сообщения, что ChatGPT что-то "сильно отупела". Конкретно, в задачах, где нужно генерировать код, стала выдавать невалидный код. Который тупо не запускается. Потом еще ребята из Стенфорда выпустили статью, где основательно сравнили перформанс ChatGPT и GPT-4 в марте и июне 2023 года. Эти сравнения были очень выразительными: в марте где-то 50% кода, выданного ChatGPT, было корректным, а в июне этот показатель стал 10%. Вот твит с парой таких картинок.
Это навело какую-то шумиху, я даже в нескольких чатах видела обсуждение (ну и правда, было интересно, что такое случилось). Ну а что же там произошло на самом деле: оказывается, снова дело было в метрике. В том, как авторы статьи измеряли "корректность" кода, выданного ChatGPT. Измерялась она, похоже, так: берем код, который выдает модель, запускаем. Запустилось — хорошо, не запустилось — плохо. И с мартовской версией ChatGPT большинство кода работало, с июньской версией перестало. В чем же дело?
А дело в том, что OpenAI поменяла вид, в котором ChatGPT выдает код. Теперь весь код в выводе обрамляется кавычками, и рядом еще ставится приписка, какой язык программирования используется. И именно это нововведение сломало прямой запуск кода в выводе ChatGPT. Т.е. модель продолжила выдавать правильный код, но запуск этого кода стал ломаться из-за добавленных кавычек.
Вот такая история. Подробнее про нее и другие аспекты этой статьи можно почитать в Сиолошной. Это еще один повод, чтобы чуть исследовать удивительные открытия, перед тем как писать "this is huge"(сори, у меня немного аллергия на посты, которые начинаются с таких фраз)
Это навело какую-то шумиху, я даже в нескольких чатах видела обсуждение (ну и правда, было интересно, что такое случилось). Ну а что же там произошло на самом деле: оказывается, снова дело было в метрике. В том, как авторы статьи измеряли "корректность" кода, выданного ChatGPT. Измерялась она, похоже, так: берем код, который выдает модель, запускаем. Запустилось — хорошо, не запустилось — плохо. И с мартовской версией ChatGPT большинство кода работало, с июньской версией перестало. В чем же дело?
А дело в том, что OpenAI поменяла вид, в котором ChatGPT выдает код. Теперь весь код в выводе обрамляется кавычками, и рядом еще ставится приписка, какой язык программирования используется. И именно это нововведение сломало прямой запуск кода в выводе ChatGPT. Т.е. модель продолжила выдавать правильный код, но запуск этого кода стал ломаться из-за добавленных кавычек.
Вот такая история. Подробнее про нее и другие аспекты этой статьи можно почитать в Сиолошной. Это еще один повод, чтобы чуть исследовать удивительные открытия, перед тем как писать "this is huge"
Бифотонная цифровая голография - быстрый и точный метод квантовой томографии
Представьте, что можно было бы восстановить изображение объекта по фотонам, которые никогда с этим объектом не взаимодействовали. Например, сделать рентгеновский снимок по пучку фотонов, который не проходил сквозь тело пациента. Нет, никто не сошел с ума. Это ghost imaging. Просто в квантовой физике так звучит примерно все. Дело в запутанных частицах, демонстрирующих сильные нелокальные корреляции.
Сложность воплощения этой (и любой другой) квантовой технологии в определении волновой функции, которая описывает чистое квантовое состояние системы, т.е. всю информацию о ней. Это процесс называется томографией квантового состояния. Свежая публикация в Nature Photonics как раз про новейший метод квантовой томографии - бифотонную цифровую голографию (пока) двух запутанных фотонов.
До этого открытия волновую функцию пытались реконструировать методом проекционной томографии. Проекционной как в любом томографе - видим "тени" объекта на разные "стены" и по ним пытаемся понять (спасибо Родону), как выглядит этот объект.
Квантовое состояние с т.зр математики - вектор в гильбертовом пространстве многочисленных степеней свобод, и это слишком многомерный объект, чтобы справиться с задачей проектным способом (занимает дни измерений и вычислений для двух частиц).
А голография основана на интерферограмме - изображении, полученном путем интерференции рассеянного объектом света с референсом.
Ученым из Университета Оттавы и Римского университета Ла Сапиенца удалось получить довольно высокую точность реконструкции - 87% и сделать процесс более эффективным (на 3 порядка быстрее).
Это гиганский шаг для многочастичной квантовой механики (чтобы квантовые компьютеры когда-нибудь покинули лаборатории), многомерных квантовых коммуникаций (к которым мы готовимся, переходя на новые стандарты пост-квантовой криптографии), и заканчивая quantum sensing, как минимум, для улучшения промышленной и медицинской визуализации.
🪩 Статья
@GingerSpacetail
Представьте, что можно было бы восстановить изображение объекта по фотонам, которые никогда с этим объектом не взаимодействовали. Например, сделать рентгеновский снимок по пучку фотонов, который не проходил сквозь тело пациента. Нет, никто не сошел с ума. Это ghost imaging. Просто в квантовой физике так звучит примерно все. Дело в запутанных частицах, демонстрирующих сильные нелокальные корреляции.
Сложность воплощения этой (и любой другой) квантовой технологии в определении волновой функции, которая описывает чистое квантовое состояние системы, т.е. всю информацию о ней. Это процесс называется томографией квантового состояния. Свежая публикация в Nature Photonics как раз про новейший метод квантовой томографии - бифотонную цифровую голографию (пока) двух запутанных фотонов.
До этого открытия волновую функцию пытались реконструировать методом проекционной томографии. Проекционной как в любом томографе - видим "тени" объекта на разные "стены" и по ним пытаемся понять (спасибо Родону), как выглядит этот объект.
Квантовое состояние с т.зр математики - вектор в гильбертовом пространстве многочисленных степеней свобод, и это слишком многомерный объект, чтобы справиться с задачей проектным способом (занимает дни измерений и вычислений для двух частиц).
А голография основана на интерферограмме - изображении, полученном путем интерференции рассеянного объектом света с референсом.
Ученым из Университета Оттавы и Римского университета Ла Сапиенца удалось получить довольно высокую точность реконструкции - 87% и сделать процесс более эффективным (на 3 порядка быстрее).
Это гиганский шаг для многочастичной квантовой механики (чтобы квантовые компьютеры когда-нибудь покинули лаборатории), многомерных квантовых коммуникаций (к которым мы готовимся, переходя на новые стандарты пост-квантовой криптографии), и заканчивая quantum sensing, как минимум, для улучшения промышленной и медицинской визуализации.
@GingerSpacetail
Please open Telegram to view this post
VIEW IN TELEGRAM
Code Llama – еще один шажок к ИИ программистам
Meta сегодня представила Code Llama, модель, которая обещает стать новым словом в мире программирования. Она была создана для того, чтобы ускорить и упростить процесс разработки для программистов и помочь новичкам.
- Открытая и бесплатная модель, основанная на платформе Llama 2.
- Три версии: основная, для Python и с акцентом на исполнение инструкций.
- В тестах превзошла другие известные LLM.
Meta надеется, что их новый инструмент даст толчок к инновациям в сфере программирования и поможет всему сообществу разработчиков.
🐙 Код
🤩 Веса
🤓 Статья
🙃 Блог-пост
Meta сегодня представила Code Llama, модель, которая обещает стать новым словом в мире программирования. Она была создана для того, чтобы ускорить и упростить процесс разработки для программистов и помочь новичкам.
- Открытая и бесплатная модель, основанная на платформе Llama 2.
- Три версии: основная, для Python и с акцентом на исполнение инструкций.
- В тестах превзошла другие известные LLM.
Meta надеется, что их новый инструмент даст толчок к инновациям в сфере программирования и поможет всему сообществу разработчиков.
🐙 Код
🤩 Веса
🤓 Статья
🙃 Блог-пост
3х мерные функции Гаусса для быстрого синтеза фотореалистичных 3D сцен
Друзья, сегодня я расскажу про интересную научную работу по компьютерному зрению и графике. В ней предлагается новый подход к быстрому синтезу 3х мерных фотореалистичных сцен по набору фотографий.
Одно из популярных направлений - фотограмметрия, где по множеству фотографий восстанавливается 3D структура сцены, а затем на ее основе синтезируются новые ракурсы. Недавно появился прорывной метод NeRF, моделирующий сцену непрерывным нейросетевым полем.
Однако существующие подходы либо требуют огромных вычислительных ресурсов, либо дают изображения не очень высокого качества.
В основе нового метода, который моментально захватил сердца и умы исследователей лежит представление сцены с помощью 3D функций Гаусса. Это такие объемные "комочки", форма которых задается уравнением Гаусса (колоколообразная кривая).
Каждая такая функция (или как их еще называют сплайн) описывается центром, формой и интенсивностью. Чтобы синтезировать новый ракурс, достаточно спроецировать эти функции на плоскость изображения и сложить их интенсивности.
Первичная структура сцены получается с помощью метода Structure from Motion (SfM), который анализирует множество фото и определяет положение камер и выдает облако точек сцены.
На основе этих данных строится начальное представление сцены, которое затем оптимизируется, чтобы синтезированные изображения максимально походили на исходные фото.
В итоге получается компактное и эффективное описание сцены, позволяющее делать фотореалистичный 3D рендеринг с скоростью 30-300 FPS!
Такой подход может найти применение не только в компьютерных играх и метаверсе, но и в науке для визуализации сложных 3D данных, например, при моделировании молекул или астрофизических объектов.
👀 Видео
Подпишись на @nn_for_science
Друзья, сегодня я расскажу про интересную научную работу по компьютерному зрению и графике. В ней предлагается новый подход к быстрому синтезу 3х мерных фотореалистичных сцен по набору фотографий.
Одно из популярных направлений - фотограмметрия, где по множеству фотографий восстанавливается 3D структура сцены, а затем на ее основе синтезируются новые ракурсы. Недавно появился прорывной метод NeRF, моделирующий сцену непрерывным нейросетевым полем.
Однако существующие подходы либо требуют огромных вычислительных ресурсов, либо дают изображения не очень высокого качества.
В основе нового метода, который моментально захватил сердца и умы исследователей лежит представление сцены с помощью 3D функций Гаусса. Это такие объемные "комочки", форма которых задается уравнением Гаусса (колоколообразная кривая).
Каждая такая функция (или как их еще называют сплайн) описывается центром, формой и интенсивностью. Чтобы синтезировать новый ракурс, достаточно спроецировать эти функции на плоскость изображения и сложить их интенсивности.
Первичная структура сцены получается с помощью метода Structure from Motion (SfM), который анализирует множество фото и определяет положение камер и выдает облако точек сцены.
На основе этих данных строится начальное представление сцены, которое затем оптимизируется, чтобы синтезированные изображения максимально походили на исходные фото.
В итоге получается компактное и эффективное описание сцены, позволяющее делать фотореалистичный 3D рендеринг с скоростью 30-300 FPS!
Такой подход может найти применение не только в компьютерных играх и метаверсе, но и в науке для визуализации сложных 3D данных, например, при моделировании молекул или астрофизических объектов.
Подпишись на @nn_for_science
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
3D Gaussian Splatting for Real-Time Radiance Field Rendering
SIGGRAPH 2023
(ACM Transactions on Graphics)
----------------------------------------------------
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
Radiance Field methods have recently revolutionized novel-view synthesis of scenes captured with multiple…
(ACM Transactions on Graphics)
----------------------------------------------------
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
Radiance Field methods have recently revolutionized novel-view synthesis of scenes captured with multiple…
🌾 Как современные технологии помогают классифицировать урожай
Вы когда-нибудь задумывались, как ученые и фермеры определяют различные виды культур на огромных площадях земли? Используя последние достижения в области спутниковой съемки, исследователи создали уникальный датасет, который помогает различать разнообразные культуры по всем Соединенным Штатам.
Используя изображения от спутников Landsat и Sentinel, ученые смогли собрать данные о различных культурах за 2022 год. Эти изображения не просто фотографии – они содержат информацию о растениях в разных спектрах света (видимый и инфракрасный), что позволяет точно классифицировать типы растений.
Датасет включает в себя «патчи» - небольшие участки земли размером 224 x 224 пикселя. Каждый такой "патч" содержит информацию о растительности в трех различных временных точках в течение сезона роста. Так, ученые могут отслеживать изменения на полях в разное время года.
Основная цель датасета - обучение компьютерных моделей, что бы они могли различать и классифицировать разные типы растений. Это может помочь в сельском хозяйстве, экологии и многих других областях.
💡 Как это было сделано?
Исследователи отобрали 5,000 "патчей" из данных USDA, а затем выбрали наилучшие изображения без облаков. Эти изображения были проанализированы, скомбинированы и отсортированы, чтобы создать окончательный датасет из 3,854 "патчей".
🤩 Датасет
Подпишись на @nn_for_science
Вы когда-нибудь задумывались, как ученые и фермеры определяют различные виды культур на огромных площадях земли? Используя последние достижения в области спутниковой съемки, исследователи создали уникальный датасет, который помогает различать разнообразные культуры по всем Соединенным Штатам.
Используя изображения от спутников Landsat и Sentinel, ученые смогли собрать данные о различных культурах за 2022 год. Эти изображения не просто фотографии – они содержат информацию о растениях в разных спектрах света (видимый и инфракрасный), что позволяет точно классифицировать типы растений.
Датасет включает в себя «патчи» - небольшие участки земли размером 224 x 224 пикселя. Каждый такой "патч" содержит информацию о растительности в трех различных временных точках в течение сезона роста. Так, ученые могут отслеживать изменения на полях в разное время года.
Основная цель датасета - обучение компьютерных моделей, что бы они могли различать и классифицировать разные типы растений. Это может помочь в сельском хозяйстве, экологии и многих других областях.
💡 Как это было сделано?
Исследователи отобрали 5,000 "патчей" из данных USDA, а затем выбрали наилучшие изображения без облаков. Эти изображения были проанализированы, скомбинированы и отсортированы, чтобы создать окончательный датасет из 3,854 "патчей".
🤩 Датасет
Подпишись на @nn_for_science
🎧 Рок-н-ролл прямо из мозга!
Ученые из Франции восстановили мелодию песни Another Brick In The Wall группы Pink Floyd из активности слуховой коры мозга 29 добровольцев!
Исследователи записали электрическую активность мозга при прослушивании музыки с помощью имплантированных электродов. Затем они использовали нейросети, чтобы восстановить спектрограмму песни из полученных нейроданных.
Результат был удивительным - узнаваемая мелодия и даже некоторые слова! ✨ Это открывает путь к новым нейроинтерфейсам, которые смогут восстанавливать речь и музыку.
В исследовании также pассмотрели факторы, влияющие на точность восстановления:
🔹 Количество электродов (чем больше, тем лучше)
🔹 Длительность записи (достаточно 30-60 секунд)
🔹 Тип модели (нелинейные модели работают лучше)
Восстановление звуков напрямую из мозга - захватывающее направление в нейротехнологиях, которое открывает удивительные возможности для творчества!
Теперь любые музыкальные идеи, которые возникают в голове, можно будет записать - достаточно подключить электроды и "вытащить" мелодию.
Представьте, сколько новых шедевров появится, если каждый сможет легко записывать свои музыкальные фантазии! 💡🎵
🎵 Послушать
🤓 Источник
Подпишись на @nn_for_science
Ученые из Франции восстановили мелодию песни Another Brick In The Wall группы Pink Floyd из активности слуховой коры мозга 29 добровольцев!
Исследователи записали электрическую активность мозга при прослушивании музыки с помощью имплантированных электродов. Затем они использовали нейросети, чтобы восстановить спектрограмму песни из полученных нейроданных.
Результат был удивительным - узнаваемая мелодия и даже некоторые слова! ✨ Это открывает путь к новым нейроинтерфейсам, которые смогут восстанавливать речь и музыку.
В исследовании также pассмотрели факторы, влияющие на точность восстановления:
🔹 Количество электродов (чем больше, тем лучше)
🔹 Длительность записи (достаточно 30-60 секунд)
🔹 Тип модели (нелинейные модели работают лучше)
Восстановление звуков напрямую из мозга - захватывающее направление в нейротехнологиях, которое открывает удивительные возможности для творчества!
Теперь любые музыкальные идеи, которые возникают в голове, можно будет записать - достаточно подключить электроды и "вытащить" мелодию.
Представьте, сколько новых шедевров появится, если каждый сможет легко записывать свои музыкальные фантазии! 💡🎵
Подпишись на @nn_for_science
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Neuroscientists recreate Pink Floyd song from recorded brain waves
Neuroscientists were able to recreate 'Another Brick in the Wall, Part 1' using AI to decipher the brain’s electrical activity. The reconstructed Pink Floyd song represents a breakthrough that could restore the musicality of natural speech to patients with…
This media is not supported in your browser
VIEW IN TELEGRAM
SeamlessM4T: первая универсальная мультимодальная языковая модель
Существующие системы машинного перевода имеют два недостатка: ограниченный языковой охват, а также зависимость от нескольких моделей, что часто приводит к ошибкам перевода, задержкам и сложностям в практическом применении.
SeamlessM4T от Meta это первая универсальная мультимодальная языковая модель. Что это значит:
- Это супер полиглот в одной коробке, поддерживающий около 100 языков ввода (речь + текст), 100 языков вывода текста и 36 языков вывода речи.
- SeamlessM4T может сама распознавать исходный язык(и)
- Поскольку модель одна, увеличивается скорость работы (нет каскадных взаимодействий с другими моделями)
- Metaхвастается сообщает, что SeamlessM4T опережает существующие решения по точности и аккуратности перевода
И как вишенка на торте: модель выпущена публично под лицензией CC BY-NC 4.0.
💻 Демо
📚 Статья
🐙 GitHub
💭 Блог-пост
@innovationitsme
Подпишись на @nn_for_science
Существующие системы машинного перевода имеют два недостатка: ограниченный языковой охват, а также зависимость от нескольких моделей, что часто приводит к ошибкам перевода, задержкам и сложностям в практическом применении.
SeamlessM4T от Meta это первая универсальная мультимодальная языковая модель. Что это значит:
- Это супер полиглот в одной коробке, поддерживающий около 100 языков ввода (речь + текст), 100 языков вывода текста и 36 языков вывода речи.
- SeamlessM4T может сама распознавать исходный язык(и)
- Поскольку модель одна, увеличивается скорость работы (нет каскадных взаимодействий с другими моделями)
- Meta
И как вишенка на торте: модель выпущена публично под лицензией CC BY-NC 4.0.
💻 Демо
📚 Статья
💭 Блог-пост
@innovationitsme
Подпишись на @nn_for_science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔧 Как файнтюнить (образно) языковые модели на что угодно?
Сегодня у нас интересная статья о том, как сделать из большой языковой модели - модель специализирующуюся на конкретной предметной области.
Автор, Иван Ямщиков, использует в качестве примера создание модели, разбирающейся в стратегии Civilization 6.
В статье дается пошаговая инструкция:
1. Найти подходящие тексты и документы по теме.
2. Разбить их на небольшие части.
3. Закодировать тексты в векторные представления.
4. Сохранить векторы и тексты в базу данных.
5. При составлении запроса к ИИ искать в базе данных релевантные тексты и включать их в запрос.
6. Выбрать подходящую модель ИИ.
7. Протестировать модель на заранее подготовленных вопросах.
8. Оценить качество ответов модели, сравнив их с ответами людей или более сильной модели ИИ.
9. Проанализировать результаты тестирования.
10. Выбрать лучшую модель.
Такая методика позволяет создать ИИ, хорошо разбирающийся в какой-то конкретной предметной области. Полезная информация для тех, кто хочет обучить ИИ работе с конкретными данными!
🗒️ Заметка
Подпишись на @nn_for_science
Сегодня у нас интересная статья о том, как сделать из большой языковой модели - модель специализирующуюся на конкретной предметной области.
Автор, Иван Ямщиков, использует в качестве примера создание модели, разбирающейся в стратегии Civilization 6.
В статье дается пошаговая инструкция:
1. Найти подходящие тексты и документы по теме.
2. Разбить их на небольшие части.
3. Закодировать тексты в векторные представления.
4. Сохранить векторы и тексты в базу данных.
5. При составлении запроса к ИИ искать в базе данных релевантные тексты и включать их в запрос.
6. Выбрать подходящую модель ИИ.
7. Протестировать модель на заранее подготовленных вопросах.
8. Оценить качество ответов модели, сравнив их с ответами людей или более сильной модели ИИ.
9. Проанализировать результаты тестирования.
10. Выбрать лучшую модель.
Такая методика позволяет создать ИИ, хорошо разбирающийся в какой-то конкретной предметной области. Полезная информация для тех, кто хочет обучить ИИ работе с конкретными данными!
🗒️ Заметка
Подпишись на @nn_for_science
Tesla готовится к первому суду по ДТП с применением автопилота и летальным исходом
🚔Запланированное на середину сентября заседание в суде штата Калифорния включает в себя исковое заявление, в котором утверждается, что система автопилота заставила автомобиль Model 3 владельца Мики Ли внезапно съехать с шоссе со скоростью 65 миль в час и столкнуться с пальмой.
🚓Второе судебное разбирательство, назначенное на начало октября в суде штата Флорида, будет об аварии, произошедшей в 2019 году, когда автомобиль Model 3 владельца Стивена Баннера столкнулся с прицепом 18-колесного грузовика.
🙅♂️Tesla отрицает свою ответственность за оба происшествия, возлагая вину на ошибку водителей, и подчеркивает, что автопилот это вспомогательная система, и водители должны контролировать автомобиль.
👀 Учитывая прецедентное право в США результаты данных процессов могут иметь далеко идущие последствия
🚘 Статья
Подпишись на @nn_for_science
🚔Запланированное на середину сентября заседание в суде штата Калифорния включает в себя исковое заявление, в котором утверждается, что система автопилота заставила автомобиль Model 3 владельца Мики Ли внезапно съехать с шоссе со скоростью 65 миль в час и столкнуться с пальмой.
🚓Второе судебное разбирательство, назначенное на начало октября в суде штата Флорида, будет об аварии, произошедшей в 2019 году, когда автомобиль Model 3 владельца Стивена Баннера столкнулся с прицепом 18-колесного грузовика.
🙅♂️Tesla отрицает свою ответственность за оба происшествия, возлагая вину на ошибку водителей, и подчеркивает, что автопилот это вспомогательная система, и водители должны контролировать автомобиль.
👀 Учитывая прецедентное право в США результаты данных процессов могут иметь далеко идущие последствия
🚘 Статья
Подпишись на @nn_for_science
Explainable AI для self-supervised learning
Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.
В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.
Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.
Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.
Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.
К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.
Подпишись на @nn_for_science
Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.
В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.
Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.
Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.
Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.
К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.
Подпишись на @nn_for_science
RELAX: Representation Learning Explainability
Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.
Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.
Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.
Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).
Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.
📄 Статья
Подпишись на @nn_for_science
Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.
Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.
Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.
Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).
Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.
📄 Статья
Подпишись на @nn_for_science
Forwarded from DLStories
Мы открываем набор на осенний семестр школы глубокого обучения Deep Learning School!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена обработке естественного языка (NLP) и обработке звука.
Сейчас идет набор на первую часть. О новостях второй части курса напишем отдельно (скоро).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и подробную программу первой части можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Начиная с этого года также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Занятия начинаются 16 сентября. Регистрация продлится до 23 сентября. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).
Ссылки:
Наш сайт
Подробная программа и оргинформация первой части курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
❗️В этом году в организации школы произошли некоторые изменения по сравнению с предыдущими потоками. Подробнее о них читайте тут. Также хочется сказать, что мы за лето хорошо поработали над организацией, и теперь не будет задержек в выкладке материалов, проверке дз и решении других вопросов =)
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com), в сообщения в группе VK или в комментарии под этим постом.
И ждем вас в чатике курса в новом семестре! =)
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена обработке естественного языка (NLP) и обработке звука.
Сейчас идет набор на первую часть. О новостях второй части курса напишем отдельно (скоро).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и подробную программу первой части можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Начиная с этого года также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Занятия начинаются 16 сентября. Регистрация продлится до 23 сентября. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).
Ссылки:
Наш сайт
Подробная программа и оргинформация первой части курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
❗️В этом году в организации школы произошли некоторые изменения по сравнению с предыдущими потоками. Подробнее о них читайте тут. Также хочется сказать, что мы за лето хорошо поработали над организацией, и теперь не будет задержек в выкладке материалов, проверке дз и решении других вопросов =)
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com), в сообщения в группе VK или в комментарии под этим постом.
И ждем вас в чатике курса в новом семестре! =)
Burning Man 2023
В этом году мне удалось осуществить свою давнюю мечту и оказаться на Burning Man. Этого бы не произошло, если бы не мои невероятные друзья! Спасибо 😍
Каждый год, порядка 80.000 человек приезжают в пустыню Black Rock Desert в штате Невада и строят там самый настоящий город - Black Rock City. Мне показалось, что этот город - идеальная выжимка человечества, всех людских нарративов, своего рода центральная площадь Вселенной, где людские истории и идеи переопыляются и трансформируются во что-то новое.
Все еще перевариваю произошедшее, но наверное главное что я понял (и чем бы хотел поделиться) пока был в пустыне - это то что всё в нашей жизни определяется намерением.
Как только намерение появилось и оно сформулировано четко - Вселенная сразу же стремиться дать тебе то, что ты хочешь. На Burning Man от намерения до реализации зачастую проходит всего несколько минут, и это невероятно!
На Плае (так Бернеры называют пустыню в районе города) столько всего, что многие возможности и новый опыт надо просто пропускать через себя и отпускать, что тоже способствует переосмыслению.
Конечно всего не рассказать, но постараюсь ответить на интересные вопросы в комментариях.
See you in the dust
В этом году мне удалось осуществить свою давнюю мечту и оказаться на Burning Man. Этого бы не произошло, если бы не мои невероятные друзья! Спасибо 😍
Каждый год, порядка 80.000 человек приезжают в пустыню Black Rock Desert в штате Невада и строят там самый настоящий город - Black Rock City. Мне показалось, что этот город - идеальная выжимка человечества, всех людских нарративов, своего рода центральная площадь Вселенной, где людские истории и идеи переопыляются и трансформируются во что-то новое.
Все еще перевариваю произошедшее, но наверное главное что я понял (и чем бы хотел поделиться) пока был в пустыне - это то что всё в нашей жизни определяется намерением.
Как только намерение появилось и оно сформулировано четко - Вселенная сразу же стремиться дать тебе то, что ты хочешь. На Burning Man от намерения до реализации зачастую проходит всего несколько минут, и это невероятно!
На Плае (так Бернеры называют пустыню в районе города) столько всего, что многие возможности и новый опыт надо просто пропускать через себя и отпускать, что тоже способствует переосмыслению.
Конечно всего не рассказать, но постараюсь ответить на интересные вопросы в комментариях.
See you in the dust