Вышел новый подкаст с @crimeacs про землетрясения
Землетрясения, которые произошли в начале года в Турции и Сирии, привели к гибели более 50 тысяч человек и разрушили множество зданий. В связи с этим возник вопрос о причинах такой катастрофы и о возможных мерах предотвращения.
Меня (а еще Кирилла и Александра) пригласили в последний выпуск научно-популярного подкаста "Юра, мы всё узнали!" , чтобы мы пролили свет на причины землетрясений и способы минимизации их последствий.
Яндекс.Музыка
Spotify
Apple Podcasts
Castbox
Землетрясения, которые произошли в начале года в Турции и Сирии, привели к гибели более 50 тысяч человек и разрушили множество зданий. В связи с этим возник вопрос о причинах такой катастрофы и о возможных мерах предотвращения.
Меня (а еще Кирилла и Александра) пригласили в последний выпуск научно-популярного подкаста "Юра, мы всё узнали!" , чтобы мы пролили свет на причины землетрясений и способы минимизации их последствий.
Яндекс.Музыка
Spotify
Apple Podcasts
Castbox
Новость: Stability AI запускает первый набор языковых моделей StableLM
StableLM предназначена для генерации текста и кода и будет использоваться в различных приложениях. Она демонстрирует, как маленькие и эффективные модели могут достигать высокой производительности при соответствующем обучении.
Модель StableLM обучена на новом экспериментальном наборе данных, созданном на основе набора данных The Pile, который в три раза больше с 1,5 триллионом токенов контента.
StableLM демонстрирует удивительную производительность в разговорных и кодовых задачах, несмотря на ее небольшой размер от 3 до 7 миллиардов параметров (в сравнении, у GPT-3 175 миллиардов параметров).
Модели от 15 до 65 миллиардами параметров находятся в разработке.
И 🍒на торте: StableLM с открытым исходным кодом! Бежим тестить!
Пресс-релиз
GitHub
HuggingFace
StableLM предназначена для генерации текста и кода и будет использоваться в различных приложениях. Она демонстрирует, как маленькие и эффективные модели могут достигать высокой производительности при соответствующем обучении.
Модель StableLM обучена на новом экспериментальном наборе данных, созданном на основе набора данных The Pile, который в три раза больше с 1,5 триллионом токенов контента.
StableLM демонстрирует удивительную производительность в разговорных и кодовых задачах, несмотря на ее небольшой размер от 3 до 7 миллиардов параметров (в сравнении, у GPT-3 175 миллиардов параметров).
Модели от 15 до 65 миллиардами параметров находятся в разработке.
И 🍒на торте: StableLM с открытым исходным кодом! Бежим тестить!
Пресс-релиз
GitHub
HuggingFace
Forwarded from Сиолошная
Посмотрел TED Talk от Президента OpenAI, Greg Brockman.
В нём Greg рассказывает про то, насколько языковая модель становится более способной, если к ней прикрутить плагины (внешние модели и/или скрипты, с которыми GPT может "переписываться"). Это частично отсылает нас к основной причине, которую я упоминал на стриме с Валерой (появилась запись, кстати), почему языковые модели это умнО. Потому что они могут коммуницировать между собой также, как это делают люди, и выполнять разные роли, при этом программировать их на каком-то конкретном языке, отличном от английского, не нужно.
В общем, если хочется посмотреть демку - приглашаю к ознакомлению. Но упомянул я видео не поэтому, что хотел приплести видос с Валерой - а потому что среди прочего у Greg спросили, какие возможности модели его поразили.
Если вы помните, в статье про ChatGPT я писал, что GPT-3 научилась в математику, но только на уровне сложения-умножения 2-3 значных чисел. Там можно спекулировать, мол, все такие пары встречались в трейне, модель просто их выучила!
Ну так вот, Greg рассказал - а я проверил - что модель может складывать спокойно даже 40-значные числа, потому что она поняла процесс познакового сложения. При этом если дать одно 40 и одно 35 значное число - магии не произойдет. Числа, которые вводил я - полностью случайные, просто руками по клаве повозил. Уверен на 100%, что комбинация уникальная. Пример решён верно, перепроверил в Python. Оговорюсь, что перенос строки в промпте я не делал, это из-за ширины текстового окна так кажется, то есть даже форматирования простейшего нет.
P.S.: а ещё Greg поделился, что при запуске GPT-3 они боялись, что люди начнут генерировать дезинформацию, а те...начали генерировать спам про виагру (таблетки) ахаххахаха люди такие люди...
В нём Greg рассказывает про то, насколько языковая модель становится более способной, если к ней прикрутить плагины (внешние модели и/или скрипты, с которыми GPT может "переписываться"). Это частично отсылает нас к основной причине, которую я упоминал на стриме с Валерой (появилась запись, кстати), почему языковые модели это умнО. Потому что они могут коммуницировать между собой также, как это делают люди, и выполнять разные роли, при этом программировать их на каком-то конкретном языке, отличном от английского, не нужно.
В общем, если хочется посмотреть демку - приглашаю к ознакомлению. Но упомянул я видео не поэтому, что хотел приплести видос с Валерой - а потому что среди прочего у Greg спросили, какие возможности модели его поразили.
Если вы помните, в статье про ChatGPT я писал, что GPT-3 научилась в математику, но только на уровне сложения-умножения 2-3 значных чисел. Там можно спекулировать, мол, все такие пары встречались в трейне, модель просто их выучила!
Ну так вот, Greg рассказал - а я проверил - что модель может складывать спокойно даже 40-значные числа, потому что она поняла процесс познакового сложения. При этом если дать одно 40 и одно 35 значное число - магии не произойдет. Числа, которые вводил я - полностью случайные, просто руками по клаве повозил. Уверен на 100%, что комбинация уникальная. Пример решён верно, перепроверил в Python. Оговорюсь, что перенос строки в промпте я не делал, это из-за ширины текстового окна так кажется, то есть даже форматирования простейшего нет.
P.S.: а ещё Greg поделился, что при запуске GPT-3 они боялись, что люди начнут генерировать дезинформацию, а те...начали генерировать спам про виагру (таблетки) ахаххахаха люди такие люди...
CLAP 👏 - как CLIP, но для звуков
Во-первых: контрастное обучение продемонстрировало значительный успех в области изучения мультимодальных представлений. В данной работе предлагается "язык-аудио" для создания аудиопредставлений путем объединения аудиоданных с описаниями на естественном языке. Для достижения этой цели авторы сначала выпустили LAION-Audio-630K, большую коллекцию из 633 526 аудио-текстовых пар из различных источников данных.
Во-вторых, они построили контрастную модель предварительного обучения "язык-аудио", рассматривая различные аудиокодеры и текстовые кодеры. Они включили в модель механизм слияния признаков и дополнения ключевых слов к подписям, что позволило модели обрабатывать аудиоданные различной длины и повысить производительность.
В-третьих, авторы оценивают модель в трех задачах: поиск текста по аудиозаписям, классификация аудиозаписей zero-shot и контролируемая классификация аудиозаписей.
Результаты показывают, что модель достигает превосходной производительности в задаче поиска текста по аудиозаписям. В задачах классификации аудио модель достигает передовой производительности в условиях zero-shot.
📕 Статья
🦑 Модель
Во-первых: контрастное обучение продемонстрировало значительный успех в области изучения мультимодальных представлений. В данной работе предлагается "язык-аудио" для создания аудиопредставлений путем объединения аудиоданных с описаниями на естественном языке. Для достижения этой цели авторы сначала выпустили LAION-Audio-630K, большую коллекцию из 633 526 аудио-текстовых пар из различных источников данных.
Во-вторых, они построили контрастную модель предварительного обучения "язык-аудио", рассматривая различные аудиокодеры и текстовые кодеры. Они включили в модель механизм слияния признаков и дополнения ключевых слов к подписям, что позволило модели обрабатывать аудиоданные различной длины и повысить производительность.
В-третьих, авторы оценивают модель в трех задачах: поиск текста по аудиозаписям, классификация аудиозаписей zero-shot и контролируемая классификация аудиозаписей.
Результаты показывают, что модель достигает превосходной производительности в задаче поиска текста по аудиозаписям. В задачах классификации аудио модель достигает передовой производительности в условиях zero-shot.
📕 Статья
🦑 Модель
Forwarded from Сиолошная
Наш любимый HuggingFace 🤗 запускает свой ответ ChatGPT: HuggingChat 💬
В основе лежит затюненнаяя OpenAssistant фейсбучная LLAMA на 30B параметров, про которую я писал раньше. Она, кстати, уже доступна 3 дня как - прям самая большая и мощная, ага!
Доступно тут в привычном интерфейсе https://huggingface.co/chat/
На скриншоте - пример ответа модели на запрос создать игру "Змейка".
UPD: веб-приложение легло под натиском запросов, подождём (ну или можно запускать локально, хе-хе)
В основе лежит затюненнаяя OpenAssistant фейсбучная LLAMA на 30B параметров, про которую я писал раньше. Она, кстати, уже доступна 3 дня как - прям самая большая и мощная, ага!
Доступно тут в привычном интерфейсе https://huggingface.co/chat/
На скриншоте - пример ответа модели на запрос создать игру "Змейка".
UPD: веб-приложение легло под натиском запросов, подождём (ну или можно запускать локально, хе-хе)
Please open Telegram to view this post
VIEW IN TELEGRAM
Прорыв в области аугментации мультимодальных данных: LeMDA
Интеллектуальные системы предназначены для обучения на основе различных типов данных, таких как текст, аудио и изображения. Несмотря на то, что нейронные сети достигли больших успехов в использовании мультимодальных данных, методы аугментации данных (получение дополнительных данных из существующих) в основном ограничиваются одной модальностью за раз.
Аугментация данных для мультимодального обучения - задача сложная, поскольку трудно сохранить общий смысл при дополнении каждой модальности. Например, если каким-то случайным образом изменить изображение, подпись к нему может перестать его точно описывать. Кроме того, сложно придумать подходящие преобразования, которые работают для всех модальностей.
Авторы представляют LeMDA (Learning Multimodal Data Augmentation)! Этот простой в использовании метод автоматически учится дополнять мультимодальные данные в пространстве признаков (закодированное представление данных), без необходимости знать точные модальности или их взаимосвязи. LeMDA имеет три основных преимущества:
* Она значительно повышает производительность мультимодальных архитектур глубокого обучения.
* Она может применяться к комбинациям модальностей, которые ранее не рассматривались.
* Она достигает самых современных результатов в различных приложениях с изображениями, текстом и табличными данными.
LeMDA - это революционное решение для мультимодального дополнения данных, прокладывающее путь к созданию более надежных и универсальных интеллектуальных систем.
📕 Статья
🦑 Код
Интеллектуальные системы предназначены для обучения на основе различных типов данных, таких как текст, аудио и изображения. Несмотря на то, что нейронные сети достигли больших успехов в использовании мультимодальных данных, методы аугментации данных (получение дополнительных данных из существующих) в основном ограничиваются одной модальностью за раз.
Аугментация данных для мультимодального обучения - задача сложная, поскольку трудно сохранить общий смысл при дополнении каждой модальности. Например, если каким-то случайным образом изменить изображение, подпись к нему может перестать его точно описывать. Кроме того, сложно придумать подходящие преобразования, которые работают для всех модальностей.
Авторы представляют LeMDA (Learning Multimodal Data Augmentation)! Этот простой в использовании метод автоматически учится дополнять мультимодальные данные в пространстве признаков (закодированное представление данных), без необходимости знать точные модальности или их взаимосвязи. LeMDA имеет три основных преимущества:
* Она значительно повышает производительность мультимодальных архитектур глубокого обучения.
* Она может применяться к комбинациям модальностей, которые ранее не рассматривались.
* Она достигает самых современных результатов в различных приложениях с изображениями, текстом и табличными данными.
LeMDA - это революционное решение для мультимодального дополнения данных, прокладывающее путь к созданию более надежных и универсальных интеллектуальных систем.
📕 Статья
🦑 Код
Stability AI запускает API для увеличения изображений
Компания Stability AI объявила о выпуске своего революционного API для увеличения изображений, который позволяет пользователям увеличивать размер любого изображения без ущерба для его резкости и детализации. Этот инновационный инструмент на базе ИИ станет ценным дополнением к набору API для создания и редактирования изображений.
API увеличения изображения использует две современные модели с открытым исходным кодом, Real-ESRGAN и Stable Diffusion 4x Upscaler. Теперь пользователи могут легко увеличивать изображения, независимо от того, созданы они с использованием Stability AI или нет, получая исключительные результаты.
🦾 Документация
🐕 Анонс
Компания Stability AI объявила о выпуске своего революционного API для увеличения изображений, который позволяет пользователям увеличивать размер любого изображения без ущерба для его резкости и детализации. Этот инновационный инструмент на базе ИИ станет ценным дополнением к набору API для создания и редактирования изображений.
API увеличения изображения использует две современные модели с открытым исходным кодом, Real-ESRGAN и Stable Diffusion 4x Upscaler. Теперь пользователи могут легко увеличивать изображения, независимо от того, созданы они с использованием Stability AI или нет, получая исключительные результаты.
🦾 Документация
🐕 Анонс
Поваренная книга Self-supervised Learning (#SSL) от Meta.
Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.
Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.
Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).
Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.
Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.
📕 Книга
🐕 Анонс
Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.
Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.
Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).
Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.
Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.
📕 Книга
🐕 Анонс
Media is too big
VIEW IN TELEGRAM
Wonder Dymanics демократизирует создание компьютерной графики в кино
Представьте, что вы хотите включить друга робота в свой киберпанк ютуб сериал. До сегодняшнего дня вы бы отказалась от идеи примерно сразу, потому что качественная работа по визуальным эффектам (VFX) обоходится в $20 000 за секунду. {Поэтому реалистичные анимированные персонажи остаются прерогативой высокобюджетных проектов}
Из чего складывается эта сумма. Самый первый шаг - сделать модель, текстуры самого персонажа. Если не хотите анимировать его вручную, вам понадобится студия захвата движения или съемочное оборудование, отражающие шары, зеленые экраны и всякое такое. Из них к каркасу компьютерной графики необходимо применить примитивы движения, а актера заменить персонажем. Интегрированная в сцену 3D-модель должна соответствовать направлению и цвету освещения, оттенку и зернистости пленки и многому другому. Это много ресурсов и дней работы.
Wonder Dynamics стремится изменить это с помощью web платформы, которая позволяет создателям буквально перетаскивать персонажа компьютерной графики в любую сцену, как если бы он был профессионально снят и отредактирован.
Звучит многообещающе, надо поиграться: +1 пункт вейтлистов.
🖥 Присоединиться к закрытому бета-тестированию здесь
▶️ Посмотреть на красивое
🗞 Почитать статью на techcrunch
@GingerSpacetail
Представьте, что вы хотите включить друга робота в свой киберпанк ютуб сериал. До сегодняшнего дня вы бы отказалась от идеи примерно сразу, потому что качественная работа по визуальным эффектам (VFX) обоходится в $20 000 за секунду. {Поэтому реалистичные анимированные персонажи остаются прерогативой высокобюджетных проектов}
Из чего складывается эта сумма. Самый первый шаг - сделать модель, текстуры самого персонажа. Если не хотите анимировать его вручную, вам понадобится студия захвата движения или съемочное оборудование, отражающие шары, зеленые экраны и всякое такое. Из них к каркасу компьютерной графики необходимо применить примитивы движения, а актера заменить персонажем. Интегрированная в сцену 3D-модель должна соответствовать направлению и цвету освещения, оттенку и зернистости пленки и многому другому. Это много ресурсов и дней работы.
Wonder Dynamics стремится изменить это с помощью web платформы, которая позволяет создателям буквально перетаскивать персонажа компьютерной графики в любую сцену, как если бы он был профессионально снят и отредактирован.
Звучит многообещающе, надо поиграться: +1 пункт вейтлистов.
🗞 Почитать статью на techcrunch
@GingerSpacetail
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
WhaleGPT 🐋
Сможет ли ИИ нам помочь разговаривать с китами?
Киты, как и люди, являются социальными существами со сложной системой коммуникации. Их общение состоит из коротких кликов и щелчков, которые используются для различных целей.
Исследователи обратились к искусственному интеллекту (ИИ), чтобы помочь расшифровать язык китов. Проект CETI (Cetacean Translation Initiative) направлен на использование ИИ и методов машинного обучения для анализа и перевода общения китов. Используя передовые методы обработки естественного языка, ученые надеются понять грамматику и смысл издаваемых звуков.
Для достижения этой цели необходимо больше данных. CETI планирует использовать различные технологии, такие как буйковые решетки, записывающие устройства, прикрепленные к китам, водные дроны и воздушные дроны, для сбора аудио- и видеозаписей поведения и общения китов. Собранные данные будут обработаны и проанализированы алгоритмами машинного обучения для обнаружения и классификации коды китов.
Цель проекта CETI - не только понять язык китов, но и общаться с ними. Поскольку исследователи продолжают изучать глубины общения китов, остается только гадать, что думают эти величественные существа о наших начинаниях и сможем ли мы когда-нибудь спросить их об этом.
Видео снял мой друг вчера в Monterey Bay
Ссылка
Сможет ли ИИ нам помочь разговаривать с китами?
Киты, как и люди, являются социальными существами со сложной системой коммуникации. Их общение состоит из коротких кликов и щелчков, которые используются для различных целей.
Исследователи обратились к искусственному интеллекту (ИИ), чтобы помочь расшифровать язык китов. Проект CETI (Cetacean Translation Initiative) направлен на использование ИИ и методов машинного обучения для анализа и перевода общения китов. Используя передовые методы обработки естественного языка, ученые надеются понять грамматику и смысл издаваемых звуков.
Для достижения этой цели необходимо больше данных. CETI планирует использовать различные технологии, такие как буйковые решетки, записывающие устройства, прикрепленные к китам, водные дроны и воздушные дроны, для сбора аудио- и видеозаписей поведения и общения китов. Собранные данные будут обработаны и проанализированы алгоритмами машинного обучения для обнаружения и классификации коды китов.
Цель проекта CETI - не только понять язык китов, но и общаться с ними. Поскольку исследователи продолжают изучать глубины общения китов, остается только гадать, что думают эти величественные существа о наших начинаниях и сможем ли мы когда-нибудь спросить их об этом.
Видео снял мой друг вчера в Monterey Bay
Ссылка
Связь между self-supervised learning и теорией информации
ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.
При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?
Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.
В статье рассматриваются:
* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях
📕 Статья
ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.
При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?
Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.
В статье рассматриваются:
* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях
Please open Telegram to view this post
VIEW IN TELEGRAM
Mojo - новый язык программирования для ML
Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).
Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.
🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео
Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).
Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.
🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео
Google возможно работает над интеграцией Bard в Pixel
Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.
На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.
10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.
Новость
@karray
Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.
На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.
10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.
Новость
@karray
Guanaco - Конкурс LLM
Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года
Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.
Запись в waitlist
Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года
Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.
Запись в waitlist
Каналы которые я сам читаю
Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:
@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.
@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.
@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).
@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.
А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)
📂 Посмотреть каналы в подборке
Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:
@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.
@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.
@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).
@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.
А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)
📂 Посмотреть каналы в подборке
Forwarded from Earth&Climate Tech
Иногда появляется ощущение, что жизнь вокруг ИИ происходит в режиме быстрой перемотки. Меньше месяца назад Мета выпустила SAM для сегментации любых объектов на изображении, но такое ощущение, что это было всегда. Только за последние 2 дня я уже прочитал около десятка документов, описывающих прототипы использования SAM для изучения недр.
Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).
На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.
#machinelearning #Geo
Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).
На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.
#machinelearning #Geo
Дежа вю у моделей self-supervised learning (#SSL)
Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.
Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).
Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.
📜 Сатья
🖥 Код
@karray
Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.
Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).
Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.
📜 Сатья
🖥 Код
@karray
CLIP можно учить на ресурсах доступных людям.
CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.
В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.
Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.
Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.
Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.
📇 Статья
🐙 Код
CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.
В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.
Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.
Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.
Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.
📇 Статья
🐙 Код