This media is not supported in your browser
VIEW IN TELEGRAM
Потестила бесплатный интерфейс для новой модели Stable Diffusion. Инструмент дорисовывает картинку по вашим подсказкам. Правда, не всегда понимает, что от него хотят — нормально воспроизвести штаб-квартиру Twitter ему (и мне) так и не удалось. Но вышло всё равно забавно.
👍10😁7🔥1
Ждём TensorFlow 3
Чуть не упустила важное. Пару дней назад Google анонсировала выход новой версии TensorFlow. А это, на секундочку, одна из главных платформ для тренировки нейросетей — как гугловских, так и сторонних (с инструментом работают Apple, Netflix, Twitter и др).
Чего ждать?
Упор на XLA-компилятор, который «должен стать отраслевым стандартом». Он ускоряет обучение моделей на CPU и GPU.
Распределенные вычисления. Компания инвестирует в DTensor — новый API для параллелизма моделей. Инструмент помогает разделять нейросети на фрагменты и обучать каждый из них на отдельной системе. Это удобно при тренировке больших моделей.
Кроме компиляции, разработчики обещают не забыть про алгоритмические методы оптимизации производительности — речь про вычисления смешанной и пониженной точности, которые могут сильно ускорить обучение на GPU и TPU.
Появятся новые инструменты для CV и NLP, включая большой набор предварительно обученных моделей. А заодно станет больше ресурсов для разработчиков — добавят примеры кода и свежие руководства.
Говорят, экспорт на мобильные устройства, микроконтроллеры и серверы станет проще. А все API TensorFlow хотят консолидировать и упростить, чтобы пользоваться ими было удобнее.
Если что, не переживайте — полная обратная совместимость с предыдущей TensorFlow 2 будет предусмотрена.
Когда ждать?
Точной даты пока нет. Но говорят, что предварительная версия выйдет во втором квартале 2023-го. А производственная — ещё позже, но в том же году.
Чуть не упустила важное. Пару дней назад Google анонсировала выход новой версии TensorFlow. А это, на секундочку, одна из главных платформ для тренировки нейросетей — как гугловских, так и сторонних (с инструментом работают Apple, Netflix, Twitter и др).
Чего ждать?
Упор на XLA-компилятор, который «должен стать отраслевым стандартом». Он ускоряет обучение моделей на CPU и GPU.
Распределенные вычисления. Компания инвестирует в DTensor — новый API для параллелизма моделей. Инструмент помогает разделять нейросети на фрагменты и обучать каждый из них на отдельной системе. Это удобно при тренировке больших моделей.
Кроме компиляции, разработчики обещают не забыть про алгоритмические методы оптимизации производительности — речь про вычисления смешанной и пониженной точности, которые могут сильно ускорить обучение на GPU и TPU.
Появятся новые инструменты для CV и NLP, включая большой набор предварительно обученных моделей. А заодно станет больше ресурсов для разработчиков — добавят примеры кода и свежие руководства.
Говорят, экспорт на мобильные устройства, микроконтроллеры и серверы станет проще. А все API TensorFlow хотят консолидировать и упростить, чтобы пользоваться ими было удобнее.
Если что, не переживайте — полная обратная совместимость с предыдущей TensorFlow 2 будет предусмотрена.
Когда ждать?
Точной даты пока нет. Но говорят, что предварительная версия выйдет во втором квартале 2023-го. А производственная — ещё позже, но в том же году.
blog.tensorflow.org
Building the Future of TensorFlow
The TensorFlow roadmap for 2023 and beyond
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Что будет, если скрестить Minecraft и Stable Diffusion?
Minecraft — уникальная игра, она привлекает и ещё не научившихся разговаривать детей, и прожжённых датасаентистов.
Помню, как летом спецы из OpenAI обучили нейросеть добывать в «Майне» ресурсы и пищу, охотиться и бегать. А теперь художник и энтузиаст Шон Саймон показал эксперимент со Stable Diffusion.
DiffusionCraft AI (так называется скрещённая версия) превращает постройки из блоков в красивые концепты. Причём делает это в реальном времени!
Работает это так: скрипт на Python передаёт изображение с экрана геймера в инструмент Img2Img (туда же вписывается текстовая подсказка). Картинка обновляется раз в определённый интервал времени или сразу после того, как игрок ставит новый блок в игре.
Выглядит залипательно.
Minecraft — уникальная игра, она привлекает и ещё не научившихся разговаривать детей, и прожжённых датасаентистов.
Помню, как летом спецы из OpenAI обучили нейросеть добывать в «Майне» ресурсы и пищу, охотиться и бегать. А теперь художник и энтузиаст Шон Саймон показал эксперимент со Stable Diffusion.
DiffusionCraft AI (так называется скрещённая версия) превращает постройки из блоков в красивые концепты. Причём делает это в реальном времени!
Работает это так: скрипт на Python передаёт изображение с экрана геймера в инструмент Img2Img (туда же вписывается текстовая подсказка). Картинка обновляется раз в определённый интервал времени или сразу после того, как игрок ставит новый блок в игре.
Выглядит залипательно.
🔥11👍4
Робофутболисты из России победили в двух самых сложных дисциплинах в Бразилии
Механические футболисты из МФТИ выиграли открытый бразильский турнир. Причём сразу в двух самых сложных категориях (а всего их было пять).
В команде Starkit HL из лиги Humanoid League играли антропоморфные роботы класса KidSize (размером с ребёнка — от 40 до 90 см). В первом матче они разгромили соперников со счётом 10:0, а в финале — 6:0.
В другой лиге (Standard Platform League) боролись не столько роботы, сколько разработчики их интеллекта. Потому что в матче участвовали одинаковые машины, но с разным алгоритмами ИИ. И здесь российская команда Starkit SPL преуспела — механизмы под её управлением тоже выиграли обе игры (со счётом 10:0 и 10:1).
Почему вообще это важная новость? Да потому что робофутбол — это отличный полигон для тестирования многих передовых идей. К тому же такие соревнования привлекают молодёжь: у девушек и парней повышаются шансы стать первоклассными инженерами.
Механические футболисты из МФТИ выиграли открытый бразильский турнир. Причём сразу в двух самых сложных категориях (а всего их было пять).
В команде Starkit HL из лиги Humanoid League играли антропоморфные роботы класса KidSize (размером с ребёнка — от 40 до 90 см). В первом матче они разгромили соперников со счётом 10:0, а в финале — 6:0.
В другой лиге (Standard Platform League) боролись не столько роботы, сколько разработчики их интеллекта. Потому что в матче участвовали одинаковые машины, но с разным алгоритмами ИИ. И здесь российская команда Starkit SPL преуспела — механизмы под её управлением тоже выиграли обе игры (со счётом 10:0 и 10:1).
Почему вообще это важная новость? Да потому что робофутбол — это отличный полигон для тестирования многих передовых идей. К тому же такие соревнования привлекают молодёжь: у девушек и парней повышаются шансы стать первоклассными инженерами.
👍20🔥1
Вопрос эксперту: на какие модели ИИ обратить внимание?
Решила разнообразить наш ламповый канал новым форматом. Давно хотела позадавать вопросы экспертам, не всё ж мне одной здесь умничать.
Первым вещать вызвался Андрей Кузнецов — исполнительный директор по исследованию данных в Sber AI. Я спросила у него о самых интересных ИИ-моделях последних недель (просто вспомнила недавний пост про каталог сервисов).
«Очень интересные модели Unified IO, GATO. Их полезность заключается в том, что обе архитектуры являются мультимодальными, и каждая может решать несколько задач сразу. Это одна из ключевых концепций сильного искусственного интеллекта, которая лежит в основе человеческого мышления. Что UnifiedIO, что GATO могут принимать на вход данные визуальной, текстовой, видео и др модальностей и их комбинации и решать одну из поставленных задач.
Например, по видеопоследовательности можно сразу ответить: о чем видео, какие ключевые сущности в этом видео, расшифровать аудиодорожку и тд. Раньше для этого нужно было делать несколько отдельных моделей, а с появлением таких примеров, как UnifiedIO GATO, это может делать одна архитектура.
С точки зрения генеративного ИИ, безусловно, первенство можно отдать таким моделям как Imagen (Text-to-Image) и DreamFusion (Text-to-3D). Они становятся новым источником вдохновения как для исследователей в области компьютерного зрения, так и для художников и дизайнеров».
Решила разнообразить наш ламповый канал новым форматом. Давно хотела позадавать вопросы экспертам, не всё ж мне одной здесь умничать.
Первым вещать вызвался Андрей Кузнецов — исполнительный директор по исследованию данных в Sber AI. Я спросила у него о самых интересных ИИ-моделях последних недель (просто вспомнила недавний пост про каталог сервисов).
«Очень интересные модели Unified IO, GATO. Их полезность заключается в том, что обе архитектуры являются мультимодальными, и каждая может решать несколько задач сразу. Это одна из ключевых концепций сильного искусственного интеллекта, которая лежит в основе человеческого мышления. Что UnifiedIO, что GATO могут принимать на вход данные визуальной, текстовой, видео и др модальностей и их комбинации и решать одну из поставленных задач.
Например, по видеопоследовательности можно сразу ответить: о чем видео, какие ключевые сущности в этом видео, расшифровать аудиодорожку и тд. Раньше для этого нужно было делать несколько отдельных моделей, а с появлением таких примеров, как UnifiedIO GATO, это может делать одна архитектура.
С точки зрения генеративного ИИ, безусловно, первенство можно отдать таким моделям как Imagen (Text-to-Image) и DreamFusion (Text-to-3D). Они становятся новым источником вдохновения как для исследователей в области компьютерного зрения, так и для художников и дизайнеров».
👍14🔥1
Четвергового просветления пост
Если вдруг вы читаете меня со сказочного Бали, то, наверное, вам будет неактуально — вы уже нашли все ответы. Так что рассказываю для остальных: японцы придумали, как «прокачать» стандартные приложения для медитации. Как понимаете, без ИИ не обошлось.
Сервис работает так: включается камера, и на экране в дополненной реальности появляется аватар Будды, сидящий скрестив ноги. С ним можно побеседовать, точнее задать какие-то вопросы о счастье или смысле жизни. «Священные писания буддизма представляют мудрость древних времён», — говорят разработчики.
Чтобы обучить ИИ, учёные из Киотского университета «скормили» ему примерно тысячу учений из буддистских текстов вроде Сутты-нипаты и Дхаммапады. Правда, пока Buddha Bot работает неидеально — иногда его ответы бессмысленны (ну, или так кажется непросветлённым). Исследователи хотят «допилить» приложение перед полноценным релизом.
По словам разработчиков, их приложение — первый шаг к духовной метавселенной. Это будет альтернатива реальным храмам, которых в последние годы становится всё меньше в Японии.
А что, очень даже актуально для затворников. Можно получить совет от духовного наставника, не выходя из дома.
Если вдруг вы читаете меня со сказочного Бали, то, наверное, вам будет неактуально — вы уже нашли все ответы. Так что рассказываю для остальных: японцы придумали, как «прокачать» стандартные приложения для медитации. Как понимаете, без ИИ не обошлось.
Сервис работает так: включается камера, и на экране в дополненной реальности появляется аватар Будды, сидящий скрестив ноги. С ним можно побеседовать, точнее задать какие-то вопросы о счастье или смысле жизни. «Священные писания буддизма представляют мудрость древних времён», — говорят разработчики.
Чтобы обучить ИИ, учёные из Киотского университета «скормили» ему примерно тысячу учений из буддистских текстов вроде Сутты-нипаты и Дхаммапады. Правда, пока Buddha Bot работает неидеально — иногда его ответы бессмысленны (ну, или так кажется непросветлённым). Исследователи хотят «допилить» приложение перед полноценным релизом.
По словам разработчиков, их приложение — первый шаг к духовной метавселенной. Это будет альтернатива реальным храмам, которых в последние годы становится всё меньше в Японии.
А что, очень даже актуально для затворников. Можно получить совет от духовного наставника, не выходя из дома.
France 24
'Hey Buddha': Japan researchers create AI enlightenment tool
What is the meaning of happiness? Why not ask AI Buddha, a tool made by Japanese researchers that brings spiritual guidance from ancient scriptures to your smartphone.
👍10
Как учёные из Мэриленда научились запутывать CV-модель YOLOv2 и при чём тут свитер
На фоне непрекращающихся новостей об успехах в развитии ИИ может сложиться впечатление, что нейронки теперь всесильны. Но на самом деле многие алгоритмы по-прежнему беспомощны перед человеком, если тот решит их обмануть. Достаточно понимать принцип работы конкретных моделей и проявить творческий подход.
Наткнулась на интересное исследование, проведённое в Университете Мэриленда. Его авторы сосредоточились на поиске уязвимостей в системах компьютерного зрения. В качестве своей “жертвы” специалисты выбрали модель обнаружения объектов YOLOv2.
Что они сделали?
Экспериментаторы “показывали” алгоритму изображения из датасета Microsoft COCO, который используется для обучения систем компьютерного зрения. После того как YOLOv2 находила на предложенной фотографии человека, в снимок вносили случайные изменения и вновь пропускали его через модель. Это позволило определить, какие из искажённых картинок сильнее всего “запутывают” нейросеть.
Изображение, показавшее наилучшие результаты, учёные распечатали на обычном свитере. Эксперимент удался — человек, который надевает его на себя, становится почти невидимым для системы компьютерного зрения.
Кстати, не могу не отметить, что свитер получился не только практичным, но и довольно приятным на вид. Такой не стыдно надеть на встречу с друзьями, тем более что у нас как раз наступили холода.
На фоне непрекращающихся новостей об успехах в развитии ИИ может сложиться впечатление, что нейронки теперь всесильны. Но на самом деле многие алгоритмы по-прежнему беспомощны перед человеком, если тот решит их обмануть. Достаточно понимать принцип работы конкретных моделей и проявить творческий подход.
Наткнулась на интересное исследование, проведённое в Университете Мэриленда. Его авторы сосредоточились на поиске уязвимостей в системах компьютерного зрения. В качестве своей “жертвы” специалисты выбрали модель обнаружения объектов YOLOv2.
Что они сделали?
Экспериментаторы “показывали” алгоритму изображения из датасета Microsoft COCO, который используется для обучения систем компьютерного зрения. После того как YOLOv2 находила на предложенной фотографии человека, в снимок вносили случайные изменения и вновь пропускали его через модель. Это позволило определить, какие из искажённых картинок сильнее всего “запутывают” нейросеть.
Изображение, показавшее наилучшие результаты, учёные распечатали на обычном свитере. Эксперимент удался — человек, который надевает его на себя, становится почти невидимым для системы компьютерного зрения.
Кстати, не могу не отметить, что свитер получился не только практичным, но и довольно приятным на вид. Такой не стыдно надеть на встречу с друзьями, тем более что у нас как раз наступили холода.
www.cs.umd.edu
Invisibility cloak
🔥16👍4
Forbes рассказал про 4 главных тренда в ИИ
В американском Forbes вышла очередная интересная колонка. Эксперт в области интеллектуального управления информацией Мартин Бёрч рассказал о главных тенденциях в машинном обучении для бизнеса. Он рассказал, а я подсократила и перевела :)
1. Автоматизация процессов
Компаниям нужно использовать машинное обучение и автоматизацию, если они хотят масштабироваться. Бёрч советует не верить в заблуждения о том, что ИИ заменит живых сотрудников. Наоборот — нейросети возьмут на себя рутину, а у работников освободится время для других задач.
2. Усиление безопасности
В сфере кибербезопасности сейчас нехватка кадров, в то время как у преступников появляется всё больше инструментов для атак. В такой ситуации машинное обучение помогает защитить бизнес. Инструменты на основе ИИ могут постоянно отслеживать сетевой трафик, выявлять угрозы и предлагать эффективные решения.
3. Расширенная аналитика
Инструменты аналитики на основе ИИ обрабатывают гигантские объёмы данных в реальном времени. Это помогает прогнозировать рыночные тенденции и поведение клиентов, взвешивать риски. Повышение производительности, сокращение времени простоя сотрудников, более действенное управление цепочками поставок — и это только часть положительных эффектов такой аналитики.
4. Обработка естественного языка
Она окажет огромное влияние на многие отрасли промышленности. Например, в интеллектуальной обработке документов (IDP) эти технологии позволят повысить качество обслуживания клиентов. Алгоритмы ИИ помогут извлечь полезную информацию из неструктурированного контента — из переписок по электронной почте и чатов.
В американском Forbes вышла очередная интересная колонка. Эксперт в области интеллектуального управления информацией Мартин Бёрч рассказал о главных тенденциях в машинном обучении для бизнеса. Он рассказал, а я подсократила и перевела :)
1. Автоматизация процессов
Компаниям нужно использовать машинное обучение и автоматизацию, если они хотят масштабироваться. Бёрч советует не верить в заблуждения о том, что ИИ заменит живых сотрудников. Наоборот — нейросети возьмут на себя рутину, а у работников освободится время для других задач.
2. Усиление безопасности
В сфере кибербезопасности сейчас нехватка кадров, в то время как у преступников появляется всё больше инструментов для атак. В такой ситуации машинное обучение помогает защитить бизнес. Инструменты на основе ИИ могут постоянно отслеживать сетевой трафик, выявлять угрозы и предлагать эффективные решения.
3. Расширенная аналитика
Инструменты аналитики на основе ИИ обрабатывают гигантские объёмы данных в реальном времени. Это помогает прогнозировать рыночные тенденции и поведение клиентов, взвешивать риски. Повышение производительности, сокращение времени простоя сотрудников, более действенное управление цепочками поставок — и это только часть положительных эффектов такой аналитики.
4. Обработка естественного языка
Она окажет огромное влияние на многие отрасли промышленности. Например, в интеллектуальной обработке документов (IDP) эти технологии позволят повысить качество обслуживания клиентов. Алгоритмы ИИ помогут извлечь полезную информацию из неструктурированного контента — из переписок по электронной почте и чатов.
Forbes
Four AI Trends To Watch
Artificial intelligence is clearly the key to maximizing the plethora of data and information to give enterprises a competitive advantage. However, the true value results from increasing efficiency while utilizing uniquely human skills.
👍16🐳2🍌2🔥1👏1
Нам больше не нужен сильный ИИ?
Тирнан Рей, известный технический журналист и бывший автор Bloomberg, написал на днях неплохое рассуждение для zdnet на эту тему.
Дело в том, что, когда появилась концепция искусственного интеллекта, исследователями двигала идея создать именно интеллект. Рей считает, что эта мечта подталкивала все эти десятилетия ученых и инженеров вперед, в то время как пользы от ИИ было немного.
Представьте, ведь сам термин ИИ появился благодаря математику Джону Маккарти 66 лет назад!
Сейчас же, пишет Тирнан, технологии искусственного интеллекта начали приносить пользу. Они стали по-настоящему крутыми, например, проект AlphaFold (предсказывает 3d-модели белков) или тот же GPT-3. Журналист называет это изменение переходом к эпохе индустриального ИИ (Industrial AI).
Беда в том, пишет Рей, что инженеры и исследователи не хотят двигаться дальше, им довольно того, что они имеют.
Ян Лекун (Yann LeCun), главный исследователь ИИ одной известной и очень запрещенной соцсети рассказывал ранее zdnet, что то, как развивается сегодня метод глубокого обучения, никогда не приведет к сильному ИИ.
При этом без сильного ИИ некоторые вполне практические задачи будут труднодостижимы, например пятый, истинный уровень автономности у машин. Тут Лекун просто приговаривает современные автопилоты, если те не обретут человеческую способность к «здравому смыслу»: you're going to have to engineer the hell out of it («вам придется чертовски много решать инженерных задач»). Штука в том, что как раз вот этот «здравый смысл», планирование - это качественное отличие человеческих мозгов от ИИ.
В общем, статья Тирнана, конечно, не разделит вашу жизнь на до и после, но подумать точно будет над чем.
Тирнан Рей, известный технический журналист и бывший автор Bloomberg, написал на днях неплохое рассуждение для zdnet на эту тему.
Дело в том, что, когда появилась концепция искусственного интеллекта, исследователями двигала идея создать именно интеллект. Рей считает, что эта мечта подталкивала все эти десятилетия ученых и инженеров вперед, в то время как пользы от ИИ было немного.
Представьте, ведь сам термин ИИ появился благодаря математику Джону Маккарти 66 лет назад!
Сейчас же, пишет Тирнан, технологии искусственного интеллекта начали приносить пользу. Они стали по-настоящему крутыми, например, проект AlphaFold (предсказывает 3d-модели белков) или тот же GPT-3. Журналист называет это изменение переходом к эпохе индустриального ИИ (Industrial AI).
Беда в том, пишет Рей, что инженеры и исследователи не хотят двигаться дальше, им довольно того, что они имеют.
Ян Лекун (Yann LeCun), главный исследователь ИИ одной известной и очень запрещенной соцсети рассказывал ранее zdnet, что то, как развивается сегодня метод глубокого обучения, никогда не приведет к сильному ИИ.
При этом без сильного ИИ некоторые вполне практические задачи будут труднодостижимы, например пятый, истинный уровень автономности у машин. Тут Лекун просто приговаривает современные автопилоты, если те не обретут человеческую способность к «здравому смыслу»: you're going to have to engineer the hell out of it («вам придется чертовски много решать инженерных задач»). Штука в том, что как раз вот этот «здравый смысл», планирование - это качественное отличие человеческих мозгов от ИИ.
В общем, статья Тирнана, конечно, не разделит вашу жизнь на до и после, но подумать точно будет над чем.
ZDNET
AI's true goal may no longer be intelligence
Some scholars of AI warn that the present technologies may never add up to "true" intelligence or "human" intelligence. But much of the world may not care about that.
👍9❤3🔥1
Цифровой доктор из Израиля поможет поставить диагноз
Меня приятно удивляет скорость развития ИИ в медицине. Ведь если в других сферах выгода от внедрения нейросетей зачастую не столь очевидна, то в здравоохранении всё куда более прозрачно — участие беспристрастных алгоритмов в лечении поможет увеличить продолжительность наших жизней.
На оптимистичные мысли меня натолкнула свежая новость — израильские разработчики из компании Kahun выпустили ИИ-систему, способную помогать врачам в постановке диагнозов.
Она основана на крупнейшей в мире базе материалов по доказательной медицине и использует в работе те же принципы, которыми руководствуются опытные доктора. По словам создателей, их алгоритм имитирует клиническое мышление, то есть приходит к заключению тем же путём, каким бы это сделал живой специалист.
Как это работает?
Система состоит из двух основных элементов. Первый — это семантическая сеть, в которой выстроено свыше 30 млн взаимосвязей между различными данными о заболеваниях терапевтического профиля.
Второй — ИИ-алгоритм, способный получать клинический портрет пациента, пропускать эту информацию через базу знаний и в режиме реального времени выдавать рекомендации по дальнейшему обследованию.
Сейчас разработка доступна в виде чат-бота. По замыслу создателей, его можно установить на сайте клиники, чтобы проводить первичный опрос пациентов при записи к врачу. Цифровой медицинский консультант получит у больного все необходимые сведения и поставит предварительный диагноз. Это позволит живому специалисту как можно скорее направить пациента на нужные обследования и составить план лечения.
Меня приятно удивляет скорость развития ИИ в медицине. Ведь если в других сферах выгода от внедрения нейросетей зачастую не столь очевидна, то в здравоохранении всё куда более прозрачно — участие беспристрастных алгоритмов в лечении поможет увеличить продолжительность наших жизней.
На оптимистичные мысли меня натолкнула свежая новость — израильские разработчики из компании Kahun выпустили ИИ-систему, способную помогать врачам в постановке диагнозов.
Она основана на крупнейшей в мире базе материалов по доказательной медицине и использует в работе те же принципы, которыми руководствуются опытные доктора. По словам создателей, их алгоритм имитирует клиническое мышление, то есть приходит к заключению тем же путём, каким бы это сделал живой специалист.
Как это работает?
Система состоит из двух основных элементов. Первый — это семантическая сеть, в которой выстроено свыше 30 млн взаимосвязей между различными данными о заболеваниях терапевтического профиля.
Второй — ИИ-алгоритм, способный получать клинический портрет пациента, пропускать эту информацию через базу знаний и в режиме реального времени выдавать рекомендации по дальнейшему обследованию.
Сейчас разработка доступна в виде чат-бота. По замыслу создателей, его можно установить на сайте клиники, чтобы проводить первичный опрос пациентов при записи к врачу. Цифровой медицинский консультант получит у больного все необходимые сведения и поставит предварительный диагноз. Это позволит живому специалисту как можно скорее направить пациента на нужные обследования и составить план лечения.
The Jerusalem Post
New Israeli development: AI that's going to help the country's doctors
The artificial intelligence is based on the world's largest evidentiary medical knowledge mapping, and the same principles that skilled doctors rely on.
👍15🔥2
NVIDIA представила новую Text-2-Image модель eDiffi
Было бы странно думать, что NVIDIA останется в стороне от всеобщего ажиотажа вокруг Stable Diffusion, DALL-E 2 и прочих Midjourney. И да, выждав какое-то время, компания выкатила ответочку — собственную диффузионную модель для генерации изображений, получившую имя eDiffi.
Как это работает
Как и прочие диффузионные модели, eDiffi «рождает» картинки из шума. Для этого она использует каскад из трёх отдельных нейронок:
🖍Первая преобразует текст в изображение размером 64х64 пикселей
🖍Вторая увеличивает его до 256х256 пикселей
🖍Третья повышает разрешение до 1024х1024 пикселей
Всё это мы видели уже много раз, но есть и существенное отличие. В большинстве диффузионных моделей одна нейронка занимается шумоподавлением всего распределения шума. Однако в eDiffi денойзинг осуществляется набором из нескольких моделей, каждая из которых вступает в дело на разных этапах процесса.
В NVIDIA эту технологию называют Denoising experts. По утверждению разработчиков, применение «шумоподавляющих экспертов» позволяет значительно повысить качество финального результата.
Также в NVIDIA похвастались, что eDiffi гораздо лучше справляется с надписями на картинках. Для примера создатели сгенерировали изображение щенка в зелёной футболке с надписью «NVIDIA Rocks». Тест провели на трёх моделях:
🖍Stable Diffusion не смогла нанести надпись
🖍DALL-E 2 написала «NIDCKA VIDA»
🖍eDiffi идеально справилась с задачей
Что ещё интересного в eDiffi
Но самое примечательное в презентации NVIDIA — это функция рисования словами (Paint with Words). Новый инструмент развивает идею, реализованную компанией в модели GauGAN несколько лет назад.
Опция даёт возможность самостоятельно выстроить композицию кадра. Для этого нужно выделить отдельные слова или фразы из текстового запроса и отметить на холсте области, где нейросеть должна их отрисовать.
К сожалению, пощупать всё это пока нельзя, поэтому остаётся верить NVIDIA на слово. Но выглядит очень круто. Я бы даже сказала, что пахнет маленькой революцией в генеративном искусстве.
Подробнее на arXiv
Было бы странно думать, что NVIDIA останется в стороне от всеобщего ажиотажа вокруг Stable Diffusion, DALL-E 2 и прочих Midjourney. И да, выждав какое-то время, компания выкатила ответочку — собственную диффузионную модель для генерации изображений, получившую имя eDiffi.
Как это работает
Как и прочие диффузионные модели, eDiffi «рождает» картинки из шума. Для этого она использует каскад из трёх отдельных нейронок:
🖍Первая преобразует текст в изображение размером 64х64 пикселей
🖍Вторая увеличивает его до 256х256 пикселей
🖍Третья повышает разрешение до 1024х1024 пикселей
Всё это мы видели уже много раз, но есть и существенное отличие. В большинстве диффузионных моделей одна нейронка занимается шумоподавлением всего распределения шума. Однако в eDiffi денойзинг осуществляется набором из нескольких моделей, каждая из которых вступает в дело на разных этапах процесса.
В NVIDIA эту технологию называют Denoising experts. По утверждению разработчиков, применение «шумоподавляющих экспертов» позволяет значительно повысить качество финального результата.
Также в NVIDIA похвастались, что eDiffi гораздо лучше справляется с надписями на картинках. Для примера создатели сгенерировали изображение щенка в зелёной футболке с надписью «NVIDIA Rocks». Тест провели на трёх моделях:
🖍Stable Diffusion не смогла нанести надпись
🖍DALL-E 2 написала «NIDCKA VIDA»
🖍eDiffi идеально справилась с задачей
Что ещё интересного в eDiffi
Но самое примечательное в презентации NVIDIA — это функция рисования словами (Paint with Words). Новый инструмент развивает идею, реализованную компанией в модели GauGAN несколько лет назад.
Опция даёт возможность самостоятельно выстроить композицию кадра. Для этого нужно выделить отдельные слова или фразы из текстового запроса и отметить на холсте области, где нейросеть должна их отрисовать.
К сожалению, пощупать всё это пока нельзя, поэтому остаётся верить NVIDIA на слово. Но выглядит очень круто. Я бы даже сказала, что пахнет маленькой революцией в генеративном искусстве.
Подробнее на arXiv
YouTube
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers
https://deepimagination.cc/eDiff-I/
👍13🔥2
Парализованные пациенты могут печатать сообщения на смартфоне «силой мысли»
Увидела интересную штуку от американских разработчиков — интерфейс «мозг-компьютер» Synchron. Он позволяет людям писать и отправлять смски, даже если они физически не могут взять телефон в руки.
Похожие нейроинтерфейсы мы уже видели, вспомнить хотя бы более-менее свежий Neuralink от Маска. Но у всех прошлых устройств был существенный недостаток: для их работы нужно имплантировать в мозг сотни электродов. Риски очевидны — осложнения после операции, отторжение сенсоров иммунной системой и тд.
Synchron тоже требует хирургического вмешательства, но его вводят «всего лишь» в верхнюю часть моторной коры. То есть процедура гораздо безопаснее. И вроде бы доступнее, ведь операцию может проделать даже не самый высококвалифицированный нейрохирург.
Недостатки тоже есть — устройство не способно считывать сложные мозговые волны. То есть парализованный пользователь не сможет играть в Pong, как обезьяна в опытах Маска. Но для набора простых сообщений нейроинтерфейса вполне хватит.
Вот, например, журналист пообщался с помощью мессенджера с мужчиной, страдающим от бокового амиотрофического склероза (та же болезнь была у Хокинга). Пациент силой мысли отвечал на вопросы со своего планшета, на который предварительно установили фирменное ПО. Устройство регистрировало прикосновение пальца к экрану каждый раз, когда опрошенный думал о постукивании ногой.
Судя по скринам, пациент давал только однословные ответы. Но даже это впечатляет! Хотя мне интересно, сколько времени у него уходит на печатание 5-6 букв.
Скрин общения https://img.semafor.com/1a47029fa776d6feee544b4eb14fc52f5ff99aa2-658x814.png?w=800&q=75&auto=format
Увидела интересную штуку от американских разработчиков — интерфейс «мозг-компьютер» Synchron. Он позволяет людям писать и отправлять смски, даже если они физически не могут взять телефон в руки.
Похожие нейроинтерфейсы мы уже видели, вспомнить хотя бы более-менее свежий Neuralink от Маска. Но у всех прошлых устройств был существенный недостаток: для их работы нужно имплантировать в мозг сотни электродов. Риски очевидны — осложнения после операции, отторжение сенсоров иммунной системой и тд.
Synchron тоже требует хирургического вмешательства, но его вводят «всего лишь» в верхнюю часть моторной коры. То есть процедура гораздо безопаснее. И вроде бы доступнее, ведь операцию может проделать даже не самый высококвалифицированный нейрохирург.
Недостатки тоже есть — устройство не способно считывать сложные мозговые волны. То есть парализованный пользователь не сможет играть в Pong, как обезьяна в опытах Маска. Но для набора простых сообщений нейроинтерфейса вполне хватит.
Вот, например, журналист пообщался с помощью мессенджера с мужчиной, страдающим от бокового амиотрофического склероза (та же болезнь была у Хокинга). Пациент силой мысли отвечал на вопросы со своего планшета, на который предварительно установили фирменное ПО. Устройство регистрировало прикосновение пальца к экрану каждый раз, когда опрошенный думал о постукивании ногой.
Судя по скринам, пациент давал только однословные ответы. Но даже это впечатляет! Хотя мне интересно, сколько времени у него уходит на печатание 5-6 букв.
Скрин общения https://img.semafor.com/1a47029fa776d6feee544b4eb14fc52f5ff99aa2-658x814.png?w=800&q=75&auto=format
Semafor
You can now use your iPhone with your brain after a major breakthrough
Synchron became the first company to build a computer-brain implant that can control Apple devices, marking a turning point that takes the devices from the realm of research and theory to ubiquitous consumer electronics.
👍12🔥3❤1
IBM представила новый квантовый процессор Osprey с 433 кубитами
Это новый рекорд! Почти в три с половиной раза больше, чем у прошлогоднего Eagle (у того было 127 кубитов). И вдвое больше, чем у канадского Xanadu Borealis (216 кубитов).
Я сначала заподозрила неладное. Ведь создать компьютер с таким количеством кубитов до сегодняшнего дня не удавалось никому.
Если очень поверхностно объяснить, то кубиты теряют свои квантовые свойства при любом взаимодействии с окружающей средой — с электрическим или магнитным полем, вибрациями и даже температурой. Неслучайно квантовые компьютеры требуют постоянного охлаждения основных компонентов до -273 градусов Цельсия.
И это только одна из потенциальных проблем. Но IBM, кажется, удалось решить как минимум часть из них. Архитектура новинки — однослойная установка кубитов поверх нескольких слоёв управляющей проводки. Это помогает защитить хрупкие квантовые биты от разрушения. Подробнее о технологии написали здесь, очень впечатляет.
Что будет дальше?
На этом компания останавливаться не планирует. Менеджеры уже расписали план по выпуску более продвинутых чипов.
Так, в 2023-м выйдет проц Condor на 1121 кубит, а годом позже — Flamingo на 1386 кубит.
Но самая долгожданная новинка выйдет только в 2025-м. Если все пойдёт по плану, то тогда нам покажут первый в мире квантовый чип с четырьмя тысячами кубитов на борту.
Зачем вообще нужны квантовые процессоры?
Они могут хранить и обрабатывать гораздо больше данных, чем обычные чипы и даже суперкомпьютеры. Грубо говоря, чем больше кубитов, тем больше мощность.
Искусственный интеллект, криптография, молекулярное моделирование, физика частиц — это только часть сфер, где квантовые компьютеры найдут применение.
Это новый рекорд! Почти в три с половиной раза больше, чем у прошлогоднего Eagle (у того было 127 кубитов). И вдвое больше, чем у канадского Xanadu Borealis (216 кубитов).
Я сначала заподозрила неладное. Ведь создать компьютер с таким количеством кубитов до сегодняшнего дня не удавалось никому.
Если очень поверхностно объяснить, то кубиты теряют свои квантовые свойства при любом взаимодействии с окружающей средой — с электрическим или магнитным полем, вибрациями и даже температурой. Неслучайно квантовые компьютеры требуют постоянного охлаждения основных компонентов до -273 градусов Цельсия.
И это только одна из потенциальных проблем. Но IBM, кажется, удалось решить как минимум часть из них. Архитектура новинки — однослойная установка кубитов поверх нескольких слоёв управляющей проводки. Это помогает защитить хрупкие квантовые биты от разрушения. Подробнее о технологии написали здесь, очень впечатляет.
Что будет дальше?
На этом компания останавливаться не планирует. Менеджеры уже расписали план по выпуску более продвинутых чипов.
Так, в 2023-м выйдет проц Condor на 1121 кубит, а годом позже — Flamingo на 1386 кубит.
Но самая долгожданная новинка выйдет только в 2025-м. Если все пойдёт по плану, то тогда нам покажут первый в мире квантовый чип с четырьмя тысячами кубитов на борту.
Зачем вообще нужны квантовые процессоры?
Они могут хранить и обрабатывать гораздо больше данных, чем обычные чипы и даже суперкомпьютеры. Грубо говоря, чем больше кубитов, тем больше мощность.
Искусственный интеллект, криптография, молекулярное моделирование, физика частиц — это только часть сфер, где квантовые компьютеры найдут применение.
IEEE Spectrum
IBM Unveils 433-Qubit Osprey Chip
In 2021, IBM unveiled Eagle, the first quantum processor with more than 100 qubits. Now the company has debuted Osprey, which has more than 3x as many qubits. If Big Blue can keep up the pace, next year it should be on track to deliver Condor, the world's…
👍22👏4🔥2
Свежий дAIджест недели, которая прошла под знаком диффузионных нейросеток
— Китайская Baidu выпустила новую Text-to-image модель ViLG 2.0 с рекордным количеством параметров — 24 млрд. Я её уже недавно потестила, качество картинок крутое. На HuggingFace есть бесплатная общедоступная демка.
— Midjourney обновилась до версии v4, а заодно научилась объединять два изображения в одно. Интернет тут же заполонился новыми мемами в стиле «Йода-Чебурашка» и «Кот-Буханка хлеба». Здесь много примеров с забавными фотками и инструкция, как поиграться с новой фичей.
— Google презентовала технологию InfiniteNature-Zero — технологию, которая генерирует бесконечное видео из статичных фотографий природы. Точнее, всего из одной фотки! Вот в этом посте я показывала результат (а на сайте подробное описание работы алгоритма).
— Stable Diffusion вышла на айфонах! Ее можно скачать прямо из AppStore (спасибо китайским умельцам). Круто, что прога работает не из облака, а локально на айфоне — не нужен даже инет. Здесь автор рассказал, как он боролся с проблемами.
— Китайская Baidu выпустила новую Text-to-image модель ViLG 2.0 с рекордным количеством параметров — 24 млрд. Я её уже недавно потестила, качество картинок крутое. На HuggingFace есть бесплатная общедоступная демка.
— Midjourney обновилась до версии v4, а заодно научилась объединять два изображения в одно. Интернет тут же заполонился новыми мемами в стиле «Йода-Чебурашка» и «Кот-Буханка хлеба». Здесь много примеров с забавными фотками и инструкция, как поиграться с новой фичей.
— Google презентовала технологию InfiniteNature-Zero — технологию, которая генерирует бесконечное видео из статичных фотографий природы. Точнее, всего из одной фотки! Вот в этом посте я показывала результат (а на сайте подробное описание работы алгоритма).
— Stable Diffusion вышла на айфонах! Ее можно скачать прямо из AppStore (спасибо китайским умельцам). Круто, что прога работает не из облака, а локально на айфоне — не нужен даже инет. Здесь автор рассказал, как он боролся с проблемами.
👍9🔥4
Сила — в тексте
Если устали от засилья новостей про MidJourney, SD и DALL-E 2, то вы не одиноки. Как минимум, на нашей стороне журналист Forbes Роб Тэйвз.
Он написал интересную колонку о том, что сгенерированные изображения — это, конечно, мощь. Но способность машин писать и говорить окажется более важной для человечества, чем создание визуального контента. Ведь если преобразование текста в изображение будет востребовано в отдельных отраслях, то сгенерированный язык изменит работу всех организаций во всём мире.
Генерация текста уже хорошо показала себя в копирайтинге (по крайней мере, с точки зрения инвестиций). Один из ведущих стартапов Jasper оценивается в 1,5 млрд долларов — а его запустили всего полтора года назад! Эта компания использует ИИ для создания контента в соцсетях и блогах.
Следующий этап — сфера обслуживания клиентов во всех отраслях: от гостиничного бизнеса до электронной коммерции, от здравоохранения до финансовых услуг. Так что скоро все взаимодействия потребителя с компанией могут стать автоматизированными.
Большие языковые модели помогут и учёным. LLM смогут «переварить» все опубликованные исследования и материалы в одной области, а потом предложить решения и перспективные направления для будущих экспериментов.
Если устали от засилья новостей про MidJourney, SD и DALL-E 2, то вы не одиноки. Как минимум, на нашей стороне журналист Forbes Роб Тэйвз.
Он написал интересную колонку о том, что сгенерированные изображения — это, конечно, мощь. Но способность машин писать и говорить окажется более важной для человечества, чем создание визуального контента. Ведь если преобразование текста в изображение будет востребовано в отдельных отраслях, то сгенерированный язык изменит работу всех организаций во всём мире.
Генерация текста уже хорошо показала себя в копирайтинге (по крайней мере, с точки зрения инвестиций). Один из ведущих стартапов Jasper оценивается в 1,5 млрд долларов — а его запустили всего полтора года назад! Эта компания использует ИИ для создания контента в соцсетях и блогах.
Следующий этап — сфера обслуживания клиентов во всех отраслях: от гостиничного бизнеса до электронной коммерции, от здравоохранения до финансовых услуг. Так что скоро все взаимодействия потребителя с компанией могут стать автоматизированными.
Большие языковые модели помогут и учёным. LLM смогут «переварить» все опубликованные исследования и материалы в одной области, а потом предложить решения и перспективные направления для будущих экспериментов.
Forbes
The Biggest Opportunity In Generative AI Is Language, Not Images
AI-powered text generation will create many orders of magnitude more value than will AI-powered image generation.
👍9🔥2
Реддитор забавно разыграл пользователей
Честно сказать, я даже сама сначала повелась, пока внимательно не пригляделась.
Парень опубликовал фотку, на которой стоит рядом с каким-то портретом, герой которого как две капли воды похож на него. Даже причёска и растительность на лице один-в-один. «Я выгляжу, как это картина», — прокомментировал он.
В комментариях тоже увидели полное сходство. Кто-то даже пошутил, что реддитор научился путешествовать во времени и попросил художника из прошлого нарисовать его портрет.
Но всё оказалось куда проще (или сложнее, здесь как посмотреть). В общем, эта фотография — не фотография вовсе. И портрета такого не существует. Всё это изображение нарисовала Midjourney. Даже интересно, какую подсказку использовал тролль.
Честно сказать, я даже сама сначала повелась, пока внимательно не пригляделась.
Парень опубликовал фотку, на которой стоит рядом с каким-то портретом, герой которого как две капли воды похож на него. Даже причёска и растительность на лице один-в-один. «Я выгляжу, как это картина», — прокомментировал он.
В комментариях тоже увидели полное сходство. Кто-то даже пошутил, что реддитор научился путешествовать во времени и попросил художника из прошлого нарисовать его портрет.
Но всё оказалось куда проще (или сложнее, здесь как посмотреть). В общем, эта фотография — не фотография вовсе. И портрета такого не существует. Всё это изображение нарисовала Midjourney. Даже интересно, какую подсказку использовал тролль.
👍8🔥3