Был на встрече с Артемом Родичевым (Head of AI в Replica), не удержался чтобы не поделиться с вами этими успешными кейсами в диалоговом AI, конкретно в Реплике, если быть точнее.
Это, конечно, cherry-picked примеры, и фейлов у них тоже хватает, но как же все-таки это мощно выглядит!
Интересные факты:
- Они одними из первых начали сотрудничать с OpenAI над их GPT-3;
- Даже им OpenAI не дает доступ к коду и весам, все через API.
Это, конечно, cherry-picked примеры, и фейлов у них тоже хватает, но как же все-таки это мощно выглядит!
Интересные факты:
- Они одними из первых начали сотрудничать с OpenAI над их GPT-3;
- Даже им OpenAI не дает доступ к коду и весам, все через API.
Помните нейросеть от Лебедева? С нее теперь делают отдельный сервис, считай SaaS за подписку.
Я особо про это не писал раньше, ибо нe хочу даже углубляться. Конечно же это не одна end-to-end сеть которая генерирует результат, а никаких GAN там нет и подавно. Даже по результатом видно что это тупо набор эвристик которые перебирают геометрические формы / цвета / шрифты / искривление, и максимум на одном-двух этапах там что-то предиктится, типо цветовая гамма или локация. Вроде-бы они еще писали раньше что на промежуточных этапах там люди поправляли-и выбирали, ну вот это уж точно нейросеточная нейросеть, ничего не скажешь.
Есть куча неплохих генераторов логотипов, и результаты у них получаются куда интереснее. А у Лебедева классный дизайн который люди делают.
Я особо про это не писал раньше, ибо нe хочу даже углубляться. Конечно же это не одна end-to-end сеть которая генерирует результат, а никаких GAN там нет и подавно. Даже по результатом видно что это тупо набор эвристик которые перебирают геометрические формы / цвета / шрифты / искривление, и максимум на одном-двух этапах там что-то предиктится, типо цветовая гамма или локация. Вроде-бы они еще писали раньше что на промежуточных этапах там люди поправляли-и выбирали, ну вот это уж точно нейросеточная нейросеть, ничего не скажешь.
Есть куча неплохих генераторов логотипов, и результаты у них получаются куда интереснее. А у Лебедева классный дизайн который люди делают.
ironov.artlebedev.ru
Создай свой фирменный стиль | Нейросеть Николай Иронов
Создайте потрясающий фирменный стиль за считанные минуты, а не месяцы, с нейросетью Николай Иронов. Получите мгновенный доступ к логотипам, цветовым схемам и другому.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Diffbot построили систему, которая читает код сайтов, анализирует текст, классифицирует изображения и собирает их в то, что, по их словам, является крупнейшим в мире графом знаний интернета, согласно MIT Technology Review.
Веб-кроулер Diffbot перестраивает граф каждые четыре-пять дней, добавляя примерно 150 миллионов новых ассоциаций субъект-глагол-объект ежемесячно. Этот граф охватывает более 10 миллиардов объектов — людей, предприятия, продукты, местоположение и т. д. — и триллион бит информации об этих объектах.
Бот использует распознавание изображений для классификации контента по 20 категориям, таким как новости, обсуждения и фото. Он анализирует любой текст, чтобы найти утверждения, состоящие из субъекта, глагола и объекта, и сохраняет их отношения. На данный момент граф охватывает субъект-глагол-объектные ассоциации из 98 процентов интернета почти на 50 языках. Больше 400 компаний таких как Adidas, Nasdaq и Snap уже стали их клиентами.
Веб-кроулер Diffbot перестраивает граф каждые четыре-пять дней, добавляя примерно 150 миллионов новых ассоциаций субъект-глагол-объект ежемесячно. Этот граф охватывает более 10 миллиардов объектов — людей, предприятия, продукты, местоположение и т. д. — и триллион бит информации об этих объектах.
Бот использует распознавание изображений для классификации контента по 20 категориям, таким как новости, обсуждения и фото. Он анализирует любой текст, чтобы найти утверждения, состоящие из субъекта, глагола и объекта, и сохраняет их отношения. На данный момент граф охватывает субъект-глагол-объектные ассоциации из 98 процентов интернета почти на 50 языках. Больше 400 компаний таких как Adidas, Nasdaq и Snap уже стали их клиентами.
MIT Technology Review
This know-it-all AI learns by reading the entire web nonstop
Diffbot is building the biggest-ever knowledge graph by applying image recognition and natural-language processing to billions of web pages.
This media is not supported in your browser
VIEW IN TELEGRAM
😯 Cервис для A/B тестов VWO тестирует новую фичу (работающую на OpenAI GPT-3), которая позволяет любому человеку легко выбрать новые варианты текста сгенерированные ИИ, а затем A/B протестировать их, чтобы увидеть, какая из них лучше.
Что, если бы ИИ мог писать заголовки вашего сайта, описания и CTA?
Что, если бы ИИ мог писать заголовки вашего сайта, описания и CTA?
Forwarded from Техно Фил
This media is not supported in your browser
VIEW IN TELEGRAM
Обожаю видео, которые выкладывают разработчики Cruise (GM). Они часто делятся всякими странными дорожными ситуациями, в которые попадают их беспилотники и показывают, как на это реагируют алгоритмы.
Подобные видео нужно показывать каждый раз, когда кто-то говорит: «Ну вот припаркуется машина вторым рядом и ваш этот беспилотник пробку на весь город создаст».
Подобные видео нужно показывать каждый раз, когда кто-то говорит: «Ну вот припаркуется машина вторым рядом и ваш этот беспилотник пробку на весь город создаст».
Предвкушаю грядет волна развлекательных алгоритмов где в StyleGan подмешиваются веса из модели натренированной на других данных. В итоге получается генерировать не только сэмплы из заданного распределения (натренировал на еблетах — генерирует еблеты), но создавать морфинг стиля и низкоуровневых признаков из двух разных распределений (натренировал на еблетах и аниме — генерирует аниме еблеты). Недавно громко прошумевшая GAN которая превращает лица в диснеевских персонажей работает ровно по тому же принципу. Вот, кстати, хорошее видео с объяснением. Я даже не писал об этом потому что мне StyleGan кажется тупым и однообразным. Что уже только не генерировали, а смысла все равно не прибавилось.
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Замена слоёв в StyleGAN2 FFHQ и датасета с персонажами из WoW.
Автор: Doron Adler
Автор: Doron Adler
Интересных технических новостей пока на горизонте не видно, наверняка из-за отсутствия конференций в этот период. Но вот интересная новость на пересечении эйай и бизнеса:
GPT-3 оказалось будет эксклюзивно лицензирована для Microsoft, что очень странно, учитывая что OpenAI всегда была некоммерческой компанией построенной на улучшении ИИ для всего человечества через открытый рисерч (откуда и Open-). Но Microsoft оказался более нуждающимся чем остальное человечество. Даже Маск, один из основателей, написал в Твиторе: “This does seem like the opposite of open. OpenAI is essentially captured by Microsoft”.
GPT-3 оказалось будет эксклюзивно лицензирована для Microsoft, что очень странно, учитывая что OpenAI всегда была некоммерческой компанией построенной на улучшении ИИ для всего человечества через открытый рисерч (откуда и Open-). Но Microsoft оказался более нуждающимся чем остальное человечество. Даже Маск, один из основателей, написал в Твиторе: “This does seem like the opposite of open. OpenAI is essentially captured by Microsoft”.
Silicon Valley
Elon Musk criticizes OpenAI exclusively licensing GPT-3 to Microsoft
Tesla CEO Elon Musk doesn’t seem to approve of Microsoft’s deal with OpenAI — the research company he co-founded in 2015.
Новый продукт от NVIDIA — Maxine, свистоперделка для ваших видеозвонков с некоторыми полезными функциями. Целый AI-комбайн на самом деле: апскейл видео, удаление фона, деноизинг, дипфейки, перевод и одна из самых интересных фич — сжатие битрейта передаваемого видео через восстановление картинки из facial key-points на девайсе (тоже в своем роде по принципу работы дипфейков). Супер интересно! Много из этих вещей я видел по отдельности или носил в голове, так что интересно посмотреть как это будет работать на практике. Есть конечно спорные моменты, например нужен ли файнтюнинг моделей, или же все будет работать из коробки (zero-shot), и какие вообще юзкейсы фич типо сжатия трафика, если Maxine и так очень требователен к железу, что обычно коррелирует с качеством интернет соединения.
YouTube
AI-Powered Video Conferencing with NVIDIA Maxine
See the cloud-native #NVIDIAMaxine platform - new #AI breakthroughs for personalized, engaging and productive video meetings. Service providers can reduce bandwidth usage to one-tenth of H.264 while users get improved eye contact, super resolution, noise…
Forwarded from Neural Shit
УХ БЛЯ, там Nvidia выкатила обнову для StyleGAN2.
Из примечательного:
1)значительно лучшие результаты для датасетов с менее чем ~ 30к изображений
2)Поддержка смешанной точности: ~ в 1,6 раза быстрее обучение, ~ в 1,3 раза быстрее вывод, ~ в 1,5 раза ниже потребление памяти графического процессора.
3)Автоматический выбор гиперпараметров: разумные готовые результаты для любого разрешения, набора данных и количества графических процессоров.
4)Отрефакторили код, теперь будет проще перепиливать для своих велосипедов.
5)Ещё какая-то хуйня.
Скорее бы вечер, чтоб прийти с работы и потестить.
Ссылка на репозиторий
Из примечательного:
1)значительно лучшие результаты для датасетов с менее чем ~ 30к изображений
2)Поддержка смешанной точности: ~ в 1,6 раза быстрее обучение, ~ в 1,3 раза быстрее вывод, ~ в 1,5 раза ниже потребление памяти графического процессора.
3)Автоматический выбор гиперпараметров: разумные готовые результаты для любого разрешения, набора данных и количества графических процессоров.
4)Отрефакторили код, теперь будет проще перепиливать для своих велосипедов.
5)Ещё какая-то хуйня.
Скорее бы вечер, чтоб прийти с работы и потестить.
Ссылка на репозиторий
Мои попытки узнать вас лучше продолжаются. Все анонимно, поэтому можно не кривить душой. Итак, кто вы?
Anonymous Poll
25%
Я проффесинал работающий с AI/ML, хочу расширять свою экспертизу и быть в курсе событий
18%
Я нахожусь в процессе обучения AI/ML прямо сейчас, через новости вкатываюсь в область и узнаю новое
22%
Я занимаюсь чем-то другим, но со временем хочу вкатиться в AI, потому что вижу огромные перспективы
25%
Я занимаюсь чем-то другим и мне это нравится, здесь просто ради технических новостей
9%
Кто я
This media is not supported in your browser
VIEW IN TELEGRAM
Одной из фич которые Амазон представил на недавней презентации стал Natural turn-taking, который дает возможность перебивать Алексу и останавливать ее посреди ответа. Для этого девайс объединяет акустические, лингвистические и визуальные сигналы, и отслеживает отдельных ораторов и темы разговора. Кроме перебивания новый навык научит Алексу понимать косвенные запросы, например, когда пользователь встревает с “этот”, пока Алекса зачитывает список опций.
Чтобы определить, разговаривает ли пользователь с Алексой или поехал кукухой, система передает фотографии говорящего через алгоритм определения позы, чтобы увидеть, в какую сторону он смотрит. Она также пропускает запись голоса через LSTM для распознавания речи, чтобы решить, были ли слова направлены на устройство. После, аутпуты обоих моделей соединяются.
Выглядит это пока скорее как костыли, но надеемся в будущем Амазон улучшит семантическое понимание речи, и разговаривать с Алексой можно будет и не смотря на нее. Релиз фичи намечен на следующий год.
Чтобы определить, разговаривает ли пользователь с Алексой или поехал кукухой, система передает фотографии говорящего через алгоритм определения позы, чтобы увидеть, в какую сторону он смотрит. Она также пропускает запись голоса через LSTM для распознавания речи, чтобы решить, были ли слова направлены на устройство. После, аутпуты обоих моделей соединяются.
Выглядит это пока скорее как костыли, но надеемся в будущем Амазон улучшит семантическое понимание речи, и разговаривать с Алексой можно будет и не смотря на нее. Релиз фичи намечен на следующий год.
Кроме стильной челки и отжима зарядки с наушниками Apple на своей презентации также представила обновленный чип для айфонов с улучшенным Neural Engine. Новая версия имеет 16 ядер, выполняет 11 трилионов операций в секунду, и перформит на 80% быстрее предыдущей версии. Также улучшили ML Accelerator в CPU, его сделали на 70% быстрее. В Pro версии также добавили отдельный Image Signal Processor для работы с фото/видео.
Не знаю на сколько это важное улучшение, в масштабах ML железо обычно нужно улучшать на порядки, чтобы почувствовать какую-то разницу, но пускай, и на том спасибо.
Не знаю на сколько это важное улучшение, в масштабах ML железо обычно нужно улучшать на порядки, чтобы почувствовать какую-то разницу, но пускай, и на том спасибо.
Статья Climbing towards NLU Эмили Бендер и Александра Коллера получила премию "лучшая тематическая статья" на ACL 2020 (для справки: ACL это вам не насрано, у меня самого там статья была на воркшопе).
Их основное утверждение состоит в том, что система, обученная только на форме (сыром тексте), никогда не сможет понять смысл. Они утверждают, что для того, чтобы системы научились понимать значение, форма должна быть связана с намерением (которое находится вне языка).
Для этого они предлагают рассмотреть "тест осьминога". Вкратце, два человека А и Б живут на отдаленных островах и могут общаться только с помощью текстовых сообщений по трансокеанному кабелю. Сверхумный осьминог О слушает их разговоры. В конце концов, О отрезает от кабеля Б и начинает говорить с А. Может ли О обмануть А, или А поймет неладное? Бендер и Коллер утверждают, что О потерпит неудачу, когда подвергнется воздействию реальных ситуаций, таких как нападение медведя, так как О не имеет представлений о мире! (На рисунке реальный ответ GPT2)
Их основное утверждение состоит в том, что система, обученная только на форме (сыром тексте), никогда не сможет понять смысл. Они утверждают, что для того, чтобы системы научились понимать значение, форма должна быть связана с намерением (которое находится вне языка).
Для этого они предлагают рассмотреть "тест осьминога". Вкратце, два человека А и Б живут на отдаленных островах и могут общаться только с помощью текстовых сообщений по трансокеанному кабелю. Сверхумный осьминог О слушает их разговоры. В конце концов, О отрезает от кабеля Б и начинает говорить с А. Может ли О обмануть А, или А поймет неладное? Бендер и Коллер утверждают, что О потерпит неудачу, когда подвергнется воздействию реальных ситуаций, таких как нападение медведя, так как О не имеет представлений о мире! (На рисунке реальный ответ GPT2)
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Интересный проект – ученые задают алгоритму тип поверхности, насколько она скользкая и алгоритм генерирует вам идеального робота под конкретные условия.
Надеюсь они правда выпустят код и землю наполнят ползающие роботы как в видео.
Страница проекта:
https://cdfg.mit.edu/publications/robogrammar-graph-grammar-for-terrain-optimized-robot-design
Надеюсь они правда выпустят код и землю наполнят ползающие роботы как в видео.
Страница проекта:
https://cdfg.mit.edu/publications/robogrammar-graph-grammar-for-terrain-optimized-robot-design
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел код для MakeItTalk, такого себе дипфейк алгоритма который анимирует фото только по аудио, в отличии от основной массы алгоритмов которые принимают на вход видео. Результаты интересные, но код под NC лицензией.