А в последнем апдейте Fooocus-MRE появилась галка "Прогнать через все стили.
Я долго ныл на гитхабе и разработчик-таки сделал ея.
В общем я взял частицы из предыдущего поста и прогнал через имеющиеся 208 стилей Фокуса.
Разнообразный. На одном сиде.
Чтобы удобно было это как-то запостить, я пришел в chatGPT и спросил "I need python code which reads list of image names in current folder and make html code for show these images as simple gallery".
Положил отрыжку из chatGPT в папку с картинками, получил html и забросил на сайт, вот ссылка, можете позалипать.
https://cgevent.ru/imgs/blobs/z.html
Также немного взрывает мозг, что кубики на картинке в шапке - это стиль Майнкрафт, а шарики - Это стиль Game Mario. Стили есть в именах файлов.
Еще больше залипания на разных сидах тут:
https://cgevent.ru/imgs/blobs2/z.html
Соорудить такое в Dalle3 на 30 минут и бесплатно будет сложно пока.
Я долго ныл на гитхабе и разработчик-таки сделал ея.
В общем я взял частицы из предыдущего поста и прогнал через имеющиеся 208 стилей Фокуса.
Abstract 3d render, flowing particles, smooth and blobs, mesmerizing magic hypnotizing motion, colored vivid metal and glass, futuristic, steel, iridescent, bokeh, dof, specular, bloom, chromatic aberration, refraction, halationМестами получился взрыв мозга.
Разнообразный. На одном сиде.
Чтобы удобно было это как-то запостить, я пришел в chatGPT и спросил "I need python code which reads list of image names in current folder and make html code for show these images as simple gallery".
Положил отрыжку из chatGPT в папку с картинками, получил html и забросил на сайт, вот ссылка, можете позалипать.
https://cgevent.ru/imgs/blobs/z.html
Также немного взрывает мозг, что кубики на картинке в шапке - это стиль Майнкрафт, а шарики - Это стиль Game Mario. Стили есть в именах файлов.
Еще больше залипания на разных сидах тут:
https://cgevent.ru/imgs/blobs2/z.html
Соорудить такое в Dalle3 на 30 минут и бесплатно будет сложно пока.
🔥28👍1
Титанический труд!
Сравнение Midjourney и Dalle3 на огромном количестве примеров.
С комментариями автора.
Респект!
https://atachkina.com/dalle3
Сравнение Midjourney и Dalle3 на огромном количестве примеров.
С комментариями автора.
Респект!
https://atachkina.com/dalle3
👍41🔥25
Чтение мыслей по поводу чтения.
Про то, что добровольцев присовывают в фМРТ и дают им слушать музыку, смотреть картинки и даже видео, а потом пытаются реконструировать увиденное-услышанное, я уже писал.
Тут же эксперимент немного более "тонкий" и связанный с вопросом о том, как мы "мыслим на языке".
Теперь добровольцев присовывают в фМРТ и просят их читать книжки. То есть воздействуют на мозг не "прямыми" сигналами типа картинок и звука, а как бы "вторичными", пропущенными, через генерацию образов, возникающих в голове во время чтения. То есть, чтение порождает картинки в голове(ну или у кого как, назовем это триггеры-ассоциации в голове), а исследователи пытаются ухватить эти порожденные чтением сигналы.
"Когда мы думаем о словах или фразах, в голове активизируются участки мозга, контролирующие речь. Используя фМРТ-сканирование людей во время чтения и последующего обдумывания, исследователи обучили программу декодирования составлять карту речи и мышления каждого человека, что позволило ей распознавать сигналы мозга и переводить их в слова или фразы. Испытуемые читали в течение 16 часов, а программа-декодер отображала каждый образ мозга и ассоциировала его со словом или фразой."
Получилась карта связей, которая включала три подмножества активированного мозга: речевой, ассоциативный и префронтальный. Сложность заключалась в том, что каждый участок мозга при анализе дешифратором выдавал разные последовательности слов. Предполагается, что это связано с тем, что слов гораздо больше, чем возможных изображений мозга, в результате чего дешифратор выдает наилучшую оценку на основе 16-часового набора данных по чтению.
Например, дешифратору была предложена следующая фраза: "Я нарисовал для тебя эту карту, и ты действительно находишься в полутора милях от дома". Левая префронтальная кора выдает следующую последовательность: "номер на карте и выяснить, как далеко им пришлось проехать, чтобы добраться до адреса", в то время как правая префронтальная кора выдает "просто посмотреть, сколько времени это займет, поэтому я проехал вниз по холму и к банку".
Исследователи быстро обнаружили, что точные переводы встречаются редко, поэтому они стремились к тому, чтобы дешифровщик смог передать как минимум основной смысл предложения. В большинстве случаев дешифровщик хорошо передавал общий смысл, заложенный в текст.
В статье напрямую обсуждаются невербальные коммуникации, то бишь аналоги телепатии. И это прям бодрит.
Ну и есть повод поумничать, и вспомнить Тютчева и «Мысль изрече́нная есть ложь...». Которую мы измеряем в фМРТ.
А также поразмыслить о том, как же здорово языковые (и дифузионные) модели имитируют кожаное мышление, сжимая информацию подобно джипегу (хотя бы в процессе токенизации), а при распаковке остается общий смысл, но детали могут теряться. Или вообще искажаться.
И у каждого в голове свой JPEG этого мира, пропущенный через язык, на котором мы думаем, с довольно сильной(огромной) степенью сжатия.
https://www.forbes.com/sites/williamhaseltine/2023/08/16/translating-thoughts-into-words-advances-in-brain-machine-communication/amp/
Про то, что добровольцев присовывают в фМРТ и дают им слушать музыку, смотреть картинки и даже видео, а потом пытаются реконструировать увиденное-услышанное, я уже писал.
Тут же эксперимент немного более "тонкий" и связанный с вопросом о том, как мы "мыслим на языке".
Теперь добровольцев присовывают в фМРТ и просят их читать книжки. То есть воздействуют на мозг не "прямыми" сигналами типа картинок и звука, а как бы "вторичными", пропущенными, через генерацию образов, возникающих в голове во время чтения. То есть, чтение порождает картинки в голове(ну или у кого как, назовем это триггеры-ассоциации в голове), а исследователи пытаются ухватить эти порожденные чтением сигналы.
"Когда мы думаем о словах или фразах, в голове активизируются участки мозга, контролирующие речь. Используя фМРТ-сканирование людей во время чтения и последующего обдумывания, исследователи обучили программу декодирования составлять карту речи и мышления каждого человека, что позволило ей распознавать сигналы мозга и переводить их в слова или фразы. Испытуемые читали в течение 16 часов, а программа-декодер отображала каждый образ мозга и ассоциировала его со словом или фразой."
Получилась карта связей, которая включала три подмножества активированного мозга: речевой, ассоциативный и префронтальный. Сложность заключалась в том, что каждый участок мозга при анализе дешифратором выдавал разные последовательности слов. Предполагается, что это связано с тем, что слов гораздо больше, чем возможных изображений мозга, в результате чего дешифратор выдает наилучшую оценку на основе 16-часового набора данных по чтению.
Например, дешифратору была предложена следующая фраза: "Я нарисовал для тебя эту карту, и ты действительно находишься в полутора милях от дома". Левая префронтальная кора выдает следующую последовательность: "номер на карте и выяснить, как далеко им пришлось проехать, чтобы добраться до адреса", в то время как правая префронтальная кора выдает "просто посмотреть, сколько времени это займет, поэтому я проехал вниз по холму и к банку".
Исследователи быстро обнаружили, что точные переводы встречаются редко, поэтому они стремились к тому, чтобы дешифровщик смог передать как минимум основной смысл предложения. В большинстве случаев дешифровщик хорошо передавал общий смысл, заложенный в текст.
В статье напрямую обсуждаются невербальные коммуникации, то бишь аналоги телепатии. И это прям бодрит.
Ну и есть повод поумничать, и вспомнить Тютчева и «Мысль изрече́нная есть ложь...». Которую мы измеряем в фМРТ.
А также поразмыслить о том, как же здорово языковые (и дифузионные) модели имитируют кожаное мышление, сжимая информацию подобно джипегу (хотя бы в процессе токенизации), а при распаковке остается общий смысл, но детали могут теряться. Или вообще искажаться.
И у каждого в голове свой JPEG этого мира, пропущенный через язык, на котором мы думаем, с довольно сильной
https://www.forbes.com/sites/williamhaseltine/2023/08/16/translating-thoughts-into-words-advances-in-brain-machine-communication/amp/
Forbes
Translating Thoughts Into Words: Advances In Brain-Machine Communication
This story is part of a series on the current A new brain-computer interface decoder enables researchers to construct continuous language using only MRI brain scans.
👍33🔥6
Сейчас все обсуждают статью от Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", где у GPT-4 появилось "зрение".
В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно).
Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями.
"Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4"
Подробнее вот тут: https://t.me/andrey_kiselnikov/714
Там же ссылка на саму статью.
В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно).
Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями.
"Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4"
Подробнее вот тут: https://t.me/andrey_kiselnikov/714
Там же ссылка на саму статью.
Telegram
Новости психофизиологии
Вышел очень интересный препринт исследователей из Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", в котором исследуется новая версия GPT-4, оснащенная способностью эффективно работать со зрительной модальностью.…
👍21🔥7
Forwarded from эйай ньюз
🎙У некоторых уже появился доступ к аудио фичам в новом мультимодальном ChatGPT.
Он и на русском, и на иврите, и на китайском, и на пачке других языков могёт. OpenAI насобирали очень качественный голосовой датасет для тренировки.
Волосы двигаются на голове от осознания того, что ведёшь разговор с LLM, которая говорит так реалистично (особенно на первом видео). Как-то Siri и Google Assistant так реально не ощущались, да они и тупые в целом (пока).
Аудио доступно только в приложении ChatGPT на мобильниках. Для этого нужно его активировать в настройках аппки.
Интересно, откуда американский акцент на русском языке во втором видео? Байес датасета или так нативнее в контексте изучения языка иностранцем 🤔
@ai_newz
Он и на русском, и на иврите, и на китайском, и на пачке других языков могёт. OpenAI насобирали очень качественный голосовой датасет для тренировки.
Волосы двигаются на голове от осознания того, что ведёшь разговор с LLM, которая говорит так реалистично (особенно на первом видео). Как-то Siri и Google Assistant так реально не ощущались, да они и тупые в целом (пока).
Аудио доступно только в приложении ChatGPT на мобильниках. Для этого нужно его активировать в настройках аппки.
Интересно, откуда американский акцент на русском языке во втором видео? Байес датасета или так нативнее в контексте изучения языка иностранцем 🤔
@ai_newz
🔥18👍10
Media is too big
VIEW IN TELEGRAM
Decaf Mocap
А вот это уже похоже на что-то серьезное, в отличие от мамкиных нейромокапов.
Во-первых, это институт Макса Планка, во-вторых - это Valeo.ai, которые занимаются компьютерным зрением для автономных автомобилей, работая с огромным количеством датчиков.
На итоге - трехмерное восстановление 3D-движения рук и лица вместе с деформациями по одному видео с одной камеры!!!
Внутри вариационный автокодер, обеспечивающий предварительную оценку глубины лица и рук, и модули, управляющие 3D-слежением путем оценки контактов и деформаций.
https://vcai.mpi-inf.mpg.de/projects/Decaf/
Внутри детали и большое видео с объяснениями.
А вот это уже похоже на что-то серьезное, в отличие от мамкиных нейромокапов.
Во-первых, это институт Макса Планка, во-вторых - это Valeo.ai, которые занимаются компьютерным зрением для автономных автомобилей, работая с огромным количеством датчиков.
На итоге - трехмерное восстановление 3D-движения рук и лица вместе с деформациями по одному видео с одной камеры!!!
Внутри вариационный автокодер, обеспечивающий предварительную оценку глубины лица и рук, и модули, управляющие 3D-слежением путем оценки контактов и деформаций.
https://vcai.mpi-inf.mpg.de/projects/Decaf/
Внутри детали и большое видео с объяснениями.
🔥31
Давно не было про Метаверсищще.
Я сам не продвинутый пользователь Роблокса, но глядя на то, как близлежащие дети сбиваются в стаи и рубятся в Роблокс, я всегда считал Роблокс одним из годных воплощений Метаверса, в котором есть, что делать, в отличие от влажных мечт Марка.
А тут вот интернетик принес такую новость: «Яндекс Маркет открыл школу в Roblox, в ней есть теннисный корт, баскетбольная площадка, фонтан, фотозона, школьный автобус и магазин с внутриигровыми предметами от маркетплейса».
Потом посмотрел, что в этом пространстве уже выпустили даже мерч нейросетки YandexGPT, который можно накрафтить, просто погоняв в игрушки. Выигрываешь 50 раз, получаешь читы, активируешь их в мерч-шопе - получаешь толстовку или худи. Мерч виртуальный, выиграл, надел и ну флексить, причем не только в яндекс-зоне, но и по всему Роблоксу.
Глянул первую попавшуюся статистику: 70% активных пользователей - дети и подростки до 17 лет. Вот им уж точно зайдут такие дофаминовые механики.
Не уверен, что у каждой компании будет свой Роблокс-мирок, но для тех кто целит в определенные аудитории, это может быть 3Д-альтернативой тик-токам и инстам.
Но взрослых туда будет загнать сложновато, имхо. Но возможно я просто староват и делаю сверх-обобщения.
Я сам не продвинутый пользователь Роблокса, но глядя на то, как близлежащие дети сбиваются в стаи и рубятся в Роблокс, я всегда считал Роблокс одним из годных воплощений Метаверса, в котором есть, что делать, в отличие от влажных мечт Марка.
А тут вот интернетик принес такую новость: «Яндекс Маркет открыл школу в Roblox, в ней есть теннисный корт, баскетбольная площадка, фонтан, фотозона, школьный автобус и магазин с внутриигровыми предметами от маркетплейса».
Потом посмотрел, что в этом пространстве уже выпустили даже мерч нейросетки YandexGPT, который можно накрафтить, просто погоняв в игрушки. Выигрываешь 50 раз, получаешь читы, активируешь их в мерч-шопе - получаешь толстовку или худи. Мерч виртуальный, выиграл, надел и ну флексить, причем не только в яндекс-зоне, но и по всему Роблоксу.
Глянул первую попавшуюся статистику: 70% активных пользователей - дети и подростки до 17 лет. Вот им уж точно зайдут такие дофаминовые механики.
Не уверен, что у каждой компании будет свой Роблокс-мирок, но для тех кто целит в определенные аудитории, это может быть 3Д-альтернативой тик-токам и инстам.
Но взрослых туда будет загнать сложновато, имхо. Но возможно я просто староват и делаю сверх-обобщения.
🔥20👎7👍6❤1
Stable Diffusion SDXL - одна картинка в секунду. Бесплатно. Без регистрации.
Не шутка. Не реклама.
Просто добрый Гугл взял свои недавно анонсированные TPU v5e и портировал Stable Diffusion на них.
А потом собрал на HuggingFace веб-морду для доступа к
Fast Stable Diffusion XL on TPU v5e.
Получился бесплатный дико быстрый генератор картинок на SDXL.
Крутится все это в облаке Гугла с нечеловеческой скоростью.
Я пробовал утром, я пробовал вечером - в среднем 4 картинки за 2-4 секунды. В 1024х1024.
Это быстрее, чем на A100 или еще где-то.
Для гиков: вот тут подробности, как портировали, как обгоняли, как подрезали.
Для всех:
1. Еще утром был только позитивный и негативный промпт и Guidance Scale. Сейчас подвезли стили. Похоже они занимаются проектом.
2. Еще утром модель прекрасно понимала nude и naked, сейчас уже ругается "изыди и зайди с другим промптом".
3. Мне трудно оценить на глаз разницу с ванильной SDXL. Кажется, что модель в процессе оптимизации потеряла толику точности(кватизация?), но, вероятно, это желание найти подвох.
4. В NSFW модель неохотно исполняет (есть трюкидля этого), причем там похоже есть защита не только в промпте, но и в самой пост-генерации - модель как будто специально ломает анатомию, как только видит сама у себя обнаженку.
5. Абстрактные дела, илюстрация и всякая анимещщина идут на ура, как в обычной SDXL.
6. Конечно нет (пока) никаких рулек и фиксов. Лица порой портит, разрешение квадратное, управлять можно только стилями.
7. Знает знаменитостей. Лица сразу правятся.
В общем давай-те оттестируем такой бесплатный подарок. Навалите туда своих промптов и расскажите, что получилось.
Как-то все это очень сладко, чтобы быть правдой - SDXL, в облаке, бесплатно, быстро, на тензорных ядрах от гугла. И никакой Нвидии посередине.
В чем подвох?
Я тут соорудил галерейку для не вошедшего в шапку, там nsfw, частицы и прочая хтонь, порожденная бездумным жмаканием на кнопку "Еще красиво". Будет 100 лайков, запощу.
Жмакаем сюда:
https://huggingface.co/spaces/google/sdxl
Не шутка. Не реклама.
Просто добрый Гугл взял свои недавно анонсированные TPU v5e и портировал Stable Diffusion на них.
А потом собрал на HuggingFace веб-морду для доступа к
Fast Stable Diffusion XL on TPU v5e.
Получился бесплатный дико быстрый генератор картинок на SDXL.
Крутится все это в облаке Гугла с нечеловеческой скоростью.
Я пробовал утром, я пробовал вечером - в среднем 4 картинки за 2-4 секунды. В 1024х1024.
Это быстрее, чем на A100 или еще где-то.
Для гиков: вот тут подробности, как портировали, как обгоняли, как подрезали.
Для всех:
1. Еще утром был только позитивный и негативный промпт и Guidance Scale. Сейчас подвезли стили. Похоже они занимаются проектом.
2. Еще утром модель прекрасно понимала nude и naked, сейчас уже ругается "изыди и зайди с другим промптом".
3. Мне трудно оценить на глаз разницу с ванильной SDXL. Кажется, что модель в процессе оптимизации потеряла толику точности(кватизация?), но, вероятно, это желание найти подвох.
4. В NSFW модель неохотно исполняет (есть трюкидля этого), причем там похоже есть защита не только в промпте, но и в самой пост-генерации - модель как будто специально ломает анатомию, как только видит сама у себя обнаженку.
5. Абстрактные дела, илюстрация и всякая анимещщина идут на ура, как в обычной SDXL.
6. Конечно нет (пока) никаких рулек и фиксов. Лица порой портит, разрешение квадратное, управлять можно только стилями.
7. Знает знаменитостей. Лица сразу правятся.
В общем давай-те оттестируем такой бесплатный подарок. Навалите туда своих промптов и расскажите, что получилось.
Как-то все это очень сладко, чтобы быть правдой - SDXL, в облаке, бесплатно, быстро, на тензорных ядрах от гугла. И никакой Нвидии посередине.
В чем подвох?
Я тут соорудил галерейку для не вошедшего в шапку, там nsfw, частицы и прочая хтонь, порожденная бездумным жмаканием на кнопку "Еще красиво". Будет 100 лайков, запощу.
Жмакаем сюда:
https://huggingface.co/spaces/google/sdxl
👍118🔥21