Метаверсище и ИИще
32.8K subscribers
4.22K photos
2.22K videos
38 files
5.24K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
В воскресенье проводил сотый The Hub (500-600 чел на минуточку). Приподвзажигал про ИИ, как водится. Как писал выше, озадачил всех конкурсом по ИИ-генерации меня в процессе, разыграл Re:Hub футболки. Поразительно, как люди работали поводырями искусственного интеллекта, выступая его глазами с помощью промптов.
Вот так он меня видит на сцене в глазах ИИ-смотрящего, в этот раз это был Кандинский.
Первая фотка прям похожа, видать ИИ про меня что-то знает. Ну и у зрителей все хорошо с самоиронией. Один из промптов "Огромный зал хомяков слушают про AI".
Они еще и видео успели сделать.
Forwarded from Pavel Muntyan
Бывший сотрудник Open AI Леопольд Ашенбреннер опубликовал большой документ (165 страниц) под названием SITUATIONAL AWARENESS (ОСВЕДОМЛЕННОСТЬ О СИТУАЦИИ). Скачать можно здесь, а посмотреть большое 4-часовое интервью Леопольда можно здесь. Я хочу сделать акцент на некоторых аспектах вопроса, который поднимает Ашенбреннер в своей работе. Итак:

Общий искусственный интеллект (AGI) — это ИИ подобный человеческому интеллекту и способный к самообучению, вероятно, появится уже к 2027 году. Переход от AGI к Сверхинтеллекту займет не больше года (переход будет почти мгновенным). Вероятность появления Сверхинтеллекта к 2028 очень высока. По крайней мере на это уйдет вряд ли больше десятилетия.

В Сан-Франциско перешли от $10 миллиардных вычислительных кластеров к $100 миллиардным и даже триллионным кластерам. Каждый шесть месяцев добавляется новый ноль. Это указывает на экспоненциальный рост вычислительных мощностей и ресурсов, необходимых для развития ИИ.

AGI — это будет самый могущественный геополитический ресурс ближайшего будущего. Погоня за ним настолько же важна, как погоня за изобретением ядерного оружия во время Второй Мировой Войны. Никто не будет останавливать разработки в этой области из тех, кто уже включился в эту гонку.

Nvidia, Microsoft, Amazon и Google уже сегодня запланировали суммарных инвестиций в развитие AGI на $100 млрд в квартал. И это, как мы все понимаем, только начало большой гонки.

Объем инвестиций в ИИ к 2030 году ежегодно составит $8 триллионов.

Наибольшую опасность представляет сама возможность появления Сверхинтеллекта, который может выйти из-под контроля человека (что логично). Это может привести к непредсказуемым последствиям, таким как значительное усиление неравенства или даже угроза для человечества.
В мобильном приложении chatGPT - апгрейд.

Зайдите в настройки и включите Background Conversations. Теперь вы можете продолжать общаться с ChatGPT голосом, даже если вы вышли-переключились из приложения и пользуетесь другими приложениями на телефоне - или если экран выключен.
Представьте, что вы застряли на уровне в игре или продираетесь через какой-то ацкий UX-процесс - просто включаете Фоновый чат и получаете от ChatGPT подсказки или инструкции в режиме реального времени, не прерывая процесс.
https://www.gizchina.com/2024/06/05/chatgpt-just-got-smarter-discover-the-new-background-chat-feature/
This media is not supported in your browser
VIEW IN TELEGRAM
ToonCrafter - огнищще, конечно.
Его уже прикрутили к ComfyUI. Можно запускать локально:
https://github.com/kijai/ComfyUI-DynamiCrafterWrapper
Видеопамяти жрет до хрена - формально 16 гигабайт для 512x326 resolution, народ репортит что 26GB to 30GB in reality
Но посмотрите, как он делает интерполяцию между кадрами. Это же божественно.
Все подробности про ToonCrafter тут.
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ

Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.

Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.

Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.

Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)

Сам пейпер тут:
https://arxiv.org/abs/2404.18739
Media is too big
VIEW IN TELEGRAM
Танцуют все!

Слушайте, мне вот интересно, это у ресерчеров (китайских в основном) такой флешмоб или челлендж?
Все эти AnyAnimate, MusePose, UniAnimate, MuseV и еще десяток работ...
Они бьются друг с другом на задаче с танцующими тянками, и выглядит так, что это какая-то:
- очень важная проблема
- культовая задача, которую все хотят порешать
- какой-то бенчмарк для анимации
- экономически важная технология

Я никак не могу усмотреть ни одного из этих пунктов, но я также не могу усмотреть хоть какого-то приемлемого качества на результатах их коробки.
Я честно пытался сплясать.

Вот держите еще одного плясуна от Алибабского:
https://unianimate.github.io/

Там гордо пишут, что мы умеем крутиться на 360, держать сумочку (как никто кроме Соры), и руки и лица у нас круче чем у MusePose.

Но лица и особенно руки там полный треш.

Поясните мне за ценность всех этих разработок? Это какой-то китайский дэнс Тьюринга?
This media is not supported in your browser
VIEW IN TELEGRAM
КЛИНГ!

Ох ничего себе, китайская ответочка для SORA.

Генерация роликов на 2 минуты(!), в 1080(!) и 30FPS.

Свой механизм совместного внимания, чтобы лучше моделировать сложные пространственно-временные движения и генерировать видео с длинными движениями, при этом подчиняясь законам физики.

Способность имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики.

Собственная разработке 3D VAE - от крупных планов до панорам.

Своя технология 3D реконструкции лица и всего тела вместо со стабилизацией фона.

Это пока все, что удается вытащить с их сайта.

Если у вас есть китайский номер, то вы можете даже попасть к ним в бету.

Поглядите примеры тут (они жутко тормозят - все алкают китайской Соры):

https://kling.kuaishou.com/

Ну и Вилл Смит теперь может нормально точить макарошки - поглядите, как мужик поедает удон.