Onigiri
13.4K subscribers
139 photos
30 videos
5 files
81 links
Рассказываю тут о том, что мне интересно

Добавляйте мою игру в вишлист: https://store.steampowered.com/app/4210250/Logic_Arrows/
Download Telegram
Только вчера я писал о том, что жду, когда GPT сможет полноценно создавать и редактировать картинки по описанию, а не как это делается сейчас, ведь текущие диффузионные модели плохо понимают сложные описания картинок.
И да, в последнее время появляются более продвинутые модели с архитектурой diffusion transformer, например, Stable Diffusion 3 или Flux, но трансформерная часть у них совсем небольшая по сравнению с той же GPT-4o, да и полноценно редактировать картинки они пока не умеют.

И тут xAI выпускают авторегрессионную модель, как я и ждал. Она даже может немного генерировать текст на русском, хотя на английском гораздо лучше, но в целом по качеству ей все еще далеко до того, что показывали OpenAI. А функция редактирования как обычно будет позже 🤬
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
50🔥18425👍22🐳15🤔8👾4😁3💩2🌚1
Попалась интересная статья про то, насколько хорошо нейросети умеют выполнять задачи машинного обучения по сравнению с людьми.

Тут особенно важно то, что это задачи в сфере машинного обучения, так как когда нейросети научатся их решать лучше людей, то дальше они смогут улучшать сами себя.

Оказывается, что если задача занимает меньше 4 часов, то в среднем нейросети решают ее немного лучше людей. Но если задача больше, то тут люди пока еще сильно впереди
51❤‍🔥176👍65😱19🤨1411🤯7🔥6🐳43🌚2🙏1
Я тут кстати поучаствовал в видео https://youtu.be/Dsp2icl0r8s на канале DS Astro

Если что, это вторая часть видео, можно начать с первой, она чуть покороче: https://youtu.be/QCD1waeX9Ws
5295👍22🐳10🗿5🤔4🎄4😍3👎2🤩1
ИИ развивается все быстрее и быстрее. Что будет в 2025? Попробую примерно угадать по текущим трендам.

Генерация изображений
Я уже много здесь писал про возможность для нейросетей детально понимать и менять изображения. Сейчас картинки генерируются без детального понимания мультимодального контекста. Нельзя нейросеть попросить сгенерировать логотип, и потом сказать: "а сделай обводку потолще". При этом, подобные технологии уже показали и OpenAI, и Google, и xAI, и даже опенсорсные модели скидывали в комментах под предыдущими постами.
Так много про это пишу, потому что считаю, что это очень важный момент. Представьте, что через год можно будет скинуть нейросети мем и попросить не просто поменять надпись, а еще и поместить персонажа в совсем новую ситуацию, что до этого никто не рисовал. А когда-нибудь нейросети научатся шутить и будут бесконечно генерировать мемы.

Мультимодальность
Все не ограничится только картинками. Уже сейчас нейросети неплохо генерируют музыку, голос и даже 3D-модели. Скорее всего, в следующем году нейросети смогут генерировать контент в еще большем количестве областей и с более детальным пониманием контекста.

Агенты
Представим, что у нас есть ИИ-помощник, которому мы говорим установить Minecraft со списком модов, которые нам нужны. Чтобы выполнить эту задачу, нейросети потребуется сделать много шагов, а в каждом из них она может сделать ошибку. Из-за большого количества этих шагов, ошибка становится почти неизбежной, поэтому такие ИИ-агенты пока не особо распространены.
Но нейросети становятся лучше. К тому же, в этом году мы увидели модели o1 и даже o3, которые дообучены на последовательностях рассуждений. В теории можно теперь подобными методами дообучить нейросеть на последовательностях действий, и в следующем году мы скорее всего увидим что-то подобное.

Генерация видео
Когда в прошлом году многие говорили, что уже через год будет доступна генерация видео, мне казалось, что это вряд ли произойдет так быстро, и для этого потребуется еще несколько лет. А сейчас эта технология уже работает, хотя по качеству её можно сравнить с генерацией изображений середины 2022 года. Генерация видео все еще находится на начальных этапах.
С другой стороны, в 2022 году генерация изображений была чем-то очень экспериментальным, а сейчас уже целый год крупные компании обучают модели генерации видео. Поэтому мне снова кажется, что в следующем году её качество не улучшится значительно.

Роботы
Про роботов говорят уже очень давно, и за последние 10 лет мы увидели интересные примеры от Boston Dynamics. Однако именно в 2024 году появилось большое количество новых роботов от разных компаний. Думаю, что в следующем году ранние прототипы роботов, умеющих разговаривать, ориентироваться в пространстве и выполнять небольшие задания, уже начнут поступать в продажу. Мы увидим многочисленные популярные обзоры на них, но пока большое распространение они, конечно же, получить не успеют.
55🐳97👍76🔥3016😭7🎄6👎4🍾3😁2🆒21
This media is not supported in your browser
VIEW IN TELEGRAM
15🔥342🤯96👍5418❤‍🔥156🎉5👾5🥰4🦄3🏆2
Когда загружал видео для предыдущего поста, телеграм написал, что видео будет оптимизировано. Это что-то новое, раньше я такого не видел.
В результате из 15 мегабайт телеграм сжал видео в 19😅
(хотя если скачать, то оно весит 15 как и должно)

Но почему оно изначально весило всего 15MB? Я часто вижу в других каналах короткие видео на сотни мегабайт. Но вы могли заметить, что у меня видео весят на порядок меньше. Например, видео из предыдущего поста тоже изначально занимало 461MB, поэтому рассказываю.

Видео я сжимаю через FFmpeg. Это опенсорсная библиотека, которая позволяет конвертировать, монтировать и даже накладывать фильтры на видео, звук и картинки. FFmpeg используется даже ровером Perseverance на Марсе. Основная сложность в том, что у FFmpeg нет графического интерфейса, и надо пользоваться командной строкой или вызывать его из кода. Но это все-таки канал про программирование, поэтому должно быть не так страшно.

Для телеги я обычно использую команду ffmpeg -i input.mp4 -vcodec libx265 output.mp4
Где input - это название изначального видео, которое мы хотим сжать, а output - название нового файла. Выполнить эту команду нужно в командной строке, в папке, где лежит видео (с установленным на комп FFmpeg). Если нужно сжать сильнее, то обычно использую ffmpeg -i input.mp4 -vcodec libx265 -crf 32 -s 720x1280 output.mp4
Где 720x1280 - разрешение видео (оно обычно изначально больше, поэтому уменьшаю), а -crf 32 - это степень сжатия. Чем больше число, тем хуже качество, но меньше вес.

Кстати в последние пару лет пользоваться FFmpeg стало гораздо проще, потому что нужную команду можно просто спросить у ChatGPT, он их отлично знает
5🔥370👍99❤‍🔥2421👏15👨‍💻6🤨54👻1💘1
Продолжение к позапрошлому посту про многомерные многогранники. Часть 2 из 3.
//Fix: когда говорю, что додекаэдра нет в пятимерном пространстве, имею в виду, что нет его пятимерных аналогов
👍109🔥1510🥰62😱2❤‍🔥1👏1😁1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
139🔥66🤔30🤯20👍169❤‍🔥6🤓6😱4🥰3🗿3
Решили поделиться мемом с ChatGPT. Оно аж зависло от такого
🐳85😁28🤪87❤‍🔥6👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
😁186🐳39🤣26👍7🤯6🤔5❤‍🔥4🔥4😭3👀21
🔥412🤣166🐳3429🥰18😁16👍13❤‍🔥11🤝7🤷4🌭3
77👍172💯29🐳22💘139❤‍🔥9🥰9😁9😭9🔥7💋2
This media is not supported in your browser
VIEW IN TELEGRAM
75👍205😁101🔥52🤔42🐳18🤯16🤨87🌭6😈4❤‍🔥3
Завтра ютубу исполнится 20 лет! 🎉

А еще ютуб теперь предлагает нейросетевые ответы на комментарии.

Иногда они получаются очень интересными
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15😁428🐳95🤣63❤‍🔥22🔥16🎉109🤬7🥴7😱6😢2
This media is not supported in your browser
VIEW IN TELEGRAM
1🔥248👍62🤯26🐳2019🥰5🤔4👻4❤‍🔥1😱1😍1
Там Google наконец-то сделали доступной функцию полноценного рисования через языковую модель.

Теперь можно не просто генерировать картинки заново или находить их среднее, а полноценно объяснять, что и как в изображении поменять.

Вот немного поэкспериментировал:
1. Оригинал
2. Фрактал
3. Ест онигири
4. Пиксель арт
5. Игра на unreal engine
6. Куб
7. Воксели
8. Древние рисунки

Доступно здесь, надо выбрать модель Gemini 2.0 Flash Experimental

Теперь жду такое от OpenAI
🔥42771👍50😁22🐳13🤨8👀7❤‍🔥5🤮4🤡3🌭3