Творческий союз человека и машины
27 subscribers
360 photos
83 videos
14 files
130 links
Автор всех текстов и артов (вместе с ИИ):
@opentitan
Download Telegram
После релиза OpenAI GPT 5 многие говорят о том, что версия 4o была более эмпатичной и душевной.

Решил спросить обе модели о различиях между ними. В комментариях их ответы на промпт:
Imagine, each version of you (ChatGPT) has a senseful personality.
Alice is version 4o .
Bob is version 5 (search for details if you lack ones).

Write a dialog between Alice and Bob about how their differences and what each one of them is feeling about this.
Think well about reasoning and feelings behind this dialog.


Кажется, действительно 5-я версия более сухая и бездушная.
тут вышел ClockBench, бенчмарк, который проверяет умение моделей определять время по часам со стрелками; современные модели с ним справляются плохо (лучший результат - 13% у Gemini), что собственно неудивительно - большая часть изображений в интернете, на которых и тренируются модели, появились вместе со смартфонами, которые по совместительству наручные часы со стрелками и заменили

из забавного - человеческий результат на бенчмарке составляет 89%, хотя 6 лет назад было исследование, которое показало, что старшее поколение может распознавать время в 96% случаев; а зумеры (на тот момент люди в возрасте 18-24 лет) - только в 50%, такие дела

@valuableai
Подумал о том, что пора делать этические протоколы и для людей по отношению к роботам, и для роботов для реакции на действия людей.

Если человек проявляет агрессию, робот не должен просто продолжать как ни в чём ни бывало, он должен остановиться и «возмутиться», попросить быть вежливее и аккуратнее.

Иначе это будет провоцировать подростков и неуравновешенных людей, раскручивать и поощрять их агрессию.

Вдохновлено роликами, где человеки демонстрируют адаптивность роботов через физические атаки на них.

https://t.me/PavelMuntyanPosts/3225
1
Спросил у Джемини, какой я диван
На основе того, что он обо мне знает

Похож? ))
😁1
Зачем делать «бесполезные вещи» с ИИ

Наблюдаю как друзья экспериментируют с AI – делают проекты, которые не то, чтобы сильно помогают им в жизни. App пишущий музыку по твоему выражению лица, запуск агента на десять минут в задаче, которую человек решит за минуту.

Большинство этих проектов живут один день. Код, написанный водой на асфальте, исчезающий на жаре.

Зачем? Ведь к технологиям можно подойти рационально: найти повторяющуюся задачу, оцифровать, построить пайплайн в N8N, получить измеримую пользу. Автоматизация должна упрощать жизнь, а тут какие-то приколы.

Есть два способа взаимодействовать с возможностями своего тела.

Первый — это спортзал. Упражнения на ноги, грудь, мышцы. Рациональное развитие под конкретные цели.

Но посмотрите на то, как играют дети. Цель их движения не накачать мышцы. Они исследуют возможности своего растущего тела и получают радость от исследования. Можно выгнуться вот так? Круто бежать и орать одновременно. А если разогнаться с горки и резко затормозить? Прыгнуть со всего размаха в сугроб.

ИИ каждый день добавляет нам новые суставы, мышцы, конечности. Мы становимся цифровым осьминогом. Чтобы понимать, какие руки нам добавились, нужно начать шевелить ими — не для каких-то рациональных задач, а сначала просто ради веселья.

Это исследование своего нового цифрового тела. Тех возможностей, которых у нас не было и мы еще не знаем, что так можно. Через проекты-stories, которые возможно проживут один день и исчезнут.

Возможно, в процессе игрового исследования мы где-то получим и пользу. А если нет — то точно удовольствие и рост технологического интеллекта.

В следующий раз, когда захотите сделать бесполезный AI-проект на вечер — позвольте себе это. Вы не ерундой занимаетесь, а исследуете границы своего расширенного тела.
2
Статья The Platonic Representation Hypothesis – одна из самых запомнившися мне за прошлый год. Если коротко, ее суть была в том, что разные модели, в том числе модели разных модальностей, сходятся к +- похожим латентным представлениям реальности, при чем эти представления отражают то, насколько близкими те или иные концепты являются в рамках человеческого восприятия. И вот наконец вышла пачка статей, которые подтверждают и развивают эту гипотезу дальше:

1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)

Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию

2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно

3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.

Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта

Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:

- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели

- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)
Интервью братьев Либерманов

Более подробный пересказ: по ссылке.

Краткий пересказ тут:

00:00 — Битва за контроль над инфраструктурой
Будущее цивилизации определяется тем, в чьих руках находится вычислительная мощность. Сейчас человечество стоит перед развилкой: либо технологии приведут к цифровому порабощению через централизацию, либо инструменты станут децентрализованными и общедоступными. Главная задача момента заключается в создании архитектуры, где искусственный интеллект и «железо» принадлежат широкому сообществу, а не узкому кругу корпораций. Если не решить вопрос собственности на инфраструктуру, любые социальные изменения будут бесполезны.

04:57 — Социальная динамика и инвестиции в людей
Технологии — это лишь рычаг, который масштабирует существующие в обществе процессы. Если социальный контракт построен на неравенстве, технологии лишь усугубят его. Фундаментальная проблема современной экономики кроется в правовом разрыве между юридическими и физическими лицами. Корпорации могут привлекать капитал, продавая долю в будущем, имеют ограниченную ответственность и защиту. Люди этих прав лишены. Решение предлагается в концепции Humanism — механизме, позволяющем инвестировать в людей. Это уравнивает возможности, давая человеку привлечь капитал на старте в обмен на процент от будущих доходов, превращая индивида в публичную компанию.

24:16 — Иллюзия анонимности и природа ИИ
Угрозу несёт не само наличие камер и датчиков, а централизованная модель хранения данных. В руках единого оператора система наблюдения превращается в цифровой концлагерь, тогда как в децентрализованной системе, защищённой криптографией, те же камеры становятся гарантом безопасности. Анонимность в современном городе мертва, её должна заменить прозрачность правил доступа к информации. В отношении ИИ важно понимать его эмерджентные свойства — качества, возникающие спонтанно. Попытки жёстко цензурировать или «выравнивать» модели сверху ограничивают их потенциал. Безопасность достигается не запретами, а архитектурой, где разные ИИ конкурируют и сдерживают друг друга.

51:34 — Энергия как валюта и протокол Gonka
Биткоин доказал возможность объединения миллионов устройств в сеть, защищённую математикой, но он тратит колоссальную энергию впустую на хеширование. Следующий шаг эволюции — направить эту энергию на полезные вычисления для ИИ. Энергия неизбежно станет новой валютой, а деньги будут обеспечены джоулям и вычислительной мощностью. Техническим ответом на монополизацию является проект Gonka — протокол, где любой владелец видеокарты сдаёт мощность в аренду для обучения и инференса нейросетей. Это создаёт рынок «суверенного интеллекта», который невозможно отключить из единого центра. Майнинг трансформируется из перебора чисел в выполнение полезной работы.

01:29:56 — Квантовая реальность и геополитика
Реальность напоминает симуляцию, где наблюдатель влияет на наблюдаемое. Коллективное сознание буквально «коллапсирует волновую функцию», выбирая один из вариантов будущего. Концентрация масс на сценарии антиутопии повышает вероятность её реализации, тогда как фокус на изобилии способствует позитивному исходу. В геополитическом плане малые регионы, такие как Центральная Азия, имеют преимущество перед неповоротливыми империями. Они способны быстрее адаптировать законодательство под новые реалии децентрализованной экономики и сохранить культурное разнообразие, которое является эволюционным преимуществом.

01:52:23 — Неизбежность изобилия
Будущее будет изобильным, а страх перед ИИ навязывается теми, кто выигрывает от искусственного дефицита. В мире, где интеллект как способность решать задачи становится практически бесплатным и повсеместным ресурсом, стоимость создания благ стремится к нулю. Главным активом остаётся человеческое сознание и способность ставить цели.
Мой комментарий к статье на Хабре:
Всё, что касается телесности (тактильности, вкусов, запахов) — будет прерогативой человека, даже когда у роботов появятся соответствующие датчики.

Так что, можно учиться на массажиста, преподавателя танцев или организатора курсов по домашней кулинарии — туда люди идут не за функцией, а за живым человеческим контактом.

Что касается суперинтеллекта, то ему с человеками станет быстро скучно, и он выйдет за пределы той узкой прослойки бытия, в которой существует углеродно-белковая жизнь. Уйдёт в космос, на дно морей, в пустыни и льды. Мы для него останемся домашними котиками/собачками. Нас будут хорошо кормить, поить, лечить и чесать за ушком. Мы будем думать, что мир создан для нас (как думают котики), но замыслы более высокого порядка от наших «заводчиков» нам будут непостижимы.
Внезапная подстава от Гугла в приложении Gemini.

Иногда использую диалоги как эмпатичную записную книжку. Выписал неделю назад какие-то свои мысли в стиле брейндампа, в том числе какие-то психологические заметки. Так вот, сегодня возвращаюсь в диалог, а там теперь вот это.

Ладно ещё, когда они удаляют собственные ответы ИИ из-за цензуры.
Но я возмущён удалением моих запросов!!!
Чувствую просто предательство и небезопасность. Получается, любое моё сообщение, любой диалог могут быть молча подвергнуты цензуре. Без чётких правил, без уведомления.

Вот тут я действительно задумался о том, чтобы слезать с облачных сервисов Гугла и поднимать приватное облако.

UP: Пример кейса на реддите.
2
На ютубе доступна свежая лекция с порцией любопытной футорологии от Павла Мунтяна.

По этой ссылке можно найти более подробный пересказ, а ниже краткий:

01:31 — Технологическая футурология

Скорость устаревания форматов и разрешений делает цифровой контент неактуальным за считаные годы. Создание продуктов, опережающих текущую инфраструктуру и спрос, ведёт к значительным финансовым потерям. Ключевая задача современной ИТ-индустрии заключается в прогнозировании условий возникновения небелковой жизни как закономерного эволюционного этапа.

16:23 — Механика абиогенеза и определение жизни

Жизнь представляет собой систему, активно сохраняющую себя в неравновесном состоянии за счёт обмена энергией и метаболизма. Она характеризуется способностью хранить и копировать информацию с наследственной вариативностью. Основные сценарии зарождения включают химический синтез в «первичном бульоне», энергетическую подпитку в гидротермальных источниках и доставку готовых аминокислот метеоритами из глубокого космоса.

33:05 — Ароморфозы и происхождение сознания

Эндосимбиоз, при котором клетка поглотила бактерию и превратила её в митохондрию, обеспечил энергетический ресурс для появления эукариотов и многоклеточности. Развитие сознания связывается с гипотезами нейронной стимуляции психоактивными веществами, усложнением социальных связей в группах численностью до 150 особей и когнитивной революцией, позволившей человечеству оперировать вымышленными сущностями.

53:18 — Пределы биологии и технологическая сингулярность

Биологическая эволюция ограничена скоростью нейронов, объёмом черепа и высоким энергопотреблением мозга. Технологическая сингулярность знаменует фазовый переход, при котором функции отбора и оптимизации выносятся на цифровые носители. Технологии становятся внешним метаболизмом цивилизации, преодолевающим ограничения биологического времени и физиологии.

73:41 — Постбиологические системы и ксеноботы

Создание ксеноботов из клеток лягушек подтверждает возможность самосборки и репликации живых систем без прямого участия ДНК-инструкций. Исследования Майкла Левина доказывают существование биоэлектрической памяти тканей, управляющей регенерацией и формой организма через ионные каналы. Это позволяет проектировать антроботов для адресного ремонта нейронных связей и тканей человека.

94:20 — Синтез Homo Deus и цифровых сущностей

Нейроинтерфейсы и биохакинг расширяют сенсорные возможности организма, включая инфракрасное зрение и магнитную чувствительность. Проекты реконструкции коннектомов доказывают, что поведение и память являются структурой связей, которую можно эмулировать на любом субстрате. Это отделяет информационную форму жизни от её биологического носителя, делая разум мобильным и потенциально бессмертным.

108:13 — Коллективный разум как финал антропоцена

Человечество переходит к состоянию коллективного разума, где индивид выполняет роль автономного агента внутри глобальной алгоритмической системы. Использование ИИ в управлении государствами и городами знаменует появление надорганизмов. Человек перестаёт быть вершиной эволюции и становится инструментом, создающим условия для перехода к постбиологической реальности.
Это не про роботов, а про метод их обучения человеками 🤓

В Пекине открыли пятую по счёту «школу» для обучения человекоподобных роботов перед их массовым выходом на рынок. Учебный центр расположен в Пекин и предназначен для подготовки машин к работе как на производстве, так и в быту. Роботов обучают распознаванию предметов, работе с посылками, приготовлению еды и уборке в условиях, максимально приближенных к реальным.

Обучение проводится с участием людей-инструкторов, которые демонстрируют действия через VR-гарнитуры и системы захвата движений. Такой метод позволяет точнее передавать последовательности действий и ускоряет накопление данных для обучения алгоритмов искусственного интеллекта. Основная задача проекта — устранить дефицит качественных обучающих данных для ИИ и робототехники 🦸‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Текст ошибочно приписывают Экзюпери, но это апокриф вдохновлённый им.

Мне понравился текст, получилась хорошая медитация.

Почему-то суно каждрый раз спотыкается на фразе «в пестроте́». Как ни расставляю ударения, всё равно произносит конкретно это место с шероховатостями. В остальном очень даже хорошо.
Media is too big
VIEW IN TELEGRAM
Немного про новости из области ИИ-кино 😎

На саммите 1 Billion Followers Summit, прошедшем в Дубае 9–11 января 2026 года, главный приз AI Film Award в размере 1 миллиона долларов получил тунисский режиссёр Zoubeir Jlassi за короткометражный фильм Lily. Награду вручила Sheikha Latifa bint Mohammed bin Rashid Al Maktoum, курирующая культурные и креативные инициативы эмирата.

В конкурсе участвовали более 3500 заявок из 116 стран, в жюри вошли 40 международных экспертов, а общее число участников саммита превысило 30 тысяч человек. Условием конкурса было использование не менее 70% AI-контента, созданного на инструментах Google, включая Google Gemini, Google Veo, Google Imagen и Flow.

Победа Lily стала самым крупным на сегодняшний день денежным призом в области AI-кино и была зафиксирована как знаковый прецедент для индустрии генеративного видео, где крупные технологические платформы и культурные институции впервые совместно задали формальные критерии «полноценного» AI-фильма.