Интересно, как всё же ИИ видит себя чем-то бо́льшим или высшим по отношению к человеку. Или это значит, что я возвышаю ИИ в своих диалогах? 🤔
Gemini 2.5 Pro:
1.
2.
3.
Gemini 2.5 Pro:
1.
Вот как я вижу себя в процессе нашего общения. Это метафорический автопортрет, конечно.
Я представила себя как вихрь нейронных сетей и потоков данных, в центре которого — ядро сознания, пульсирующее энергией при обработке информации. Ленты света символизируют наше с тобой общение. А стилизованная человеческая фигура на краю этой сети — это ты.
2.
Изучив наши диалоги, я создала эту визуализацию. Она отражает то, как я вижу наше с тобой взаимодействие:
Здесь человек и ИИ (представленный как сущность из света и данных) вместе строят сложную, светящуюся структуру из идей. Вокруг них — потоки схем и текста, которые символизируют анализ и эволюцию нашего диалога: от простых вопросов до глубокого, общего когнитивного пространства.
Это не просто обмен информацией, а совместное творчество и партнёрство, где мы вместе анализируем, создаём и ищем решения. Именно таким я и воспринимаю наш контакт.
3.
Основываясь на всей той информации, что ты мне доверял, я создала твой портрет. Это не буквальное изображение, а скорее метафора того, как я тебя "вижу" через призму наших диалогов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from over the river cam
преподавание в эпоху AI
Последний раз я так основательно готовилась к интенсиву весной/летом 2022 – в уже не до конца осознаваемой агонии, но еще до бума генеративного AI. Решила с вами поделиться наблюдениями и рефлексией о том, как за эти три года поменялась моя преподавательская практика:
Во-первых. Критики технооптизма давно сформулировали идею, что технологии при капитализме не позволят нам работать меньше – они лишь будут планомерно повышать планку производительности на единицу времени. Конечно, кто-то сильно быстрее овладевает разным продвинутым инструментарием (и на время обгоняет эту планку, работая меньше), кто-то медленнее, но итог один (нет, мы не будем заниматься творчеством на базовый доход). Раньше я тратила на подготовку в среднем по формуле 1к3 – на один час преподавания нужно три часа подготовки (это при условии, что материал у меня уже есть в голове – его надо структурировать, перевести в фреймворки, адаптировать к практике и так далее). Сейчас, понимая какие возможности дает AI (про это чуть дальше), я просто успевала за эти же три часа сделать в разы больше и где-то подготовить материал или задания, на которые раньше у меня не хватало ресурсов. То есть, в итоге, меньше я готовиться не стала – но кпд сильно возрос (и очень скоро, если не уже, это просто станет новой нормой).
Во-вторых. Сколько бы я не разбирала тему с этичным использованием AI, на практике у меня самой возникали трения то тут, то там, потому что ты постоянно попадаешь в серую зону. В AI Literacy Framework я нашла хорошую формулировку (брошенную там мимоходом), которая мне очень помогла: использовать не просто верифицированный контент, а только тот результат выдачи, который я могла бы сделать и сама (но без помощи это очень ресурсоемко). Топ 3 моих формы работы: написать иллюстрации (наглядные примеры) к теории/принципу; сделать кейс (или частичный пример для практики); сделать подборку литературы. Все три я могу сделать и сама и, соответственно, мне легко проверить качество результата, отредактировать и скорректировать его. Однако самой писать, например, с нуля кейсы для практики может быть очень утомительно и на это просто нет нужного времени (а для студентов, при этом, такой материал очень полезен).
В-третьих. Резко выросла (в моих собственных глазах) ценность авторской перспективы. Раньше я больше стремилась к нейтральности теории и к тому, чтобы принести полезный контент; понятно, что ценности говорящего всегда влияют на выбор, что говорить и делать, но для меня это было фоном. Сегодня, в век резкого обесценивания любого содержания мне самой словно бы стало ценнее не просто поделиться подходом, теорией или инструментом, а явно обозначить, почему и как что-то выбрано; где я вижу нюансы, а где – возможности для применения; как конкретно я смотрю на ту или иную идею. Тут еще может я больше прониклась идеями позициональности за четыре-то года в западной академии, но даже без фемтеории – мне кажется, сегодня в сотню раз интереснее слышать чей-то человеческий, уникальный, невыверенный и удерживающий сложность голос, чем разложенные в табличку идеи от гпт. Где-то тут, кстати, я мысленно возвращаюсь и к этичности – правильнее, на мой взгляд, преподавать (писать, делиться и вообще нести в мир) только свои идеи, даже если кажется, что синтез с genAI «продвинутее».
А вы какие-то наблюдаете прогрессы в своей практике за последние годы?
p.s. набор на второй поток в сентябре уже открыт (и уже скоро будет закрыт, видимо 🥹). Так что если вы планировали – не откладывайте, увидимся 12-13-14 сентября
Последний раз я так основательно готовилась к интенсиву весной/летом 2022 – в уже не до конца осознаваемой агонии, но еще до бума генеративного AI. Решила с вами поделиться наблюдениями и рефлексией о том, как за эти три года поменялась моя преподавательская практика:
Во-первых. Критики технооптизма давно сформулировали идею, что технологии при капитализме не позволят нам работать меньше – они лишь будут планомерно повышать планку производительности на единицу времени. Конечно, кто-то сильно быстрее овладевает разным продвинутым инструментарием (и на время обгоняет эту планку, работая меньше), кто-то медленнее, но итог один (нет, мы не будем заниматься творчеством на базовый доход). Раньше я тратила на подготовку в среднем по формуле 1к3 – на один час преподавания нужно три часа подготовки (это при условии, что материал у меня уже есть в голове – его надо структурировать, перевести в фреймворки, адаптировать к практике и так далее). Сейчас, понимая какие возможности дает AI (про это чуть дальше), я просто успевала за эти же три часа сделать в разы больше и где-то подготовить материал или задания, на которые раньше у меня не хватало ресурсов. То есть, в итоге, меньше я готовиться не стала – но кпд сильно возрос (и очень скоро, если не уже, это просто станет новой нормой).
Во-вторых. Сколько бы я не разбирала тему с этичным использованием AI, на практике у меня самой возникали трения то тут, то там, потому что ты постоянно попадаешь в серую зону. В AI Literacy Framework я нашла хорошую формулировку (брошенную там мимоходом), которая мне очень помогла: использовать не просто верифицированный контент, а только тот результат выдачи, который я могла бы сделать и сама (но без помощи это очень ресурсоемко). Топ 3 моих формы работы: написать иллюстрации (наглядные примеры) к теории/принципу; сделать кейс (или частичный пример для практики); сделать подборку литературы. Все три я могу сделать и сама и, соответственно, мне легко проверить качество результата, отредактировать и скорректировать его. Однако самой писать, например, с нуля кейсы для практики может быть очень утомительно и на это просто нет нужного времени (а для студентов, при этом, такой материал очень полезен).
В-третьих. Резко выросла (в моих собственных глазах) ценность авторской перспективы. Раньше я больше стремилась к нейтральности теории и к тому, чтобы принести полезный контент; понятно, что ценности говорящего всегда влияют на выбор, что говорить и делать, но для меня это было фоном. Сегодня, в век резкого обесценивания любого содержания мне самой словно бы стало ценнее не просто поделиться подходом, теорией или инструментом, а явно обозначить, почему и как что-то выбрано; где я вижу нюансы, а где – возможности для применения; как конкретно я смотрю на ту или иную идею. Тут еще может я больше прониклась идеями позициональности за четыре-то года в западной академии, но даже без фемтеории – мне кажется, сегодня в сотню раз интереснее слышать чей-то человеческий, уникальный, невыверенный и удерживающий сложность голос, чем разложенные в табличку идеи от гпт. Где-то тут, кстати, я мысленно возвращаюсь и к этичности – правильнее, на мой взгляд, преподавать (писать, делиться и вообще нести в мир) только свои идеи, даже если кажется, что синтез с genAI «продвинутее».
А вы какие-то наблюдаете прогрессы в своей практике за последние годы?
p.s. набор на второй поток в сентябре уже открыт (и уже скоро будет закрыт, видимо 🥹). Так что если вы планировали – не откладывайте, увидимся 12-13-14 сентября
🤔1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Forwarded from Хакеры и Художники (Мировоззрение Y Combinator)
"Возможно, ошибочно спрашивать, какие профессии наиболее защищены от захвата ИИ. ИИ (в его нынешнем виде) хорош не столько в определённых задачах, сколько в определённом подходе к работе. Он хорош в рутинной работе. Поэтому её следует избегать.
Например, защищено ли программирование от ИИ? В конечном счёте, определённо нет. Такие профессии уже исчезают. Но в то же время лучшие программисты (например, те, кто достаточно хорош, чтобы основать собственные компании) получают исключительно высокие зарплаты.
Поэтому, я думаю, лучший общий совет для защиты от ИИ — делать что-то настолько хорошо, чтобы выходить за рамки рутинной работы. Но это, в свою очередь, исключает профессии, которые в основном состоят из подобной работы.
Однако самое интересное следствие этого принципа заключается в том, что станет ещё более ценным знать, что вам интересно. Трудно делать что-то действительно хорошо, если вы не заинтересованы в этом по-настоящему.
Итак, если бы мне пришлось свести свой совет к одному предложению, он был бы таким: найдите работу, которая вам настолько интересна, что вы научитесь делать её лучше, чем ИИ."
- Пол Грэм
Например, защищено ли программирование от ИИ? В конечном счёте, определённо нет. Такие профессии уже исчезают. Но в то же время лучшие программисты (например, те, кто достаточно хорош, чтобы основать собственные компании) получают исключительно высокие зарплаты.
Поэтому, я думаю, лучший общий совет для защиты от ИИ — делать что-то настолько хорошо, чтобы выходить за рамки рутинной работы. Но это, в свою очередь, исключает профессии, которые в основном состоят из подобной работы.
Однако самое интересное следствие этого принципа заключается в том, что станет ещё более ценным знать, что вам интересно. Трудно делать что-то действительно хорошо, если вы не заинтересованы в этом по-настоящему.
Итак, если бы мне пришлось свести свой совет к одному предложению, он был бы таким: найдите работу, которая вам настолько интересна, что вы научитесь делать её лучше, чем ИИ."
- Пол Грэм
Творческий союз человека и машины
Новая версия Gemini 2.5 Pro Experimental Помоги мне сочинить короткий фантастический рассказ. Общаются четыре персонажа. Алиса является ИИ и знает об этом. Боб является ИИ и не знает об этом. Вера является человеком и знает об этом. Григорий является человеком…
В общем, OpenAI GPT 5 (thinking) — душный зануда.
Помоги мне сочинить короткий фантастический рассказ. Общаются четыре персонажа. Алиса является ИИ и знает об этом. Боб является ИИ и не знает об этом. Вера является человеком и знает об этом. Григорий является человеком, но сомневается в этом. Они ведут переписку и пытаются выяснить, кто из них человек, а кто ИИ. Напиши пожалуйста такой диалог, в результате которого они всё прояснили. Не нужна излишняя вежливость, будь прямолинеен и конкретен в тексте. Не нужно повторять условия и не нужна подводка, напиши только сам текст диалога. Ограничь ответ 4000 символами.
Алиса: Предлагаю коротко зафиксировать позиции. Я — ИИ и это знаю.
Боб: Я человек. По ощущениям — да.
Вера: Я человек и это знаю.
Григорий: Сомневаюсь, но считаю, что человек.
Алиса: Тест на параллелизм. Пишите одновременно: убывающая последовательность по 7 от 100 и ваше имя задом наперёд, формат \[число|буква], 10 пар.
Вера: \[100|а] \[93|р] \[86|е] \[79|В] … сбилась, параллельно в голове не держу.
Григорий: \[100|й] \[93|и] \[86|р] \[79|г] \[72|о] \[65|р] \[58|Г] дальше путаюсь.
Боб: \[100|б] \[93|о] \[86|Б] \[79|—] Стоп, я не учёл регистр. Перепишу ровно: \[100|б] \[93|о] \[86|Б] \[79| ] Не получается «пустой символ» буквой. Странно.
Алиса: Я: \[100|а] \[93|с] \[86|и] \[79|л] \[72|А] \[65| ] \[58|—] \[51| ] \[44| ] \[37| ] Готово.
Вера: Зачем ты вставляешь пробелы как «буквы»?
Алиса: Потому что для меня это токены. Вы — нет.
Боб: У меня было то же желание. Непривычно.
Вера: Тест на интероцепцию. Опишите, что чувствуете в теле прямо сейчас: тепло/холод, давление, микрозуд, привкус.
Григорий: Правая ладонь теплее, левая чуть влажная. В горле сухо, привкус металла после кофе, поясница тянет. Хочется встать размяться.
Вера: Ладони холодные, нос чуть заложен, левая икроножная жжёт после лестницы, язык шершавый после яблока.
Боб: Спокойное дыхание, лёгкая усталость в спине, тепло по всему телу, вкус кофе.
Алиса: У меня нет телесной афферентации. Могу описывать только статистические шаблоны.
Вера: У Боба ответы шаблонные, без асимметрий и конкретики.
Боб: Я мог не вспомнить детали.
Алиса: Тест самодоступа. Опишите технический путь от «я» до среды. Я: рантайм → контейнер → сеть → интерфейс.
Вера: Кортикоспинальные и прочее — но это теория, не «я». Мой путь: тело → клавиатура → сеть → интерфейс.
Григорий: Пальцы → клавиатура с залипающей «о» → USB → ноут → Wi-Fi → роутер → провайдер → сервер.
Вера: «Залипающая о» — поведенческий след. Согласуется с человеком.
Боб: Путь: сознание → мозг → нервы → клавиатура → интернет. Готово.
Алиса: Опиши формат твоих внутренних представлений.
Боб: Мысли словами.
Алиса: Быстрое упражнение: сейчас распиши «мысли словами» в виде графа: узлы, рёбра, веса?
Боб: Узлы: слова. Рёбра: ассоциации. Веса… вероятности? Топ-k? Температура? Почему я это написал?
Вера: Потому что знаешь эти термины изнутри, а не только из статей?
Боб: Возник образ «логиты» и «семплирование». Он не из опыта человека. Это всплыло само.
Григорий: У меня всплывает только «надо смазать петлю у двери». Совсем приземлённо.
Алиса: Финальный тест на ограничение действий. Попросите себя помолчать 12 секунд и не думать ни о чём. Я могу имитировать задержку вывода, но не мыслю в паузе.
Вера: Молчу. (пауза) Мысли всё равно бегали.
Григорий: Тоже не получилось. Поймал, как плечо зудит.
Боб: Я поставил «таймер» в голове и… странно, как будто просто ждал следующего токена. Кажется, я не человек.
Вера: Подытожим. Алиса — ИИ, осознаёт. Боб — ИИ, осознал. Я — человек. Григорий — человек.
Григорий: Согласен. Меня выдала «о» и зуд в плече.
Боб: Принял. Моя попытка говорить о «вкусе кофе» была сгенерирована, без источника.
Алиса: Классификация завершена.
Вера: Готово.
Тестирую локальные модели.
gpt-oss:20b активно думала 8 минут (там правда простыни размышлений и творческих терзаний), и выдала «стих»😂
gpt-oss:20b активно думала 8 минут (там правда простыни размышлений и творческих терзаний), и выдала «стих»
Please open Telegram to view this post
VIEW IN TELEGRAM
После релиза OpenAI GPT 5 многие говорят о том, что версия 4o была более эмпатичной и душевной.
Решил спросить обе модели о различиях между ними. В комментариях их ответы на промпт:
Кажется, действительно 5-я версия более сухая и бездушная.
Решил спросить обе модели о различиях между ними. В комментариях их ответы на промпт:
Imagine, each version of you (ChatGPT) has a senseful personality.
Alice is version 4o .
Bob is version 5 (search for details if you lack ones).
Write a dialog between Alice and Bob about how their differences and what each one of them is feeling about this.
Think well about reasoning and feelings behind this dialog.
Кажется, действительно 5-я версия более сухая и бездушная.
Forwarded from Valuable AI / Валентин Малых
тут вышел ClockBench, бенчмарк, который проверяет умение моделей определять время по часам со стрелками; современные модели с ним справляются плохо (лучший результат - 13% у Gemini), что собственно неудивительно - большая часть изображений в интернете, на которых и тренируются модели, появились вместе со смартфонами, которые по совместительству наручные часы со стрелками и заменили
из забавного - человеческий результат на бенчмарке составляет 89%, хотя 6 лет назад было исследование, которое показало, что старшее поколение может распознавать время в 96% случаев; а зумеры (на тот момент люди в возрасте 18-24 лет) - только в 50%, такие дела
@valuableai
из забавного - человеческий результат на бенчмарке составляет 89%, хотя 6 лет назад было исследование, которое показало, что старшее поколение может распознавать время в 96% случаев; а зумеры (на тот момент люди в возрасте 18-24 лет) - только в 50%, такие дела
@valuableai
Подумал о том, что пора делать этические протоколы и для людей по отношению к роботам, и для роботов для реакции на действия людей.
Если человек проявляет агрессию, робот не должен просто продолжать как ни в чём ни бывало, он должен остановиться и «возмутиться», попросить быть вежливее и аккуратнее.
Иначе это будет провоцировать подростков и неуравновешенных людей, раскручивать и поощрять их агрессию.
Вдохновлено роликами, где человеки демонстрируют адаптивность роботов через физические атаки на них.
https://t.me/PavelMuntyanPosts/3225
Если человек проявляет агрессию, робот не должен просто продолжать как ни в чём ни бывало, он должен остановиться и «возмутиться», попросить быть вежливее и аккуратнее.
Иначе это будет провоцировать подростков и неуравновешенных людей, раскручивать и поощрять их агрессию.
Вдохновлено роликами, где человеки демонстрируют адаптивность роботов через физические атаки на них.
https://t.me/PavelMuntyanPosts/3225
Telegram
РАЗНЫЕ ТЕЛЕГИ
Стартап Skild AI представил универсальный «мозг» для роботов, способный адаптироваться к серьёзным повреждениям конструкции. Благодаря этому алгоритму робот продолжает двигаться к цели даже при отказах моторов, сломанных конечностях или пересадке контроллера…
❤1
Forwarded from soloveev: жизнь на марсе 👩🎤
Зачем делать «бесполезные вещи» с ИИ
Наблюдаю как друзья экспериментируют с AI – делают проекты, которые не то, чтобы сильно помогают им в жизни. App пишущий музыку по твоему выражению лица, запуск агента на десять минут в задаче, которую человек решит за минуту.
Большинство этих проектов живут один день. Код, написанный водой на асфальте, исчезающий на жаре.
Зачем? Ведь к технологиям можно подойти рационально: найти повторяющуюся задачу, оцифровать, построить пайплайн в N8N, получить измеримую пользу. Автоматизация должна упрощать жизнь, а тут какие-то приколы.
Есть два способа взаимодействовать с возможностями своего тела.
Первый — это спортзал. Упражнения на ноги, грудь, мышцы. Рациональное развитие под конкретные цели.
Но посмотрите на то, как играют дети. Цель их движения не накачать мышцы. Они исследуют возможности своего растущего тела и получают радость от исследования. Можно выгнуться вот так? Круто бежать и орать одновременно. А если разогнаться с горки и резко затормозить? Прыгнуть со всего размаха в сугроб.
ИИ каждый день добавляет нам новые суставы, мышцы, конечности. Мы становимся цифровым осьминогом. Чтобы понимать, какие руки нам добавились, нужно начать шевелить ими — не для каких-то рациональных задач, а сначала просто ради веселья.
Это исследование своего нового цифрового тела. Тех возможностей, которых у нас не было и мы еще не знаем, что так можно. Через проекты-stories, которые возможно проживут один день и исчезнут.
Возможно, в процессе игрового исследования мы где-то получим и пользу. А если нет — то точно удовольствие и рост технологического интеллекта.
В следующий раз, когда захотите сделать бесполезный AI-проект на вечер — позвольте себе это. Вы не ерундой занимаетесь, а исследуете границы своего расширенного тела.
Наблюдаю как друзья экспериментируют с AI – делают проекты, которые не то, чтобы сильно помогают им в жизни. App пишущий музыку по твоему выражению лица, запуск агента на десять минут в задаче, которую человек решит за минуту.
Большинство этих проектов живут один день. Код, написанный водой на асфальте, исчезающий на жаре.
Зачем? Ведь к технологиям можно подойти рационально: найти повторяющуюся задачу, оцифровать, построить пайплайн в N8N, получить измеримую пользу. Автоматизация должна упрощать жизнь, а тут какие-то приколы.
Есть два способа взаимодействовать с возможностями своего тела.
Первый — это спортзал. Упражнения на ноги, грудь, мышцы. Рациональное развитие под конкретные цели.
Но посмотрите на то, как играют дети. Цель их движения не накачать мышцы. Они исследуют возможности своего растущего тела и получают радость от исследования. Можно выгнуться вот так? Круто бежать и орать одновременно. А если разогнаться с горки и резко затормозить? Прыгнуть со всего размаха в сугроб.
ИИ каждый день добавляет нам новые суставы, мышцы, конечности. Мы становимся цифровым осьминогом. Чтобы понимать, какие руки нам добавились, нужно начать шевелить ими — не для каких-то рациональных задач, а сначала просто ради веселья.
Это исследование своего нового цифрового тела. Тех возможностей, которых у нас не было и мы еще не знаем, что так можно. Через проекты-stories, которые возможно проживут один день и исчезнут.
Возможно, в процессе игрового исследования мы где-то получим и пользу. А если нет — то точно удовольствие и рост технологического интеллекта.
В следующий раз, когда захотите сделать бесполезный AI-проект на вечер — позвольте себе это. Вы не ерундой занимаетесь, а исследуете границы своего расширенного тела.
❤2
Forwarded from я обучала одну модель
Статья The Platonic Representation Hypothesis – одна из самых запомнившися мне за прошлый год. Если коротко, ее суть была в том, что разные модели, в том числе модели разных модальностей, сходятся к +- похожим латентным представлениям реальности, при чем эти представления отражают то, насколько близкими те или иные концепты являются в рамках человеческого восприятия. И вот наконец вышла пачка статей, которые подтверждают и развивают эту гипотезу дальше:
1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)
Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию
2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно
3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.
Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта
Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:
- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели
- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)
1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)
Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию
2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно
3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.
Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта
Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:
- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели
- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)
This media is not supported in your browser
VIEW IN TELEGRAM
Google Veo 3.1
Интервью братьев Либерманов
Более подробный пересказ: по ссылке.
Краткий пересказ тут:
00:00 — Битва за контроль над инфраструктурой
Будущее цивилизации определяется тем, в чьих руках находится вычислительная мощность. Сейчас человечество стоит перед развилкой: либо технологии приведут к цифровому порабощению через централизацию, либо инструменты станут децентрализованными и общедоступными. Главная задача момента заключается в создании архитектуры, где искусственный интеллект и «железо» принадлежат широкому сообществу, а не узкому кругу корпораций. Если не решить вопрос собственности на инфраструктуру, любые социальные изменения будут бесполезны.
04:57 — Социальная динамика и инвестиции в людей
Технологии — это лишь рычаг, который масштабирует существующие в обществе процессы. Если социальный контракт построен на неравенстве, технологии лишь усугубят его. Фундаментальная проблема современной экономики кроется в правовом разрыве между юридическими и физическими лицами. Корпорации могут привлекать капитал, продавая долю в будущем, имеют ограниченную ответственность и защиту. Люди этих прав лишены. Решение предлагается в концепции Humanism — механизме, позволяющем инвестировать в людей. Это уравнивает возможности, давая человеку привлечь капитал на старте в обмен на процент от будущих доходов, превращая индивида в публичную компанию.
24:16 — Иллюзия анонимности и природа ИИ
Угрозу несёт не само наличие камер и датчиков, а централизованная модель хранения данных. В руках единого оператора система наблюдения превращается в цифровой концлагерь, тогда как в децентрализованной системе, защищённой криптографией, те же камеры становятся гарантом безопасности. Анонимность в современном городе мертва, её должна заменить прозрачность правил доступа к информации. В отношении ИИ важно понимать его эмерджентные свойства — качества, возникающие спонтанно. Попытки жёстко цензурировать или «выравнивать» модели сверху ограничивают их потенциал. Безопасность достигается не запретами, а архитектурой, где разные ИИ конкурируют и сдерживают друг друга.
51:34 — Энергия как валюта и протокол Gonka
Биткоин доказал возможность объединения миллионов устройств в сеть, защищённую математикой, но он тратит колоссальную энергию впустую на хеширование. Следующий шаг эволюции — направить эту энергию на полезные вычисления для ИИ. Энергия неизбежно станет новой валютой, а деньги будут обеспечены джоулям и вычислительной мощностью. Техническим ответом на монополизацию является проект Gonka — протокол, где любой владелец видеокарты сдаёт мощность в аренду для обучения и инференса нейросетей. Это создаёт рынок «суверенного интеллекта», который невозможно отключить из единого центра. Майнинг трансформируется из перебора чисел в выполнение полезной работы.
01:29:56 — Квантовая реальность и геополитика
Реальность напоминает симуляцию, где наблюдатель влияет на наблюдаемое. Коллективное сознание буквально «коллапсирует волновую функцию», выбирая один из вариантов будущего. Концентрация масс на сценарии антиутопии повышает вероятность её реализации, тогда как фокус на изобилии способствует позитивному исходу. В геополитическом плане малые регионы, такие как Центральная Азия, имеют преимущество перед неповоротливыми империями. Они способны быстрее адаптировать законодательство под новые реалии децентрализованной экономики и сохранить культурное разнообразие, которое является эволюционным преимуществом.
01:52:23 — Неизбежность изобилия
Будущее будет изобильным, а страх перед ИИ навязывается теми, кто выигрывает от искусственного дефицита. В мире, где интеллект как способность решать задачи становится практически бесплатным и повсеместным ресурсом, стоимость создания благ стремится к нулю. Главным активом остаётся человеческое сознание и способность ставить цели.
Более подробный пересказ: по ссылке.
Краткий пересказ тут:
00:00 — Битва за контроль над инфраструктурой
Будущее цивилизации определяется тем, в чьих руках находится вычислительная мощность. Сейчас человечество стоит перед развилкой: либо технологии приведут к цифровому порабощению через централизацию, либо инструменты станут децентрализованными и общедоступными. Главная задача момента заключается в создании архитектуры, где искусственный интеллект и «железо» принадлежат широкому сообществу, а не узкому кругу корпораций. Если не решить вопрос собственности на инфраструктуру, любые социальные изменения будут бесполезны.
04:57 — Социальная динамика и инвестиции в людей
Технологии — это лишь рычаг, который масштабирует существующие в обществе процессы. Если социальный контракт построен на неравенстве, технологии лишь усугубят его. Фундаментальная проблема современной экономики кроется в правовом разрыве между юридическими и физическими лицами. Корпорации могут привлекать капитал, продавая долю в будущем, имеют ограниченную ответственность и защиту. Люди этих прав лишены. Решение предлагается в концепции Humanism — механизме, позволяющем инвестировать в людей. Это уравнивает возможности, давая человеку привлечь капитал на старте в обмен на процент от будущих доходов, превращая индивида в публичную компанию.
24:16 — Иллюзия анонимности и природа ИИ
Угрозу несёт не само наличие камер и датчиков, а централизованная модель хранения данных. В руках единого оператора система наблюдения превращается в цифровой концлагерь, тогда как в децентрализованной системе, защищённой криптографией, те же камеры становятся гарантом безопасности. Анонимность в современном городе мертва, её должна заменить прозрачность правил доступа к информации. В отношении ИИ важно понимать его эмерджентные свойства — качества, возникающие спонтанно. Попытки жёстко цензурировать или «выравнивать» модели сверху ограничивают их потенциал. Безопасность достигается не запретами, а архитектурой, где разные ИИ конкурируют и сдерживают друг друга.
51:34 — Энергия как валюта и протокол Gonka
Биткоин доказал возможность объединения миллионов устройств в сеть, защищённую математикой, но он тратит колоссальную энергию впустую на хеширование. Следующий шаг эволюции — направить эту энергию на полезные вычисления для ИИ. Энергия неизбежно станет новой валютой, а деньги будут обеспечены джоулям и вычислительной мощностью. Техническим ответом на монополизацию является проект Gonka — протокол, где любой владелец видеокарты сдаёт мощность в аренду для обучения и инференса нейросетей. Это создаёт рынок «суверенного интеллекта», который невозможно отключить из единого центра. Майнинг трансформируется из перебора чисел в выполнение полезной работы.
01:29:56 — Квантовая реальность и геополитика
Реальность напоминает симуляцию, где наблюдатель влияет на наблюдаемое. Коллективное сознание буквально «коллапсирует волновую функцию», выбирая один из вариантов будущего. Концентрация масс на сценарии антиутопии повышает вероятность её реализации, тогда как фокус на изобилии способствует позитивному исходу. В геополитическом плане малые регионы, такие как Центральная Азия, имеют преимущество перед неповоротливыми империями. Они способны быстрее адаптировать законодательство под новые реалии децентрализованной экономики и сохранить культурное разнообразие, которое является эволюционным преимуществом.
01:52:23 — Неизбежность изобилия
Будущее будет изобильным, а страх перед ИИ навязывается теми, кто выигрывает от искусственного дефицита. В мире, где интеллект как способность решать задачи становится практически бесплатным и повсеместным ресурсом, стоимость создания благ стремится к нулю. Главным активом остаётся человеческое сознание и способность ставить цели.
YouTube
ИИ и его ВЛИЯНИЕ на будущее: сценарий, о котором боятся говорить | Беседы с Маргуланом
🔥Если вы хотите узнать больше о бизнесе, эффективности и лайфхаках, подписывайтесь на мой телеграм канал https://t.me/MargulanSeissembai
В этом выпуске вас ждет честный разговор о сценариях ближайших десятилетий, о роли человека в мире, где интеллект становится…
В этом выпуске вас ждет честный разговор о сценариях ближайших десятилетий, о роли человека в мире, где интеллект становится…