AI, life and balance
113 subscribers
137 photos
3 videos
12 files
205 links
Download Telegram
Сегодня пост вышел длинный, но весёлый. Почитайте обязательно
💯1🤣1
На всякий случай, ещё раз ссылка, чтобы загрузился предпросмотр. Уж очень хочется картинку оставить, она тут в тему
У вас какая самая нелюбимая работа по дому?

Я вот готовить не люблю. Уборка – это всегда пожалуйста, мой любимый способ прокрастинации, а готовка – моё персональное мучение.
Я пока перебиваюсь доставками готовой еды, а вот если вы не любите складывать бельё после стирки, у компании Physical Intelligence (PI) может найтись для вас решение. Это команда инженеров (они так сами представляются), которая ищет способы использовать самый продвинутый на сегодня ИИ в робототехнике.
Они создали семейство моделей pi0, которые целиком выложили в открытый доступ. Эти модели предназначены для управления роботами в процессе решения разнообразных задач: складывание белья, протирание стола и так далее. Речь идёт о задачах, простых для человека, но сложных для робота.
Разные видео с роботами, которые достают тост из тостера и складывают полотенчико, можно найти на странице компании. Обратите внимание на то, что все записи там ускорены в 4-5 раз.

В июне этого года PI выложили статью «Real-Time Execution of Action Chunking Flow Policies» о том, как они используют большие языковые модели. Это моя любимая тема, поэтому делюсь ей сегодня с вами. Видео к статье есть на отдельной страничке их сайта.

Итак, зачем языковые модели роботам, которые не разговаривают? Для планирования действий, которые нужно совершить. Языковые модели неплохо справляются с этой задачей, но есть загвоздка: они медленно думают. Когда мы с ними в чате общаемся, это не проблема: дал задачу и пошёл заниматься другими делами, пока модель пишет решение. Но когда нужно совершать действия в физическом мире, лишние паузы могут привести к тому, что, например, чашка с кофе опрокинется или к чему-то в этом роде. Короче говоря, в физическом окружении нет времени на паузы.
Чтобы не делать паузы, можно применить следующую стратегию: разбить весь процесс на отдельные шаги, сгенерировать первые несколько шагов и зафиксировать. Пока механическая часть робота выполняет эти несколько шагов, написать следующие несколько шагов. Проблема в том, что этот подход не избавляет от задержки полностью. Допустим, система сгенерировала четыре шага, зафиксировала их и начала процесс создания следующей четвёрки. Но пока робот делал шаги 1 и 2, что-то изменилось, а шаги 3 и 4 уже нельзя поменять. И даже если модель учтет новые обстоятельства в процессе генерации шагов 5-8, между 4 и 5 не получится сделать логичный переход. В результате робот либо зависает на полпути, либо начинает двигаться хаотично и бессмысленно.
Авторы предложили подход, который назвали inpainting – «ретуширование». Метафорически, он подобен тому, как художник сначала делает набросок, потом рисует эскиз, потом постепенно добавляет детали и тени, пока не получится готовая работа (метафору иллюстрирует шутка про рисование совы).

Они делят действие на три больших фрагмента:
• фрагмент, который точно будет воспроизведен;
• наброски, которые будут уточняться по мере приближения их очереди быть воспроизведенными;
• неизвестный фрагмент, который будет создаваться с нуля.

На схеме, которую я взяла из статьи, этот подход как раз проиллюстрирован:
• в самом начале бледным цветом отмечен блок завершённых действий;
• затем фиксированный фрагмент показан насыщенным цветом со штриховкой (а0-а3);
• фрагмент с а4 по а10 – это наброски: чем светлее, тем схематичнее;
• наконец, последний сегмент – неопределённые действия, которые будут спланированы позже.
И дальше вся эта структура постепенно сдвигается вправо, уточняя последующие шаги. График в верхней части – это изменение коэффициента определённости, который показывает, насколько план готов к исполнению (guidance weight).
На первый взгляд, это не такая уж сложная мысль. Но если учесть генерацию обучающих данных и сам процесс тренировки, становится понятно, почему потребовалось время, чтобы прийти к её реализации. Существенное ограничение подхода – внушительные объемы вычислений, которые нужно произвести «на лету», и требуемые для них мощности.
Опять у нас ChatGPT угрожает когнитивным способностям, давайте разбираться.

Разбираясь в исследованиях про критическое мышление и ИИ, я пришла вот к чему: важно не столько влияние ИИ / социальных сетей / поиска в Интернете и так далее, сколько привычка упражнять мозг. Критическое мышление – это сложный навык, который не свойственен нам естественным образом. Чтобы оно работало, надо делать над собой усилие и активно его включать. Так что ИИ сам по себе не принёс ничего нового, это просто ещё один инструмент, которым надо пользоваться разумно.

Может, мне уже переименовать свой канал в «Просто ещё один инструмент?» 🤔
Продолжим разговор о калибровке ИИ в соответствии с человеческими ценностями: что это значит вообще и какой ИИ можно считать «правильным» или «соответствующим человеческим ценностям»? О каких ценностях идёт речь, если они разные в разных странах и в разные эпохи? Да и вообще в одной стране, в один день, в одном доме и на одном этаже могут спокойно жить два человека с очень разными ценностями. По кому калибруем ИИ? Мы хотим внедрить в ИИ какие-то «общечеловеческие» ценности или привести его в соответствие с ценностями конкретного пользователя? Если мы говорим про «общечеловеческие ценности», то что это значит?
👍1
Вдохновившись исследованием из предыдущего поста, я решила написать эссе.
Написала его, используя только собственный мозг, не использовала ни поиск в Интернете, ни ИИ-помощников. Это значит, что я не проверяла свой текст на фактическую корректность, как делаю обычно. Здесь нет ссылок на внешние источники, только моё мнение. Я намеренно выбрала непростую тему, по которой у меня нет однозначного мнения, и спорю сама с собой в надежде его обрести.
Структура простая: постановка вопроса, два аргумента в пользу одной идеи, два в пользу противоположной, мой вывод. По времени я себя не ограничиваю, но стараюсь писать короче.

В моей информационной эхокамере присутствует живая дискуссия на тему «Отказаться от использования ИИ в обучении или применять его насколько возможно?» Сторонники отказа полагают, что использование ИИ, особенно на ранних этапах обучающего процесса, мешает развитию собственных когнитивных навыков человека и делает его менее самостоятельным в дальнейшей жизни. Сторонники использования говорят о том, что жить нам всем в мире с ИИ, а значит, надо пораньше учиться его использовать, иначе в будущем человек будет отставать от окружающих.
В пользу отказа говорят многие исследования, которые мы в том числе здесь рассматривали: чтобы мозг работал хорошо, нужно его упражнять подобно тому, как мы упражняем мышцы. Бездумное использование ИИ мешает как следует погружаться материал, искать информацию самостоятельно и делать ошибки, которые в процессе обучения зачастую важнее, чем успехи. Чтобы не использовать ИИ бездумно, нужно научиться критически мыслить, а этого нельзя полноценно достичь, полагаясь на ИИ.
Кроме того, решение сложной задачи, пускай и не с первого раза, вызывает чувство удовлетворения, которое сложно с чем-то сравнить. Это ощущение роста и ощущение того, что ты продвинулся дальше и стал немного умнее себя в прошлом. Чем сложнее задача, чем ярче радость победы. Получая готовые решения с минимальными усилиями, человек лишается этой радости, что, в свою очередь, лишает его мотивации двигаться дальше и покорять новые вершины.
С другой стороны, почему всё хорошее в жизни нужно непременно выстрадать? Есть и работы, которые показывают, как мотивация и успеваемость студентов снижается из-за стресса. Если задача чрезмерно сложна, а страх ошибки велик, человек не научится её решать, а научится бояться и чувствовать себя бестолковым и никчёмным. ИИ, при наличии аккуратно выставленных ограничений, поможет снизить стресс и сделать процесс обучения более увлекательным, мотивируя на поиск и преодоление.
Наконец, зачем издеваться над студентами и требовать от них извлекать огонь трением, когда в жизни они будут пользоваться зажигалкой? Разумнее подготовить их к будущему, которое бросает новые вызовы: к чрезмерному обилию информации, которую трудно проверять, к характерным для ИИ рискам и к тому, с чем им придётся конкурировать, выходя на работу. Пока они учатся писать ручкой по бумаге, развиваются технологии, которые позволяют убедительно изобразить фотографию несуществующего события. Студентам нужны совсем новые знания и навыки, чтобы выжить в новом мире.
Особенность подобных дискуссий, на мой взгляд, в том, что друг другу противопоставляются крайние противоположности, которые существуют только в пространстве спора. В реальности всё более сложно и смешано, и истина лежит где-то посередине. Люди, которые в школе учили физику, литературу и математику, не знают, как проверять сгенерированную ИИ информацию, как не попасться на уловки мошенников и как защитить персональные данные. Но люди, которые плохо учили физику, литературу и математику, бьются током из сломанной розетки, не могут внятно излагать свои мысли или разумно управлять собственным бюджетом. Чем дальше шагают технологии, тем больше навыков нам нужно, чтобы с ними управляться, и это колоссальный вызов для системы образования. Студентов важно учить писать эссе и важно учить пользоваться ИИ. Как при этом не уморить несчастных за партой, одному богу известно.

#эссе
3
Наткнулась на интересное исследование. Оно не про безопасность, но описанный в нём феномен неплохо подходит и для обеспечения безопасности в том числе.
Рассказываю, что к чему
Мы недавно говорили про роботов, которые умеют складывать постиранное бельё, и про то, как для них используют языковые модели с рассуждением. Но очевидно, что роботу помимо языковой модели для планирования действий нужно зрение для манипуляции объектами в реальном мире. Так что на самом деле они используют мультимодальные модели, которые работают и с текстом, и с изображением – Vision Language Models (VLM).
Мультимодальность, то есть, умение работать с разными типами данных – концепция для нас не новая. Мы уже обсуждали подобные модели ранее в контексте ответов на вопросы по картинкам. Сегодня немного в общем виде обсудим эту интересную группу моделей, и опираться я буду на этот пост на huggingface и его обновление, которое вышло в мае текущего года.
Я не буду описывать внутреннее устройство мультимодальных моделей и то, как они работают – если интересно, сходите по ссылке на мой пост про LLaVA. Там достаточно подробно и простым языком писала про всё.
Выявить VLM среди прочих моделей просто: у них в имени есть суффикс VLA, VLM или VL. Например, Qwen-VL-Chat, deepseek-vl-7b-base. Они могут вам пригодиться, если вы захотите написать субтитры к видео, спросить что-то по фотографии и всё такое. У всех разработчиков, по-моему, сейчас есть такие: GPT, Mistral, Llama – все обзавелись зрением. Так что можно спокойно выбирать любимый чат и работать в интерфейсе.
Если вы хотите что-то сделать самостоятельно и поработать локально или через API, то к вашим услугам будут разные рейтинги, составленные на основании анонимных голосов пользователей. Например, можно использовать OpenVLM Leaderboard. Там есть система удобных фильтров, и вы сможете выбрать модель по размеру или с открытым исходным кодом, отсортировать по наиболее подходящей вам метрике.

Популярность мультимодальных моделей легко объяснить: они же очень удобные. С ней можно общаться текстом, потом перейти на голос, потом скинуть картинку – и она ответит вам так, как вам надо. И если сначала появились модели, которые умеют работать с двумя видами данных (например, картинка + текст), то сейчас есть крутыши типа Qwen2.5-Omni, которые умеют принимать на вход всё, что угодно, и выдавать на выход тоже всё, что угодно.
Одни из самых интересных моделей в этой большой группе – VLA (Vision-Language-Action). Это модели, которые умеют обрабатывать текст, изображения и управлять действиями. Вот они-то и применяются в робототехнике. Та часть, которая отвечает за действие, достаточно простая: модель генерирует исполняемые роботом команды в том формате, в котором он может эти команды воспринять.
Дополнительные возможности, такие как способность к рассуждениям или обращение к базам данных с полезной информацией позволяет VLM быть точнее и надёжнее.

И опаснее?
Я точно где-то говорила (потому что я без конца везде про это говорю), что более способные модели всегда более опасные – просто потому что могут накосячить в нескольких разных областях и с повышенной эффективностью.
Одно из активных направлений для решения данного вопроса – прямая оптимизация предпочтений. Это направление невероятно интересное: оно включает в себя работу с архитектурой модели напрямую с тем, чтобы изменить их поведение. Я сейчас работаю в небольшой группе над исследованием многомерных представлений разных ценностей у языковых моделей, и это что-то с чем-то. У меня прям прилив энергии и вдохновения наступает каждый раз, когда я только думаю про наши эксперименты.
К сожалению, большую часть своего энтузиазма мне приходится держать при себе, потому что мы хотим писать статью. Но, думаю, я найду способ аккуратно приоткрыть для вас завесу тайны так, чтобы не навредить проекту.
Я изначально планировала сегодня сделать пост про Qwen, потому что очень мне эта модель нравится, но потом меня занесло немного в сторону.
А теперь я посмотрела статью по Qwen2.5-Omni и, видимо, пост про неё таки будет: там очень интересная архитектура 🧐
Мы как-то обсуждали эссе Ричарда Саттона про то, как статистика и масштабирование наборов данных позволили создать более продвинутый ИИ, чем годы исследования мозга.
Потом мы обсуждали статью о том, как исследования мозга всё-таки много привнесли в развитие ИИ и ещё много привнесут. И в этой статье авторы говорят, что, мол, само развитие способностей моделей за счёт увеличения их размера тоже биологически обосновано, потому что чем больше мозг, тем он умнее.
Я не нейробиолог ни разу вообще, просто очень люблю читать всякое. Моя любимая книжка называется «Дуэль нейрохирургов. Как открывали тайны мозга и почему смерть одного короля смогла перевернуть науку» – очень советую. Но компетентным специалистом я не являюсь, поэтому прошу всё написанное далее воспринимать скорее как дружескую болтовню на кухне, а не истину в последней инстанции.
Так вот. Прочитала я то и другое и решила разобраться, кто прав и имеет ли размер значение. Ну и пошло-поехало, как обычно.

Мы привыкли всё сравнивать с собой – и это понятно, – но научные открытия последних десятилетий говорят: «Всё сложнее и интереснее, чем вы думаете». В области изучения интеллекта ничто не предопределено, значит, и в области ИИ тоже
👍1
Сегодня обсуждаем снова мозг и попутно развенчиваем теорию шести рукопожатий. Вот случайно как-то так получилось
👍1
Немного спойлеров
Смонтировала вчера видос. Это рассказ про основы и развитие ИИ — получилось длинно, но интересно
На YouTube оно уже доступно, на Дзен пока грузится. Как загрузится, прикреплю сюда же ещё одну ссылку

UPD: ссылка на Дзен
Сегодня ещё немного мозга, а потом снова будет ИИ

Тема интересная: свойства мозга, которые определяют развитый интеллект. Читать будем статью «Neuronal factors determining high intelligence» (2016).
Во-первых, что есть интеллект? Авторы статьи определяют его как
«… ментальную или поведенческую гибкость или способность организма решать задачи, возникающие в его естественной или социальной среде обитания. Кульминация интеллектуального развития – создание новых решений, которые не входят в обычный репертуар данного организма».
(«… mental or behavioural flexibility or the ability of an organism to solve problems occurring in its natural and social environment, culminating in the appearance of novel solutions that are not part of the animal’s normal repertoire.»)

Интеллект включает в себя
• Ассоциативное обучение;
• Формирование памяти;
• Поведенческую гибкость;
• Инновационность;
• Абстрактное мышление и формирование абстрактных понятий;
• Способность к глубокому пониманию объектов или явлений (insight).
Авторы собрали множество исследований по разным параметрам мозга и прошлись по ним последовательно, оценивая на предмет связи каждого из параметров с уровнем развития интеллекта.
Размер: мозг лошади больше, чем мозг попугая, но попугай лучше справляется с тестами на интеллект и демонстрирует более сложное поведение.
Размер относительно массы тела? Если посмотреть на всех животных, для которых есть такие измерения, получается, что размер мозга тем больше, чем больше тело, но относительный размер мозга больше у мелких животных. Мозг землеройки составляет 10% от массы её тела, а мозг человека – 2%.
Даже если посмотреть, насколько мозг животного отличается от среднего в его группе (группа здесь – это, например, «приматы» или «грызуны»), выходит, что дельфины и капуцины должны быть умнее горилл, а это не так.
Вот число нейронов, особенно в тех зонах мозга, которые отвечают за контроль, планирование и прочие когнитивные функции – у людей это лобные доли, – выглядит весомым фактором. Только их сложно посчитать: разные исследовательские группы используют разные методы, и разброс оценок для человека составляет от 10 млрд. до 22 млрд. клеток. Более устойчивые оценки, которые удаётся воспроизвести, – примерно 15 млрд.
Количество нейронов, которые умещаются в мозгу и отдельных её областях зависит от толщины коры больших полушарий и строения самих клеток и тканей, окружающих эти клетки. У слонов и лошадей, например, кора тоненькая, а у шимпанзе она очень толстая, и плотность упаковки нейронов там выше, чем у людей. Поэтому размер мозга у человека примерно в три раза больше, чем у шимпанзе, а нейронов в коре больших полушарий в два раза больше. Наступают на пятки, можно сказать.
Число связей между нейронами тоже важно, но здесь с оценками совсем беда. Для человека насчитывают от 1 000 до 30 000 связей в среднем у одного нейрона – учёные пока не договорились. Почему это важно? Нейроны ближе и связей больше – меньше расстояние, которое проходит информация от одного нейрона к другому. Соответственно, мозг «лучше соображает».
На скорость передачи информации влияет кое-что ещё, а именно миелиновая оболочка. Это такой изоляционный слой, который окутывает аксоны – отростки нейрона, передающие информацию соседям. Толще оболочка – выше скорость передачи информации. У обезьян, включая людей, эта оболочка самая плотная среди млекопитающих, а вот у китообразных и слонов она намного тоньше.

Такие дела

*Картинка сгенерирована с использованием ChatGPT
Много раз мы с вами здесь говорили о том, что настройка ИИ на человеческие предпочтения – дело сложное: у всех свои предпочтения, и заранее не угадаешь.

Авторы статьи «Goal Inference from Open-Ended Dialog» предлагают обучать ИИ на предпочтениях пользователя в процессе взаимодействия.

Это не принципиально новый подход: ИИ уже обучается в процессе работы, но, как правило, в рамках одной узко поставленной задачи, и его навыки плохо распространяются на новые задачи. На более широкий спектр задач ИИ обучают перед запуском в работу, и это надёжный подход, но очень затратный.

Авторы нацелились избавиться от ограничений: сделать так, чтобы ИИ обучался «на лету» и при этом приобретал навыки, полезные для решения разнообразных задач.

Рассмотрим их подход и к слову поговорим об особенностях диагностики редких заболеваний
Накопала статью аж 2016 года, которая называется «Social Learning and Distributed Hypothesis Testing» («Социальное обучение и распределённое тестирование гипотез»). На первый взгляд, это что-то из социологии, но на деле работа существенно шире – и это очень интересно. Пошли разбираться
Зайдёшь на пару минут глянуть новости – минус вера в человечество. Мы что, правда такие дикие? Или это в Интернете обитают исключительные троглодиты, которые ненавидят всё живое?

Или это особенности распространения информации?

Если вы не сегодня начали читать мой канал, то уже что-то заподозрили. Если сегодня, то сейчас тоже всё поймёте.

На тему передачи информации написано много работ, но я сегодня выбрала статью 2022 года «From Storytelling to Facebook. Content Biases When Retelling or Sharing a Story». Там изложено два больших эксперимента, каждый более чем на тысячу человек, и мы кратко их обсудим.

Вообще множество исследований говорит о том, что информация, которая вызывает страх или негативные эмоции в целом, распространяется эффективнее. Когда люди передают устно или письменно большие объёмы информации, именно негативная информация и информация о потенциальных угрозах сохраняется в памяти лучше и передаётся дальше. Некоторые исследователи полагают, что это было важно для нашего выживания: если ты забыл, где нашёл вкусный корнеплод, ты просто не получишь вкусный корнеплод. Но если ты забыл, где видел тигра, то всё. Никакой передачи генов следующему поколению. Кто забыл про тигра, вымер, и теперь все мы немного нервные.

На мой взгляд, здесь два практических вывода:
1) Стоит помнить, что информация в соцсетях и новостных сводках искажена. Даже если никто не хочет вами напрямую злостно манипулировать, у негативной информации больше шансов до вас добраться.
2) На людях, которые передают информацию, лежит ответственность за форму подачи. Да, мы все люди и у нас у всех мозг слегка перекошен в сторону «о Боже, всё пропало», но мы всегда можем остановиться, свериться с первоисточником и спросить себя: «Я пересказываю то, что случилось, или то, что сочла важным моя параноидально настроенная внутренняя обезьяна?»
👍1
Меня тут принакрыло осенью

Плохо отскребаюсь от кровати, с трудом принимаю человекообразное состояние. Когда моргаю, каждый раз рискую заснуть. Полчаса ходила по квартире с носком в руке, не могла вспомнить где я, кто я и что собиралась делать

Если кто ждёт от меня интеллектуальной деятельности, простите
3
В связи с блокировками (или попытками блокировок) всего и вся у нас в России я часто наблюдаю сравнения нашего Интернета с китайским. И здесь есть разные мнения: одни говорят, что скоро будет как в Китае со списком разрешённых приложений и полной блокировкой от внешнего мира, другие – что в России всё развивалось по-другому с самого начала, поэтому как в Китае не получится.

Тем временем, я учу китайский язык и моя преподавательница китаянка. Несколько занятий мы проводили в период, когда она уехала в Китай, а я сидела в Москве – и ничего, провели. Для этого понадобилось скачать приложение VooV, которое до степени смешения напоминает приложение Zoom, но тем не менее.

Так что мне стало интересно узнать, что же это за великий и ужасный такой Китайский Интернет, каковы наши шансы угодить во что-то подобное и что по этому поводу делать. Потому что китайские товарищи там много чего придумали, грех не поучиться.

Оговорюсь, что я не спец по Китаю, Интернету и блокировкам. Но я своего рода спец по информации, и я хочу к ней доступ. Я буквально питаюсь информацией и не могу выживать в условиях, когда её становится мало.

Чтобы собрать побольше информации, я изучила следующие типы источников:
- Инструкции для туристов;
- Публикации научных изданий;
- Форумы, на которых люди спрашивают друг у друга, что работает и как это настроить.

Я здесь намеренно не привожу публикации Human Rights Watch и других организаций, занимающих выраженную позицию против любой цензуры. Во-первых, стараюсь избегать ЗАПОДного взгляда на не-ЗАПОДную страну и ситуацию в ней. Во-вторых, я сама придерживаюсь мнения о том, что цензура вредит развитию общества, поэтому линза, через которую я воспринимаю информацию, искажена. И я стараюсь с этим бороться.

Свои мысли по поводу ограничений в Интернете я напишу отдельно в формате эссе.