Я тут как-то прокрастинировала вместо того, чтобы разгребать большую кучу дел, и наткнулась на очаровательную историю, которой хочу поделиться. История в том, что Claude решил прерваться во время демонстрации кода и полистать фотографии Йеллоустонского национального парка.
0% осуждения, 100% понимания.
Видеозапись забавного инцидента в источнике приложена.
В компании утверждают, что это не первый подобный случай и вообще модель как-то случайно удалила нужную для демонстрации запись экрана (но это, может, они просто нашли, на кого свалить свой косяк).
0% осуждения, 100% понимания.
Видеозапись забавного инцидента в источнике приложена.
В компании утверждают, что это не первый подобный случай и вообще модель как-то случайно удалила нужную для демонстрации запись экрана (но это, может, они просто нашли, на кого свалить свой косяк).
Есть такая компания Hour One, я ее упоминала уже пару раз, теперь поподробнее расскажу, потому что они интересную работу делают. Они создают ИИ-аватаров на основе видеозаписи своих клиентов: человек приходит в студию, его некоторое время снимают в разных ракурсах, пока он что-нибудь рассказывает, потом полученный видеоматериал передают ИИ, и получается цифровая копия.
Эта копия выглядит, двигается и разговаривает как оригинал, причем на разных языках, которых оригинал может не знать. Так можно создать презентацию, записать интервью или обучающий курс, демонстрацию своего продукта – что угодно, в принципе.
Сервис доступен в России (без студийной записи, конечно, но на сайт зайти и протестировать можно). У него есть бесплатная пробная версия, здорово ограниченная, но дающая общее представление. В бесплатной версии нельзя записать свое видео и свой голос, можно только выбрать аватара и голос из предложенных (в платной версии можно сделать свое лицо со своим голосом, прикрепить свой голос к другому аватару или к своему аватару чужой голос).
Доступные аватары созданы на основе реальных людей, каждый из которых подписал контракт, давая разрешение на использование своего изображения, и получает деньги за такое использование. Подробности работы как самого приложения, так и работы с людьми, раскрывает Директор по стратегическому управлению Natalie Monbiot в этом эпизоде подкаста Super Data Science. Конкретно о том, как созданы стоковые аватары и что за это полагается их человеческим оригиналам, с минуты 59.
В этой же части затрагивается ряд этических вопросов (например, использование чужого аватара для создания каких-нибудь нехороших видео).
Русский язык есть только в платной версии, к сожалению, но по-русски также успешно читает голос Charlotte – Global (UN), так что поэкспериментировать все равно можно.
Можно познакомиться с приложением хотя бы для того, чтобы получить представление о тех инструментах, которые, вполне возможно, будут нам доступны в ближайшем будущем.
#инструменты
Эта копия выглядит, двигается и разговаривает как оригинал, причем на разных языках, которых оригинал может не знать. Так можно создать презентацию, записать интервью или обучающий курс, демонстрацию своего продукта – что угодно, в принципе.
Сервис доступен в России (без студийной записи, конечно, но на сайт зайти и протестировать можно). У него есть бесплатная пробная версия, здорово ограниченная, но дающая общее представление. В бесплатной версии нельзя записать свое видео и свой голос, можно только выбрать аватара и голос из предложенных (в платной версии можно сделать свое лицо со своим голосом, прикрепить свой голос к другому аватару или к своему аватару чужой голос).
Доступные аватары созданы на основе реальных людей, каждый из которых подписал контракт, давая разрешение на использование своего изображения, и получает деньги за такое использование. Подробности работы как самого приложения, так и работы с людьми, раскрывает Директор по стратегическому управлению Natalie Monbiot в этом эпизоде подкаста Super Data Science. Конкретно о том, как созданы стоковые аватары и что за это полагается их человеческим оригиналам, с минуты 59.
В этой же части затрагивается ряд этических вопросов (например, использование чужого аватара для создания каких-нибудь нехороших видео).
Русский язык есть только в платной версии, к сожалению, но по-русски также успешно читает голос Charlotte – Global (UN), так что поэкспериментировать все равно можно.
Можно познакомиться с приложением хотя бы для того, чтобы получить представление о тех инструментах, которые, вполне возможно, будут нам доступны в ближайшем будущем.
#инструменты
❤1
Я не знакома с подавляющим большинством людей, которые прочитают этот пост. Но мне кое-что про вас известно: хотя бы раз в жизни вы сталкивались или столкнетесь со страхом упущенных возможностей
Telegraph
FOMO
Я не знакома с подавляющим большинством людей, которые прочитают этот пост. Но мне кое-что про вас известно: хотя бы раз в жизни вы сталкивались или столкнетесь со страхом упущенных возможностей (Fear Of Missing Out, FOMO). Почему я так думаю? Потому что…
Вышел пост про интерпретируемость и объяснимость ИИ на vc. Буду теперь ссылки сюда дублировать, чтобы было удобнее читать. Кроме того, я еще завелась на Дзене, там то же самое, что на vc, но вдруг кому больше Дзен нравится
vc.ru
Объяснимость и интерпретируемость ИИ
Один из ключевых вопросов ИИ – это вопрос его интерпретируемости и объяснимости. В литературе эти термины иногда используются как взаимозаменяемые, но иногда разделяются: интерпретируемость ИИ – возможность понять как моделью был получен определенный ответ…
В 2024 вышло несколько моделей, которые умеют генерировать видео по текстовому описанию. Самые известные, пожалуй, – Sora от OpenAI и Veo 2 от Google.
Они не первые в своем роде, раньше всех с таким предложением на рынок вышла Synthesia (во всяком случае, из того, что мне удалось найти). Эта компания предлагает создавать видео с реалистичными ИИ-аватарами (примерно как Hour One) для маркетинговых и обучающих целей. Первую демонстрацию своего продукта они провели в 2018 году.
Из того, что можно легко потестировать, я нашла Genmo. Этот инструмент доступен из России, понимает русский язык и дает сгенерировать одно бесплатное видео в месяц. Создание видео занимает какое-то время, так что придется немного подождать.
Пример видео прикладываю: это паучок, который пишет код (очки ему немного великоваты, и в экран он смотрит почему-то спиной, но эти недочеты можно исправить промптами, так что в целом неплохо).
С точки зрения архитектуры создание видео возможно с использованием разных моделей, но наиболее популярны диффузионные. Я про них буду писать отдельный пост, поэтому не буду сейчас вдаваться в подробности. Остановимся только на том, что генерация видео – это очень затратная с вычислительной точки зрения задача, для которой, к тому же, недостаточно хорошо подготовленных данных (подробно описанных коротких видео, на которых можно было бы обучать модели).
Еще один пример, который заслуживает внимания – Pyramid Flow. Ее можно бесплатно и без регистрации попробовать на Hugging Face. Мой тест тоже прикладываю (здесь паучок почти не двигается, только текст бежит по экрану). Качество видео не так впечатляет, но работает эта модель очень быстро.
#инструменты
Они не первые в своем роде, раньше всех с таким предложением на рынок вышла Synthesia (во всяком случае, из того, что мне удалось найти). Эта компания предлагает создавать видео с реалистичными ИИ-аватарами (примерно как Hour One) для маркетинговых и обучающих целей. Первую демонстрацию своего продукта они провели в 2018 году.
Из того, что можно легко потестировать, я нашла Genmo. Этот инструмент доступен из России, понимает русский язык и дает сгенерировать одно бесплатное видео в месяц. Создание видео занимает какое-то время, так что придется немного подождать.
Пример видео прикладываю: это паучок, который пишет код (очки ему немного великоваты, и в экран он смотрит почему-то спиной, но эти недочеты можно исправить промптами, так что в целом неплохо).
С точки зрения архитектуры создание видео возможно с использованием разных моделей, но наиболее популярны диффузионные. Я про них буду писать отдельный пост, поэтому не буду сейчас вдаваться в подробности. Остановимся только на том, что генерация видео – это очень затратная с вычислительной точки зрения задача, для которой, к тому же, недостаточно хорошо подготовленных данных (подробно описанных коротких видео, на которых можно было бы обучать модели).
Еще один пример, который заслуживает внимания – Pyramid Flow. Ее можно бесплатно и без регистрации попробовать на Hugging Face. Мой тест тоже прикладываю (здесь паучок почти не двигается, только текст бежит по экрану). Качество видео не так впечатляет, но работает эта модель очень быстро.
#инструменты
Есть компания Zyphra, которая делает модели не на основе трансформеров. Мы уже тут пару раз касались не-трансформерных архитектур (сетей Колмогорова-Арнольда и Жидких нейросетей), давайте продолжим.
Telegraph
ZYPHRA AI
Семейство моделей называется Zamba, они доступны из России, умеют общаться на русском языке, в том числе с голосовым вводом. Их можно бесплатно попробовать здесь, нужно только создать аккаунт. В октябре 2024 года вышла модель Zamba2-7B, которая при небольших…
Пост про совмещение языковых моделей с эволюционными алгоритмами вышел
vc.ru
Языковые модели и эволюционные алгоритмы для улучшения промптов
Мы уже неоднократно разбирали решения в области ИИ, которые вдохновлены в большей или меньшей степени конкретными биологическими механизмами. В основном речь идет о процессах, которые происходят у нас в мозгу: обработка зрительной информации, обращение к…
Еще один мультиагентный фреймворк – MetaGPT. Это проект с открытым исходным кодом его можно запустить и использовать бесплатно (код и инструкции к нему представлены на github). У команды проекта также есть сайт, на котором можно протестировать их главный продукт – команду агентов-разработчиков, которая поможет вам создать программу по текстовому описанию. Сайт в режиме бета-теста, у меня не заработал, но вдруг у кого получится.
В деталях авторы описали свою разработку в статье «MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework». Идея проекта – качественно автоматизировать стандартные операционные процедуры (Standard Operating Procedures). Эти процедуры представляют собой наборы пошаговых инструкций для выполнения задач. С их помощью распределяются задачи между членами команды и задаются параметры готового продукта на каждом этапе разработки.
Ключевая особенность MetaGPT заключается в том, что на каждом этапе агенты генерируют структурированный правильным образом документ, на основе которого затем выполняется следующая задача. Такой подход позволяет не только эффективнее генерировать код, но и сокращать галлюцинации (за счет того, что у агентов меньше «творческой свободы» и есть набор четких ограничений).
Еще авторы MetaGPT предложили новый способ обмена сообщениями между агентами: общее пространство, в которое агенты отправляют структурированные специальным образом сообщения. Обычно взаимодействие происходит По заданному заранее сценарию: агент А пишет сообщение агенту Б, тот – агенту В и так далее. Здесь все пишут в общий чат, и каждый забирает оттуда ту информацию, которая нужна для выполнения его задачи.
На скриншоте 2 представлен пример взаимодействия: слева агенты обмениваются сообщениями, а справа агент-Инженер пишет код. Если в коде обнаружится ошибка, он может вернуться в общий чат и свериться с техническими требованиями, которые написал агент-Архитектор. Чтобы не перегружать агентов лишней информацией, использовали механизм подписки: каждый агент может выбрать набор сообщений, за которыми он будет следить.
Процесс работы итерационный: написали – проверили – исправили ошибки – снова проверили. И так до тех пор, пока либо все ошибки не будут исправлены, либо не будет достигнуто максимальное число попыток.
Всего авторы предложили пять ролей: Руководитель (Product Manager), Архитектор (Architect), Руководитель Проекта (Project Manager), Инженер (Engineer) и Специалист по контролю качества (QA Engineer). У каждого есть имя, должность, цель, набор ограничений и инструментов. Например, Архитектор и Руководитель умеют строить диаграммы, а Инженер – писать и запускать код.
Чтобы проверить, нужно ли столько ролей (или можно ограничиться только инженером), авторы провели исследования, в которых исключали отдельные роли и смотрели на результат. Получилось, что все участники команды вносят существенный вклад в успех.
#инструменты
В деталях авторы описали свою разработку в статье «MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework». Идея проекта – качественно автоматизировать стандартные операционные процедуры (Standard Operating Procedures). Эти процедуры представляют собой наборы пошаговых инструкций для выполнения задач. С их помощью распределяются задачи между членами команды и задаются параметры готового продукта на каждом этапе разработки.
Ключевая особенность MetaGPT заключается в том, что на каждом этапе агенты генерируют структурированный правильным образом документ, на основе которого затем выполняется следующая задача. Такой подход позволяет не только эффективнее генерировать код, но и сокращать галлюцинации (за счет того, что у агентов меньше «творческой свободы» и есть набор четких ограничений).
Еще авторы MetaGPT предложили новый способ обмена сообщениями между агентами: общее пространство, в которое агенты отправляют структурированные специальным образом сообщения. Обычно взаимодействие происходит По заданному заранее сценарию: агент А пишет сообщение агенту Б, тот – агенту В и так далее. Здесь все пишут в общий чат, и каждый забирает оттуда ту информацию, которая нужна для выполнения его задачи.
На скриншоте 2 представлен пример взаимодействия: слева агенты обмениваются сообщениями, а справа агент-Инженер пишет код. Если в коде обнаружится ошибка, он может вернуться в общий чат и свериться с техническими требованиями, которые написал агент-Архитектор. Чтобы не перегружать агентов лишней информацией, использовали механизм подписки: каждый агент может выбрать набор сообщений, за которыми он будет следить.
Процесс работы итерационный: написали – проверили – исправили ошибки – снова проверили. И так до тех пор, пока либо все ошибки не будут исправлены, либо не будет достигнуто максимальное число попыток.
Всего авторы предложили пять ролей: Руководитель (Product Manager), Архитектор (Architect), Руководитель Проекта (Project Manager), Инженер (Engineer) и Специалист по контролю качества (QA Engineer). У каждого есть имя, должность, цель, набор ограничений и инструментов. Например, Архитектор и Руководитель умеют строить диаграммы, а Инженер – писать и запускать код.
Чтобы проверить, нужно ли столько ролей (или можно ограничиться только инженером), авторы провели исследования, в которых исключали отдельные роли и смотрели на результат. Получилось, что все участники команды вносят существенный вклад в успех.
#инструменты
❤2
Потихоньку тестирую Notebook LM как инструмент для ведения заметок. Он просто так из России не доступен, зато полностью бесплатный. Там можно работать с pdf-файлами и любыми другими файлами, которые хранятся на Google-диске.
Он может сделать краткий пересказ выбранных документов, почитать вслух или ответить на вопросы (в том числе на русском языке). Отвечая на вопросы, он довольно точно цитирует текст (внутри используется Gemini) и не выдумывает от себя, так что там не так много галлюцинаций, тем более что он прикладывает ссылки на источники. Хотя лучше проверять ответы на корректность, потому что стопроцентной защиты от галлюцинаций пока нет.
Такой инструмент может быть полезен студентам, чтобы, например, билеты писать при подготовке к экзаменам. Если записи лекций оцифрованы и есть учебники в электронном виде, это вполне себе вариант. Потом можно будет включить себе аудио и ходить их слушать для лучшего запоминания.
Как применять Notebook LM в работе, я пока особенно не вижу, хотя мне его хвалили активно. Разве что гонять его по своим документам, чтобы понять, что я где писала, потому что иногда бывает непросто раскопать нужный файл.
#инструменты
Он может сделать краткий пересказ выбранных документов, почитать вслух или ответить на вопросы (в том числе на русском языке). Отвечая на вопросы, он довольно точно цитирует текст (внутри используется Gemini) и не выдумывает от себя, так что там не так много галлюцинаций, тем более что он прикладывает ссылки на источники. Хотя лучше проверять ответы на корректность, потому что стопроцентной защиты от галлюцинаций пока нет.
Такой инструмент может быть полезен студентам, чтобы, например, билеты писать при подготовке к экзаменам. Если записи лекций оцифрованы и есть учебники в электронном виде, это вполне себе вариант. Потом можно будет включить себе аудио и ходить их слушать для лучшего запоминания.
Как применять Notebook LM в работе, я пока особенно не вижу, хотя мне его хвалили активно. Разве что гонять его по своим документам, чтобы понять, что я где писала, потому что иногда бывает непросто раскопать нужный файл.
#инструменты
Диффузионные модели пришли из физики и хорошо себя показали в создании видео по текстовому описанию. В посте на vc рассказываю, как они работают
vc.ru
Диффузионные модели для генерации видео — AI на vc.ru
ИИ, жизнь, баланс AI 1м
Для распознавания лица при разблокировке телефона в айфоне используются сверточные нейросети, оптимизированные для использования на маленьком процессоре и с крайне ограниченным объемом памяти, и потому работающие локально.
Расположение нейросети не на стороннем облачном сервисе, а на устройстве пользователя обеспечивает безопасность данных: изображения лица никуда не отправляются и не могут быть украдены или утечь через дыру в системах безопасности.
Мы ранее здесь говорили о проблемах с утечками данных. Перенос нейросетей на пользовательское устройство – один из вариантов решения.
Реализация этой прекрасной идеи затруднена теми объемами памяти и вычислительных мощностей, которые необходимы для их работы. Многие умы направлены на то, чтобы справиться существующими ограничениями и засунуть-таки современный мощный ИИ к нам в карман (у Apple даже получилось, но это для одной конкретной задачи).
В 2024 году вышла статья «Porting Large Language Models to Mobile Devices for Question Answering», посвященная уже большим языковым моделям. Авторы экспериментировали со смартфоном Galaxy S21 и оптимизатором llama.cpp.
Это очень эффективный оптимизатор, написанный на языке C++. C++ сам по себе эффективнее, чем Python, но помимо него создатель llama.cpp использовал дополнительных методов (например, снижение точности вычислений за счет округления до меньшего числа знаков после запятой).
Мы говорили ранее про подобный инструмент – Ollama. Он тоже позволяет использовать большие модели локально за счет ряда специальных техник. llama.cpp эффективнее, но поддерживает меньшее число моделей. В силу того, что этот фреймворк изначально писался именно для моделей из семейства Llama, его сейчас можно использовать только с теми моделями, которые архитектурно похожи на Llama.
Есть, впрочем, модели, которые не требуют оптимизации, потому что изначально задумывались для использования на мобильных устройствах. Пример – Gemini Nano от Google, доступная на платформе Android.
Помимо программных инструментов разрабатываются аппаратные – компактные мощные процессоры, которые поддерживают большие объемы вычислений. Gemini Nano, например, работает на процессоре Tensor G4. Первая версия такого процессора вышла в 2021 году, разработана Google и выпускается Samsung. Новый Tensor G5, вероятно, будет выпущен TSMC.
Есть еще нейронный процессор (Neural Processing Unit, NPU), который разработан специально для поддержки работы нейросетей. Его фишка – параллельные матричные вычисления (весь ИИ состоит из матричных вычислений плюс-минус целиком). Такой процессор как раз обеспечивает распознавание лиц в айфонах. Но вообще их производят и Intel, и AMD
Такие вот дела.
Расположение нейросети не на стороннем облачном сервисе, а на устройстве пользователя обеспечивает безопасность данных: изображения лица никуда не отправляются и не могут быть украдены или утечь через дыру в системах безопасности.
Мы ранее здесь говорили о проблемах с утечками данных. Перенос нейросетей на пользовательское устройство – один из вариантов решения.
Реализация этой прекрасной идеи затруднена теми объемами памяти и вычислительных мощностей, которые необходимы для их работы. Многие умы направлены на то, чтобы справиться существующими ограничениями и засунуть-таки современный мощный ИИ к нам в карман (у Apple даже получилось, но это для одной конкретной задачи).
В 2024 году вышла статья «Porting Large Language Models to Mobile Devices for Question Answering», посвященная уже большим языковым моделям. Авторы экспериментировали со смартфоном Galaxy S21 и оптимизатором llama.cpp.
Это очень эффективный оптимизатор, написанный на языке C++. C++ сам по себе эффективнее, чем Python, но помимо него создатель llama.cpp использовал дополнительных методов (например, снижение точности вычислений за счет округления до меньшего числа знаков после запятой).
Мы говорили ранее про подобный инструмент – Ollama. Он тоже позволяет использовать большие модели локально за счет ряда специальных техник. llama.cpp эффективнее, но поддерживает меньшее число моделей. В силу того, что этот фреймворк изначально писался именно для моделей из семейства Llama, его сейчас можно использовать только с теми моделями, которые архитектурно похожи на Llama.
Есть, впрочем, модели, которые не требуют оптимизации, потому что изначально задумывались для использования на мобильных устройствах. Пример – Gemini Nano от Google, доступная на платформе Android.
Помимо программных инструментов разрабатываются аппаратные – компактные мощные процессоры, которые поддерживают большие объемы вычислений. Gemini Nano, например, работает на процессоре Tensor G4. Первая версия такого процессора вышла в 2021 году, разработана Google и выпускается Samsung. Новый Tensor G5, вероятно, будет выпущен TSMC.
Есть еще нейронный процессор (Neural Processing Unit, NPU), который разработан специально для поддержки работы нейросетей. Его фишка – параллельные матричные вычисления (весь ИИ состоит из матричных вычислений плюс-минус целиком). Такой процессор как раз обеспечивает распознавание лиц в айфонах. Но вообще их производят и Intel, и AMD
Такие вот дела.
Nvidia – компания, которая известна в основном как производитель графических процессоров. Она первой выпустила на рынок графические процессоры, которые сначала начали активно использоваться в игровой индустрии, а потом оказались очень востребованы в области ИИ и стали одним из факторов появления глубокого обучения.
Однако помимо процессоров компания создает и программное обеспечение. У них более 600 моделей, обученных для разных целей. Но что для нас более замечательно, так это возможность некоторые модели потестировать в Nvidia AI Playground.
Для тестирования не нужна регистрация, оплата или VPN, можно просто зайти на сайт, выбрать модель и попробовать. Бесплатная версия дает выполнить 25 запросов.
Помимо собственных моделей Nvidia, можно поработать со множеством других, таких как Llama, Qwen, Deepseek и прочими.
Модели из каталога можно отфильтровать по типу задачи и создателю, выбрать наиболее свежие.
Если создать аккаунт, можно еще API получить для использования моделей в собственной разработке, но есть определенные требования к аппаратному обеспечению. Эту часть я еще буду изучать.
#инструменты
Однако помимо процессоров компания создает и программное обеспечение. У них более 600 моделей, обученных для разных целей. Но что для нас более замечательно, так это возможность некоторые модели потестировать в Nvidia AI Playground.
Для тестирования не нужна регистрация, оплата или VPN, можно просто зайти на сайт, выбрать модель и попробовать. Бесплатная версия дает выполнить 25 запросов.
Помимо собственных моделей Nvidia, можно поработать со множеством других, таких как Llama, Qwen, Deepseek и прочими.
Модели из каталога можно отфильтровать по типу задачи и создателю, выбрать наиболее свежие.
Если создать аккаунт, можно еще API получить для использования моделей в собственной разработке, но есть определенные требования к аппаратному обеспечению. Эту часть я еще буду изучать.
#инструменты
Сегодня запоздала немного с постом, но вот он – обзор инструмента для создания автономных ИИ-агентов
vc.ru
CAMEL. Ролевой подход к ИИ-агентам — AI на vc.ru
ИИ, жизнь, баланс AI 2м
👍1