AI, life and balance
114 subscribers
136 photos
3 videos
11 files
204 links
Download Telegram
Еще один мультиагентный фреймворк – MetaGPT. Это проект с открытым исходным кодом его можно запустить и использовать бесплатно (код и инструкции к нему представлены на github). У команды проекта также есть сайт, на котором можно протестировать их главный продукт – команду агентов-разработчиков, которая поможет вам создать программу по текстовому описанию. Сайт в режиме бета-теста, у меня не заработал, но вдруг у кого получится.
В деталях авторы описали свою разработку в статье «MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework». Идея проекта – качественно автоматизировать стандартные операционные процедуры (Standard Operating Procedures). Эти процедуры представляют собой наборы пошаговых инструкций для выполнения задач. С их помощью распределяются задачи между членами команды и задаются параметры готового продукта на каждом этапе разработки.
Ключевая особенность MetaGPT заключается в том, что на каждом этапе агенты генерируют структурированный правильным образом документ, на основе которого затем выполняется следующая задача. Такой подход позволяет не только эффективнее генерировать код, но и сокращать галлюцинации (за счет того, что у агентов меньше «творческой свободы» и есть набор четких ограничений).
Еще авторы MetaGPT предложили новый способ обмена сообщениями между агентами: общее пространство, в которое агенты отправляют структурированные специальным образом сообщения. Обычно взаимодействие происходит По заданному заранее сценарию: агент А пишет сообщение агенту Б, тот – агенту В и так далее. Здесь все пишут в общий чат, и каждый забирает оттуда ту информацию, которая нужна для выполнения его задачи.
На скриншоте 2 представлен пример взаимодействия: слева агенты обмениваются сообщениями, а справа агент-Инженер пишет код. Если в коде обнаружится ошибка, он может вернуться в общий чат и свериться с техническими требованиями, которые написал агент-Архитектор. Чтобы не перегружать агентов лишней информацией, использовали механизм подписки: каждый агент может выбрать набор сообщений, за которыми он будет следить.
Процесс работы итерационный: написали – проверили – исправили ошибки – снова проверили. И так до тех пор, пока либо все ошибки не будут исправлены, либо не будет достигнуто максимальное число попыток.
Всего авторы предложили пять ролей: Руководитель (Product Manager), Архитектор (Architect), Руководитель Проекта (Project Manager), Инженер (Engineer) и Специалист по контролю качества (QA Engineer). У каждого есть имя, должность, цель, набор ограничений и инструментов. Например, Архитектор и Руководитель умеют строить диаграммы, а Инженер – писать и запускать код.
Чтобы проверить, нужно ли столько ролей (или можно ограничиться только инженером), авторы провели исследования, в которых исключали отдельные роли и смотрели на результат. Получилось, что все участники команды вносят существенный вклад в успех.

#инструменты
2
Потихоньку тестирую Notebook LM как инструмент для ведения заметок. Он просто так из России не доступен, зато полностью бесплатный. Там можно работать с pdf-файлами и любыми другими файлами, которые хранятся на Google-диске.
Он может сделать краткий пересказ выбранных документов, почитать вслух или ответить на вопросы (в том числе на русском языке). Отвечая на вопросы, он довольно точно цитирует текст (внутри используется Gemini) и не выдумывает от себя, так что там не так много галлюцинаций, тем более что он прикладывает ссылки на источники. Хотя лучше проверять ответы на корректность, потому что стопроцентной защиты от галлюцинаций пока нет.
Такой инструмент может быть полезен студентам, чтобы, например, билеты писать при подготовке к экзаменам. Если записи лекций оцифрованы и есть учебники в электронном виде, это вполне себе вариант. Потом можно будет включить себе аудио и ходить их слушать для лучшего запоминания.
Как применять Notebook LM в работе, я пока особенно не вижу, хотя мне его хвалили активно. Разве что гонять его по своим документам, чтобы понять, что я где писала, потому что иногда бывает непросто раскопать нужный файл.

#инструменты
Диффузионные модели пришли из физики и хорошо себя показали в создании видео по текстовому описанию. В посте на vc рассказываю, как они работают
Для распознавания лица при разблокировке телефона в айфоне используются сверточные нейросети, оптимизированные для использования на маленьком процессоре и с крайне ограниченным объемом памяти, и потому работающие локально.
Расположение нейросети не на стороннем облачном сервисе, а на устройстве пользователя обеспечивает безопасность данных: изображения лица никуда не отправляются и не могут быть украдены или утечь через дыру в системах безопасности.
Мы ранее здесь говорили о проблемах с утечками данных. Перенос нейросетей на пользовательское устройство – один из вариантов решения.
Реализация этой прекрасной идеи затруднена теми объемами памяти и вычислительных мощностей, которые необходимы для их работы. Многие умы направлены на то, чтобы справиться существующими ограничениями и засунуть-таки современный мощный ИИ к нам в карман (у Apple даже получилось, но это для одной конкретной задачи).
В 2024 году вышла статья «Porting Large Language Models to Mobile Devices for Question Answering», посвященная уже большим языковым моделям. Авторы экспериментировали со смартфоном Galaxy S21 и оптимизатором llama.cpp.
Это очень эффективный оптимизатор, написанный на языке C++. C++ сам по себе эффективнее, чем Python, но помимо него создатель llama.cpp использовал дополнительных методов (например, снижение точности вычислений за счет округления до меньшего числа знаков после запятой).
Мы говорили ранее про подобный инструмент – Ollama. Он тоже позволяет использовать большие модели локально за счет ряда специальных техник. llama.cpp эффективнее, но поддерживает меньшее число моделей. В силу того, что этот фреймворк изначально писался именно для моделей из семейства Llama, его сейчас можно использовать только с теми моделями, которые архитектурно похожи на Llama.
Есть, впрочем, модели, которые не требуют оптимизации, потому что изначально задумывались для использования на мобильных устройствах. Пример – Gemini Nano от Google, доступная на платформе Android.

Помимо программных инструментов разрабатываются аппаратные – компактные мощные процессоры, которые поддерживают большие объемы вычислений. Gemini Nano, например, работает на процессоре Tensor G4. Первая версия такого процессора вышла в 2021 году, разработана Google и выпускается Samsung. Новый Tensor G5, вероятно, будет выпущен TSMC.
Есть еще нейронный процессор (Neural Processing Unit, NPU), который разработан специально для поддержки работы нейросетей. Его фишка – параллельные матричные вычисления (весь ИИ состоит из матричных вычислений плюс-минус целиком). Такой процессор как раз обеспечивает распознавание лиц в айфонах. Но вообще их производят и Intel, и AMD
Такие вот дела.
Nvidia – компания, которая известна в основном как производитель графических процессоров. Она первой выпустила на рынок графические процессоры, которые сначала начали активно использоваться в игровой индустрии, а потом оказались очень востребованы в области ИИ и стали одним из факторов появления глубокого обучения.
Однако помимо процессоров компания создает и программное обеспечение. У них более 600 моделей, обученных для разных целей. Но что для нас более замечательно, так это возможность некоторые модели потестировать в Nvidia AI Playground.
Для тестирования не нужна регистрация, оплата или VPN, можно просто зайти на сайт, выбрать модель и попробовать. Бесплатная версия дает выполнить 25 запросов.
Помимо собственных моделей Nvidia, можно поработать со множеством других, таких как Llama, Qwen, Deepseek и прочими.
Модели из каталога можно отфильтровать по типу задачи и создателю, выбрать наиболее свежие.
Если создать аккаунт, можно еще API получить для использования моделей в собственной разработке, но есть определенные требования к аппаратному обеспечению. Эту часть я еще буду изучать.

#инструменты
Сегодня запоздала немного с постом, но вот он – обзор инструмента для создания автономных ИИ-агентов
👍1
Некоторое время назад мы говорили о нейроморфных вычислениях, которые призваны сделать ИИ более эффективным и снизить затраты на его обучение и работу. А в конце 2024 года Google представил миру квантовый процессор Willow.
Утверждают, что такие чипы ускорят и выведут ИИ на новый уровень. Попробуем разобраться.

Минимальная единица информации в обычном компьютере – бит. В одном бите может храниться либо 0, либо 1. Вся информация, с которой мы работаем, в компьютере преобразуется в набор нулей и единиц (двоичный код) и так хранится в памяти.
Минимальная единица информации в квантовом компьютере – кубит. Он не принимает никаких значений, а представляет собой вероятность получить 0 или 1. Классический пример, на котором объясняют кубиты – подбрасывание монетки. Монетка может упасть либо орлом вверх (0), либо решкой (1), но в момент подбрасывания мы еще не знаем, как она приземлится – мы знаем, что вероятность выпадения орла или решки составляет 50%. Кубит описывает вот это неопределенное состояние монетки в воздухе с известным набором исходов и их вероятностями.

Когда мы решаем задачу, в которой нужно найти лучший ответ из возможных, в классическом случае мы проверяем все варианты, сравниваем между собой и выбираем один – это долго. В квантовых вычислениях все варианты можно проверить параллельно, как раз благодаря особенностям кубитов. Поэтому квантовые вычисления намного быстрее «обычных». Но у них есть ряд проблем.
Во-первых, квантовые вычисления подходят для узкого набора задач: для криптографии, оптимизации алгоритмов и симуляции (например, молекул для поиска новых полезных комбинаций).
В-вторых, они очень уязвимы. Работу квантового компьютера может сбить нагрев оборудования или электромагнитные волны от других приборов. Кроме того, в процессе вычислений возникают ошибки из-за недостаточно высокой точности (точность чисел – число знаков после запятой, – которая может храниться в памяти компьютера, зависит от его технических характеристик).
Именно поэтому квантовые компьютеры пока застряли на стадии лабораторного эксперимента: их не удается масштабировать и применять для решения прикладных задач. Однако потенциальные преимущества квантовых вычислений занимают ученых уже многие годы.

В 2012 году было открыто подразделение Google Quantum AI, и через 12 лет его специалисты опубликовали в Nature статью «Quantum error correction below the surface code threshold». В ней авторы предложили способ снижения ошибки вычислений при увеличении числа кубитов, что должно приблизить нас к моменту, когда квантовые компьютеры смогут применяться в реальной жизни.
Предложенные решения:
- поверхностный код (surface code) – он объединяет группу кубитов в один логический кубит. Информация распространяется между всеми кубитами в группе, так что, если в одном из них произойдет ошибка, ее можно будет исправить за счет правильных копий информации в других;
- измеримые кубиты (syndrome qubits / measure qubits) – они не хранят в себе информацию, но взаимодействуют с другими кубитами внутри логического кубита, чтобы выявить ошибки.

Вообще кубиты измерять нельзя, потому что они разрушаются. Возвращаясь к аналогии с подброшенной монеткой, можно сказать, что, измерив кубит, мы поймали монетку, и она теперь не вращается в воздухе, а имеет конкретное значение: 0 или 1. Она потеряла свойство неопределенности. С кубитами то же самое: как только мы измерим их значение, они перестанут работать как кубиты и превратятся в обычные нули и единицы. Однако, измерять их нужно, чтобы понять, возникла ли где-то ошибка.
Поэтому и вводятся измеримые кубиты: их можно измерить, они разрушатся, но это не страшно, потому что система кубитов, несущих информацию, не была затронута.

Google ничего не сообщает о сроках перехода к промышленному применению квантовых процессоров, но у них есть какая-то тактика, и они ее придерживаются. Пожелаем удачи.
Моя основная работа связана с бизнес-консалтингом на основе патентных данных. 70-80% моих изысканий в области ИИ идет туда, в разработку новых инструментов анализа.
Консалтинг на базе патентов – вообще очень интересная тема, про которую пока не очень активно говорят на русском языке на широкую аудиторию (а надо бы). Так что я с большой радостью представляю вам телеграм-канал Федора Батанова.
Федор один из тех крутых специалистов, которые умеют объяснять сложные вещи просто и увлекательно. Если вам интересен бизнес, патенты и веселая обратная сторона консалтинга – заходите, вам понравится
👍1
В новом посте рассказываю про один из подходов к работе с разными типами данных – объединенные модели
Сейчас почти у каждой крупной компании есть свой ИИ. Есть мощности – почему бы их не использовать? Вот у IBM тоже есть свое семейство моделей, которое называется Granite.
Самый известный ИИ-продукт IBM – IBM Watson. Watson отвечает на вопросы, опираясь на масштабную базу знаний, и активно используется в медицине для помощи врачам в принятии решений. в 2022 году Watson Health – часть IBM Watson, связанную с медициной, – продали инвестиционной компании Francisco Partners, но история с разработкой ИИ для IBM на этом не закончилась.
Сейчас у них есть Watsonx – целый портфель продуктов, в который как раз включает в себя их собственные модели Granite. Granite – трансформеры-декодировщики (как GPT), их представили миру в 2023 году. Тогда вышла версия 3.0, а сейчас уже доступна версия 3.2 в режиме предварительного теста.
С ними и некоторыми другими моделями (Llama, Mistral) можно бесплатно поработать в Watsonx, нужно только создать аккаунт.

Здесь можно работать на русском языке и загружать собственные данные. Можно добавить в проект других участников. Бесплатная версия, конечно, с ограничениями, но многие функции все равно есть шанс протестировать.
Отдельная линейка моделей Granite Code обучена непосредственно для помощи программистам. Они с открытым исходным кодом, их можно использовать кому угодно как захочется.

#инструменты
Если подряд пошли посты про инструменты, значит, я не успеваю писать большие посты. Я не успеваю писать большие посты, потому что мне пришла в голову идея писать еще на LinkedIn, чтобы активнее вливаться в профессиональное сообщество (часики тикают, все дела).
Но ничего, я уже добавила себе побольше рабочего времени в выходные, так что скоро вернусь в режим нормальных больших текстов.
А сегодня познакомлю вас с инструментом, который ранее упоминала, но не описывала подробно – AudioNotes. Когда я нашла его в первый раз, он был доступен из России, но сейчас уже без VPN открыть не получается. Но на русском языке все работает, там внутри мультиязычные модели.
Интерфейс простой, туда можно написать текстовую заметку, наговорить аудио или прикрепить ссылку на видео. В бесплатной версии записать аудио можно не больше, чем на минуту.
После обработки голоса вы получаете полный транскрипт и краткое изложение ваших мыслей. Это все потом можно трансформировать в план, организовать в виде списка, даже рекомендации получить.
Во имя наглядности делюсь с вами сокровенным (если что, со мной все в порядке, меньше работать не собираюсь).

Вообще идея голосовых заметок мне нравится: можно писать на ходу или не отрываясь от дел. Потом структурировать – и готово. Я бы поэкспериментировала с надиктовкой постов, например.

#инструменты
😁1