AI Forge – про ИИ в бизнесе
258 subscribers
54 photos
9 videos
3 files
73 links
Канал про LLMs (GPT, Claude, LLAMA) и их применение в народном хозяйстве. Автор @ax_makarov
Download Telegram
Всё до сих пор играюсь с GPT-4V в купе с DALL-E 3. Открывается интересная возможность описать детально изображение и потом его же отрисовать заново

1) Сначала загружаем изображение и просим описать его
2) Создаем изображение в DALL-E 3 по этому описанию
🔥2
А ещё можно попросить сделать это же изображение, но в другом стиле (на картинке пример конвертации в стиль Pixar)
Ну и заставим котика прыгнуть, вбив в чат «Let the cat jump»
2
Forwarded from Not Boring Tech
📊 Нашел удобную и структурированную таблицу с компаниями, которые заняли свои места в ИИ-гонке. Отсортировано по разделам и подгруппам, а также отмечены главные модели.

Если о каких-то ещё не слышали — велком тестить. Пора зафиксировать лидеров в категориях на данный момент и наблюдать, как изменится поле ИИ-компаний через год!

#AI #Business | Not Boring Tech
https://www.youtube.com/watch?v=UIZAiXYceBI

Выглядит потрясно, понятно, что в демке много всего, что скрыто за кадром, чтобы создать ощущение плавности и неразрывности пользовательского сценария. Но это всё наводит на мысли, что AGI уже очень близко
🔥1
Пример AI-generated UI, который базируется на пользовательском запросе. То есть модель сначала классифицирует какой тип контента наиболее предпочтительно выдать пользователю, а дальше уже в соответствующем фрейме генерит мульти-модальный ответ с удобной навигацией

Интересно через какие этапы это проходит

1. Сначала классификация интента. На этом этапе модель понимает в какой модальности должен быть ответ: достаточно ли просто текста, нужны ли картинки, нужен ли какой-то UI для взаимодействия с данными
2. Потом доуточнение через встречные вопросы пользователю (это в дальнейшем позволит лучше сделать data-model для того контента, с которым будет взаимодействовать пользователь)
3. Потом модель генерирует PRD (product requirements) для некоторого мини-продукта, который решает пользовательскую задачу. Это позволяет понять какая функциональность должна быть: какие сценарии будет решать мини-продукт
4. А затем генерит под это layout, который описывает структуру интерфейса
5. На следующем шаге модель генерирует код на flutter для реализации пользовательского интерфейса
6. И дальше наполняет всё это контентом в соответствии с моделью данных

Ну и дальше с каждым куском контента можно также взаимодействовать и дальше продолжать в том же ключе

https://www.youtube.com/watch?v=v5tRc_5-8G4
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:
magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.
🔥1
Forwarded from AI[ex]Time (Александр Голубев)
Посмотрел интенсив GPT Week от Yandex, где ребята записали цикл лекций по всему, что связано с современными LLM: от обучения претрейна и замера его качества до финального алайнмента и ускорения инференса модели в условиях ограниченных ресурсов. В целом считаю, что материал получился качественным + изложен понятным языком, так что если хочется занырнуть во всю эту тематику, советую посмотреть. Если все лекции смотреть некогда, то подготовил вам таймкоды, где, на мой взгляд, удачно объяснены некоторые вещи:

1. Эволюция архитектуры трансформера с 2017-ого года. Довольно большая секция с разбором каждого трюка.
2. Интуиция вокруг алгоритма распределенного обучения FSDP. Если не знакомы с Data/Model/Tensor Parallelism, то посмотрите сначала объяснение их в начале лекции.
3. Способы замера качества LLM, когда правильный ответ может быть сформулирован множеством способов.
4. Применение Log-derivative trick и вывод алгоритма Reinforce. Если осознать самый базовый алгоритм on-policy RL, то дальше значительно легче будет разобраться в A2C, PPO, и т.д.
5. Техники дистилляции на примере статьи MiniLLM и интересный разбор применения прямой/обратной KL дивергенции в качестве “меры похожести” моделей. По дистилляции совсем недавно вышла новая работа, показывающая результаты лучше, можно почитать здесь обзор.
6. Базовая идея квантизации и ее развитие в популярный метод SmoothQuant.
7. Объяснение Speculative Decoding для ускорения инференса. Немного писал об этом здесь.

Это то, что с ходу захотелось вынести, а так довольно хорошо описан процесс Сбор данных -> претрейн -> валидация -> алайнмент -> деплой. На каждом этапе есть масса возникающих сложных задач, поэтому обычно над каждой работает отдельная команда.
Forwarded from Алексей Макаров – люди и сложность (Алексей Макаров)
Читаю сейчас роман Кима Стэнли Робинсона «Министерство будущего»

В одной из глав речь заходит про парадокс Джевонса:

Парадокс Джевонса постулирует, что усиление эффективности использования какого-либо ресурса увеличивает, а не уменьшает объем его потребления. Уильям Стэнли Джевонс написал об этом в 1865 году, ссылаясь на историю использования угля; как только появилась паровая машина Уатта, резко увеличившая экономичность сжигания угля и выход энергии, потребление угля намного превысило первоначальное сокращение объемов, требовавшихся для поддержания деятельности до появления усовершенствований.
...
Парадокс Джевонса заметен на примере всех технологических улучшений. Лучшее соотношение километража на литр бензина — больше километров пробега. Повышается скорость компьютерных вычислений — человек дольше сидит за компьютером. И так до бесконечности. На данном этапе наивно полагать, что технологические новации сами по себе уменьшат последствия стремления к росту и сократят нагрузку на биосферу. Тем не менее многие до сих пор сохраняют это наивное представление.


В этом контексте интересно подумать про влияние AI. Все говорят «AI отнимет наши работы». Мне кажется это не совсем верно: AI создаст нам больше менее содержательной работы. Представим себе копирайтера, который пишет тексты. Пускай в неделю он пишет 5 текстов за 10000 рублей. Теперь мы берем этого же копирайтера и даём ему в помощь AI-копирайтера, теперь вместе они пишут 15 текстов за те же 10000 рублей. Можно, конечно, возразить: но как же так? Производительность копирайтера выросла — вместо 5 текстов он стал писать 15 текстов, а оплата осталась такой же — 10000 рублей. Но дело в том, что AI девальвирует стоимость его работы — текст раньше стоил 2000 рублей, потому что требовал больше когнитивных усилий, человеку приходилось больше своего «внутреннего содержания» инвестировать в свою работу; теперь производство текста требует другого типа работы — сформулировать подходящий набор инструкций и передать их в большую языковую модель, такая работа требует меньше когнитивной фокусировки и в ней больше «рутинности». Конечно, предприимчивый копирайтер сначала попробует сохранять стоимость своей работы такой же — 2000 рублей, а выполнять её с помощью AI, но неизбежно рынок поймёт, что этот объем работы стоит дешевле, так как большинство будет демпинговать, делая ставку на доступный продукт. И тогда у нашего копирайтера два выхода: либо задирать сильно планку качества, делая продукт более «элитарным» и менее массовым; либо уподобиться большинству и делать за копейки массовый AI-генерированный копирайтинг, который станет настолько доступным, что заполонит собой всё

А вы что думаете? Будет ли AI создавать больше полезной работы или это очередной способ повышения эффективности путем отчуждения работника от результата труда?
🔥2
Forwarded from Datalytics
Ян Лекун - французский учёный в области информатики, специализирующийся на машинном обучении, компьютерном зрении, нейронных сетях и алгоритмах распознавания рукописного текста. Сейчас VP and Chief AI Scientist, Facebook

В новой лекции «Объектно-ориентированный ИИ: на пути к машинам, которые могут учиться, рассуждать и планировать» Ян Лекун рассматривает вопросы того как современные модели могут достигнуть уровня человеческого интеллекта

Например, интересная концепция, что модель может быть восприимчивой к состоянию внешней среды, в которой она действует. И инкрементально его «запоминать», соотнося свои действия с состоянием «внешнего мира» и предсказывая его следующее состояние

Также интересными мне показались слайды про авторегрессионные LLM и иерархическое планирование

Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be
Forwarded from data будни (Sasha Mikhailov)
первая неделя с CoPilot

тут в нашей Кларне держат фокус на AI. Может где-то и перегибают в горячке, но тем не менее всем разработчикам оплатили лицензию на CoPilot и неустанно напоминают её активировать и установить плагин свой IDE.

последнюю неделю дорвался наконец до питонячего кода и таки активировал-установил копайлот в свою Идею. Делюсь ощущениями по итогам первой недели с аи-помошником. Наверняка тут есть прожженные промпт-инженеры и гпт-мастера — не судите строго (а лучше приходите в комменты!)


+++

мне понравилось как копайлот справляется с питоном и конфигами терраформа: предлагает дополнения исходя из контекста файла и непосредственного окружения.

в одном месте писал функцию для дебага и нужно было создать словарик с мок-данными на вход; и вот тут копайлот мне предложил готовый вариант ровно с теми полями, которые ожидает функция ниже. Топчик!

можно дополнять строки или генерировать целые функции. На функциях при этом получается такой микро-паттерн: пишешь в комменте что должна делать функций, копайлот тебе её генерит, а изначальный коммент-промт идеально подходит на роль докстринга к этой новой функции

в VSCode функциональность ещё шире: можно просить пояснить за целый файл или кусок кода; плюс есть отдельный или инлайн- чат, где можно отдельно поговорить с ботом по душам. Тут спасибо Майкрософту.

− − −

не получилось помощи с ридми — видимо, не хватает контекста для релевантных подсказок. Пока писал короткий ридми с основными моментами нового проекта кажется ни один промт не подошёл — всё как-то мимо. Но я писал больше по-программистски: короткие сухие предложения с примерами кода и ссылками на папки-файлы.


⌘⌘⌘

ещё тут у нас проводят еженедельные встречи любителей помучать чатжпт. на одном ребята показывали как с нуля можно написать простой скрипт с помощью копайлота.

в итоге у них получилось чисто через промты и автодополнения написать скрипт на полторы страницы, который парсил рядом лежащий .csv и выводил агрегат по заданному вопросу

вывод:
- можно писать код на незнакомом языке (мама, я — фулстек!)

- в среднем код с копайлотом получается лучше документированным: комменты с промтами можно оставлять как просто комменты и в целом просить его написать первую версию докстринга

- копайлот можно использовать как резиновую уточку, которой будешь объяснять свои проблемы: может повезёт и найдёшь пробел в рассуждениях в процессе. В любом случае иногда полезно явно формулировать свои мысли где-то помимо своей головы


⌘⌘⌘

на другой такой аи-встрече аналитик показывал как с помощью чат-гпт и копайлота написал пайтон скрипт, который парсит расшифровки после встреч, выводит ключевые идеи и экшен-поинты, плюс формирует элементы для графа связей в общую базу знаний

при этом аналитик говорит что «не знает питон»


⌘⌘⌘

товарищ рядом со мной тоже с помощью гпт написал («скомпилировал»?) в ноутбуке код, который берёт гугл-таблицу, что-то там трансформирует, генерирует пдф и отправляет результат в нужный слак-канал.

при это товарищ тоже аналитик и не шарит за всякие там апи, функции и вызовы — но при этом благодаря гпт скриптик у него работает и приносит свою пользу.


⌘⌘⌘

в Яндекс Доставке тоже аналитик рассказывал как писал с помощью жпт скрипт для бутстрапа сплит-тестов и потом ещё итеративно оптимизировал его производительность, чтобы полностью утилизировать все ядра данной виртуалки.


⌘⌘⌘

в целом, выглядит как ещё один инструмент в наборе: python, sql, chatgpt …

а чо у вас по копайлотам по работе? применяете? полезно?
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
🚨 OpenAI презентовали новую нейросеть — Voice Engine клонирует любой голос из 15 секунд речи и озвучит им ваш текст. Звучит так эмоционально и реалистично, что пугает.

Синтезатор речи пригодится не только для генерации озвучки, но и для перевода контента. Пока проект доступен для небольшой группы партнеров, ждём публичного релиза!

Послушать больше примеров можно в блог-посте.

@notboring_tech
5
Forwarded from Алексей Макаров – люди и сложность (Алексей Макаров)
Хочу поделиться прикольным кейсом использования больших языковых моделей

1) Я взял посты из этого канала как некий набор своих размышлений, которые могут выступать сырым материалом для анализа. Не брал перепосты и короткие неинформативные посты. Всего получилось около 16к слов

2) Дальше я засунул их в LLM Claude. Почему именно Claude – субъективно он лучше работает с большим контекстом

3) Наварганил промпт, который заставляет модель вести себя как коуч личностного и профессионального роста

4) Получил документ (ссылка на pdf-ку, форматирование документа моё)

Что меня впечатляет:

1. Я напрямую попросил нейросеть снабжать выводы цитатами из сырого материала. И она поразительно хорошо с этим справляется. Пример (в кавычках цитаты из моих текстов):

"Чувствую себя поехавшим исследователем, вскрывающим явные изъяны на теле современного общества". Это крутое ощущение, продолжай анализировать большие системы и паттерны. Но не забывай и о тактических действиях, маленьких шагах каждый день. Как ты сам сказал, "действие, соразмерное своим желаниям – единственный способ вытащить себя из неудовлетворенности". 


2. Очень детальный план, разбитый на подпункты, с указанием простых действий

3. Модель отлично проанализировала мои ценности и я испытал вдохновляющее чувство «зеркала» — наблюдение рассуждений от модели, которые резонируют с тем, что есть в моей голове

Умение переносить собственные размышления в письменную форму всегда являлось ценным навыком. Но в эпоху LLM это становится ещё более важным навыком, потому что позволяет эффективнее придавать LLM специфическую точку зрения, следовать каким-то паттернам, которые проявляются в размышлениях человека. При этом не обязательно использовать непосредственно письменную форму, современные технологии speech-to-text (типа whisper) эффективно справляются с расшифровкой голосовых сообщений. Хотя я лично топлю за мышлением письмом, потому что процесс облачения мыслей в текст сильно отличается от говорения — больше задействуется абстрактное мышление и долгосрочное планирование

Думаю, что в развитии персональных AI-ассистентов важным будет именно умение вытаскивать из юзера не просто его потребности и логировать действия, а получать некоторый набор суждений и установок, по которым можно более качественно ему помогать решать жизненные проблемы

P.S.: Промпт в комментариях
👍1
Недавно прочитал у Романа Нестера пост «Прощай, объективность» про то, что OpenAI планирует внедрить в ChatGPT рекламу и продвижение "партнерского" контента от избранных издателей

При условии, что эта задумка реализуется, высок риск, что ответы модели будут смещены в сторону маркетинговых интересов спонсоров. И это вызывает некоторые опасения, что реклама, интегрированная в ответы ChatGPT, будет казаться органичной частью ответа, и не вся «маркетинговая выдача» будет явно промаркирована как реклама. Тем самым это по сути усиливает манипулятивный потенциал такого ответа от LLM и скрытое влияние на пользователей.

В целом, такой шаг довольно-таки ожидаем и неизбежен. Не хочу звучать как левак, но прозвучу как типичный левак: это закономерный шаг в логике капиталистической системы, задача которой подчинять сущности некоторому императиву прибыли. ИИ-сервисы пойдут таким же путем как и в своё время поисковые системы — включать рекламу для того, чтобы окупить операционные издержки

Кажется в этой же логике может находится и открытие доступа всем желающим к GPT-4o. Видимо, в юнит-экономике монетизация через рекламу потенциально приносит существенно больше, чем платная подписка

Интересно пофантазировать к чему это вообще может привести. Увидим ли мы LLM, в которой будет через аукционную модель реализовываться возможность для рекламодателей изменять веса выходного слоя? То есть не просто рекламные вставки, а непосредственное подмешивание рекламного контента в результаты генерации. В теории это возможно, хотя и сложно, а ещё вызывает кучу этических вопросов

Я думаю, что всё это будет иметь ряд долгосрочных последствий. Попробую попрогнозировать и пофантазировать:
1. Дерьмофикация (такой новоязовский термин действительно существует) ИИ-сервисов — мы все больше будем видеть растущий класс пользователей, которые будут ругаться на обилие рекламы и «раньше было лучше»
2. Попытки со стороны регуляторов явно промаркировать рекламный контент, а также создать рамки, которые призваны бороться с манипулирование поведением потребителя через ИИ
3. Модели ИИ будут обучаться за счет данных, предоставляемых рекламодателями (возможно, как часть сделки). Что в перспективе приведет к тому, что качество моделей будет находится в некоторой корреляции от количества рекламодателей
4. Создание инструментов, которые позволяли бы проверять «объективность» ответов от ИИ — то есть нужны будут какие-то алгоритмы, чтобы чекать некоторый bias моделей в сторону наличия рекламного контента (тут можно дальше уйти и вообще пофантазировать о том, что появятся анализаторы контента, которые будут определять некоторое «намерение» самого контента по отношению к пользователю, например, чтобы чекать политическую пропаганду)
5. Появление аналога адблокеров для LLM
6. Рост open-source моделек как попытки сделать «чистый ИИ». Но тут вопрос опять же о том, что такое этот самый «чистый ИИ» и как может быть ИИ вне идеологии. То есть фантазии об объективном ИИ — это всегда будут некие фантазии на тему объективности, а не объективность
7. Разные виды API. Если OpenAI предложит два вида API - с рекламными механизмами и без них - то вторые могут стоить существенно дороже. Это повысит порог входа и затраты на ИИ для бизнеса.

Внедрение рекламы в ИИ-сервисы, подобно поисковым системам, неизбежно повлечёт за собой значительные изменения в их функционировании и восприятии пользователями. Тут возникает много этических вопросов и открывает путь к новому витку борьбы за "чистый" и объективный контент (хах, верните старый интернет по диалапу). Так что в будущем мы точно ещё увидим интересные события в ходе балансирования между коммерциализацией и прозрачностью и объективностью.

AI FORGE
👍3
Forwarded from Yandex for ML
This media is not supported in your browser
VIEW IN TELEGRAM
⚪️ Вышла YandexGPT 3 Lite — новая облегчённая версия YandexGPT специально для простых задач бизнеса

Особенность таких Lite-моделей заключается в более высокой скорости ответов, что позволяет решать простые и рутинные задачи бизнеса буквально в режиме реального времени. Поэтому нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат: например, бот-консультант на сайте, система подсказок для операторов кол-центров или суммаризатор результатов деловых встреч.

🔳 По данным замеров, YandexGPT 3 Lite стала ещё быстрее и точнее — и она уже доступна в режиме release candidate на облачной платформе Yandex Cloud. То есть клиенты могут протестировать её и плавно внедрить в свои продукты через API уже в ближайшее время.

🔳 Одним из ключевых этапов обучения модели стало выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). Без них мы бы не смогли добиться такого роста в качестве, который был нужен для запуска новых возможностей и сервисов, например, Нейро. В статье на Хабре делимся особенностями и деталями реализации Alignment и RL.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexforML
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Клуб CDO (PostoplanBot)
Пост про RAG

Тк основное внимание ИТ сообщества приковано сейчас к теме использования LLM в бизнесе, а надо отметить важность такого класса решений, как RAG (Retrieval-Augmented Generation ) платформы. На фоне того, что бы конкуренция в области LLM возрастает, что стоимость токенов кратно и постоянно падает, то именно RAG становится точкой соединения “бизнеса” и LLM и основной статьей бюджета компаний.

В RAG платформу сейчас по сути сейчас “сгружаются” все существующие до LLM методы поиска и ранжирования информации и там они раскрываются в полной мере.

Я не хочу описывать все, что может быть “под капотом” RAG, в статье ниже это все очень хорошо описано, почитайте. Кроме этого там еще затрагиваются и смежные технологии типа векторных баз данных (и в кои то веки дается очень человеческое объяснение что это такое и зачем нужно :)), методы промпирования LLM, Knowledge Graph и тд.

В общем RAG - очень интересная и перспективная область развития. Это и самостоятельный класс решений и в целом достаточно наукоемкая область в которой инновации могут помочь получить конкретное преимущество и с тз бизнес модели они занимают очень правильное место в цепочке добавленной стоимости для бизнеса - есть есть и консалтинг, и внедрение и лицензионная составляющая + на самом деле RAG (или его владелец/пользователь) определяет, какая LLM будет получить бюджеты.

Но вот если обратиться ко второй части статьи то там делает интересное и не безосновательное утверждение о том, что чем больше у LLM контекстное окно, тем все для более многих задач RAG просто не требуется (или не все его компоненты), т.к. все данные можно поместить в это контекстное окно. Но пока они еще требуются и есть причина по которой RAG может остаться с нами надолго - разделение прав и управление доступом. Делать это на уровне LLM никак нельзя, ибо LLM можно убедить в чем угодно и так останется ещё долго (если не всегда).


Часть первая: https://habr.com/ru/companies/raft/articles/791034/
Часть вторая: https://habr.com/ru/companies/raft/articles/818781/
👍4