Вглядываясь в LLM – Telegram

Вглядываясь в LLM

@llm_insight_view

926 subscribers

66 photos

2 videos

3 files

63 links

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.

Download Telegram

About

Blog

Apps

Platform

Вглядываясь в LLM

926 subscribers

Вглядываясь в LLM

😈 Злой Рекламщик – канал про маркетинг без розовых очков.

🔥 Разбираем кейсы, которые работают.
🔥 Делимся фишками, о которых не расскажут другие.
🔥 Режем правду-матку про digital и медиа.

Подпишись, если не боишься правды: @zloy_reklamshik

4.0K views15:39

Вглядываясь в LLM

Хочешь быть в курсе всех событий на рынке недвижимости Москвы?

Подписывайся на "Квадратные инсайды"!

✅ Экспертные прогнозы
✅ Свежие новости
✅ Выгодные предложения

@kvadrat_insides - твой ключ к выгодным сделкам с недвижимостью!

2.8K views10:10

Вглядываясь в LLM

📢 Открытые Финансы с @BanklessNews: Независимые Новости Без Пропаганды и Спекуляций 📢

Друзья, в мире финансов так важно быть в курсе последних событий, но как найти источник информации, которому можно доверять?

🔍 Представляем вам Bankless — ваш надежный спутник в мире независимых финансовых новостей! 🌐

Что делает Bankless особенным среди множества финансовых каналов? 🤔

✅ Независимость: Мы не связаны с крупными корпорациями или политическими интересами. Наша миссия — предоставлять вам честную и объективную информацию.

✅ Четкие Новости: Здесь нет места пропаганде и спекуляциям. Только факты, только проверенная информация, позволяющая вам принимать обоснованные финансовые решения.

✅ Актуальность: Мы оперативно освещаем самые важные события в мире финансов, обеспечивая вас всеми необходимыми сведениями для того, чтобы оставаться на шаг впереди.

✅ Экспертные Анализ: На нашем канале вы найдете глубокий анализ и экспертные мнения, которые помогут вам разобраться в сложных финансовых тенденциях и сделать правильные шаги на рынке.

📈 Bankless — это ваш компас в бурном море финансового мира. Присоединяйтесь к нашему сообществу, чтобы всегда быть в курсе самых значимых новостей и не упускать ни одной важной детали!

👉 Подпишитесь на @BanklessNews, и пусть ваши финансовые решения будут обоснованными и уверенными. Включайте знание, отключайте страх!

Будьте в курсе самых свежих финансовых новостей с Bankless!

4.6K views16:35

Вглядываясь в LLM

Как выбрать новые направления для применения LLM?

У меня есть такая табличка, в которую сведена библиотека AI кейсов, с которыми я пересекался лично. Столбцы - сектора экономики, строчки - ключевые стейкхолдеры в кейсе. Чем темнее клеточка - тем больше насмотренность.

И я просто играю в бинго.

При выборе рабочих проектов для важных клиентов - приоритизирую хорошо изученные области. Там мноие грабли и нюансы уже известны заранее, можно выбрать кратчайшую дорожку для решения.

При выборе направлений для изучения или консалтинга, наборот, стараюсь дополнить свои слабые места в интересных направлениях.

Больше всего на осень-зиму меня интересуют - Compliance (во всех сегментах), Medical (включая биотех) и Financial Services (тут LLM прямо очень бодро внедряют).

А вы в каких направлениях сейчас развиваетесь и работаете?

Вaш, 🤗

---
PS: Список продуктовых кейсов, про которые я могу говорить вслух, собран тут.

670 views18:49

Вглядываясь в LLM

Enterprise RAG Challenge - в этот Четверг

Первый раунд Enterprise RAG Challenge состоится в этот четверг. Это дружеское соревнование по построению RAG-систем, которое открыто для всех.

Расписание на четверг, 15 Августа:
- после 10:00 CET / 11:00 MOW выберу и выложу пачку из 20 годовых отчетов компаний для анализа (примеры тут). Вы их можете загрузить в свой RAG и прогнать всяческий data extraction/indexing
- после 12:00 CET / 13:00 MOW сгенерирую 50 вопросов. Они будут в формате JSON как тут.

Задача простая - как можно скорее сгенерировать и прислать мне эти же файлы с заполненными ответами. Ответы, которые будут присланы в течение минут пяти ценятся выше (маловероятно, что у людей будет время вычитывать и исправлять их вручную), но в целом можно прислать хоть когда в течение суток.

Это первый прогон соревнования, поэтому я пока не заморачиваюсь с такими вещами, как предварительные формы регистрации для участников или использование TSA серверов (RFC 3161) для выставления подписанных timestamps на результаты. Это все добавлю осенью, когда сделаем международный прогон соревнования в том же формате.

Все ответы и результаты будут потом опубликованы, рейтинги выставлены по каноничным ответам (собраны вручную). Можно участвовать анонимно.

Тот, кто займет топовые места, будет сидеть в топе лидерборда до осени 🎉

Почему в расписании стоит “после 10:00 CET”? В это время я запускаю скрипт получения следующего Random Seed из Blockchain (хоть какая-то от него польза), что займет минут десять. Это нужно для того, чтобы выбор файлов и вопросов был одинаковым сюрпризом для всех участников. Описание процесса и исходники всех скриптов лежат в открытом доступе на Github.

К слову, вся repository выложена под Apache 2.0 License 🍻. Если хочется сделать свой Rag Challenge со своими документами и задачами - можно смело переиспользовать код.

Кто думает попробовать поучаствовать? Ставьте 🤝.

Вaш, 🤗

---
PS: Кстати, OpenAI тоже будет участвовать. Я потом прогоню все документы и вопросы через их ассистентов тоже 😁

931 views11:59

Вглядываясь в LLM

Cписок вопросов по файлам из предыдущего поста

См первый комментарий к этому посту

Ответы присылайте мне в личку (), просто заполнив поле answer в схеме. Не забываем, что ответ на вопрос должен соответствовать типу данных в вопросе - число, имя/название или да/нет (подробнее тут).

Если хотите что-то поменять, то сообщение с файлом не надо редактировать. Лучше пришлите новое. Почему? Я буду смотреть на timestamp и статус редакции, чтобы указывать время в финальном leaderboard.

Еще в сообщении, пожалуйста, укажите:
- Имя команды, компании или участника (латиницей)
- Тип модели, которая используется (версия, локальная или нет)
- Краткое описание архитектуры - что там под капотом? Коммерческие тайны раскрывать, естественно, не надо.

Можно участвовать анонимно.

Вaш, 🤗

834 views10:53

Вглядываясь в LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

786 views10:53

Вглядываясь в LLM

@biz_tochla — ярко о главных новостях бизнеса за 5 минут. Каждый день.

7.5K views08:32

Вглядываясь в LLM

@biz_tochka — ярко о главных новостях бизнеса за 5 минут. Каждый день.

5.5K views09:18

Вглядываясь в LLM

Давно не было постов в серии #weekend. Хочу рассказать про то, как устроена самая сложная часть голосового ассистента Homai. Это серверное ядро системы, во второй своей версии, я его сейчас переписываю.

Ядро - это сервер на golang, который отвечает за подключение всех девайсов по WebSocket, координирует их работу, собирает задачи по обработке голосового ввода на своих моделях (ASR), передачу задач на пайплайны ассистентов или выделенным серверам озвучки (TTS), которые тоже используют свои модели.

Во второй версии ядра мы хотели добавить пару улучшений:

(1) полное покрытие системы тестами, возможность запуска системы в режиме симуляции с ускорением времени.
(2) асинхронная работа всех элементов системы, чтобы голосовой ответ начинал идти в режиме стриминга с минимальной задержкой (в идеале - до секунды)
(3) подключение LLM-логики по архитектуре корпоративных AI ассистентов с поддержкой асинхронной работы
(4) нормальное логгирование всего процесса ответа на запросы, с возможностью анализа ошибок и улучшения системы.
(5) запуск локальных моделей на выделенных серверах c GPU и автоматической перебалансировкой нагрузки.

Там еще было много других хотелок. Но самое главное было в том, чтобы ядро брало на себя сложные задачи вроде координации и балансировки, а вся бизнес-логика писалась отдельно в виде простых скриптов на питоне.

Потребовалось прототипов 6, чтобы утрясти всю архитектуру под эти требования. Основные фишки

(1) структурное логгирование встроено в систему с самого начала. Оно используется для отладки системы и написания event-driven тестов (я этот подход таскаю из проекта в проект)
(2) самая сложная часть - координатор - сделан в виде одного единственного класса Finite State Machine, каждый чих которого покрыт тестами. Он перегягивает всю остальную сложность системы на себя (см про FSM)
(3) Вся система строится так, чтобы она могла работать в режиме виртуальной симуляции. Например, можно запустить с десяток асинхронных подключений к серверу, добавить случайные обрывы соединений и периодическую перебалансировку GPU. А потом прогнать месяцы работы системы в таком режиме за минуты. Идеей в давном давно поделились инженеры из FoundationDB, которая теперь служит основанием для Apple iCloud (см хорошее видео тут).

Если интересно, в комментариях я выложу пример отладки системы в одном из режимов симуляции, плюс пример теста.

В разработке и отладке всей системы очень сильно помогают ChatGPT/Claude и даже Copilot, позволяя разрабатывать ее очень малыми силами. Поэтому архитектура и код адаптированы под такой режим разработки. Структурное логгирование, event-driven tests и симуляция оптимизированы под участие LLM в разработке, это немного похоже на работу Anithesis.

А у вас есть такие примеры продуктов, когда LLM-ки невероятно помогают в разработке продуктов малыми силами?

🤗

804 views14:38

Вглядываясь в LLM

У Claude есть замечательные Artifacts, которые позволяют писать и сразу показывать живые интерактивные интерфейсы.

Если же хочется, чтобы эти интерфейсы сразу же подключались к настоящему API (например, на localhost), то придется обойти настройки Content Security Policy на claude.ai.

Я это сделал так:
- поставил Firefox 98, отключил там автообновление (about:preferences -> search for update)
- в about:config отключил security.csp.enable (в 99 версии и старше его выпилили)

И тогда можно запускать хоть локальный API, давать его схему клоду в артифактах, и он сразу будет подключаться к нему.

Отключение CSP - это небольшая дырка в безопасности, поэтому я запасную версию Firefox поставил отдельно, специально для Claude AI. Он это заслужил.

Вaш, 🤗

PS: это #weekend пост

854 views22:33

Вглядываясь в LLM

🤫 Хочешь узнать секрет идеального стейка? 🥩

👀 Ищешь ресторан, где подают самый вкусный борщ? 🍲

✨ Тогда тебе точно к @singurman ! ✨

"Грешный Гурман" — это канал для тех, кто любит вкусно поесть! 😋

Мы раскроем тебе секреты самых вкусных блюд:

* 🤤 Научим готовить так, чтобы пальчики оближешь!
* 🕵️‍♀️ Найдем лучшие рестораны, которые скрыты от посторонних глаз.
* 🍷 Подскажем, с каким вином лучше сочетать определенные блюда.

"Грешный Гурман" - это не просто еда, это гастрономическое приключение! 🗺️

Подписывайся, чтобы получить доступ к эксклюзивным рецептам, рекомендациям и секретам от настоящих гурманов!

✨ Вкусно покушать - это святое! ✨

7.3K views15:30

Вглядываясь в LLM

@glyanka_ru 👀 — твой карманный гид по миру умопомрачителных интерьеров. Зависть соседей обеспечена! Подписывайся!

6.2K views16:22

Вглядываясь в LLM

Enterprise RAG Challenge - Round 1

Вот первые результаты нашего Enterprise RAG Challenge. Максимальное число очков - 100.

Топ победителей:
(1) Daniel Weller - 84
(2) Ilya Rice - 76
(3) Artem Nurmukhametov - 73
(4) Alexandr Bobrov - 71
(5) Anonymous 1337 - 71

Остальные участники следом идут очень плотно по очкам.

Огромное спасибо всем, кто участвовал в тестовом прогоне и деталями! На днях я выложу в открытый доступ в Github данные этого раунда:
(1) ответы всех команд
(2) правильные ответы с комментариями (результат ручной проверки и вычитки PDF)
(3) исходный код алгоритма оценки
(4) рейтинг локальных систем

Вот краткое описание топовых систем:

TTA Daniel - gpt-4o data extraction with structured outputs (bulk checklist), schema-driven question answering over checklist.

Ilya Rice - Langchain RAG with GPT-4o, Text-embedding-3-large and custom chain of thought prompts.

Artem - multi stage checklist - multo-stage checklist with Gemini Flash Experimental.

AlBo - Alexandr Bobrov. Knowledge Graph + Vect...

824 views14:57

Вглядываясь в LLM

Только что закончилась интересная презентация - AI Platform #aicase

Презентовали клиенту, который просил детективную историю (там поста три со всей историей). Пока перекапывали данные в поисках истины, я накрутил несколько ассистентов и интеграций, чтобы самим работать было удобно.

Интеграции были простые:

BI Assistant, который умеет отвечать на бизнес-вопросы “упоротой” базе данных клиента (этой базе и всему софту - больше 20 лет, там 3 поколения разработчиков наслоили legacy на разных языках). Ассистент использует информацию о особенностях хранения данных, построения запросов и особенностей бизнеса. Я все это разузнал один раз, структурировал и забыл как страшный сон. Он строит отчеты и графики по мере необходимости. Причем в презентации я прямо сделал слайды "вопрос - график". А потом сказал, что эту часть мне написал Assistant.

Интеграция с государственными реестрами, которая вытягивает информацию о юридических лицах в стране, плюс любые изменения статусов. Благодаря первому ассистенту мы точно знаем какие коды (эквиваленты ОКВЭД) нам нужно выкачивать в первую очередь.

Поисковый lead generation ассистент, который пытается найти информацию про эти компании в интернете следуя простому Workflow. Ибо контактные данные в базе - это обычно данные бухгалтеров, а продавать нам надо другим людям.

Все это использовалось в детективном расследовании для разнообразной валидации. Не пропадать же добру?

Cегодня только что была презентация директорату со словами:
(1) вот что мы раскопали по вашим запросам
(2) вот что мы для соорудили для себя, и вот как оно работает
(3) а вот как это можно собрать в одну в AI платформу и внедрить у вас. Она может держать вашу CRM актуальной (даже AI ассистент сходу сказал, что там 6% контактов пора удалять), приводить новых лидов и помогать связываться с ними в важные для них моменты жизни.

Реакция директората: “Берем, все как вы сказали. Начните раскатывать это в друх странах, но имейте в виду, что это потом надо будет интегрировать на глобальном уровне. И позванивайте нам c апдейтами раз в месяц, хорошо?”

А что там под капотом у платформы? Какой агент, langchain или RAG? Ничего из этого не надо:

- Линейный Wokflow у Lead Generation с Checklist паттерном и интеграцией c Search API. Просто вызов OpenAI. Все как в кейсе про исправление ошибок в продуктах.
- Один структурированный промпт для BI Assistant. Я дистиллировал все информацию в формат, понятный для LLM. В процессе пришлось просто сделать схему читаемой и комментируемой (да и тем занималась LLM).
- Куча скучного кода без капли LLM для интеграции всего этого.

Как видите, все - очень просто. А на выходе - интегрированная платформа, которая решает набор задач клиента парой простых промптов. Люблю такие истории.

🤗

694 views11:32

Вглядываясь в LLM

Мой AI Coding workflow

Инструменты, которые использую в разработке сейчас.

В первую очередь IDE - либо Jetbrains PyCharm/Goland/WebStorm либо neovim. Я на эту связку пересел лет этак 10 назад с Visual Studio, все работает хорошо и удобно для меня. Мускульная память рулит.

Отчасти из-за этого я не использую Zed, Cursor.sh и прочие AI-first редакторы. Они никогда не станут такими удобными (для меня), как JetBrains/neovim со всеми моими настройками и плагинами.

В IDE - использую Github Copilot для ненавязчивого autocomplete. Большую часть времени он выключен, чтобы не отвлекал.

Для когнитивно сложных задач и брейншторминга - Claude Chat / ChatGPT в режиме копипасты.

Если нужно работать точечно по коду с разными файлами, рефакторить и чистить, тогда aider c такими параметрами:

aider --no-auto-commits --cache-prompts --no-stream --cache-keepalive-pings 6 --read README_AI.md

- —no-auto-commits - отключает авто-генерацию git коммитов (я предпочитаю проверять и писать сам)
- --cache-prompts --no-stream --cache-keepalive-pings 6 перетасовывает промпт так, чтобы использовать context caching (для экономии)
- --read README_AI.md - загружает мелкую методичку для AI по текущему проекту.

И потом просто в терминале aider-у выдаю задачи, в процессе выполнения которых он редактирует файлы напрямую. Потом я просматриваю изменения через git diff и дальше по ситуации.

В aider мне нравится, что он хорошо работает с моими IDE, под капотом может использовать любую модель (Sonnet лучше всего на моих задачах), хорошо работает со всем кодом (под капотом - repo map на базе tree-sitter) и хорошо настраивается под меня.

В итоге ощущение как от Claude Artifacts, но в привычных IDE, без ограничений по размеру коду и библиотекам.

А что используете в разработке вы?

🤗

753 views17:25

Вглядываясь в LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

794 views12:36

Вглядываясь в LLM

Кейс DealRoom: AI-решение для Due Diligence

Хочу похвастаться: на днях мои клиенты зарелизили продукт для автоматизации процесса Due Diligence в слияниях и покупках компаний - AI designed for Due Diligence. Они его разрабатывали с моими консультациями.

Весь процесс Mergers and Aquisitions (от LOI до завершения интеграции) - это сложный "танец" двух компаний, который может занять от 12 месяцев до 3+ лет. Почему так долго? Потому что нужно выяснять массу деталей, анализировать горы документов и получать точные ответы на специфичные вопросы о компаниях. Правильное использование AI/LLM помогает сэкономить много человеческого времени в этом процессе.

Продукт относится к категории Business Services в моей матрице AI Cases - её вы видели в прошлом посте.

Я этот релиз ждал очень долго. DealRoom - это мои давние клиенты в рамках AI Research и консалтинга. С января этого года компания прошла большой путь: от продуктовой идеи до конкретного продукта, от классического RAGа с типичными болячками до работающего решения, которое вобрало в себя опыт лучших экспертов в отрасли M&A.

Продукт начинает свое путешествие, в нем предстоит немало работы с клиентами и экспертами. Но DealRoom уже не нужно тратить время на выстраивание LLM архитектуры и борьбу с галлюцинациями, они могут сосредоточить силы на ценных фичах и упрощении работы пользователей.

🤗

PS: А еще у них есть вакансии, подробности - в комментариях.

938 views09:24

Вглядываясь в LLM

Бенчмарки новых o1 моделей. Модели в топе, но есть нюанс

Новые o1 модели от OpenAI, действительно, в топе. o1-preview заняла первое место в продуктовом бенчмарке, потеснив 4o.

o1-mini - третье. Модель заняла бы больше, если бы всегда внимательно читала текст задачи, а не через раз (это видно в колонке integrate).

У обоих моделей высокий reason, но есть один нюанс - они очень дорогие для своего функционала. Причем я даже не смог их изначально даже запустить - во всех тестах у меня прописаны ожидания max_tokens достаточные для ответа. Но поскольку теперь модели генерируют больше tokens в процессе размышлений - этого не хватало, мне возвращались пустые модели.

OpenAI вообще теперь рекомендует закладывать как минимум 25000 max_completion_tokens при экспериментах с этими моделями.

В сухом остатке получается, что модели немного мощнее, но стоят в разы дороже сравнимых моделей. Я думаю, что они не станут мейнстримом, слишком дорогие и странные. Но вот другие провайдеры скопировать подход и попробовать прим...

883 views17:56

Вглядываясь в LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

829 views13:25