Smart Platform - наша on-premise RAG платформа
Врываюсь с двух ног почти готовым релизом нашего внутреннего продукта почти коробка (а за плечами 7 месяцев исследований реальных интеграций и разработки)!
Нет ничего приятнее рабочих якорей (ссылок на источники, которые подсвечивают информацию в нужной вам интеграции, использовавшуюся при ответе LLM), которые показаны на нативной интеграции с Confluence в закрытом контуре
И еще больше кайфую, что это уже работает не только в теории, но и на наших внутренних тестах на демо стенде!
Такой RAG может работать и на моделях до 10b (LLM), а значит, сервер для корпоративного RAG начинает стоить адекватных денег
Целая цепочка router-агентов и долгий путь изучения лучших подходов и фреймворков для Q&A и диалоговых RAG-систем для закрытого контура
За всеми апдейтами по продукту предлагаю следить тут в канале нашего CPO Леши Жданова
Врываюсь с двух ног почти готовым релизом нашего внутреннего продукта почти коробка (а за плечами 7 месяцев исследований реальных интеграций и разработки)!
Нет ничего приятнее рабочих якорей (ссылок на источники, которые подсвечивают информацию в нужной вам интеграции, использовавшуюся при ответе LLM), которые показаны на нативной интеграции с Confluence в закрытом контуре
И еще больше кайфую, что это уже работает не только в теории, но и на наших внутренних тестах на демо стенде!
Такой RAG может работать и на моделях до 10b (LLM), а значит, сервер для корпоративного RAG начинает стоить адекватных денег
Целая цепочка router-агентов и долгий путь изучения лучших подходов и фреймворков для Q&A и диалоговых RAG-систем для закрытого контура
За всеми апдейтами по продукту предлагаю следить тут в канале нашего CPO Леши Жданова
Forwarded from Pavel Zloi
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from #безвотэтоговотвсего
Международный вояж #безвотэтоговотвсего продолжается и мы возвращаемся в наш любимый Баку!
На нашей пятой встрече сообщества в этом прекрасном городе мы решили взять тему, которая точно не оставит равнодушным никого из тех, кто хоть чуть-чуть связан с технологиями (а есть ли другие в 2025 году?).
Тема нашей встречи - “Мир после GPT: как AI меняет рынок IT и продуктов навсегда?”. Ведь здесь, помимо хайпа, просто море интересного:
⁃ Что именно изменилось в работе IT и продуктовых команд с приходом AI?
⁃ Что теперь значит "быть профессионалом"? Раньше — знания и опыт. Сейчас — умение работать с ИИ?
⁃ Что произойдет с ощущением профессиональной идентичности? Кто я, если мои навыки заменяемы моделью?
⁃ Какие новые этические дилеммы появляются с развитием AI? Если GPT написал код с багом — кто виноват?
⁃ Почему middle-специалисты стоят как senior, если GPT делает их работу?
⁃ и многое другое )
На эту тему собрались поговорить прекрасные эксперты:
⁃ Сергей Рыжиков, основатель Битрикс24
⁃ Иван Самсонов, CPO of AI, MTS Web Services
⁃ Валерий Ковальский, Head of AI red_mad_robot
⁃ Валех Набиев, CDO at Pasha Holding
Состав уникальный и точно позволяющий разобрать вопрос с разных сторон.
Обязательно регистрируйтесь и сохраняйте билеты.
Встречаемся 03 июня в 18:30 JW Mariott Absheron (674 Azadliq Square).
Будет огненно!)
На нашей пятой встрече сообщества в этом прекрасном городе мы решили взять тему, которая точно не оставит равнодушным никого из тех, кто хоть чуть-чуть связан с технологиями (а есть ли другие в 2025 году?).
Тема нашей встречи - “Мир после GPT: как AI меняет рынок IT и продуктов навсегда?”. Ведь здесь, помимо хайпа, просто море интересного:
⁃ Что именно изменилось в работе IT и продуктовых команд с приходом AI?
⁃ Что теперь значит "быть профессионалом"? Раньше — знания и опыт. Сейчас — умение работать с ИИ?
⁃ Что произойдет с ощущением профессиональной идентичности? Кто я, если мои навыки заменяемы моделью?
⁃ Какие новые этические дилеммы появляются с развитием AI? Если GPT написал код с багом — кто виноват?
⁃ Почему middle-специалисты стоят как senior, если GPT делает их работу?
⁃ и многое другое )
На эту тему собрались поговорить прекрасные эксперты:
⁃ Сергей Рыжиков, основатель Битрикс24
⁃ Иван Самсонов, CPO of AI, MTS Web Services
⁃ Валерий Ковальский, Head of AI red_mad_robot
⁃ Валех Набиев, CDO at Pasha Holding
Состав уникальный и точно позволяющий разобрать вопрос с разных сторон.
Обязательно регистрируйтесь и сохраняйте билеты.
Встречаемся 03 июня в 18:30 JW Mariott Absheron (674 Azadliq Square).
Будет огненно!)
Media is too big
VIEW IN TELEGRAM
UI-Browser LLM automation песочница для автоматизация браузера на базе LLM
Давно обещал вылить свой форк тут показывал прошлые наработки browser-use-web-ui да еще и в одном из чатов попросили
Все внутри просто
И полетели!
Вот держите что я там наваял?
Единый интерфейс: Объединенный доступ к Gradio и VNC в одном окне браузера
Защищенный доступ: Авторизация по логину и паролю для контроля доступа
Разделенный экран: Фиксированное разделение экрана 50/50 для комфортной работы
Прямая интеграция: Прямой доступ к браузеру через VNC для полного контроля (буфер обемна можно самому что-то кликать)
Что меня удивило что офф версия не работает но моя старая версия работала пришлось совместить функционал новой офф версии и старого кода вышло вроде не плохо (работает и на том спасибо)
GitHub
Давно обещал вылить свой форк тут показывал прошлые наработки browser-use-web-ui да еще и в одном из чатов попросили
Все внутри просто
docker compose up -d
И полетели!
Вот держите что я там наваял?
Единый интерфейс: Объединенный доступ к Gradio и VNC в одном окне браузера
Защищенный доступ: Авторизация по логину и паролю для контроля доступа
Разделенный экран: Фиксированное разделение экрана 50/50 для комфортной работы
Прямая интеграция: Прямой доступ к браузеру через VNC для полного контроля (буфер обемна можно самому что-то кликать)
Что меня удивило что офф версия не работает но моя старая версия работала пришлось совместить функционал новой офф версии и старого кода вышло вроде не плохо (работает и на том спасибо)
GitHub
Forwarded from red_mad_robot
Подборка сервисов для быстрой оценки и сравнения LLM
Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.
Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.
1️⃣ OpenRouter: рейтинг LLM по реальному использованию
OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.
Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.
2️⃣ Chatbot Arena (LMSYS): парные сравнения моделей
Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.
Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.
3️⃣ Hugging Face: рейтинг по независимым бенчмаркам
В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.
4️⃣ MERA: открытый бенчмарк для русскоязычных LLM
Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.
Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.
Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:
📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве
Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.
#AI_moment
@Redmadnews
Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.
Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.
OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.
Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.
Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.
Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.
В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.
Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.
Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.
Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:
Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.
#AI_moment
@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Смотрите чё выпало из недр моей тумбы, тогда мне точно было не до AI
Аж олдскулы свело на моменте покупки рингтонов через sms
Аж олдскулы свело на моменте покупки рингтонов через sms
Присоединяюсь к поздравлениям моего собутыльника друга Леши Жданова
Миша получил грант от Yandex Open Source (оч круглую сумму я скажу) за свой проект faster-coco-eval
— ускоренную версию оценки детекции объектов 🚀
Почему это важно?
— Опенсорс делает технологии быстрее и доступнее.
— Такие проекты, как этот, помогают исследователям и разработчикам экономить время.
— Поддержка компаний вроде Яндекса мотивирует развивать open-source.
Миш, поздравляю тебя
Миша получил грант от Yandex Open Source (оч круглую сумму я скажу) за свой проект faster-coco-eval
— ускоренную версию оценки детекции объектов 🚀
Почему это важно?
— Опенсорс делает технологии быстрее и доступнее.
— Такие проекты, как этот, помогают исследователям и разработчикам экономить время.
— Поддержка компаний вроде Яндекса мотивирует развивать open-source.
Миш, поздравляю тебя
LLM от Antropic сама решает когда пойти в интернет!
По моим тестам добавили возможность анализа есть ли знания внутри LLM и если нет она сама идет через tool искать знания в интернете
Для меня фича новая если было то извеняйте!
Но работает действительно лучше! Скипаю этап поиска и скармливания документации!
Update: роутинг и классификация, что-то новенькое это хорошо забытое старое?)
По моим тестам добавили возможность анализа есть ли знания внутри LLM и если нет она сама идет через tool искать знания в интернете
Для меня фича новая если было то извеняйте!
Но работает действительно лучше! Скипаю этап поиска и скармливания документации!
Update: роутинг и классификация, что-то новенькое это хорошо забытое старое?)
Слайды для презентаций в HTML по старинке?
А почему бы и нет
Раньше я промышлял тем, что просил LLM генерировать всё на React, и часто были потом проблемы в переносе таких слайдов куда-то в другой инструмент демонстрации я практикую сборку достаточно подробного контента в чате с LLM и для визуализации в Claude юзал этот трюк с описанием всех хотелок
Сейчас я приноровился генерировать слайды в HTML
Плюсы: это то, что он сразу хорошо фитится под артефакт
Его можно скачать и сделать очень хороший скриншот
Всё лучше и лучше стал понимать, как располагать элементы и как это промптировать, чтобы слайд был не перегружен и информативен
Часто использую теперь их как рыбу для передачи дальше в работу дизайнеру в Keynote
И да, выложил все примеры и описания, самое главное промпт на Git
В комментах примеры слайдов, которые я использую собрав добротно контент (при использовании промпта теперь не парюсь с тем, что слайд будет читаемый и почти всегда с первого раза)
А почему бы и нет
Раньше я промышлял тем, что просил LLM генерировать всё на React, и часто были потом проблемы в переносе таких слайдов куда-то в другой инструмент демонстрации я практикую сборку достаточно подробного контента в чате с LLM и для визуализации в Claude юзал этот трюк с описанием всех хотелок
Сейчас я приноровился генерировать слайды в HTML
Плюсы: это то, что он сразу хорошо фитится под артефакт
Его можно скачать и сделать очень хороший скриншот
Всё лучше и лучше стал понимать, как располагать элементы и как это промптировать, чтобы слайд был не перегружен и информативен
Часто использую теперь их как рыбу для передачи дальше в работу дизайнеру в Keynote
И да, выложил все примеры и описания, самое главное промпт на Git
В комментах примеры слайдов, которые я использую собрав добротно контент (при использовании промпта теперь не парюсь с тем, что слайд будет читаемый и почти всегда с первого раза)
GitHub
presentation_claude_prompt/prompt_slide_claude.md at main · kekslop/presentation_claude_prompt
This repository contains HTML slides generated using Claude-3.7-sonnet with a specialized system prompt. The prompt is designed to maintain consistent styling and generate horizontal slides suitabl...
Сезонные тренды на запросы к чат-LLM
Выгрузил 16к запросов в неавторизированной зоне к gpt-4o-mini
Academia лидирует в запросах к LLM (3641 из 16к за 2 дня), но не спешите создавать образовательные AI-продукты
Раскопав глубже, я увидел скучную реальность — большинство запросов примитивны: "решить задачу", "ответить на тест", "проверить домашку"
Студенты не ищут инновационные образовательные платформы нужен самый короткий путь: сфотографировал → загрузил → получил ответ еще и бесплатно в нашем сервисе gptdaisy.com можно это сделать без регистрации
И уже существующие функции форматирования в markdown и LaTeX закрывают их базовые потребности
Стоит ли бежать в эту сферу? Сомнительно
Я оцениваю что пользователям не нужен специализированный инструмент им достаточно прямого доступа к LLM с минимальной обработкой результата
Вместо создания нового продукта, рациональнее улучшить существующие боты: оптимизировать распознавание учебных задач и ускорить получение ответов
Аналитика подтверждает скучную истину: инновации не всегда нужны, когда пользователя устраивает простое и работающее решение
PS: кстати аналитику сделал на базе qwen2.5.-7b-instruct(t-lite) огонь! На двух 4090 заняло 11к секунд
Выгрузил 16к запросов в неавторизированной зоне к gpt-4o-mini
Academia лидирует в запросах к LLM (3641 из 16к за 2 дня), но не спешите создавать образовательные AI-продукты
Раскопав глубже, я увидел скучную реальность — большинство запросов примитивны: "решить задачу", "ответить на тест", "проверить домашку"
Студенты не ищут инновационные образовательные платформы нужен самый короткий путь: сфотографировал → загрузил → получил ответ еще и бесплатно в нашем сервисе gptdaisy.com можно это сделать без регистрации
И уже существующие функции форматирования в markdown и LaTeX закрывают их базовые потребности
Стоит ли бежать в эту сферу? Сомнительно
Я оцениваю что пользователям не нужен специализированный инструмент им достаточно прямого доступа к LLM с минимальной обработкой результата
Вместо создания нового продукта, рациональнее улучшить существующие боты: оптимизировать распознавание учебных задач и ускорить получение ответов
Аналитика подтверждает скучную истину: инновации не всегда нужны, когда пользователя устраивает простое и работающее решение
PS: кстати аналитику сделал на базе qwen2.5.-7b-instruct(t-lite) огонь! На двух 4090 заняло 11к секунд
Принял эстафету по мифам и разоблачениям LLM
от Just AI которую мне передал Рома основатель llmarena.ru
Как Head of AI в red_mad_robot, уделяю большое время экспериментам с локальными моделями и решениями для бизнеса.
Вот про это и расскажу 🔼
Эстафету передаю Паше Злому
от Just AI которую мне передал Рома основатель llmarena.ru
Как Head of AI в red_mad_robot, уделяю большое время экспериментам с локальными моделями и решениями для бизнеса.
Вот про это и расскажу 🔼
Эстафету передаю Паше Злому