Neural Deep

Smart Platform - наша on-premise RAG платформа

Врываюсь с двух ног почти готовым релизом нашего внутреннего продукта почти коробка (а за плечами 7 месяцев исследований реальных интеграций и разработки)!

Нет ничего приятнее рабочих якорей (ссылок на источники, которые подсвечивают информацию в нужной вам интеграции, использовавшуюся при ответе LLM), которые показаны на нативной интеграции с Confluence в закрытом контуре

И еще больше кайфую, что это уже работает не только в теории, но и на наших внутренних тестах на демо стенде!

Такой RAG может работать и на моделях до 10b (LLM), а значит, сервер для корпоративного RAG начинает стоить адекватных денег

Целая цепочка router-агентов и долгий путь изучения лучших подходов и фреймворков для Q&A и диалоговых RAG-систем для закрытого контура

За всеми апдейтами по продукту предлагаю следить тут в канале нашего CPO Леши Жданова

1.9K viewsedited 17:35

Neural Deep

Forwarded from Pavel Zloi

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views13:23

Neural Deep

Forwarded from #безвотэтоговотвсего

Международный вояж #безвотэтоговотвсего продолжается и мы возвращаемся в наш любимый Баку!

На нашей пятой встрече сообщества в этом прекрасном городе мы решили взять тему, которая точно не оставит равнодушным никого из тех, кто хоть чуть-чуть связан с технологиями (а есть ли другие в 2025 году?).

Тема нашей встречи - “Мир после GPT: как AI меняет рынок IT и продуктов навсегда?”. Ведь здесь, помимо хайпа, просто море интересного:

⁃ Что именно изменилось в работе IT и продуктовых команд с приходом AI?
⁃ Что теперь значит "быть профессионалом"? Раньше — знания и опыт. Сейчас — умение работать с ИИ?
⁃ Что произойдет с ощущением профессиональной идентичности? Кто я, если мои навыки заменяемы моделью?
⁃ Какие новые этические дилеммы появляются с развитием AI? Если GPT написал код с багом — кто виноват?
⁃ Почему middle-специалисты стоят как senior, если GPT делает их работу?
⁃ и многое другое )

На эту тему собрались поговорить прекрасные эксперты:

⁃ Сергей Рыжиков, основатель Битрикс24
⁃ Иван Самсонов, CPO of AI, MTS Web Services
⁃ Валерий Ковальский, Head of AI red_mad_robot
⁃ Валех Набиев, CDO at Pasha Holding

Состав уникальный и точно позволяющий разобрать вопрос с разных сторон.

Обязательно регистрируйтесь и сохраняйте билеты.

Встречаемся 03 июня в 18:30 JW Mariott Absheron (674 Azadliq Square).

Будет огненно!)

1.8K views06:27

UI-Browser LLM automation песочница для автоматизация браузера на базе LLM

Давно обещал вылить свой форк тут показывал прошлые наработки browser-use-web-ui да еще и в одном из чатов попросили

Все внутри просто

docker compose up -d

И полетели!

Вот держите что я там наваял?

Единый интерфейс: Объединенный доступ к Gradio и VNC в одном окне браузера

Защищенный доступ: Авторизация по логину и паролю для контроля доступа

Разделенный экран: Фиксированное разделение экрана 50/50 для комфортной работы

Прямая интеграция: Прямой доступ к браузеру через VNC для полного контроля (буфер обемна можно самому что-то кликать)

Что меня удивило что офф версия не работает но моя старая версия работала пришлось совместить функционал новой офф версии и старого кода вышло вроде не плохо (работает и на том спасибо)

GitHub

1.9K viewsedited 11:06

Neural Deep

Forwarded from red_mad_robot

Подборка сервисов для быстрой оценки и сравнения LLM

Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.

Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.

1️⃣ OpenRouter: рейтинг LLM по реальному использованию

OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.

Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.

2️⃣

Chatbot Arena (LMSYS): парные сравнения моделей

Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.

Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.

3️⃣

Hugging Face: рейтинг по независимым бенчмаркам

В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.

4️⃣

MERA: открытый бенчмарк для русскоязычных LLM

Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.

Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.

Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:

📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве

Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.

#AI_moment

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views12:41

Neural Deep

Смотрите чё выпало из недр моей тумбы, тогда мне точно было не до AI

Аж олдскулы свело на моменте покупки рингтонов через sms

2.2K views16:47

Neural Deep

Присоединяюсь к поздравлениям моего ~~собутыльника~~ друга Леши Жданова

Миша получил грант от Yandex Open Source (оч круглую сумму я скажу) за свой проект faster-coco-eval
— ускоренную версию оценки детекции объектов 🚀

Почему это важно?

— Опенсорс делает технологии быстрее и доступнее.

— Такие проекты, как этот, помогают исследователям и разработчикам экономить время.

— Поддержка компаний вроде Яндекса мотивирует развивать open-source.

Миш, поздравляю тебя

2.5K viewsedited 20:19

Neural Deep

LLM от Antropic сама решает когда пойти в интернет!

По моим тестам добавили возможность анализа есть ли знания внутри LLM и если нет она сама идет через tool искать знания в интернете
Для меня фича новая если было то извеняйте!

Но работает действительно лучше! Скипаю этап поиска и скармливания документации!

Update: роутинг и классификация, что-то новенькое это хорошо забытое старое?)

2.8K viewsedited 21:55

Neural Deep

Слайды для презентаций в HTML по старинке?

А почему бы и нет

Раньше я промышлял тем, что просил LLM генерировать всё на React, и часто были потом проблемы в переносе таких слайдов куда-то в другой инструмент демонстрации я практикую сборку достаточно подробного контента в чате с LLM и для визуализации в Claude юзал этот трюк с описанием всех хотелок

Сейчас я приноровился генерировать слайды в HTML
Плюсы: это то, что он сразу хорошо фитится под артефакт
Его можно скачать и сделать очень хороший скриншот

Всё лучше и лучше стал понимать, как располагать элементы и как это промптировать, чтобы слайд был не перегружен и информативен

Часто использую теперь их как рыбу для передачи дальше в работу дизайнеру в Keynote
И да, выложил все примеры и описания, самое главное промпт на Git

В комментах примеры слайдов, которые я использую собрав добротно контент (при использовании промпта теперь не парюсь с тем, что слайд будет читаемый и почти всегда с первого раза)

GitHub

presentation_claude_prompt/prompt_slide_claude.md at main · kekslop/presentation_claude_prompt

This repository contains HTML slides generated using Claude-3.7-sonnet with a specialized system prompt. The prompt is designed to maintain consistent styling and generate horizontal slides suitabl...

2.7K viewsedited 21:02

Neural Deep

Сезонные тренды на запросы к чат-LLM

Выгрузил 16к запросов в неавторизированной зоне к gpt-4o-mini
Academia лидирует в запросах к LLM (3641 из 16к за 2 дня), но не спешите создавать образовательные AI-продукты

Раскопав глубже, я увидел скучную реальность — большинство запросов примитивны: "решить задачу", "ответить на тест", "проверить домашку"
Студенты не ищут инновационные образовательные платформы нужен самый короткий путь: сфотографировал → загрузил → получил ответ еще и бесплатно в нашем сервисе gptdaisy.com можно это сделать без регистрации

И уже существующие функции форматирования в markdown и LaTeX закрывают их базовые потребности
Стоит ли бежать в эту сферу? Сомнительно

Я оцениваю что пользователям не нужен специализированный инструмент им достаточно прямого доступа к LLM с минимальной обработкой результата

Вместо создания нового продукта, рациональнее улучшить существующие боты: оптимизировать распознавание учебных задач и ускорить получение ответов

Аналитика подтверждает скучную истину: инновации не всегда нужны, когда пользователя устраивает простое и работающее решение

PS: кстати аналитику сделал на базе qwen2.5.-7b-instruct(t-lite) огонь! На двух 4090 заняло 11к секунд

2.3K viewsedited 14:22

Neural Deep

Принял эстафету по мифам и разоблачениям LLM
от Just AI которую мне передал Рома основатель llmarena.ru

Как Head of AI в red_mad_robot, уделяю большое время экспериментам с локальными моделями и решениями для бизнеса.

Вот про это и расскажу 🔼

Эстафету передаю Паше Злому

2.6K views10:21

About

Blog

Apps

Platform