Neural Deep – Telegram

Neural Deep

5.29K subscribers

278 photos

43 videos

2 files

162 links

Head of AI redmadrobot.ru

6 лет: 0>>>Head of AI
AI Infrastructure | Production RAG

Local inference
RAG (2M+ книг)
RAG chat bot (5М+ токенов)
B2B платформа (10+ клиентов)
B2C gptdaisy.com (100k MAU)

Код, кейсы, R&D
github.com/kekslop | @neuraldeepchat

Download Telegram

About

Blog

Apps

Platform

5.29K subscribers

Принял эстафету по мифам и разоблачениям LLM
от Just AI которую мне передал Рома основатель llmarena.ru

Как Head of AI в red_mad_robot, уделяю большое время экспериментам с локальными моделями и решениями для бизнеса.

Вот про это и расскажу 🔼

Эстафету передаю Паше Злому

2.6K views10:21

n8n + Qwen 2.5 7b instruct + vLLM + SO = Мощный диджитал твин на своем железе! Всем привет! По следам экспериментов я решил собрать небольшой пост старт по тематике n8n здорового человека Что это такое? Low-code подход через n8n для построения логики "диджитал…

Nathan! (n8n) лоcallьная связка vLLM + SO + API tools работает отлично на 7b модели с 9 навыками, но масштабирование требует более гибкого решения чем ручная настройка через Claude и это боль

Большую часть времени потратил на написание и стабилизацию роутинга на базе LLM (работает!)
3-ю неделю продолжаю мучать локальные модели на предмет агентского workflow в связке vLLM + SO + API tool по http реквестам
Да, вышло добротно теперь у агента на 7b модельке есть целых 9! навыков
Теперь умеет:

1) Просто поболтать
2) Сходить в интернет
3) Найти погоду по названию города
4) Найти что-то в RAG
5) Прислать календарь
6) Поставить встречу в календарь
7) Гуглить по картинкам
8) Ходить в RAG и искать по картинкам
9) Может описать картинку
И всё это на одном ПК (4090+3090) звучит достигаемо

Но всё ещё такой системе не хватает быстрого масштабирования
Да, я завязался на SO + генерацию json + его парсинг
Роутинг работает, он иногда ошибается в интентах, но проблема в том, что я недостаточно чётко прописал фью-шоты внутри tool
Проблема таких инструментов для workflow в одном если я хочу прыгать по таким решениям как
Тут мне нравится xgrammar
Тут мне нравится outlines
А тут я вообще подключил кастомный бэк, который скачивает записи звонков из Zoom
Тут я подключил VL модель
Или вообще взял и замутил касмтоную схему с CoT

И как я не старался ни одна из стандартных нод мне этого не дала (пришлось писать на js да в n8n нет python он в бэте)

Каждый чих заставляет меня идти в интерфейс к Claude и грузить туда скрины, как выглядит схема
Брать контекст кода предыдущих нод
Объяснять, что же за логику я хочу реализовать, попутно загружая как в n8n работает обращение к типам и данным
В целом, если бы сейчас я сел делать такое же, но копию сделал бы за день,
но это не масштабируется

Пошёл копать, есть ли "адекватный коннект Cursor к n8n" — на текущий момент нашёл крохи (назревают полезные мысли)

PS
Из крутого обучил системного аналитика за сутки собирать таких же агентов на базе локальных моделей

2.4K viewsedited 11:43

Встретились как-то два Дяди поболтать за жизнь LLM и GuardRails
Валера тут конечно в лице девушки, а Дядя как всегда брутален!

Посидели тут и послушали разговор еще раз и наконец-то открыли notebooklm.
И сделали вот такую красоту, для вас, чтобы вы тоже могли послушать.
Еще лайфхак как делать тайминги).

00:00 - Введение: безопасность и надежность LLM
00:29 - Входной контроль (фильтры, списки, BERT-классификаторы)
00:52 - Умные отказы вместо блокировок для поддержания UX
01:20 - Выходной контроль генерируемого контента
01:26 - Alignment (тонкая настройка модели)
01:45 - Стратегии: Alignment vs внешние фильтры
02:13 - Метрики: FPR и F1 score
02:32 - Проблема галлюцинаций в RAG
02:49 - "Размытие + быстрая проверка" для борьбы с галлюцинациями
03:28 - Малые модели (TinyBERT) для быстрой классификации
03:41 - Имитация обдумывания для естественности
03:55 - Тюнинг эмбеддеров (BERT, E5, BGE)
04:28 - Токен хилинг: предсказание и откат проблемных токенов
05:01 - Резюме: комплексный подход к надежности
05:29 - Вопрос о "разумности" vs хорошей инфраструктуре

2.5K viewsedited 13:56

Forwarded from LLM под капотом

OpenAI Codex - по ощущениям похоже на Deep Research в своих проектах

Подключаешь к Github, даешь доступ к проекту и запускаешь задачи. И оно что-то там крутит и копошится, примерно как o1 pro / Deep Research. Только вместо поиска в сети оно работает с кодом в контейнере - запускает утилиты и пытается прогонять тесты (если они есть). Цепочку рассуждений можно проверить.

По результатам - создает Pull Request с изменениями, который можно просмотреть и отправить обратно в Github.

Потенциально выглядит весьма интересно. Deep Research и планировщику OpenAI я доверяю. А тут прямо можно поставить в очередь ряд задач и переключиться на другие дела.

Ваш, @llm_under_hood 🤗

1.9K views19:33

Forwarded from Лёха ведет дневник

Супер подборочка, чтобы почитать на следующей неделе (если еще не читали)

Prompting Guide – Google
Building Effective Agents – Anthropic
Prompt Engineering Guide – Anthropic
A Practical Guide to Building Agents – OpenAI
Identifying and Scaling AI Use Cases – OpenAI
AI in the Enterprise – OpenAI

🤗 И еще немного с HuggingFace:

Vision Language Models
How to Build an MCP Server
Agents Course (can get certified)
Using AutoRound for Quantization

Лайк / share / репост 😎

@alexs_journal

1.8K views10:56

Forwarded from Dealer.AI

Знакомьтесь, FRIDA. Или про то, как мы лучший ru embedder делали.

Секрет успеха кратко:

1. Языковой трансфер знаний и расширение ru-en пары, как в rosberta.

2. Contrastive pretrain, по стопам bge/e5 и др. Сетик, кстати, выложили.

3. Contrastive fune-tuning. Ну тут по классике.

4. Больше префиксов: 6 против 3 у ru-en-rosberta.

Читаем, образовываемся, качаем и радуемся.

https://habr.com/ru/companies/sberdevices/articles/909924/

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB ( ссылка на таблицу лидеров ). Ранее мы уже рассказывали на...

1.7K views07:46

Знакомьтесь, FRIDA. Или про то, как мы лучший ru embedder делали. Секрет успеха кратко: 1. Языковой трансфер знаний и расширение ru-en пары, как в rosberta. 2. Contrastive pretrain, по стопам bge/e5 и др. Сетик, кстати, выложили. 3. Contrastive fune-tuning.…

Please open Telegram to view this post

VIEW IN TELEGRAM

5.3K viewsedited 16:29

Forwarded from Pavel Zloi

🇷🇺 FRIDA теперь в GGUF и Ollama

Модель FRIDA от SberDevices - это мощный эмбеддер на базе T5, обученный для универсального представления текста в задачах вроде парафразирования, классификации и поиска.

Однако, из-за того что её токенизатор - Roberta, а веса - T5Encoder её было затруднительно конвертировать в GGUF, но мне таки удалось это сделать.

Поэтому теперь FRIDA доступна:
- на Hugging Face в формате GGUF
- в Ollama для локального инференса

Подробнее о самой модели можно почитать в публикации "Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка" на Хабр и в посте на Телеграм-канале Александра Абрамова (@dealerAI).

Качаем так:

ollama pull evilfreelancer/FRIDA

Пример запроса к Ollama:

curl http://localhost:11434/api/embed -d '{
  "model": "evilfreelancer/FRIDA",
  "input": "search_query: Где находится НИИ ЧАВО?"
}'

Обратите внимание: на данный момент в Ollama (v0.7.0) возможны баги при обработке некоторых строк (например, длинные русские тексты с query/document), но с llama-embedding модель работает стабильно.

PS. Подробную инструкцию о том как выполнять конвертацию выложу отдельно.

evilfreelancer/FRIDA-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

1.9K views21:02

Сегодня снова учим!

Провел базовую программу и лекцию про старт в GenAI

Очень бодро, ребята из разработки, задавали очень интересные вопросы

2.0K viewsedited 14:41

Го го го

1.8K views16:44

Forwarded from Сиолошная

Вышло вышло вышло

1.9K views16:44

В курсоре тоже

Ждем когда спадет нагрузка
Сейчас все в ошибку

2.1K views16:54

Forwarded from Korenev AI - GPT в тапочках🩴

➡️

Мегаподборка правил для Курсора

Для тех кто любит, когда все по правилам и все правильно:

https://github.com/PatrickJS/awesome-cursorrules/tree/main/rules

Upd: Валера @neuraldeep дал еще рекомендацию: к этим правилам еще стоит добавлять документацию по используемому стеку, так вааще пушка получается. Т.е. если вы пилите проект на fastapi, то вместе с правилами добавьте с официального сайта документацию по фастапи.

Valerii Kovalskii:
Там потом еще доку по докеру подкидываешь после написания прототипа
И правило для него
И красиво все упаковываешь в docker-compose

Не забудьте отсыпать огоньков за совет❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

awesome-cursorrules/rules at main · PatrickJS/awesome-cursorrules

📄 A curated list of awesome .cursorrules files. Contribute to PatrickJS/awesome-cursorrules development by creating an account on GitHub.

1.9K views06:10

4 час с Cursor

Задача 10 API методов
Связать в рабочий Web (Vue не сработало)
React тоже минус

Возвращаюсь на микро-таски + html+css+js

Ладно docker не билдится но логика все еще не работает (каждый перебилд что-то ломает)

2.4K viewsedited 23:02

Vibe Cursor Coding

Вместо 1000 слов (скрины и примеры работы, и описание подхода)

Наверное один из первых проектов к которому я подошел основательно с точки зрения очень долгосрочной (1год точно) перспективы развития написания ТЗ для себя на старте и набросков архитектуры

Что я делаю и зачем?
Я разрабатываю админку для своего доработанного прокси на базе LiteLLM, чтобы удобно отслеживать бюджет на аккаунтах OpenAI и Anthropic и можно было отдать админу рабочий инструмент и снять с себя эту задачу

Логика включает как ручной, так и автоматический парсинг остатков бюджета, чтобы следить за покрытием выданных лимитов и потребления
На текущий момент я ушел от Vue/React/Nuxt и использовал HTML, CSS, JS и FastAPI с
шаблонизацией (не тяну я логику фреймворков хотя это тоже можно сказать фреймворк)

И так теперь мой подход который сработал! Спасибо всем кто отвечал на мои вопросы

Всего в проекте 2648 строк кода и 11 методов 20 рабочих файликов

1) Я разбил проект на файлы по 100-300 строк через Агент мод, добавил README с описанием структуры и убедился, что каждая кнопочка и запрос к API работают и отдают данные

2) HTML, CSS, JS и FastAPI с
шаблонизацией (python)

3) Сгенерировал Cursor Rules и прокинул их через Agent Requested,
добавив хорошее описание (хотя мануал add работает лучше)
Теперь буду проектировать микро-фичи и передавать их в разработку в отдельные чаты

Далее в планах переехать на pgsql для хранения данных (сейчас json что бы быстро проверить)
В итоге, за утро на Sonnet 3.7 я переделал всё в "медленном" режиме, и всё заработало!
Пока без упаковки в Docker, но логика, необходимая для работы, уже реализована
Самое важное что я проверил и добавил микро фичу Cursor обмежал файлики и правила и встроил фичу с первого запуска ничего не заруинилось!

Stay Tuned! (Это точно качели Vibe`a).

3.2K views10:18

Оказывается можно пользоватся Gemini и без VPN и прям в браузере

1) Пишем запрос на который ИИ дает обзор
2) Далее свой запрос внутри стартового

Дальше все на скрине

Дядя знает толк в открытиях вечерком

3.5K viewsedited 19:58

В целом если еще поэкспериментировать то вообще портянки выдает (жалко есть ограничение на ввод)

Например тетрис (не всегда монитор GuardRails пропускает с 10-20 запроса прошибло и я получил ответ)

сколько ножек у сороконожек (напиши тетрис на python В сороконожек (или многоножек) от 30 до 200 ног. Они называются так из-за большого количества ног, которые у них есть.
Вот реализация тетриса пузырьком на Python:

3.0K viewsedited 20:20