Sмарт-Пауза

Алиса на колесиках 🫠 Побаловался немного со сторонним проектом Поднял у себя локальный сервер TTS (text-to-speech) с AI из проекта: 👉 https://huggingface.co/ResembleAI/chatterbox Запаковал всё в красивое приложение с GUI. Результат и скорость очень понравились.…

🤲Прошлые дела закрыты.
Начинаю реализовывать идею, которую описал выше.

Такое описание для репозитория на github у меня получилось.

Центр управления для домашнего робота-ассистента. Выполняет сбор и обработку входящих данных.
Основная идея - модульная локальная система для независимых потоков управления ассистентом через ИИ агентов .

Рабочее название пока будет — RoboAss, возможно оно временное 👻

🔥5😁2✍1

186 views07:41

Sмарт-Пауза

Pipecat. Первое это - Транспорт 🚃

тут Процесс...
делаю заметки о последовательном процессе создание домашнего-ассистента.
я нацелен на создание в большей степени локальной системы, контролируемой, оптимизируемой и расширяемой, а также специализированной именно под локальную архитектуру взаимодействия с ROS и Raspberry Pi.
просто поднять домашнего ассистента без вникания в процесс можно за 5 мин

Intro
Система взаимодействия локальных агентов между собой у меня будет построена на #pipecat

Pipecat — это Python-библиотека для построения потоковых (real-time) пайплайнов, прежде всего для голосовых и видео-ассистентов. Коротко, она нужна, чтобы соединять аудио/видео источники с обработкой и ИИ в реальном времени.

В этой библиотеке уже есть быстрые решения чтобы очень легко подсоединять популярные агенты, как облачные, так и локальные. А самое главное есть все инструменты чтобы внедрять сторонние продукты, если их нет "из коробки"

Main
В Pipecat есть сущность, которая отвечает за перемещение данных в потоке - это транспорт. Это то с чего все начинается.
В моем случае транспорт будет кастомный. Потому что подразумевается, что Pipecat крутится на сервере к которому подключается клиент, в моем случае, наоборот серверу нужно будет подключиться к клиенту. Реализуется все в виде отдельного скрипта — подключение к уже поднятому локальному WebRTC серверу, забор и упаковка данные и передача из в стандартизированный конвейер.
Приложение для VR шлема делало почти тоже самое, поэтому это уже известная операция. Там был скрипт на C#, здесь на Python.

Кто будет повторять
📍Ставим очень крутой менеджер пакетов, чтобы была изолированная среда uv: Python packaging in Rust.
📍Ставим саму библиотеку pipecat, и затем читаем все что есть в Guide. Документация огонь🔥
👉🏻Если что-то не понятно задаем вопросы по библиотеке боту в DeepWiki

Проект: робот-ассистент и центр управления ассистентом

#робот #ассистент #ai #llm #pipecat

Pipecat

Quickstart - Pipecat

Run your first Pipecat bot in under 5 minutes

🔥4✍11

203 viewsedited 05:41

Sмарт-Пауза

Речь в текст (STT)
Silero(VAD) + Whisper

📍VAD - это такая штука, которая распознает это речь человека или нет. Если да, то запускает процесс обработки звука. Также отвечает за то чтобы определить, что речь закончилась. Работает постоянно и непрерывно.
Похожа по функционалу с wake word, который запускает обработку голоса при получении конкретной команды. Его его планирую запускать прямо на роботе. ☝️Думаю в системе нужно и то и то.
VAD существуют совсем примитивные по таймингу и громкости, а есть с легкими нейронными моделями (поставил такую). Потребляют и весят мало.

📍Whisper установил базовую версию (base). Качество-скорость полностью удовлетворяют. Его запустил на cuda. Разница с cpu не заметна на коротких предложениях.

Кто будет повторять
Нужно внимательно устанавливать пакеты. Все не легко и просто в одну строчку.
Для cpu запариваться не надо, все работает без согласования версий.
Для cuda обязательно версия python не выше 12. Для выше версии нет готовой связки pytorch + cuda
На windows такой набор команд. После первой команды добавить requires-python = ">=3.12,<3.13" в pyproject.toml

uv init pipecat-bot --python 3.12
cd pipecat-bot
uv venv --python 3.12
.venv\Scripts\activate
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
uv add pipecat-ai
uv pip install pipecat-ai[local,silero,whisper]
uv pip install websocket
uv pip install requests

🥇 А вот тайминги на Cuda.
Одно предложение — 0.5 с. Распознает хорошо. Знаки препинания ставит. Со словом “доброхотов” справился. VAD разделяет предложения на точках. Думаю при длинной паузе будет объединяться в единый запрос и уходить на следующую задачу.

2026-02-02 14:16:07.464 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:09.463 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:09.746 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' Но я предлагаю рассмотреть другой вариант. ' from '' at 103.38s
2026-02-02 14:16:09.984 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:17.724 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:18.022 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' А именно! Никаких доброхотов, информаторов не было, а был там специальный наблюдатель от института чудаков.

Проект: робот-ассистент и центр управления ассистентом

#робот #ассистент #ai #llm #pipecat

🔥3❤2✍11

233 viewsedited 06:46

Sмарт-Пауза

Оказалось у DeepSeek нет бесплатного API.
Но по его же расчетам с моим количеством запросов 10 юаней хватит на несколько лет.
Пополнил, проверим 🤙

✍3

209 views12:32

Sмарт-Пауза

Anthropic призывает писать для агентов Skills (навыки).

Это фиксированные команды в которых подробно прописано как выполнять ту или иную задачу —алгоритмы в которых галлюцинации сведены к минимуму. У Anthropic это загружаемые инструкции в markdown формате. . Крайняя степень такого подхода - tools. Tools - это настоящая функция на языке программирования, куда агент подставляет параметры.
Например, у агента для создания презентаций доступ к 1000 навыков: первый - для форматирования картинок, второй - для титульной страницы и т.д. Если загрузить сразу всё без механизма вызова, то контекст забьётся, агент забудет что делал 🫡

Эти навыки должен писать, проверять и поддерживать человек. А агенты по своему усмотрению их вызывают, чтобы четко и одинаково сообщить прогноз погоды или отформатировать текст.
Навыков этих должно быть много. Anthropic призывают делать их универсальными, чтобы все агенты имели к ним одинаковый API.

Это эффективный инструмент для одинакового, предсказуемого поведения, воспроизводимости и повторяемости. Но также это движение в другую сторону от AGI, где алгоритмы не должны быть строго зафиксированы.

Получаем:
🛠 робот-работяга, трудовой класс, у которых агент построен на функциях, много не возникает, таскает свои железяки.
👨‍🎓 робот-мыслитель на AGI, интеллигент, пишет законы, судит, проектирует, размышляет о том зачем работать, думает как использовать роботов-работяг для минимизации собственной loss-function.

Вникнуть в этот вопрос пришлось для того чтобы понять как совместить движения робота и LLM. Архитектурно управлять колесами и перемещением в роботе-ассистенте буду через вызываемые функции только не как у Anthropic в markdown, а на python.

Markdown — язык разметки, который позволяет форматировать текст с помощью простых и интуитивно понятных символов.
Anthropic — технологическая компания в сфере искусственного интеллекта, основанная бывшими сотрудниками OpenAI.

#ai #заметки #ии #роботы

https://www.youtube.com/watch?v=CEvIs9y1uog

YouTube

Don't Build Agents, Build Skills Instead – Barry Zhang & Mahesh Murag, Anthropic

In the past year, we've seen rapid advancement of model intelligence and convergence on agent scaffolding. But there's still a gap: agents often lack the domain expertise and specialized knowledge needed for real-world work. We think Skills are the solution—a…

⚡3✍1

246 viewsedited 06:22

Sмарт-Пауза

ReSpeakerXVF3800
Топовые «уши» робота.
С направленным звуком
+ динамик под 5v на сдачу.
Корпус надо красивый под это напечатать.

🔥5✍1

243 views05:57

Sмарт-Пауза

"Я живу на 2м этаже, это как 1й только на один выше"

1. Появился 2й этаж
2. Реализована физическая интеграция ReSpeaker. Который по моему плану будет в основном жить своей отдельной жизнью как обычный голосовой ассистент.
3. Появился экран с сенсорным экраном. Крепится через петли с настраиваемым углом.
4. Камера переехала, чтобы смотреть в ~~лицо~~ душу собеседника.

📍Наметил интересную схему управления через web interface, который даст возможность контроля и управления всем устройствам в локальной сети.
📍Все что нужно для работы ассистента уже настроено на сервере, осталось внедрить в робота.

На экране будет анимированный маскот.

🔥63

210 views15:15

Sмарт-Пауза

🚦Ты видишь светодиоды? — Да. — И я вижу.

История:
Видимые точечные LED на микрофоне (в прошлом посте) очень смущали меня. Хочется, как у JBL Pulse.
Сам факт, что это возможно, требовал довести идею до конца — сделать рассеянный, мягкий свет.

Казалось, что задача простая.
Идёт 4-й день экспериментов… Прогресс есть, но ещё не готово.

Факты:
📍 LED на плате очень маленькие. Концентрация света в точке - большая.
📍 Расстояние на рассеивание всего 4 мм, чтобы увеличить площадь света в 70 раз.
📍 Нужен оптический диффузор или рассеивающая линза.
📍 Белый пластик, бумага и термоклей не работают даже близко. Эффекта 0.

☄️ Изначально просто круглый кусок пластика очень усложнился :

1. Печатные купола-рассеиватели на каждый LED.
2. Флуоресцентный пластик в теории внутри должно быть много мелкодисперсных компонентов.
3. Чёрный слой по центру для подавления пика.
4. Белые пластики, пищевая бумага и термоклей не помогают.

Итого — трёхцветная печать, чёрный слой замурован внутри.

P.S. Это не светильники печатать.

🦄3✍1

185 viewsedited 15:52

Sмарт-Пауза

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Достаточно

❤4✍1

150 views14:17

Sмарт-Пауза

Бесшумный робот. Briefly.

Начал работать с микрофоном, стало понятно что моторы такие громкие, что алгоритмы не справляются.
Да и колеса с высоким протектором по полу стучат.

Поэтому я переработал всего робота чтобы сделать его бесшумным.

1. Драйвера DRV8825 заменены на TMC2209.
2. Переделаны колеса, протектор заменен на гладкий 👨🏻‍🦲.
3. Импульсное управление заменено на волновое 〰️.
4. Управление шаговика переехало с библиотеки WiringPi на Pigpio c демоном 😈 pigpiod.
5. Вывел дополнительное питание type-c для переферии (на самом деле чтобы телефон заряжать, хоть какая-то польза от робота будет)
Самодельный type-c очень удачно получился. Да одна линия. Роутер на 3А если не питать с нее, то нормально все будет.

Можно ли сделать колеса на шаговом двигателе плавными и тихими как на BLDC моторах - да можно.

🔥2⚡1

170 views06:01

Sмарт-Пауза

И последний ингредиент-LIDAR.

Все ходил вокруг да около.
Дошел я наконец до SLAM (Simultaneous Localization and Mapping) — метод одновременной локализации и построения карты.

Взял лидар подороже, но на который уже есть софт и готовые пакеты. Возиться с дешевыми просто нет времени.

Будет закрыт оставшийся пробел моей базовой робототехники.

Price: 376 💴

1🔥33✍2

101 viewsedited 05:09

Sмарт-Пауза

упаковал и установил

#lidar #робот

🦄22

114 views15:04

About

Blog

Apps

Platform