Sмарт-Пауза
Алиса на колесиках 🫠 Побаловался немного со сторонним проектом Поднял у себя локальный сервер TTS (text-to-speech) с AI из проекта: 👉 https://huggingface.co/ResembleAI/chatterbox Запаковал всё в красивое приложение с GUI. Результат и скорость очень понравились.…
🤲Прошлые дела закрыты.
Начинаю реализовывать идею, которую описал выше.
Такое описание для репозитория на github у меня получилось.
Рабочее название пока будет — RoboAss, возможно оно временное 👻
Начинаю реализовывать идею, которую описал выше.
Такое описание для репозитория на github у меня получилось.
Центр управления для домашнего робота-ассистента. Выполняет сбор и обработку входящих данных.
Основная идея - модульная локальная система для независимых потоков управления ассистентом через ИИ агентов .
Рабочее название пока будет — RoboAss, возможно оно временное 👻
🔥5😁2✍1
Pipecat. Первое это - Транспорт 🚃
Intro
Система взаимодействия локальных агентов между собой у меня будет построена на #pipecat
В этой библиотеке уже есть быстрые решения чтобы очень легко подсоединять популярные агенты, как облачные, так и локальные. А самое главное есть все инструменты чтобы внедрять сторонние продукты, если их нет "из коробки"
Main
В Pipecat есть сущность, которая отвечает за перемещение данных в потоке - это транспорт. Это то с чего все начинается.
В моем случае транспорт будет кастомный. Потому что подразумевается, что Pipecat крутится на сервере к которому подключается клиент, в моем случае, наоборот серверу нужно будет подключиться к клиенту. Реализуется все в виде отдельного скрипта — подключение к уже поднятому локальному WebRTC серверу, забор и упаковка данные и передача из в стандартизированный конвейер.
Приложение для VR шлема делало почти тоже самое, поэтому это уже известная операция. Там был скрипт на C#, здесь на Python.
Кто будет повторять
📍Ставим очень крутой менеджер пакетов, чтобы была изолированная среда uv: Python packaging in Rust.
📍Ставим саму библиотеку pipecat, и затем читаем все что есть в Guide. Документация огонь🔥
👉🏻Если что-то не понятно задаем вопросы по библиотеке боту в DeepWiki
Проект: робот-ассистент и центр управления ассистентом
#робот #ассистент #ai #llm #pipecat
тут Процесс...
делаю заметки о последовательном процессе создание домашнего-ассистента.
я нацелен на создание в большей степени локальной системы, контролируемой, оптимизируемой и расширяемой, а также специализированной именно под локальную архитектуру взаимодействия с ROS и Raspberry Pi.
просто поднять домашнего ассистента без вникания в процесс можно за 5 мин
Intro
Система взаимодействия локальных агентов между собой у меня будет построена на #pipecat
Pipecat — это Python-библиотека для построения потоковых (real-time) пайплайнов, прежде всего для голосовых и видео-ассистентов. Коротко, она нужна, чтобы соединять аудио/видео источники с обработкой и ИИ в реальном времени.
В этой библиотеке уже есть быстрые решения чтобы очень легко подсоединять популярные агенты, как облачные, так и локальные. А самое главное есть все инструменты чтобы внедрять сторонние продукты, если их нет "из коробки"
Main
В Pipecat есть сущность, которая отвечает за перемещение данных в потоке - это транспорт. Это то с чего все начинается.
В моем случае транспорт будет кастомный. Потому что подразумевается, что Pipecat крутится на сервере к которому подключается клиент, в моем случае, наоборот серверу нужно будет подключиться к клиенту. Реализуется все в виде отдельного скрипта — подключение к уже поднятому локальному WebRTC серверу, забор и упаковка данные и передача из в стандартизированный конвейер.
Приложение для VR шлема делало почти тоже самое, поэтому это уже известная операция. Там был скрипт на C#, здесь на Python.
Кто будет повторять
📍Ставим очень крутой менеджер пакетов, чтобы была изолированная среда uv: Python packaging in Rust.
📍Ставим саму библиотеку pipecat, и затем читаем все что есть в Guide. Документация огонь🔥
👉🏻Если что-то не понятно задаем вопросы по библиотеке боту в DeepWiki
Проект: робот-ассистент и центр управления ассистентом
#робот #ассистент #ai #llm #pipecat
Pipecat
Quickstart - Pipecat
Run your first Pipecat bot in under 5 minutes
🔥4✍1 1
Речь в текст (STT)
Silero(VAD) + Whisper
📍VAD - это такая штука, которая распознает это речь человека или нет. Если да, то запускает процесс обработки звука. Также отвечает за то чтобы определить, что речь закончилась. Работает постоянно и непрерывно.
Похожа по функционалу с wake word, который запускает обработку голоса при получении конкретной команды. Его его планирую запускать прямо на роботе. ☝️Думаю в системе нужно и то и то.
VAD существуют совсем примитивные по таймингу и громкости, а есть с легкими нейронными моделями (поставил такую). Потребляют и весят мало.
📍Whisper установил базовую версию (base). Качество-скорость полностью удовлетворяют. Его запустил на cuda. Разница с cpu не заметна на коротких предложениях.
Кто будет повторять
Нужно внимательно устанавливать пакеты. Все не легко и просто в одну строчку.
Для cpu запариваться не надо, все работает без согласования версий.
Для cuda обязательно версия python не выше 12. Для выше версии нет готовой связки pytorch + cuda
На windows такой набор команд. После первой команды добавить requires-python = ">=3.12,<3.13" в pyproject.toml
🥇 А вот тайминги на Cuda.
Одно предложение — 0.5 с. Распознает хорошо. Знаки препинания ставит. Со словом “доброхотов” справился. VAD разделяет предложения на точках. Думаю при длинной паузе будет объединяться в единый запрос и уходить на следующую задачу.
Проект: робот-ассистент и центр управления ассистентом
#робот #ассистент #ai #llm #pipecat
Silero(VAD) + Whisper
📍VAD - это такая штука, которая распознает это речь человека или нет. Если да, то запускает процесс обработки звука. Также отвечает за то чтобы определить, что речь закончилась. Работает постоянно и непрерывно.
Похожа по функционалу с wake word, который запускает обработку голоса при получении конкретной команды. Его его планирую запускать прямо на роботе. ☝️Думаю в системе нужно и то и то.
VAD существуют совсем примитивные по таймингу и громкости, а есть с легкими нейронными моделями (поставил такую). Потребляют и весят мало.
📍Whisper установил базовую версию (base). Качество-скорость полностью удовлетворяют. Его запустил на cuda. Разница с cpu не заметна на коротких предложениях.
Кто будет повторять
Нужно внимательно устанавливать пакеты. Все не легко и просто в одну строчку.
Для cpu запариваться не надо, все работает без согласования версий.
Для cuda обязательно версия python не выше 12. Для выше версии нет готовой связки pytorch + cuda
На windows такой набор команд. После первой команды добавить requires-python = ">=3.12,<3.13" в pyproject.toml
uv init pipecat-bot --python 3.12
cd pipecat-bot
uv venv --python 3.12
.venv\Scripts\activate
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
uv add pipecat-ai
uv pip install pipecat-ai[local,silero,whisper]
uv pip install websocket
uv pip install requests
🥇 А вот тайминги на Cuda.
Одно предложение — 0.5 с. Распознает хорошо. Знаки препинания ставит. Со словом “доброхотов” справился. VAD разделяет предложения на точках. Думаю при длинной паузе будет объединяться в единый запрос и уходить на следующую задачу.
2026-02-02 14:16:07.464 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:09.463 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:09.746 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' Но я предлагаю рассмотреть другой вариант. ' from '' at 103.38s
2026-02-02 14:16:09.984 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:17.724 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:18.022 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' А именно! Никаких доброхотов, информаторов не было, а был там специальный наблюдатель от института чудаков.
Проект: робот-ассистент и центр управления ассистентом
#робот #ассистент #ai #llm #pipecat
🔥3❤2✍1 1
Оказалось у DeepSeek нет бесплатного API.
Но по его же расчетам с моим количеством запросов 10 юаней хватит на несколько лет.
Пополнил, проверим 🤙
Но по его же расчетам с моим количеством запросов 10 юаней хватит на несколько лет.
Пополнил, проверим 🤙
✍3
Anthropic призывает писать для агентов Skills (навыки).
Это фиксированные команды в которых подробно прописано как выполнять ту или иную задачу —алгоритмы в которых галлюцинации сведены к минимуму. У Anthropic это загружаемые инструкции в markdown формате. . Крайняя степень такого подхода - tools. Tools - это настоящая функция на языке программирования, куда агент подставляет параметры.
Например, у агента для создания презентаций доступ к 1000 навыков: первый - для форматирования картинок, второй - для титульной страницы и т.д. Если загрузить сразу всё без механизма вызова, то контекст забьётся, агент забудет что делал 🫡
Эти навыки должен писать, проверять и поддерживать человек. А агенты по своему усмотрению их вызывают, чтобы четко и одинаково сообщить прогноз погоды или отформатировать текст.
Навыков этих должно быть много. Anthropic призывают делать их универсальными, чтобы все агенты имели к ним одинаковый API.
Это эффективный инструмент для одинакового, предсказуемого поведения, воспроизводимости и повторяемости. Но также это движение в другую сторону от AGI, где алгоритмы не должны быть строго зафиксированы.
Получаем:
🛠 робот-работяга, трудовой класс, у которых агент построен на функциях, много не возникает, таскает свои железяки.
👨🎓 робот-мыслитель на AGI, интеллигент, пишет законы, судит, проектирует, размышляет о том зачем работать, думает как использовать роботов-работяг для минимизации собственной loss-function.
Вникнуть в этот вопрос пришлось для того чтобы понять как совместить движения робота и LLM. Архитектурно управлять колесами и перемещением в роботе-ассистенте буду через вызываемые функции только не как у Anthropic в markdown, а на python.
#ai #заметки #ии #роботы
https://www.youtube.com/watch?v=CEvIs9y1uog
Это фиксированные команды в которых подробно прописано как выполнять ту или иную задачу —алгоритмы в которых галлюцинации сведены к минимуму. У Anthropic это загружаемые инструкции в markdown формате. . Крайняя степень такого подхода - tools. Tools - это настоящая функция на языке программирования, куда агент подставляет параметры.
Например, у агента для создания презентаций доступ к 1000 навыков: первый - для форматирования картинок, второй - для титульной страницы и т.д. Если загрузить сразу всё без механизма вызова, то контекст забьётся, агент забудет что делал 🫡
Эти навыки должен писать, проверять и поддерживать человек. А агенты по своему усмотрению их вызывают, чтобы четко и одинаково сообщить прогноз погоды или отформатировать текст.
Навыков этих должно быть много. Anthropic призывают делать их универсальными, чтобы все агенты имели к ним одинаковый API.
Это эффективный инструмент для одинакового, предсказуемого поведения, воспроизводимости и повторяемости. Но также это движение в другую сторону от AGI, где алгоритмы не должны быть строго зафиксированы.
Получаем:
🛠 робот-работяга, трудовой класс, у которых агент построен на функциях, много не возникает, таскает свои железяки.
👨🎓 робот-мыслитель на AGI, интеллигент, пишет законы, судит, проектирует, размышляет о том зачем работать, думает как использовать роботов-работяг для минимизации собственной loss-function.
Вникнуть в этот вопрос пришлось для того чтобы понять как совместить движения робота и LLM. Архитектурно управлять колесами и перемещением в роботе-ассистенте буду через вызываемые функции только не как у Anthropic в markdown, а на python.
Markdown — язык разметки, который позволяет форматировать текст с помощью простых и интуитивно понятных символов.
Anthropic — технологическая компания в сфере искусственного интеллекта, основанная бывшими сотрудниками OpenAI.
#ai #заметки #ии #роботы
https://www.youtube.com/watch?v=CEvIs9y1uog
YouTube
Don't Build Agents, Build Skills Instead – Barry Zhang & Mahesh Murag, Anthropic
In the past year, we've seen rapid advancement of model intelligence and convergence on agent scaffolding. But there's still a gap: agents often lack the domain expertise and specialized knowledge needed for real-world work. We think Skills are the solution—a…
⚡3✍1
ReSpeakerXVF3800
Топовые «уши» робота.
С направленным звуком
+ динамик под 5v на сдачу.
Корпус надо красивый под это напечатать.
Топовые «уши» робота.
С направленным звуком
+ динамик под 5v на сдачу.
Корпус надо красивый под это напечатать.
🔥5✍1
"Я живу на 2м этаже, это как 1й только на один выше"
1. Появился 2й этаж
2. Реализована физическая интеграция ReSpeaker. Который по моему плану будет в основном жить своей отдельной жизнью как обычный голосовой ассистент.
3. Появился экран с сенсорным экраном. Крепится через петли с настраиваемым углом.
4. Камера переехала, чтобы смотреть влицо душу собеседника.
📍Наметил интересную схему управления через web interface, который даст возможность контроля и управления всем устройствам в локальной сети.
📍Все что нужно для работы ассистента уже настроено на сервере, осталось внедрить в робота.
На экране будет анимированный маскот.
1. Появился 2й этаж
2. Реализована физическая интеграция ReSpeaker. Который по моему плану будет в основном жить своей отдельной жизнью как обычный голосовой ассистент.
3. Появился экран с сенсорным экраном. Крепится через петли с настраиваемым углом.
4. Камера переехала, чтобы смотреть в
📍Наметил интересную схему управления через web interface, который даст возможность контроля и управления всем устройствам в локальной сети.
📍Все что нужно для работы ассистента уже настроено на сервере, осталось внедрить в робота.
🔥6 3
🚦Ты видишь светодиоды? — Да. — И я вижу.
История:
Видимые точечные LED на микрофоне (в прошлом посте) очень смущали меня. Хочется, как у JBL Pulse.
Сам факт, что это возможно, требовал довести идею до конца — сделать рассеянный, мягкий свет.
Казалось, что задача простая.
Идёт 4-й день экспериментов… Прогресс есть, но ещё не готово.
Факты:
📍 LED на плате очень маленькие. Концентрация света в точке - большая.
📍 Расстояние на рассеивание всего 4 мм, чтобы увеличить площадь света в 70 раз.
📍 Нужен оптический диффузор или рассеивающая линза.
📍 Белый пластик, бумага и термоклей не работают даже близко. Эффекта 0.
☄️ Изначально просто круглый кусок пластика очень усложнился :
1. Печатные купола-рассеиватели на каждый LED.
2. Флуоресцентный пластикв теории внутри должно быть много мелкодисперсных компонентов .
3. Чёрный слой по центру для подавления пика.
4. Белые пластики, пищевая бумага и термоклей не помогают.
Итого — трёхцветная печать, чёрный слой замурован внутри.
P.S. Это не светильники печатать.
История:
Видимые точечные LED на микрофоне (в прошлом посте) очень смущали меня. Хочется, как у JBL Pulse.
Сам факт, что это возможно, требовал довести идею до конца — сделать рассеянный, мягкий свет.
Казалось, что задача простая.
Идёт 4-й день экспериментов… Прогресс есть, но ещё не готово.
Факты:
📍 LED на плате очень маленькие. Концентрация света в точке - большая.
📍 Расстояние на рассеивание всего 4 мм, чтобы увеличить площадь света в 70 раз.
📍 Нужен оптический диффузор или рассеивающая линза.
📍 Белый пластик, бумага и термоклей не работают даже близко. Эффекта 0.
☄️ Изначально просто круглый кусок пластика очень усложнился :
1. Печатные купола-рассеиватели на каждый LED.
2. Флуоресцентный пластик
3. Чёрный слой по центру для подавления пика.
4. Белые пластики, пищевая бумага и термоклей не помогают.
Итого — трёхцветная печать, чёрный слой замурован внутри.
P.S. Это не светильники печатать.
🦄3✍1
Бесшумный робот. Briefly.
Начал работать с микрофоном, стало понятно что моторы такие громкие, что алгоритмы не справляются.
Да и колеса с высоким протектором по полу стучат.
Поэтому я переработал всего робота чтобы сделать его бесшумным.
1. Драйвера DRV8825 заменены на TMC2209.
2. Переделаны колеса, протектор заменен на гладкий 👨🏻🦲.
3. Импульсное управление заменено на волновое 〰️.
4. Управление шаговика переехало с библиотеки WiringPi на Pigpio c демоном 😈 pigpiod.
5. Вывел дополнительное питание type-c для переферии(на самом деле чтобы телефон заряжать, хоть какая-то польза от робота будет)
Самодельный type-c очень удачно получился. Да одна линия. Роутер на 3А если не питать с нее, то нормально все будет.
Можно ли сделать колеса на шаговом двигателе плавными и тихими как на BLDC моторах - да можно.
Начал работать с микрофоном, стало понятно что моторы такие громкие, что алгоритмы не справляются.
Да и колеса с высоким протектором по полу стучат.
Поэтому я переработал всего робота чтобы сделать его бесшумным.
1. Драйвера DRV8825 заменены на TMC2209.
2. Переделаны колеса, протектор заменен на гладкий 👨🏻🦲.
3. Импульсное управление заменено на волновое 〰️.
4. Управление шаговика переехало с библиотеки WiringPi на Pigpio c демоном 😈 pigpiod.
5. Вывел дополнительное питание type-c для переферии
Самодельный type-c очень удачно получился. Да одна линия. Роутер на 3А если не питать с нее, то нормально все будет.
Можно ли сделать колеса на шаговом двигателе плавными и тихими как на BLDC моторах - да можно.
🔥2⚡1
И последний ингредиент-LIDAR.
Все ходил вокруг да около.
Дошел я наконец до SLAM (Simultaneous Localization and Mapping) — метод одновременной локализации и построения карты.
Взял лидар подороже, но на который уже есть софт и готовые пакеты. Возиться с дешевыми просто нет времени.
Будет закрыт оставшийся пробел моей базовой робототехники.
Price: 376 💴
Все ходил вокруг да около.
Дошел я наконец до SLAM (Simultaneous Localization and Mapping) — метод одновременной локализации и построения карты.
Взял лидар подороже, но на который уже есть софт и готовые пакеты. Возиться с дешевыми просто нет времени.
Будет закрыт оставшийся пробел моей базовой робототехники.
Price: 376 💴
1🔥3 3✍2