Sмарт-Пауза – Telegram

Sмарт-Пауза

153 subscribers

256 photos

63 videos

12 files

42 links

Привет,
DIY здесь.

Текущий проект: робо-телега

Темы: 3Д-печать, ИИ, роботы, гаджеты, метаоптика, программирование.

Download Telegram

About

Blog

Apps

Platform

Sмарт-Пауза

153 subscribers

Sмарт-Пауза

Сейчас бы флешки на 1 Тб за 400 рублей продавать.

Логотип Kingston. Что там вообще происходит...магазины внутри Китая не позволяют себе такой пали. Нельзя такое продавать у себя, но можно лепить любые логотипы для продажи за границей 🧞‍♂️

Люди в комментах доходчиво рассказывают о их работоспособности. Но таких комментариев единицы.

#out

😁5

187 views08:01

Sмарт-Пауза

📫
Ревизии телеги
v1, v2, v3, v4

📌Основные модификации касались всегда пассивного колеса, но и заодно разные косяки исправлялись по мере эксплуатации. Прочность рессор повышалась.

Текущая версия v4 уже доведена до ума. Ее и готовлю к публикации. У первой версии, например, резьбы на правой стороне были правосторонние , а на левой стороне левосторонние. С первого взгляда все логично.
А еще там не было оси вращения пассивного колеса.

1🔥3👨‍💻3✍1🤯11

281 views05:05

Sмарт-Пауза

Сборка-разборка 🔩⚙️

#ros2 #робот

🔥3⚡1

262 views06:32

Sмарт-Пауза

This media is not supported in your browser

VIEW IN TELEGRAM

271 views06:32

Sмарт-Пауза

This media is not supported in your browser

VIEW IN TELEGRAM

257 views06:32

Sмарт-Пауза

This media is not supported in your browser

VIEW IN TELEGRAM

256 views06:32

Sмарт-Пауза

⭐️ Приветик! KAFEICHE v1
Зафиксировал проект робо-платформы в Интернетах

📍printable.com : https://www.printables.com/model/1551558-kafeiche-robot

Теперь все доступно для сборки с инструкциями и подробностями.
Пока инструкция еще не достаточна чтобы совсем новички собирали по фидбеку посмотрю, если кто-то реально собирать будет, то расширю инструкцию до уровня собираем "робота для самых маленьких" 🫶

Еще в планах залить на MakerWorld. Может еще куда.
Если будет спрос на перевод, то на русском тоже могу куда-то документы залить.

KAFEICHE Experimental Robot Platform by Sosiskovich | Download free STL model | Printables.com

🔥8🍾2✍11

273 viewsedited 10:39

Sмарт-Пауза

Прогресс генерации картинок 🏃‍♂️‍➡️

Найди три отличия =)
Разница в генерации поражает. А прошло всего 3 года.

as is январь 2023 - изображение 1. Я генерировал его в DALE-E. После несколько попыток - это самый близкий результат.
to be январь 2026 - изображение 2. Сгенерировал сейчас через OpenAi, под капотом также DALE-E.

большой 3д принтер стилизованный под стимпанк, рядом с принтером стоит рабочий который следит за процессом

🔥3✍1

206 views06:39

Sмарт-Пауза

Media is too big

VIEW IN TELEGRAM

Отряд гусеничек во славу 3д печати

Врубайте звук 🎵🎵🎵🎵🎵

😁5✍1🤯1

194 views09:15

Sмарт-Пауза

Алиса на колесиках 🫠

Побаловался немного со сторонним проектом
Поднял у себя локальный сервер TTS (text-to-speech) с AI из проекта:
👉 https://huggingface.co/ResembleAI/chatterbox
Запаковал всё в красивое приложение с GUI.
Результат и скорость очень понравились. Использую теперь его для озвучки языковых карточек голосами Ганвеста и ВВП.

А дальше началось…
Было бы круто, если бы домашний робот общался разными живыми голосами.
🤡 Кейс домашнего шута:
-катается по квартире
-распознаёт объекты (YOLO26)
-периодически высказывается на основе увиденного

Забавно, но работы много для конечного развлечения на пару дней.
В любом случае нужна двусторонняя связь с домашним сервером хотя бы для хорошей генерации голоса.
А если уж делать это, то почему бы не сделать что-то более осознанное? И с DeepSeek...

Если в цепочке будет DeepSeek API, то это уже не шут-гороховый, а вполне полезный инструмент.
В итоге решил начинать со звука, а уже потом — камера. Получается я изобрёл Алису, но на колёсиках. И потенциалом полностью локальной архитектуры. Или например с распределенными ИИ, типа будущей Gonkа братьев, или Кукана Дурова. А пока в основе будут модели с Hugging Face, откуда я взял TTS с которого начал. По голосу и сообразительности должно быть круче Алисы
(хотя не знаю, что с ней стало за последние 3 года). А вот время ответа дольше, оптимизировать до их состояния точно в планах нет. Пайплайн работы со звуком уже готов - выложу, он реально интересный.

А как всё это масштабировать?
▫️есть данные с камеры
▫️потенциал для высоконагруженной серверной обработки
▫️SLAM почти нет - только на одометрии
▫️лазить в ПК на роботе каждый раз неудобно
🍒 Логичнее вынести всё на домашний сервер. Оставить на роботе небольшую автономию на сколько тянет Raspberry Pi, для фильтрации данных и ручного управления.

В итоге идея такая:
что-то вроде Home Assistant для робота

➡️ все данные идут по локальной сети
➡️ сервер модульно обрабатывает их по сценариям
➡️ отправляет либо команды движения, либо аудиофайлы по результату обработки

У меня почти нет опыта с модульными приложениями сейчас.
Но при написании кода через LLM это необходимость, чтобы не выходить за 200-300 строчек кода на модуль.
Очень надеюсь, что Python будет достаточно, и тогда машинка на пульте управлением станет наконец - роботом :)

✍2🔥2⚡11

250 viewsedited 07:35

Sмарт-Пауза

Примерный процесс обработки звука для невероятного общения с домашним ассистентом.

❤2✍1

249 views06:00

Sмарт-Пауза

Завершил работу над созданием управления роботом через VR шлем.
Залил видео на YouTube с тем как это выглядит

Очень много опыта набрался пока это делал
- стриминговая передача видео с низкой задержкой
- управление роботом через web, короче через Интернет =)
- создание приложений в Unity
- создание приложения для android шлема и его установка.
- немного C#

https://youtu.be/eKgXdB7yZ-g?si=y8y9W7k2mSClk5T9

#ros #VR #видео #печать

Real-Time VR Robot Control: Unity + Pico 4 + ROS2 Jazzy

In this video, I demonstrate a VR teleoperation experiment where I control my custom 3D-printed three-wheel robot using a Pico 4 Ultra VR headset.

I built a standalone VR application in Unity and installed it directly on the headset. While wearing the headset…

🔥6✍1

193 views09:48

Sмарт-Пауза

Sмарт-Пауза

Алиса на колесиках 🫠 Побаловался немного со сторонним проектом Поднял у себя локальный сервер TTS (text-to-speech) с AI из проекта: 👉 https://huggingface.co/ResembleAI/chatterbox Запаковал всё в красивое приложение с GUI. Результат и скорость очень понравились.…

🤲Прошлые дела закрыты.
Начинаю реализовывать идею, которую описал выше.

Такое описание для репозитория на github у меня получилось.

Центр управления для домашнего робота-ассистента. Выполняет сбор и обработку входящих данных.
Основная идея - модульная локальная система для независимых потоков управления ассистентом через ИИ агентов .

Рабочее название пока будет — RoboAss, возможно оно временное 👻

🔥5😁2✍1

186 views07:41

Sмарт-Пауза

Pipecat. Первое это - Транспорт 🚃

тут Процесс...
делаю заметки о последовательном процессе создание домашнего-ассистента.
я нацелен на создание в большей степени локальной системы, контролируемой, оптимизируемой и расширяемой, а также специализированной именно под локальную архитектуру взаимодействия с ROS и Raspberry Pi.
просто поднять домашнего ассистента без вникания в процесс можно за 5 мин

Intro
Система взаимодействия локальных агентов между собой у меня будет построена на #pipecat

Pipecat — это Python-библиотека для построения потоковых (real-time) пайплайнов, прежде всего для голосовых и видео-ассистентов. Коротко, она нужна, чтобы соединять аудио/видео источники с обработкой и ИИ в реальном времени.

В этой библиотеке уже есть быстрые решения чтобы очень легко подсоединять популярные агенты, как облачные, так и локальные. А самое главное есть все инструменты чтобы внедрять сторонние продукты, если их нет "из коробки"

Main
В Pipecat есть сущность, которая отвечает за перемещение данных в потоке - это транспорт. Это то с чего все начинается.
В моем случае транспорт будет кастомный. Потому что подразумевается, что Pipecat крутится на сервере к которому подключается клиент, в моем случае, наоборот серверу нужно будет подключиться к клиенту. Реализуется все в виде отдельного скрипта — подключение к уже поднятому локальному WebRTC серверу, забор и упаковка данные и передача из в стандартизированный конвейер.
Приложение для VR шлема делало почти тоже самое, поэтому это уже известная операция. Там был скрипт на C#, здесь на Python.

Кто будет повторять
📍Ставим очень крутой менеджер пакетов, чтобы была изолированная среда uv: Python packaging in Rust.
📍Ставим саму библиотеку pipecat, и затем читаем все что есть в Guide. Документация огонь🔥
👉🏻Если что-то не понятно задаем вопросы по библиотеке боту в DeepWiki

Проект: робот-ассистент и центр управления ассистентом

#робот #ассистент #ai #llm #pipecat

Quickstart - Pipecat

Run your first Pipecat bot in under 5 minutes

🔥4✍11

203 viewsedited 05:41

Sмарт-Пауза

Речь в текст (STT)
Silero(VAD) + Whisper

📍VAD - это такая штука, которая распознает это речь человека или нет. Если да, то запускает процесс обработки звука. Также отвечает за то чтобы определить, что речь закончилась. Работает постоянно и непрерывно.
Похожа по функционалу с wake word, который запускает обработку голоса при получении конкретной команды. Его его планирую запускать прямо на роботе. ☝️Думаю в системе нужно и то и то.
VAD существуют совсем примитивные по таймингу и громкости, а есть с легкими нейронными моделями (поставил такую). Потребляют и весят мало.

📍Whisper установил базовую версию (base). Качество-скорость полностью удовлетворяют. Его запустил на cuda. Разница с cpu не заметна на коротких предложениях.

Кто будет повторять
Нужно внимательно устанавливать пакеты. Все не легко и просто в одну строчку.
Для cpu запариваться не надо, все работает без согласования версий.
Для cuda обязательно версия python не выше 12. Для выше версии нет готовой связки pytorch + cuda
На windows такой набор команд. После первой команды добавить requires-python = ">=3.12,<3.13" в pyproject.toml

uv init pipecat-bot --python 3.12
cd pipecat-bot
uv venv --python 3.12
.venv\Scripts\activate
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
uv add pipecat-ai
uv pip install pipecat-ai[local,silero,whisper]
uv pip install websocket
uv pip install requests

🥇 А вот тайминги на Cuda.
Одно предложение — 0.5 с. Распознает хорошо. Знаки препинания ставит. Со словом “доброхотов” справился. VAD разделяет предложения на точках. Думаю при длинной паузе будет объединяться в единый запрос и уходить на следующую задачу.

2026-02-02 14:16:07.464 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:09.463 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:09.746 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' Но я предлагаю рассмотреть другой вариант. ' from '' at 103.38s
2026-02-02 14:16:09.984 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:17.724 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:18.022 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' А именно! Никаких доброхотов, информаторов не было, а был там специальный наблюдатель от института чудаков.

Проект: робот-ассистент и центр управления ассистентом

#робот #ассистент #ai #llm #pipecat

🔥3❤2✍11

233 viewsedited 06:46

Sмарт-Пауза

Оказалось у DeepSeek нет бесплатного API.
Но по его же расчетам с моим количеством запросов 10 юаней хватит на несколько лет.
Пополнил, проверим 🤙

✍3

209 views12:32