Sмарт-Пауза
153 subscribers
256 photos
63 videos
12 files
42 links
Привет,
DIY здесь.

Текущий проект: робо-телега

Темы: 3Д-печать, ИИ, роботы, гаджеты, метаоптика, программирование.
Download Telegram
⭐️ Приветик! KAFEICHE v1
Зафиксировал проект робо-платформы в Интернетах


📍printable.com : https://www.printables.com/model/1551558-kafeiche-robot

Теперь все доступно для сборки с инструкциями и подробностями.
Пока инструкция еще не достаточна чтобы совсем новички собирали по фидбеку посмотрю, если кто-то реально собирать будет, то расширю инструкцию до уровня собираем "робота для самых маленьких" 🫶

Еще в планах залить на MakerWorld. Может еще куда.
Если будет спрос на перевод, то на русском тоже могу куда-то документы залить.
🔥8🍾211
Прогресс генерации картинок 🏃‍♂️‍➡️

Найди три отличия =)
Разница в генерации поражает. А прошло всего 3 года.

as is январь 2023 - изображение 1. Я генерировал его в DALE-E. После несколько попыток - это самый близкий результат.
to be январь 2026 - изображение 2. Сгенерировал сейчас через OpenAi, под капотом также DALE-E.

большой 3д принтер стилизованный под стимпанк, рядом с принтером стоит рабочий который следит за процессом
🔥31
Media is too big
VIEW IN TELEGRAM
Отряд гусеничек во славу 3д печати

Врубайте звук 🎵🎵🎵🎵🎵
😁51🤯1
Алиса на колесиках 🫠

Побаловался немного со сторонним проектом
Поднял у себя локальный сервер TTS (text-to-speech) с AI из проекта:
👉 https://huggingface.co/ResembleAI/chatterbox
Запаковал всё в красивое приложение с GUI.
Результат и скорость очень понравились. Использую теперь его для озвучки языковых карточек голосами Ганвеста и ВВП.

А дальше началось…
Было бы круто, если бы домашний робот общался разными живыми голосами.
🤡 Кейс домашнего шута:
-катается по квартире
-распознаёт объекты (YOLO26)
-периодически высказывается на основе увиденного

Забавно, но работы много для конечного развлечения на пару дней.
В любом случае нужна двусторонняя связь с домашним сервером хотя бы для хорошей генерации голоса.
А если уж делать это, то почему бы не сделать что-то более осознанное? И с DeepSeek...

Если в цепочке будет DeepSeek API, то это уже не шут-гороховый, а вполне полезный инструмент.
В итоге решил начинать со звука, а уже потом — камера. Получается я изобрёл Алису, но на колёсиках. И потенциалом полностью локальной архитектуры. Или например с распределенными ИИ, типа будущей Gonkа братьев, или Кукана Дурова. А пока в основе будут модели с Hugging Face, откуда я взял TTS с которого начал. По голосу и сообразительности должно быть круче Алисы
(хотя не знаю, что с ней стало за последние 3 года). А вот время ответа дольше, оптимизировать до их состояния точно в планах нет. Пайплайн работы со звуком уже готов - выложу, он реально интересный.

А как всё это масштабировать?
▫️есть данные с камеры
▫️потенциал для высоконагруженной серверной обработки
▫️SLAM почти нет - только на одометрии
▫️лазить в ПК на роботе каждый раз неудобно
🍒 Логичнее вынести всё на домашний сервер. Оставить на роботе небольшую автономию на сколько тянет Raspberry Pi, для фильтрации данных и ручного управления.

В итоге идея такая:
что-то вроде Home Assistant для робота

➡️ все данные идут по локальной сети
➡️ сервер модульно обрабатывает их по сценариям
➡️ отправляет либо команды движения, либо аудиофайлы по результату обработки

У меня почти нет опыта с модульными приложениями сейчас.
Но при написании кода через LLM это необходимость, чтобы не выходить за 200-300 строчек кода на модуль.
Очень надеюсь, что Python будет достаточно, и тогда машинка на пульте управлением станет наконец - роботом :)
2🔥211
Примерный процесс обработки звука для невероятного общения с домашним ассистентом.
21
Завершил работу над созданием управления роботом через VR шлем.
Залил видео на YouTube с тем как это выглядит


Очень много опыта набрался пока это делал
- стриминговая передача видео с низкой задержкой
- управление роботом через web, короче через Интернет =)
- создание приложений в Unity
- создание приложения для android шлема и его установка.
- немного C#

https://youtu.be/eKgXdB7yZ-g?si=y8y9W7k2mSClk5T9

#ros #VR #видео #печать
🔥61
Sмарт-Пауза
Алиса на колесиках 🫠 Побаловался немного со сторонним проектом Поднял у себя локальный сервер TTS (text-to-speech) с AI из проекта: 👉 https://huggingface.co/ResembleAI/chatterbox Запаковал всё в красивое приложение с GUI. Результат и скорость очень понравились.…
🤲Прошлые дела закрыты.
Начинаю реализовывать идею, которую описал выше.

Такое описание для репозитория на github у меня получилось.
Центр управления для домашнего робота-ассистента. Выполняет сбор и обработку входящих данных.
Основная идея - модульная локальная система для независимых потоков управления ассистентом через ИИ агентов .

Рабочее название пока будет — RoboAss, возможно оно временное 👻
🔥5😁21
Pipecat. Первое это - Транспорт 🚃
тут Процесс...
делаю заметки о последовательном процессе создание домашнего-ассистента.
я нацелен на создание в большей степени локальной системы, контролируемой, оптимизируемой и расширяемой, а также специализированной именно под локальную архитектуру взаимодействия с ROS и Raspberry Pi.
просто поднять домашнего ассистента без вникания в процесс
можно за 5 мин


Intro
Система взаимодействия локальных агентов между собой у меня будет построена на #pipecat
Pipecat — это Python-библиотека для построения потоковых (real-time) пайплайнов, прежде всего для голосовых и видео-ассистентов. Коротко, она нужна, чтобы соединять аудио/видео источники с обработкой и ИИ в реальном времени.

В этой библиотеке уже есть быстрые решения чтобы очень легко подсоединять популярные агенты, как облачные, так и локальные. А самое главное есть все инструменты чтобы внедрять сторонние продукты, если их нет "из коробки"

Main
В Pipecat есть сущность, которая отвечает за перемещение данных в потоке - это транспорт. Это то с чего все начинается.
В моем случае транспорт будет кастомный. Потому что подразумевается, что Pipecat крутится на сервере к которому подключается клиент, в моем случае, наоборот серверу нужно будет подключиться к клиенту. Реализуется все в виде отдельного скрипта — подключение к уже поднятому локальному WebRTC серверу, забор и упаковка данные и передача из в стандартизированный конвейер.
Приложение для VR шлема делало почти тоже самое, поэтому это уже известная операция. Там был скрипт на C#, здесь на Python.

Кто будет повторять
📍Ставим очень крутой менеджер пакетов
, чтобы была изолированная среда uv: Python packaging in Rust.
📍Ставим саму библиотеку pipecat, и затем читаем все что есть в Guide. Документация огонь🔥
👉🏻Если что-то не понятно задаем вопросы по библиотеке боту в DeepWiki

Проект: робот-ассистент и центр управления ассистентом

#робот #ассистент #ai #llm #pipecat
🔥411
Речь в текст (STT)
Silero(VAD) + Whisper


📍VAD - это такая штука, которая распознает это речь человека или нет. Если да, то запускает процесс обработки звука. Также отвечает за то чтобы определить, что речь закончилась. Работает постоянно и непрерывно.
Похожа по функционалу с wake word, который запускает обработку голоса при получении конкретной команды. Его его планирую запускать прямо на роботе. ☝️Думаю в системе нужно и то и то.
VAD существуют совсем примитивные по таймингу и громкости, а есть с легкими нейронными моделями (поставил такую). Потребляют и весят мало.

📍Whisper установил базовую версию (base). Качество-скорость полностью удовлетворяют. Его запустил на cuda. Разница с cpu не заметна на коротких предложениях.

Кто будет повторять
Нужно внимательно устанавливать пакеты. Все не легко и просто в одну строчку.
Для cpu запариваться не надо, все работает без согласования версий.
Для cuda обязательно версия python не выше 12. Для выше версии нет готовой связки pytorch + cuda
На windows такой набор команд. После первой команды добавить requires-python = ">=3.12,<3.13" в pyproject.toml

uv init pipecat-bot --python 3.12
cd pipecat-bot
uv venv --python 3.12
.venv\Scripts\activate
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
uv add pipecat-ai
uv pip install pipecat-ai[local,silero,whisper]
uv pip install websocket
uv pip install requests


🥇 А вот тайминги на Cuda.
Одно предложение — 0.5 с. Распознает хорошо. Знаки препинания ставит. Со словом “доброхотов” справился. VAD разделяет предложения на точках. Думаю при длинной паузе будет объединяться в единый запрос и уходить на следующую задачу.

2026-02-02 14:16:07.464 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:09.463 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:09.746 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' Но я предлагаю рассмотреть другой вариант. ' from '' at 103.38s
2026-02-02 14:16:09.984 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_started:66 - VADProcessor#0: User started speaking
2026-02-02 14:16:17.724 | DEBUG | pipecat.processors.audio.vad_processor:on_speech_stopped:71 - VADProcessor#0: User stopped speaking
2026-02-02 14:16:18.022 | DEBUG | pipecat.observers.loggers.transcription_log_observer:on_push_frame:55 - 💬 WhisperSTTService#0 → TRANSCRIPTION: ' А именно! Никаких доброхотов, информаторов не было, а был там специальный наблюдатель от института чудаков.

Проект: робот-ассистент и центр управления ассистентом

#робот #ассистент #ai #llm #pipecat
🔥3211
Оказалось у DeepSeek нет бесплатного API.
Но по его же расчетам с моим количеством запросов 10 юаней хватит на несколько лет.
Пополнил, проверим 🤙
3
Anthropic призывает писать для агентов Skills (навыки).

Это фиксированные команды в которых подробно прописано как выполнять ту или иную задачу —алгоритмы в которых галлюцинации сведены к минимуму. У Anthropic это загружаемые инструкции в markdown формате. . Крайняя степень такого подхода - tools. Tools - это настоящая функция на языке программирования, куда агент подставляет параметры.
Например, у агента для создания презентаций доступ к 1000 навыков: первый - для форматирования картинок, второй - для титульной страницы и т.д. Если загрузить сразу всё без механизма вызова, то контекст забьётся, агент забудет что делал 🫡

Эти навыки должен писать, проверять и поддерживать человек. А агенты по своему усмотрению их вызывают, чтобы четко и одинаково сообщить прогноз погоды или отформатировать текст.
Навыков этих должно быть много. Anthropic призывают делать их универсальными, чтобы все агенты имели к ним одинаковый API.

Это эффективный инструмент для одинакового, предсказуемого поведения, воспроизводимости и повторяемости. Но также это движение в другую сторону от AGI, где алгоритмы не должны быть строго зафиксированы.

Получаем:
🛠 робот-работяга, трудовой класс, у которых агент построен на функциях, много не возникает, таскает свои железяки.
👨‍🎓 робот-мыслитель на AGI, интеллигент, пишет законы, судит, проектирует, размышляет о том зачем работать, думает как использовать роботов-работяг для минимизации собственной loss-function.

Вникнуть в этот вопрос пришлось для того чтобы понять как совместить движения робота и LLM. Архитектурно управлять колесами и перемещением в роботе-ассистенте буду через вызываемые функции только не как у Anthropic в markdown, а на python.
Markdown — язык разметки, который позволяет форматировать текст с помощью простых и интуитивно понятных символов.
Anthropic — технологическая компания в сфере искусственного интеллекта, основанная бывшими сотрудниками OpenAI.


#ai #заметки #ии #роботы

https://www.youtube.com/watch?v=CEvIs9y1uog
31
ReSpeakerXVF3800
Топовые «уши» робота.
С направленным звуком
+ динамик под 5v на сдачу.
Корпус надо красивый под это напечатать.
🔥51
"Я живу на 2м этаже, это как 1й только на один выше"

1. Появился 2й этаж
2. Реализована физическая интеграция ReSpeaker. Который по моему плану будет в основном жить своей отдельной жизнью как обычный голосовой ассистент.
3. Появился экран с сенсорным экраном. Крепится через петли с настраиваемым углом.
4. Камера переехала, чтобы смотреть в лицо душу собеседника.

📍Наметил интересную схему управления через web interface, который даст возможность контроля и управления всем устройствам в локальной сети.
📍Все что нужно для работы ассистента уже настроено на сервере, осталось внедрить в робота.

На экране будет анимированный маскот.
🔥63
🚦Ты видишь светодиоды? — Да. — И я вижу.

История:
Видимые точечные LED на микрофоне (в прошлом посте) очень смущали меня. Хочется, как у JBL Pulse.
Сам факт, что это возможно, требовал довести идею до конца — сделать рассеянный, мягкий свет.

К
азалось, что задача простая.
Идёт 4-й день экспериментов… Прогресс есть, но ещё не готово.

Факты:
📍 LED на плате очень маленькие. Концентрация света в точке - большая.
📍 Расстояние на рассеивание всего 4 мм, чтобы увеличить площадь света в 70 раз.
📍 Нужен оптический диффузор или рассеивающая линза.
📍 Белый пластик, бумага и термоклей не работают даже близко. Эффекта 0.

☄️
Изначально просто круглый кусок пластика очень усложнился :

1
. Печатные купола-рассеиватели на каждый LED.
2
. Флуоресцентный пластик в теории внутри должно быть много мелкодисперсных компонентов.
3
. Чёрный слой по центру для подавления пика.
4. Белые пластики, пищевая бумага и термоклей не помогают.

Итого
— трёхцветная печать, чёрный слой замурован внутри.

P.S. Это не светильники печатать.
🦄31