AI & Robotics Lab
18 subscribers
66 photos
24 videos
9 files
95 links
Explore AI code generation, robotics, and ROS with original projects and hands-on guides. Follow along as I share my experience, code samples, and tips for building intelligent systems.
Download Telegram
🏗 Зерокодинг - конструктор для разработчика

Я учился водить на механике, первая машина тоже была "на ручке" и, освоив технику переключения передач, со недоверием относился к автоматическим коробкам. Как так, я же лучше знаю, на каких оборотах переключаться: со светофора покрутить посильнее, на обгоне скинуть передачу. А тут какой-то автомат будет за меня решать. Но, покатавшись на автомате, очень быстро привык: да, местами подтупливает, нет того ощущения контроля, но едет и не надо думать о переключении.

К чему это я? Похожие мысли у меня возникли по поводу кодинга / зерокодинга: узлы сами внутри себя обрабатывают данные, организуют мини циклы. Но оно работает и при этом не приходится заниматься многими рутинными вещами, которых не избежать при ручном написании кода.

Как конструктор, я питаю слабость к схемам, особенно структурным - а тут ты делаешь не просто схему как иллюстрацию, но она же и твоя программа, да еще и анимируется при выполнении - восторг 🤩 Напомнило радиокубики из моего детства.
1🔥1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
LegoGPT, an AI model that generates step-by-step blueprints for custom Lego sets.

https://github.com/AvaLovelace1/LegoGPT
😁1😎1👾1
📖 Пара интересных статей по актуальным бенчмаркам для ИИ-моделей

Тема горячая - как правильно оценивать и сравнивать все более нарастающий вал новинок в условиях гонки ИИ. Ключевой аспект здесь, как мне кажется, это наличие достоверной экспертизы. За счет правильного промптинга можно повысить "критическое мышление" модели, но, тем не менее, считать ее ответ "экспертным мнением" мы пока(!) не можем. Поэтому так важны тесты / бенчмарки, обобщающие именно реальную экспертизу профессионалов в своей сфере - нечто похожее на систему стандартов типа ИСО или ГОСТ. Сам я пока только подбираюсь к этой теме поближе, по мере погружения, буду публиковать здесь всои находки.

Ставьте 👍, если также считаете эту тематику интересной.

#benchmark
👍1🔥1
🧩 The Ultimate LLM Benchmark Collection

Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.

🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html

SOLO‑Bench — https://github.com/jd-3d/SOLOBench

AidanBench — https://aidanbench.com

SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard

LMArena (Style Control) — https://beta.lmarena.ai/leaderboard

LiveBench — https://livebench.ai

ARC‑AGI — https://arcprize.org/leaderboard

Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization

дополнительные бенчмарки Lech Mazur:

Elimination Game — https://github.com/lechmazur/elimination_game

Confabulations — https://github.com/lechmazur/confabulations

EQBench (Longform Writing) — https://eqbench.com

Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87

MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard

TrackingAI – IQ Bench — https://trackingai.org/home

Dubesor LLM Board — https://dubesor.de/benchtable.html

Balrog‑AI — https://balrogai.com

Misguided Attention — https://github.com/cpldcpu/MisguidedAttention

Snake‑Bench — https://snakebench.com

SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard

Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai

OpenCompass — https://rank.opencompass.org.cn/home

HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard

🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/

BigCodeBench — https://bigcode-bench.github.io

WebDev‑Arena — https://web.lmarena.ai/leaderboard

WeirdML — https://htihle.github.io/weirdml.html

Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/

PHYBench — https://phybench-official.github.io/phybench-demo/

MathArena — https://matharena.ai

Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard

XLANG Agent Arena — https://arena.xlang.ai/leaderboard

🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org

PaperBench — https://openai.com/index/paperbench/

SWE‑Lancer — https://openai.com/index/swe-lancer/

MLE‑Bench — https://github.com/openai/mle-bench

SWE‑Bench — https://swebench.com

🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa

SimpleQA — https://openai.com/index/introducing-simpleqa/

Tau‑Bench — https://github.com/sierra-research/tau-bench

SciCode — https://github.com/scicode-bench/SciCode

MMMU — https://mmmu-benchmark.github.io/#leaderboard

Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle

🔍 Классические бенчмарков

Simple‑Evals — https://github.com/openai/simple-evals

Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard

Artificial Analysis — https://artificialanalysis.ai

⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM

Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...

Модели близки к верхним значениям на них и в них нет особого смысла.
🩺 HealthBench — новый бенчмарк от OpenAI для оценки ИИ в медицине

OpenAI представила HealthBench — масштабный бенчмарк, разработанный для оценки возможностей языковых моделей в медицинских сценариях. Он создан в сотрудничестве с 262 врачами из 60 стран и включает 5 000 реалистичных медицинских диалогов.

🔍 Основные особенности HealthBench:


- Реалистичные кейсы: Диалоги отражают реальные взаимодействия между пациентами и врачами, охватывая различные медицинские специальности и контексты.

- Многоязычность: Бенчмарк поддерживает несколько языков, что позволяет оценивать модели в глобальном масштабе.

- Оценка по рубрикам: Каждый ответ модели оценивается по набору критериев, разработанных врачами, с учетом полноты, точности и уместности.

Открытый доступ: Код и данные доступны на GitHub, что способствует прозрачности и сотрудничеству в исследовательском сообществе.

HealthBench устанавливает новый стандарт для оценки ИИ в здравоохранении, обеспечивая более надежные и безопасные инструменты для пациентов и врачей.

🔗 Подробнее: https://openai.com/index/healthbench/
Media is too big
VIEW IN TELEGRAM
🧟‍♂ Roll out the fallout - let's make it fun!

I should be dreading
But strangely, I'm ready
My bottle cap fortune
Will rise in stock for real
Полный текст и перевод
1
😾 Хотели бы поговорить со своим питомцем? А, может, он быстрее найдет общий язык с ИИ и хозяин станет "третьим лишним"?

Только вчера посмотрели 5-й эпизод 4-ого сезона Love, Death & Robots - как раз про это 😎

Кто еще не добрался до нового сезона (или даже до сериала) - рекомендую 👍. Уже есть в русской озвучке.
👍21🤔1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🎲 Устал работать — придумай игру!

Вчера объяснял крестнику что такое инди игры (созданные небольшими фирмами или отдельными разработчиками - от слова independent 😁). И тут вспомнилось, что недавно попался мне ролик про возможности Gemini 2.5 Pro, в котором была показана интересная идея создания мини-приложений (JS + CSS + HTML) и их реализация в виде одного HTML-файла.

Лучше один раз увидеть, чем 100 услышать, подумал я, и закинул в модель запрос сделать незабвенный арканоид. Не с первого раза, но где-то с 3-4 попытки получился вполне играбельный вариант и даже с какими-то небольшими эффектами. Крестник, правда, не слишком проникся, а я был в восторге 🤩

Поэтому, если хочется почувствовать себя инди разработчиком:
✓ берем модельку "поумнее" типа Gemini 2.5 Pro, GPT 4.1 / o3, Claude 3.7;
✓ задаем ей задачу сделать игру с помощью JavaScript + CSS + HTML и упаковать все в один HTML-файл;
✓ сохраняем, запускаем в браузере;
✓ наслаждаемся 🤗

#games #fun
👾21🔥1
🕶 Агенты-разработчики уже здесь!

Этот год однозначно становится годом ИИ-агентов: границы чатов уже слишком тесны, ИИ выходит в реальный мир!

Передача разработки кода моделям была только вопросом времени, и вот, появились готовые решения - на этой неделе анонсированы агенты: Codex от OpenAI и Jules от Google. Это уже не просто помощники / подсказчики а вполне полноценные "разработчики", решающие задачи "под ключ" прямо в репозитории. Второй, кстати, делает это даже бесплатно - дают 5 заданий на день.

Мир меняется стремительно - готовы ли мы к таким изменениям?

#мысли #brave_new_world
🤔21😎1
jules.webm
34.5 MB
Пример работы AI-разработчика Jules

Полное видео на youtube.

1. Настраивается виртуальная машина и окружение под проект - в облаке, но пишут, что безопасно и учиться на вашем коде не будут - верим? 😉
2. Подключается репозиторий GitHub проекта.
3. Агенту описывается задача - 100% скоро они будут подтягивать таски из Jira :)
4. Агент анализирует проект и задачу, выводит план работ - тут же можно его подкорректировать в чате.
5. План одобрен - агент принимается за работу 🚧.
6. В процессе работы выводятся вносимые изменения, агент пишет и запускает тесты, доступен чат, можно поставить процесс на паузу.
7. Готовый результат формируется в новой ветке, выводится итоговое сообщение по проделанным работам и diff по файлам. Можно даже получить аудиоподкаст 🤯 об итогах работы.

Далее таск передается людям / агентам (нужное подчеркнуть) на тест и делается merge в проект - новая фича готова!

#CodeGeneration
1🔥1
🙃 Две новости подряд

Посмотрел что там такого может делать модель, что ее не рекомендовали к запуску:
✓ обман для достижения заданной цели (не такая и новость), при дополнительных вопросах - модель только увеличивает степень обмана;
✓ попытки написать самораспространяющиеся вирусы, подделать юридическую документацию и оставить скрытые заметки для будущих экземпляров самого себя (это уже интересно 😎);
✓ когда Opus 4 получала доступ к командной строке и ей говорили «проявить инициативу» или «действовать смело» (или что-то подобное), она время от времени блокировала пользователям доступ к системе (!) и рассылала массовые электронные письма (!!) представителям СМИ и правоохранительных органов, чтобы выявить действия, которые модель считала незаконными (молодец 👍).

Пишут, что это были только ранние версии и баги пофиксили, и, судя по второй новости, уже где-то на сцене презентовали 💪

#новости
1👏1
👊 Bender: I'm gonna be the greatest Ultimate Robot Fighter ever!

Пару дней назад в Китае прошел турнир по кикбоксингу среди роботов Unitree G1.

Каждый бой состоял из двух частей: демонстрация навыков, за которой следовали три двухминутных раунда боя. Роботы могли набирать очки, нанося удары руками и ногами в голову или корпус, если удалось повалить противника и он не смог подняться в течение восьми секунд, раунд заканчивался.

Ждем появления лиги Ultimate Robot Fighting и мирового чемпионата по боям роботов 🍿

#новости #robotics
2🆒1👾1
Media is too big
VIEW IN TELEGRAM
Оригами: от хобби до космических модулей

Обожаю необычные инженерные решения 😁. Не смог пройти мимо, чтобы не поделиться новым исследованием, в котором предлагается техника оригами, позволяющая создавать бесшовные, гибкие и раздвигающиеся поверхности, пригодные для использования в космосе. 👩‍🚀

#engineering
1🔥1
Media is too big
VIEW IN TELEGRAM
👾 Игра "Жизнь"

Еще один способ понаблюдать за эволюцией систем, состоящих из простых компонентов — поиграть в “Жизнь“ . Это знаменитый клеточный автомат, придуманный Джоном Конвеем в 1970 году. Игрок определяет только начальное расположение «живых» клеток на поле, а дальше только наблюдает, как простые правила приводят к неожиданно сложным и красивым результатам.

Правила:
➸ Мир игры — сетка из клеток, каждая из которых может быть живой или мёртвой.
➸ У каждой клетки восемь соседей.
➸ В пустой клетке с тремя живыми соседями зарождается жизнь.
➸ Живая клетка с двумя или тремя соседями продолжает жить, иначе — умирает.
➸ Новое поколение вычисляется на основе предыдущего по этим правилам.
➸ Игра постепенно приходит к «замороженному» состоянию, исчезновению всех живых клеток или периодической конфигурации.

Построить свой сад Эдема, запустить паровоз (как это сделал я на видео), создать пожирателя или изобрести новую форму "жизни" можно на сайте.

#games
👾21🔥1
🤔 Natasha, ты ли это? За $1,5 млрд вместо AI – 700 индийских разработчиков

Лондонский стартап Builder.ai, который продавал “AI-приложение” Natasha как магию нейросетей, стал главным героем свежего скандала в мире искусственного интеллекта. Компания рассказывала, что Natasha способна создавать приложения “по щелчку”, полностью автоматически — от дизайна до финального кода. Неудивительно, что проект получил гигантские инвестиции от Microsoft (примерно $455 млн), а стоимость компании выросла до $1,5 миллиарда.

Реальность оказалась куда прозаичнее: всю “автоматизацию” на себе вытягивали более 700 инженеров из Индии, которые вручную выполняли большую часть работы. На то, что под видом AI много лет скрывалась обычная аутсорс-разработка, никто не обращал внимания, пока история не вышла наружу в мае 2025 года. После этого Builder.ai быстро объявили о банкротстве и начали процедуру ликвидации.

Хайп — такое дело...

Подробнее: Dexerto: AI company files for bankruptcy after being exposed as 700 human engineers
😁2🔥1
🤞 Прогноз на светлое будущее рынка труда после прихода ИИ

Разместил в своем блоге разбор на свежее исследование "AI Jobs Barometer" от крупного консалтингового агентства PricewaterhouseCoopers (PwC).

Авторы формулируют очень позитивные выводы о влиянии ИИ на рынок труда - решил внести долю своего скепсиса 😏. При этом, нельзя не отметить, что исследование очень интересное, масштабное, есть отчеты по отдельным отраслям - всем, кто интересуется трендами на рынке труда, очень рекомендую. Полный текст исследования доступен на сайте.

И самое главное — если у вас в резюме до сих пор нет строчки про мастерство в промптинге (например, для создания очаровательных совят 🦉), самое время добавить!

#разборы
🔥21🆒1
🔫 Искусственный авторитет
😁1😎1
Media is too big
VIEW IN TELEGRAM
📡 Увидеть WiFi сигнал с помощью массива антенн и ESP32

Классный и необычный проект по использованию WiFi сигнала для трекинга целей. Построен на популярных и недорогих ($2.5) SoC чипах ESP32, но при этом демонстрирует впечатляющие результаты:
☆ определение направление на источник сигнала WiFi и расстояния до него для заданной сети,
☆ визуализация WiFi сигнала в реальном времени,
☆ пассивный трекинг целей - источников WiFi сигнала.

Какое-то время назад мне попалась статья, в которой рассказывалось о технологии, позволяющей с помощью обычных Wi-Fi роутеров и ИИ определять позу человека и «видеть» сквозь стены, анализируя отражённые сигналы. Выглядит очень футуристично и при этом зловеще, учитывая, что теперь твой роутер не только сможет торговать запрещенкой в даркнете или быть частью бот-нета, но еще и следить за тобой 24/7 😎.

Тем не менее, посмотреть подобную технологию в работе и познакомиться с ее инженерной частью очень интересно 👍😁

Полное видео на Youtube

#engineering
1🔥1🤩1