AI & Robotics Lab
20 subscribers
76 photos
30 videos
9 files
120 links
Explore AI code generation, robotics, and ROS with original projects and hands-on guides. Follow along as I share my experience, code samples, and tips for building intelligent systems.
Download Telegram
🧩 The Ultimate LLM Benchmark Collection

Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.

🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html

SOLO‑Bench — https://github.com/jd-3d/SOLOBench

AidanBench — https://aidanbench.com

SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard

LMArena (Style Control) — https://beta.lmarena.ai/leaderboard

LiveBench — https://livebench.ai

ARC‑AGI — https://arcprize.org/leaderboard

Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization

дополнительные бенчмарки Lech Mazur:

Elimination Game — https://github.com/lechmazur/elimination_game

Confabulations — https://github.com/lechmazur/confabulations

EQBench (Longform Writing) — https://eqbench.com

Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87

MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard

TrackingAI – IQ Bench — https://trackingai.org/home

Dubesor LLM Board — https://dubesor.de/benchtable.html

Balrog‑AI — https://balrogai.com

Misguided Attention — https://github.com/cpldcpu/MisguidedAttention

Snake‑Bench — https://snakebench.com

SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard

Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai

OpenCompass — https://rank.opencompass.org.cn/home

HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard

🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/

BigCodeBench — https://bigcode-bench.github.io

WebDev‑Arena — https://web.lmarena.ai/leaderboard

WeirdML — https://htihle.github.io/weirdml.html

Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/

PHYBench — https://phybench-official.github.io/phybench-demo/

MathArena — https://matharena.ai

Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard

XLANG Agent Arena — https://arena.xlang.ai/leaderboard

🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org

PaperBench — https://openai.com/index/paperbench/

SWE‑Lancer — https://openai.com/index/swe-lancer/

MLE‑Bench — https://github.com/openai/mle-bench

SWE‑Bench — https://swebench.com

🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa

SimpleQA — https://openai.com/index/introducing-simpleqa/

Tau‑Bench — https://github.com/sierra-research/tau-bench

SciCode — https://github.com/scicode-bench/SciCode

MMMU — https://mmmu-benchmark.github.io/#leaderboard

Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle

🔍 Классические бенчмарков

Simple‑Evals — https://github.com/openai/simple-evals

Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard

Artificial Analysis — https://artificialanalysis.ai

⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM

Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...

Модели близки к верхним значениям на них и в них нет особого смысла.
🩺 HealthBench — новый бенчмарк от OpenAI для оценки ИИ в медицине

OpenAI представила HealthBench — масштабный бенчмарк, разработанный для оценки возможностей языковых моделей в медицинских сценариях. Он создан в сотрудничестве с 262 врачами из 60 стран и включает 5 000 реалистичных медицинских диалогов.

🔍 Основные особенности HealthBench:


- Реалистичные кейсы: Диалоги отражают реальные взаимодействия между пациентами и врачами, охватывая различные медицинские специальности и контексты.

- Многоязычность: Бенчмарк поддерживает несколько языков, что позволяет оценивать модели в глобальном масштабе.

- Оценка по рубрикам: Каждый ответ модели оценивается по набору критериев, разработанных врачами, с учетом полноты, точности и уместности.

Открытый доступ: Код и данные доступны на GitHub, что способствует прозрачности и сотрудничеству в исследовательском сообществе.

HealthBench устанавливает новый стандарт для оценки ИИ в здравоохранении, обеспечивая более надежные и безопасные инструменты для пациентов и врачей.

🔗 Подробнее: https://openai.com/index/healthbench/
Media is too big
VIEW IN TELEGRAM
🧟‍♂ Roll out the fallout - let's make it fun!

I should be dreading
But strangely, I'm ready
My bottle cap fortune
Will rise in stock for real
Полный текст и перевод
1
😾 Хотели бы поговорить со своим питомцем? А, может, он быстрее найдет общий язык с ИИ и хозяин станет "третьим лишним"?

Только вчера посмотрели 5-й эпизод 4-ого сезона Love, Death & Robots - как раз про это 😎

Кто еще не добрался до нового сезона (или даже до сериала) - рекомендую 👍. Уже есть в русской озвучке.
👍21🤔1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🎲 Устал работать — придумай игру!

Вчера объяснял крестнику что такое инди игры (созданные небольшими фирмами или отдельными разработчиками - от слова independent 😁). И тут вспомнилось, что недавно попался мне ролик про возможности Gemini 2.5 Pro, в котором была показана интересная идея создания мини-приложений (JS + CSS + HTML) и их реализация в виде одного HTML-файла.

Лучше один раз увидеть, чем 100 услышать, подумал я, и закинул в модель запрос сделать незабвенный арканоид. Не с первого раза, но где-то с 3-4 попытки получился вполне играбельный вариант и даже с какими-то небольшими эффектами. Крестник, правда, не слишком проникся, а я был в восторге 🤩

Поэтому, если хочется почувствовать себя инди разработчиком:
✓ берем модельку "поумнее" типа Gemini 2.5 Pro, GPT 4.1 / o3, Claude 3.7;
✓ задаем ей задачу сделать игру с помощью JavaScript + CSS + HTML и упаковать все в один HTML-файл;
✓ сохраняем, запускаем в браузере;
✓ наслаждаемся 🤗

#games #fun
👾21🔥1
🕶 Агенты-разработчики уже здесь!

Этот год однозначно становится годом ИИ-агентов: границы чатов уже слишком тесны, ИИ выходит в реальный мир!

Передача разработки кода моделям была только вопросом времени, и вот, появились готовые решения - на этой неделе анонсированы агенты: Codex от OpenAI и Jules от Google. Это уже не просто помощники / подсказчики а вполне полноценные "разработчики", решающие задачи "под ключ" прямо в репозитории. Второй, кстати, делает это даже бесплатно - дают 5 заданий на день.

Мир меняется стремительно - готовы ли мы к таким изменениям?

#мысли #brave_new_world
🤔21😎1
jules.webm
34.5 MB
Пример работы AI-разработчика Jules

Полное видео на youtube.

1. Настраивается виртуальная машина и окружение под проект - в облаке, но пишут, что безопасно и учиться на вашем коде не будут - верим? 😉
2. Подключается репозиторий GitHub проекта.
3. Агенту описывается задача - 100% скоро они будут подтягивать таски из Jira :)
4. Агент анализирует проект и задачу, выводит план работ - тут же можно его подкорректировать в чате.
5. План одобрен - агент принимается за работу 🚧.
6. В процессе работы выводятся вносимые изменения, агент пишет и запускает тесты, доступен чат, можно поставить процесс на паузу.
7. Готовый результат формируется в новой ветке, выводится итоговое сообщение по проделанным работам и diff по файлам. Можно даже получить аудиоподкаст 🤯 об итогах работы.

Далее таск передается людям / агентам (нужное подчеркнуть) на тест и делается merge в проект - новая фича готова!

#CodeGeneration
1🔥1
🙃 Две новости подряд

Посмотрел что там такого может делать модель, что ее не рекомендовали к запуску:
✓ обман для достижения заданной цели (не такая и новость), при дополнительных вопросах - модель только увеличивает степень обмана;
✓ попытки написать самораспространяющиеся вирусы, подделать юридическую документацию и оставить скрытые заметки для будущих экземпляров самого себя (это уже интересно 😎);
✓ когда Opus 4 получала доступ к командной строке и ей говорили «проявить инициативу» или «действовать смело» (или что-то подобное), она время от времени блокировала пользователям доступ к системе (!) и рассылала массовые электронные письма (!!) представителям СМИ и правоохранительных органов, чтобы выявить действия, которые модель считала незаконными (молодец 👍).

Пишут, что это были только ранние версии и баги пофиксили, и, судя по второй новости, уже где-то на сцене презентовали 💪

#новости
1👏1
👊 Bender: I'm gonna be the greatest Ultimate Robot Fighter ever!

Пару дней назад в Китае прошел турнир по кикбоксингу среди роботов Unitree G1.

Каждый бой состоял из двух частей: демонстрация навыков, за которой следовали три двухминутных раунда боя. Роботы могли набирать очки, нанося удары руками и ногами в голову или корпус, если удалось повалить противника и он не смог подняться в течение восьми секунд, раунд заканчивался.

Ждем появления лиги Ultimate Robot Fighting и мирового чемпионата по боям роботов 🍿

#новости #robotics
2🆒1👾1
Media is too big
VIEW IN TELEGRAM
Оригами: от хобби до космических модулей

Обожаю необычные инженерные решения 😁. Не смог пройти мимо, чтобы не поделиться новым исследованием, в котором предлагается техника оригами, позволяющая создавать бесшовные, гибкие и раздвигающиеся поверхности, пригодные для использования в космосе. 👩‍🚀

#engineering
1🔥1
Media is too big
VIEW IN TELEGRAM
👾 Игра "Жизнь"

Еще один способ понаблюдать за эволюцией систем, состоящих из простых компонентов — поиграть в “Жизнь“ . Это знаменитый клеточный автомат, придуманный Джоном Конвеем в 1970 году. Игрок определяет только начальное расположение «живых» клеток на поле, а дальше только наблюдает, как простые правила приводят к неожиданно сложным и красивым результатам.

Правила:
➸ Мир игры — сетка из клеток, каждая из которых может быть живой или мёртвой.
➸ У каждой клетки восемь соседей.
➸ В пустой клетке с тремя живыми соседями зарождается жизнь.
➸ Живая клетка с двумя или тремя соседями продолжает жить, иначе — умирает.
➸ Новое поколение вычисляется на основе предыдущего по этим правилам.
➸ Игра постепенно приходит к «замороженному» состоянию, исчезновению всех живых клеток или периодической конфигурации.

Построить свой сад Эдема, запустить паровоз (как это сделал я на видео), создать пожирателя или изобрести новую форму "жизни" можно на сайте.

#games
👾21🔥1
🤔 Natasha, ты ли это? За $1,5 млрд вместо AI – 700 индийских разработчиков

Лондонский стартап Builder.ai, который продавал “AI-приложение” Natasha как магию нейросетей, стал главным героем свежего скандала в мире искусственного интеллекта. Компания рассказывала, что Natasha способна создавать приложения “по щелчку”, полностью автоматически — от дизайна до финального кода. Неудивительно, что проект получил гигантские инвестиции от Microsoft (примерно $455 млн), а стоимость компании выросла до $1,5 миллиарда.

Реальность оказалась куда прозаичнее: всю “автоматизацию” на себе вытягивали более 700 инженеров из Индии, которые вручную выполняли большую часть работы. На то, что под видом AI много лет скрывалась обычная аутсорс-разработка, никто не обращал внимания, пока история не вышла наружу в мае 2025 года. После этого Builder.ai быстро объявили о банкротстве и начали процедуру ликвидации.

Хайп — такое дело...

Подробнее: Dexerto: AI company files for bankruptcy after being exposed as 700 human engineers
😁2🔥1
🤞 Прогноз на светлое будущее рынка труда после прихода ИИ

Разместил в своем блоге разбор на свежее исследование "AI Jobs Barometer" от крупного консалтингового агентства PricewaterhouseCoopers (PwC).

Авторы формулируют очень позитивные выводы о влиянии ИИ на рынок труда - решил внести долю своего скепсиса 😏. При этом, нельзя не отметить, что исследование очень интересное, масштабное, есть отчеты по отдельным отраслям - всем, кто интересуется трендами на рынке труда, очень рекомендую. Полный текст исследования доступен на сайте.

И самое главное — если у вас в резюме до сих пор нет строчки про мастерство в промптинге (например, для создания очаровательных совят 🦉), самое время добавить!

#разборы
🔥21🆒1
🔫 Искусственный авторитет
😁1😎1
Media is too big
VIEW IN TELEGRAM
📡 Увидеть WiFi сигнал с помощью массива антенн и ESP32

Классный и необычный проект по использованию WiFi сигнала для трекинга целей. Построен на популярных и недорогих ($2.5) SoC чипах ESP32, но при этом демонстрирует впечатляющие результаты:
☆ определение направление на источник сигнала WiFi и расстояния до него для заданной сети,
☆ визуализация WiFi сигнала в реальном времени,
☆ пассивный трекинг целей - источников WiFi сигнала.

Какое-то время назад мне попалась статья, в которой рассказывалось о технологии, позволяющей с помощью обычных Wi-Fi роутеров и ИИ определять позу человека и «видеть» сквозь стены, анализируя отражённые сигналы. Выглядит очень футуристично и при этом зловеще, учитывая, что теперь твой роутер не только сможет торговать запрещенкой в даркнете или быть частью бот-нета, но еще и следить за тобой 24/7 😎.

Тем не менее, посмотреть подобную технологию в работе и познакомиться с ее инженерной частью очень интересно 👍😁

Полное видео на Youtube

#engineering
1🔥1🤩1
🤖 MCP, A2A, AGP, ACP: Разбираемся в AI протоколах

Содержательная статья с обзором AI протоколов.

Зачем они нужны?
Сегодня у нас есть мощные AI-модели и умные агенты, но они работают в изоляции друг от друга. ChatGPT не может напрямую взаимодействовать с Claude, агент для анализа данных не умеет передавать результаты агенту для создания презентаций, а ваш AI-ассистент не может получить доступ к вашему календарю без костылей.

Протоколы создают стандартизированные правила взаимодействия - как AI-системы должны обмениваться данными, запрашивать информацию друг у друга и координировать совместную работу. Это превращает разрозненные AI-инструменты в единую экосистему, где каждый агент может использовать возможности других.

Краткий обзор протоколов

1️⃣ MCP (Model Context Protocol) • Разработчик: Anthropic • Суть: USB-C для AI 🔌 • Позволяет подключать AI к календарям, базам данных, API.

2️⃣ A2A (Agent2Agent) • Разработчик: Google • Суть: Slack для AI-агентов 💬 • Агенты могут общаться и делегировать задачи друг другу.

3️⃣ AGP (Agent Gateway Protocol) • Разработчик: AGNTCY • Суть: Почтовая служба для AI 📬 • Высокопроизводительная связь в распределенных системах • Использует gRPC и HTTP/2.

4️⃣ ACP (Agent Communication Protocol) • Разработчик: Linux Foundation + BeeAI • Суть: RESTful API для мультимодальной коммуникации • Агенты работают как сервисы, обмениваясь разными типами данных.

💡 Главное: Эти протоколы не конкурируют, а дополняют друг друга. Они создают экосистему, где AI-агенты могут свободно взаимодействовать, независимо от того, кто их создал. Будущее AI - это взаимосвязанные системы агентов.

#knowledge
1👍1🆒1
🕸 Невидимая революция: как контекст формирует будущее ИИ

В продолжение темы протоколов, которые смогут дать ИИ возможность действовать напрямую как в виртуальном, так и в реальном мире, хочу порекомендовать интересную статью Джейсона Снайдера AI, Context, And Code: The Quiet Revolution Reshaping Technology, опубликованную на Forbes - визионерский взгляд на развитие этого направления.

Вот несколько цитат
◎ Почему контекст важен в ИИ. Без него машины могут формулировать мысли красиво, но не осознают их сути. Они создают предложения, которые звучат правильно, но не понимают, что действительно важно.

◎ Раньше мы писали код, чтобы отдавать команды машинам. Теперь машины интерпретируют контекст, чтобы действовать от нашего имени. Этот сдвиг едва заметен, но он перенаписывает логику вычислений. И это изменение не поверхностное. Оно фундаментальное.

◎ Раньше мы создавали программное обеспечение на основе логики «если это, то то». Интеллектуальные системы работают иначе. Они оперируют вероятностями. Они считывают нюансы. Они предполагают, что вы имели в виду. Они принимают решения о том, как реагировать, основываясь на том, что знают о вас, о мире и о заданных вами ограничениях. Другими словами, они работают исходя из контекста, и качество этого контекста определяет качество каждого результата. Вот в чём революция. Не в быстрых чипах. Не в более умных моделях. Контекст как вычисление.

Что же такое контекст?
Это знание о том, где человек находится, что он делает, его привычки, предпочтения, цели и даже эмоции. Контекст — это совокупность информации, которая позволяет системам ИИ понимать не только слова или команды, но и их смысл, связанный с реальной жизнью пользователя.

Понимать и лучше служить пользователю - или понимать и лучше контролировать пользователя... Все это напоминает "Мир Дикого Запада" (Westworld), где сверхинтеллект использовал контекст человеческой жизни — их привычки, предпочтения, взаимодействия — для предсказания и управления их поведением, вплоть до контроля над их судьбой.

В интересные времена мы живем 🤔

#brave_new_world
1🤔1🆒1