AI & Robotics Lab

Forwarded from Анализ данных (Data analysis)

🧩 The Ultimate LLM Benchmark Collection

Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.

🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html

SOLO‑Bench — https://github.com/jd-3d/SOLOBench

AidanBench — https://aidanbench.com

SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard

LMArena (Style Control) — https://beta.lmarena.ai/leaderboard

LiveBench — https://livebench.ai

ARC‑AGI — https://arcprize.org/leaderboard

Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization

дополнительные бенчмарки Lech Mazur:

Elimination Game — https://github.com/lechmazur/elimination_game

Confabulations — https://github.com/lechmazur/confabulations

EQBench (Longform Writing) — https://eqbench.com

Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87

MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard

TrackingAI – IQ Bench — https://trackingai.org/home

Dubesor LLM Board — https://dubesor.de/benchtable.html

Balrog‑AI — https://balrogai.com

Misguided Attention — https://github.com/cpldcpu/MisguidedAttention

Snake‑Bench — https://snakebench.com

SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard

Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai

OpenCompass — https://rank.opencompass.org.cn/home

HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard

🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/

BigCodeBench — https://bigcode-bench.github.io

WebDev‑Arena — https://web.lmarena.ai/leaderboard

WeirdML — https://htihle.github.io/weirdml.html

Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/

PHYBench — https://phybench-official.github.io/phybench-demo/

MathArena — https://matharena.ai

Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard

XLANG Agent Arena — https://arena.xlang.ai/leaderboard

🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org

PaperBench — https://openai.com/index/paperbench/

SWE‑Lancer — https://openai.com/index/swe-lancer/

MLE‑Bench — https://github.com/openai/mle-bench

SWE‑Bench — https://swebench.com

🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa

SimpleQA — https://openai.com/index/introducing-simpleqa/

Tau‑Bench — https://github.com/sierra-research/tau-bench

SciCode — https://github.com/scicode-bench/SciCode

MMMU — https://mmmu-benchmark.github.io/#leaderboard

Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle

🔍 Классические бенчмарков

Simple‑Evals — https://github.com/openai/simple-evals

Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard

Artificial Analysis — https://artificialanalysis.ai

⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM

Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...

Модели близки к верхним значениям на них и в них нет особого смысла.

20 views10:58

AI & Robotics Lab

Forwarded from Анализ данных (Data analysis)

🩺 HealthBench — новый бенчмарк от OpenAI для оценки ИИ в медицине

OpenAI представила HealthBench — масштабный бенчмарк, разработанный для оценки возможностей языковых моделей в медицинских сценариях. Он создан в сотрудничестве с 262 врачами из 60 стран и включает 5 000 реалистичных медицинских диалогов.

🔍 Основные особенности HealthBench:

- Реалистичные кейсы: Диалоги отражают реальные взаимодействия между пациентами и врачами, охватывая различные медицинские специальности и контексты.

- Многоязычность: Бенчмарк поддерживает несколько языков, что позволяет оценивать модели в глобальном масштабе.

- Оценка по рубрикам: Каждый ответ модели оценивается по набору критериев, разработанных врачами, с учетом полноты, точности и уместности.

Открытый доступ: Код и данные доступны на GitHub, что способствует прозрачности и сотрудничеству в исследовательском сообществе.

HealthBench устанавливает новый стандарт для оценки ИИ в здравоохранении, обеспечивая более надежные и безопасные инструменты для пациентов и врачей.

🔗 Подробнее: https://openai.com/index/healthbench/

24 views10:59

🧟‍♂ Roll out the fallout - let's make it fun!

I should be dreading
But strangely, I'm ready
My bottle cap fortune
Will rise in stock for real

Полный текст и перевод

⚡1

20 viewsedited 12:33

AI & Robotics Lab

😾 Хотели бы поговорить со своим питомцем? А, может, он быстрее найдет общий язык с ИИ и хозяин станет "третьим лишним"?

Только вчера посмотрели 5-й эпизод 4-ого сезона Love, Death & Robots - как раз про это 😎

Кто еще не добрался до нового сезона (или даже до сериала) - рекомендую 👍. Уже есть в русской озвучке.

👍2⚡1🤔1👾1

17 views09:56

AI & Robotics Lab

Forwarded from AI & Robotic News (robotics_ai_news)

Your Pets Could One Day Be Able to Talk to You With AI

Read full article

#newsdata

VICE

Your Pets Could One Day Be Able to Talk to You With AI

Mentally prepare yourself, because it appears the next frontier for humans isn’t deep space colonization, it’s having a chat with a dog.

⚡1

18 views09:56

AI & Robotics Lab

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

🎲 Устал работать — придумай игру!

Вчера объяснял крестнику что такое инди игры (созданные небольшими фирмами или отдельными разработчиками - от слова independent 😁). И тут вспомнилось, что недавно попался мне ролик про возможности Gemini 2.5 Pro, в котором была показана интересная идея создания мини-приложений (JS + CSS + HTML) и их реализация в виде одного HTML-файла.

Лучше один раз увидеть, чем 100 услышать, подумал я, и закинул в модель запрос сделать незабвенный арканоид. Не с первого раза, но где-то с 3-4 попытки получился вполне играбельный вариант и даже с какими-то небольшими эффектами. Крестник, правда, не слишком проникся, а я был в восторге 🤩

Поэтому, если хочется почувствовать себя инди разработчиком:
✓ берем модельку "поумнее" типа Gemini 2.5 Pro, GPT 4.1 / o3, Claude 3.7;
✓ задаем ей задачу сделать игру с помощью JavaScript + CSS + HTML и упаковать все в один HTML-файл;
✓ сохраняем, запускаем в браузере;
✓ наслаждаемся 🤗

#games #fun

👾2⚡1🔥1

16 views09:01

AI & Robotics Lab

🕶 Агенты-разработчики уже здесь!

Этот год однозначно становится годом ИИ-агентов: границы чатов уже слишком тесны, ИИ выходит в реальный мир!

Передача разработки кода моделям была только вопросом времени, и вот, появились готовые решения - на этой неделе анонсированы агенты: Codex от OpenAI и Jules от Google. Это уже не просто помощники / подсказчики а вполне полноценные "разработчики", решающие задачи "под ключ" прямо в репозитории. Второй, кстати, делает это даже бесплатно - дают 5 заданий на день.

Мир меняется стремительно - готовы ли мы к таким изменениям?

#мысли #brave_new_world

🤔2⚡1😎1

49 viewsedited 12:57

AI & Robotics Lab

jules.webm

34.5 MB

Пример работы AI-разработчика Jules

Полное видео на youtube.

1. Настраивается виртуальная машина и окружение под проект - в облаке, но пишут, что безопасно и учиться на вашем коде не будут - верим? 😉
2. Подключается репозиторий GitHub проекта.
3. Агенту описывается задача - 100% скоро они будут подтягивать таски из Jira :)
4. Агент анализирует проект и задачу, выводит план работ - тут же можно его подкорректировать в чате.
5. План одобрен - агент принимается за работу 🚧.
6. В процессе работы выводятся вносимые изменения, агент пишет и запускает тесты, доступен чат, можно поставить процесс на паузу.
7. Готовый результат формируется в новой ветке, выводится итоговое сообщение по проделанным работам и diff по файлам. Можно даже получить аудиоподкаст 🤯 об итогах работы.

Далее таск передается людям / агентам (нужное подчеркнуть) на тест и делается merge в проект - новая фича готова!

#CodeGeneration

⚡1🔥1

52 viewsedited 14:22

AI & Robotics Lab

🙃 Две новости подряд

Посмотрел что там такого может делать модель, что ее не рекомендовали к запуску:
✓ обман для достижения заданной цели (не такая и новость), при дополнительных вопросах - модель только увеличивает степень обмана;
✓ попытки написать самораспространяющиеся вирусы, подделать юридическую документацию и оставить скрытые заметки для будущих экземпляров самого себя (это уже интересно 😎);
✓ когда Opus 4 получала доступ к командной строке и ей говорили «проявить инициативу» или «действовать смело» (или что-то подобное), она время от времени блокировала пользователям доступ к системе (!) и рассылала массовые электронные письма (!!) представителям СМИ и правоохранительных органов, чтобы выявить действия, которые модель считала незаконными (молодец 👍).

Пишут, что это были только ранние версии и баги пофиксили, и, судя по второй новости, уже где-то на сцене презентовали 💪

#новости

⚡1👏1

58 viewsedited 08:23

👊 Bender: I'm gonna be the greatest Ultimate Robot Fighter ever!

Пару дней назад в Китае прошел турнир по кикбоксингу среди роботов Unitree G1.

Каждый бой состоял из двух частей: демонстрация навыков, за которой следовали три двухминутных раунда боя. Роботы могли набирать очки, нанося удары руками и ногами в голову или корпус, если удалось повалить противника и он не смог подняться в течение восьми секунд, раунд заканчивался.

Ждем появления лиги Ultimate Robot Fighting и мирового чемпионата по боям роботов 🍿

#новости #robotics

⚡2🆒1👾1

80 views14:40

Оригами: от хобби до космических модулей

Обожаю необычные инженерные решения 😁. Не смог пройти мимо, чтобы не поделиться новым исследованием, в котором предлагается техника оригами, позволяющая создавать бесшовные, гибкие и раздвигающиеся поверхности, пригодные для использования в космосе. 👩‍🚀

#engineering

⚡1🔥1

17 viewsedited 13:23

AI & Robotics Lab

Kinesis ⚔️ Taxis - Behavior Battle Since we have two different types of behavior, it’s very interesting to compare them on different field types to see which is better. For my tests, I set up turtles using either kinesis or taxis in the same non-uniform temperature…

📺 Видео о проекте по симуляции биоповедения уже на YouTube 🐢

Выложил видео с описанием проекта thermofilic turtles. Надеюсь, получилось интересно 😁

#youtube

YouTube

Симуляция биоповедения: ROS2 + turtlesim | Biosimulation: ROS2 + turtlesim

В этом видео вы увидите, как с помощью ROS2 и turtlesim можно смоделировать поведение живых организмов в искусственной среде. Демонстрируются биологические стратегии движения — кинезис и таксис — на примере виртуальных «черепах», реагирующих на температурное…

🆒2⚡1🔥1

25 views09:26

👾 Игра "Жизнь"

Еще один способ понаблюдать за эволюцией систем, состоящих из простых компонентов — поиграть в “Жизнь“ . Это знаменитый клеточный автомат, придуманный Джоном Конвеем в 1970 году. Игрок определяет только начальное расположение «живых» клеток на поле, а дальше только наблюдает, как простые правила приводят к неожиданно сложным и красивым результатам.

Правила:
➸ Мир игры — сетка из клеток, каждая из которых может быть живой или мёртвой.
➸ У каждой клетки восемь соседей.
➸ В пустой клетке с тремя живыми соседями зарождается жизнь.
➸ Живая клетка с двумя или тремя соседями продолжает жить, иначе — умирает.
➸ Новое поколение вычисляется на основе предыдущего по этим правилам.
➸ Игра постепенно приходит к «замороженному» состоянию, исчезновению всех живых клеток или периодической конфигурации.

Построить свой сад Эдема, запустить паровоз (как это сделал я на видео), создать пожирателя или изобрести новую форму "жизни" можно на сайте.

#games

👾2⚡1🔥1

18 views17:41

AI & Robotics Lab

🤔 Natasha, ты ли это? За $1,5 млрд вместо AI – 700 индийских разработчиков

Лондонский стартап Builder.ai, который продавал “AI-приложение” Natasha как магию нейросетей, стал главным героем свежего скандала в мире искусственного интеллекта. Компания рассказывала, что Natasha способна создавать приложения “по щелчку”, полностью автоматически — от дизайна до финального кода. Неудивительно, что проект получил гигантские инвестиции от Microsoft (примерно $455 млн), а стоимость компании выросла до $1,5 миллиарда.

Реальность оказалась куда прозаичнее: всю “автоматизацию” на себе вытягивали более 700 инженеров из Индии, которые вручную выполняли большую часть работы. На то, что под видом AI много лет скрывалась обычная аутсорс-разработка, никто не обращал внимания, пока история не вышла наружу в мае 2025 года. После этого Builder.ai быстро объявили о банкротстве и начали процедуру ликвидации.

Хайп — такое дело...

Подробнее: Dexerto: AI company files for bankruptcy after being exposed as 700 human engineers

😁2🔥1

49 views11:28

AI & Robotics Lab

🤞 Прогноз на светлое будущее рынка труда после прихода ИИ

Разместил в своем блоге разбор на свежее исследование "AI Jobs Barometer" от крупного консалтингового агентства PricewaterhouseCoopers (PwC).

Авторы формулируют очень позитивные выводы о влиянии ИИ на рынок труда - решил внести долю своего скепсиса 😏. При этом, нельзя не отметить, что исследование очень интересное, масштабное, есть отчеты по отдельным отраслям - всем, кто интересуется трендами на рынке труда, очень рекомендую. Полный текст исследования доступен на сайте.

И самое главное — если у вас в резюме до сих пор нет строчки про мастерство в промптинге (например, для создания очаровательных совят 🦉), самое время добавить!

#разборы

Blogspot

Анализ отчета "AI Jobs Barometer" от PricewaterhouseCoopers (PwC)

На днях в моем новостном канале мне попалось интересное сообщение о том, что крупное глобальное консалтинговое агентство Pricewaterhouse...

🔥2⚡1🆒1

19 views14:32

AI & Robotics Lab

🔫 Искусственный авторитет

😁1😎1

18 views08:23

📡 Увидеть WiFi сигнал с помощью массива антенн и ESP32

Классный и необычный проект по использованию WiFi сигнала для трекинга целей. Построен на популярных и недорогих ($2.5) SoC чипах ESP32, но при этом демонстрирует впечатляющие результаты:
☆ определение направление на источник сигнала WiFi и расстояния до него для заданной сети,
☆ визуализация WiFi сигнала в реальном времени,
☆ пассивный трекинг целей - источников WiFi сигнала.

Какое-то время назад мне попалась статья, в которой рассказывалось о технологии, позволяющей с помощью обычных Wi-Fi роутеров и ИИ определять позу человека и «видеть» сквозь стены, анализируя отражённые сигналы. Выглядит очень футуристично и при этом зловеще, учитывая, что теперь твой роутер не только сможет торговать запрещенкой в даркнете или быть частью бот-нета, но еще и следить за тобой 24/7 😎.

Тем не менее, посмотреть подобную технологию в работе и познакомиться с ее инженерной частью очень интересно 👍😁

Полное видео на Youtube

#engineering

⚡1🔥1🤩1

17 viewsedited 08:37

AI & Robotics Lab

🤖 MCP, A2A, AGP, ACP: Разбираемся в AI протоколах

Содержательная статья с обзором AI протоколов.

Зачем они нужны?
Сегодня у нас есть мощные AI-модели и умные агенты, но они работают в изоляции друг от друга. ChatGPT не может напрямую взаимодействовать с Claude, агент для анализа данных не умеет передавать результаты агенту для создания презентаций, а ваш AI-ассистент не может получить доступ к вашему календарю без костылей.

Протоколы создают стандартизированные правила взаимодействия - как AI-системы должны обмениваться данными, запрашивать информацию друг у друга и координировать совместную работу. Это превращает разрозненные AI-инструменты в единую экосистему, где каждый агент может использовать возможности других.

Краткий обзор протоколов

1️⃣ MCP (Model Context Protocol) • Разработчик: Anthropic • Суть: USB-C для AI 🔌 • Позволяет подключать AI к календарям, базам данных, API.

2️⃣ A2A (Agent2Agent) • Разработчик: Google • Суть: Slack для AI-агентов 💬 • Агенты могут общаться и делегировать задачи друг другу.

3️⃣ AGP (Agent Gateway Protocol) • Разработчик: AGNTCY • Суть: Почтовая служба для AI 📬 • Высокопроизводительная связь в распределенных системах • Использует gRPC и HTTP/2.

4️⃣ ACP (Agent Communication Protocol) • Разработчик: Linux Foundation + BeeAI • Суть: RESTful API для мультимодальной коммуникации • Агенты работают как сервисы, обмениваясь разными типами данных.

💡 Главное: Эти протоколы не конкурируют, а дополняют друг друга. Они создают экосистему, где AI-агенты могут свободно взаимодействовать, независимо от того, кто их создал. Будущее AI - это взаимосвязанные системы агентов.

#knowledge

Hackernoon

MCP, A2A, AGP, ACP: Making Sense of the New AI Protocols

Let's learn everything you need to know about MCP, A2A, AGP, ACP—the new AI protocols.

⚡1👍1🆒1

12 viewsedited 14:08

AI & Robotics Lab

🕸 Невидимая революция: как контекст формирует будущее ИИ

В продолжение темы протоколов, которые смогут дать ИИ возможность действовать напрямую как в виртуальном, так и в реальном мире, хочу порекомендовать интересную статью Джейсона Снайдера AI, Context, And Code: The Quiet Revolution Reshaping Technology, опубликованную на Forbes - визионерский взгляд на развитие этого направления.

Вот несколько цитат
◎ Почему контекст важен в ИИ. Без него машины могут формулировать мысли красиво, но не осознают их сути. Они создают предложения, которые звучат правильно, но не понимают, что действительно важно.

◎ Раньше мы писали код, чтобы отдавать команды машинам. Теперь машины интерпретируют контекст, чтобы действовать от нашего имени. Этот сдвиг едва заметен, но он перенаписывает логику вычислений. И это изменение не поверхностное. Оно фундаментальное.

◎ Раньше мы создавали программное обеспечение на основе логики «если это, то то». Интеллектуальные системы работают иначе. Они оперируют вероятностями. Они считывают нюансы. Они предполагают, что вы имели в виду. Они принимают решения о том, как реагировать, основываясь на том, что знают о вас, о мире и о заданных вами ограничениях. Другими словами, они работают исходя из контекста, и качество этого контекста определяет качество каждого результата. Вот в чём революция. Не в быстрых чипах. Не в более умных моделях. Контекст как вычисление.

Что же такое контекст?
Это знание о том, где человек находится, что он делает, его привычки, предпочтения, цели и даже эмоции. Контекст — это совокупность информации, которая позволяет системам ИИ понимать не только слова или команды, но и их смысл, связанный с реальной жизнью пользователя.

Понимать и лучше служить пользователю - или понимать и лучше контролировать пользователя... Все это напоминает "Мир Дикого Запада" (Westworld), где сверхинтеллект использовал контекст человеческой жизни — их привычки, предпочтения, взаимодействия — для предсказания и управления их поведением, вплоть до контроля над их судьбой.

В интересные времена мы живем 🤔✨

#brave_new_world

Forbes

AI, Context, And Code: The Quiet Revolution Reshaping Technology

How AI is evolving beyond prompts and interfaces—and why the future depends on who owns the context that intelligent systems use to act, decide, and serve.

⚡1🤔1🆒1

12 viewsedited 13:04

About

Blog

Apps

Platform