AI & Robotics Lab

😍 Роман с камнем

Глянул на Waifu компаньона от Grock - прикольно, но до уровня Она или Бегущий по лезвию 2049 еще далековато.

Ждем социальную рекламу в стиле Don't date Robots!

#futurism #brave_new_world #fun

YouTube

Grok 4 AI Companion: Is Anime Waifu Ani Worth the Hype? (unfiltered showdown)

The new Grok 4 Model is here! I tried out Grok 4’s new AI companion so you don’t have to. This is an unfiltered look at what’s behind the hype of the anime waifu.

In this video, I test and react to the latest Grok 4 AI Companion — including the new Ani character.…

😁1

29 views13:02

🏎 Вперед к мечте, срезая углы

Илон Маск, без сомнения, является очень талантливым маркетологом. Он продает будущее: полеты на Марс, роботы, автономные авто. Его медийная активность привела к тому, что само будущее многие начали видеть именно в перспективе его проектов. Но, как всегда, есть образ, а есть его наполнение...

Сейчас идет важное судебное разбирательство, где Тесла обвиняется в обмане покупателей относительно возможностей "автопилота". В августе суд вынес приговор, в котором на компанию возложена частичная вина за смертельные аварии с участием "автопилота".

Примечательно то, что говорят участники инцидентов (обобщенно):

Я слишком сильно доверял этой технологии. Я верил, что если автомобиль увидит что-то впереди себя, он сделает предупреждение и нажмет на тормоз.

В ролике (короткая версия в посте), авторы проводят классный тест, в котором ясно показывается, что только компьютерное зрение еще не способно обеспечить достаточный уровень безопасности.

#autonomous #safety

👾1

16 views19:36

AI & Robotics Lab

😵‍💫 Говорите убедительно и вам поверят

Еще один штрих к пониманию работы и поведения LLM - выяснение причин их "галлюцинаций". Интересная работа от OpenAI (и хорошая статья про нее).

Плохая новость:

Точность никогда не достигнет 100%, поскольку независимо от размера модели, возможностей поиска и рассуждений некоторые реальные вопросы изначально не имеют ответа.

или, другими словами:

То, как языковые модели реагируют на запросы - предсказывая по одному слову в предложении на основе вероятностей, естественным образом приводит к ошибкам. Исследователи фактически показывают, что общий уровень ошибок при генерации предложений как минимум вдвое выше, чем уровень ошибок того же ИИ при ответе на простой вопрос типа «да/нет», поскольку ошибки могут накапливаться при многократном прогнозировании.

Да, вероятностная природа моделей неизбежно будет приводить к "выбросам". Правда, как выяснилось, даже материя на квантовом уровне имеет вероятностный характер, но мир, при этом, как-то держится. Поэтому просто важно учитывать, что ИИ может внезапно "учудить". И прорабатывать сценарии на этот случай - что, собственно, проигнорировано в "автопилоте" Тесла, где нет дублирующих систем в виде радара и лидара.

Еще одно важное открытие - особенность обучения.

Анализ причин, по которым галлюцинации сохраняются, несмотря на усилия по посттренингу (например, предоставление обширной обратной связи с человеком по ответам ИИ перед их публикацией). Авторы изучили десять основных бенчмарков ИИ, включая используемые Google, OpenAI, а также ведущие рейтинги моделей ИИ. В результате выяснилось, что девять бенчмарков используют бинарную систему оценок, которая присваивает 0 баллов ИИ, выражающему неуверенность. Это создаёт то, что авторы называют штрафованием за честные ответы. Когда система ИИ отвечает "Я не знаю", она получает ту же оценку, что и при даче совершенно неверной информации. Оптимальная стратегия при такой оценке становится очевидной: всегда угадывать.

Все как в старых добрых тестах - ставь хоть какой-нибудь ответ, авось, угадаешь. Никогда не доверял бенчмаркам, и уже сталкивался с тем, что модель настаивает на неверном ответе и сдвинуть ее с этой позиции не так просто. Поэтому статья однозначно полезная, в копилку идей, какие особенности LLM необходимо учитывать для создания надежных систем на их основе.

#knowledge #хозяйке_на_заметку #llm #benchmark

Openai

Why language models hallucinate

OpenAI’s new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, honesty, and safety.

⚡1

15 viewsedited 14:25

About

Blog

Apps

Platform