Manvel's Channel

В мире БЯМ случился небольшой скандальчик.

Ребята из 4 университетов, 3 институтов и 1 лаборатории выяснили, что не все абсолютно честно в лидерборде lmarena.ai (по которому все смотрят какая БЯМ лучше) [1].

Обвинений много, но самые важные — такие:
1) Ряду провайдеров позволено тестировать модели на lmarena.ai до публикации. Так, при запуске LLAMA было протестировано 27 версий модели. (Представьте себе, что вы участвуете в соревновании по стрельбе из лука, при этом все стреляют по разу, а вы можете выстрелить в цель 27 раз, а потом выбрать какая стрела пойдет в зачет.)
2) Гораздо больше внимания уделяется закрытым моделям в ущерб моделям с открытым исходным кодом или открытыми весами.

К сожалению, ответ lmarena.ai оказался довольно слабым, по их словам они "помогли" с запуском LLAMA, а кто не обращается за такой помощью — тот сам себе злобный буратино [2][3].

Andrej Karpathy (я сказал Karpathy) предлагает для сравнения моделей использовать статистику OpenRouter [4]. Этот сервис позволяет клиентам переключаться между провайдерами [5] — такой способ имеет свои недостатки и скорее измеряет качество/стоимость. Также они считают какая цель запросов к LLM — тоже очень полезные числа.

Еще больше подробностей можно почитать в [6].

Конечно же, никто не должен находится в более привилегированном положении. Такой подход будет преувеличивать разницу между open source и closed source моделями.

С другой стороны, все корпорации наверняка будут находиться на приблизительно одинаковых условиях. Получается, что можно верить этим цифрам при сравнении closed source моделей друг с другом.

Но это не точно)

[1] https://arxiv.org/pdf/2504.20879
[2] https://x.com/lmarena_ai/status/1917492084359192890
[3] https://x.com/lmarena_ai/status/1917668731481907527
[4] https://x.com/karpathy/status/1917546757929722115
[5] https://openrouter.ai/rankings
[6] https://simonwillison.net/2025/Apr/30/criticism-of-the-chatbot-arena/

🔥9❤5❤‍🔥3

759 views16:44

Manvel's Channel

Посмотрел интервью с эволюционным психологом Гад Саадом [1] и нашел его статью с названием "Дарение подарков на израильских свадьбах как функция генетического сходства и достоверности родства" [2].

Идея следующая: мать почти всегда может быть уверена в том, что растит генетически своих детей, у отцов такой роскоши нет *.
Эволюционная психология предсказывает, что по этой причине родственники по отцовской линии будут менее склоны к инвестициям в детей, чем родственники по материнской линии.

Как проверить это утверждение?

Авторы взяли данные по нескольким сотням свадеб и посчитали среднюю стоимость подарков от родственников невесты и жениха по отцовской и по материнской линиям. Оказалось, что родственники по отцовской линии дарят подарки в среднем за $225, а по материнской линии — за $260!

Казалось бы, теория доказана?

Боюсь, что нет.

Можно придумать множество объяснений этому эффекту.
Например, по большой пятерке женщины более общительны и менее склоны к конфликтам (extraversion, agreeableness).
Разумно предположить, что у женщин более близкие отношения с родственниками, а значит их родственники будут склоны дарить более дорогие подарки.
Следовательно, нужен контроль по характеристикам личности.

Если лень считать все эти регрессии, то давайте сделаем проще: посчитаем такие же данные по приемным детям.

А интервью интересное и этот Гад Саад — очень обаятельный дядька, несмотря на имя) Советую посмотреть.

*) По разным оценкам, 1-10% отцов в западных странах воспитывают генетически не своих детей не зная об этом.

[1] https://youtu.be/1g9VX34MSUA
[2] https://spectrum.library.concordia.ca/id/eprint/982667/1/Saad-JConsPsyc-2017.pdf

👍6🔥6😁6❤1

715 viewsedited 17:55

Manvel's Channel

Радиообсерватория в Пущино

❤14👍5🔥3❤‍🔥2

583 views11:13

Manvel's Channel

Дорогие друзья, вы знаете — я человек многих талантов и параллельно занимаюсь музыкой, играю инструментальный модальный импровизационный рок собственного сочинения... а вот в следующую пятницу, 30-го мая в 19:00, состоится концерт в Trigger Bar (вход свободный).

Прикладываю самую суровую, самую веселую и самую странную композиции))

У меня программа на 40-50 минут (не опаздывайте!), потом друзья поиграют каверы, а потом будет свободный джем.

Будет абсолютно душевно и невероятно камерно) Всецелый эмоциональный катарсис обеспечен)

Остальный композиции можно послушать тут (не забывайте лайк, шер, сабскрайб!):
https://music.yandex.ru/artist/18674504
https://mnvl.dev/
https://vk.com/mnvl_music

❤12❤‍🔥6🎉6🔥2

531 viewsedited 19:31

Manvel's Channel

The Hunted Becomes The Hunter

❤8👍4❤‍🔥1

522 views19:31

Manvel's Channel

Мне иногда говорят, что мне пора преподавать, передавать свои знания. Я же считаю, что для этого нужен отдельный талант... которого у меня нет.

Да и какой смысл, например, делать курс по обучению с подкреплением, если идеальный курс уже сделан живым классиком — Сергеем Левиным (или Левайном если вы любите Толстого меньше, чем я) и доступен для всех желающих [1]. Я сам с удовольствием смотрю лекции за новый учебный год, как только они попадают на YouTube. Почти как новый сезон любимого сериала.

В одной из первых лекций, Сергей показывает вот такой слайд и говорит, что Беллман в США и Понтрягин в СССР разрабатывали похожие теории, но оперировали разными определениями для подкрепления. У Беллмана — это reward (награда), а у Понтрягина — стоимость [2]. И каждый раз Сергей выводит из этого факта культурологические отличия между двумя странами.

Последний тезис можно легко оспорить и мы не будем далеко в это углубляться.

Давайте лучше рассмотрим двух людей: один думает обо всем в терминах награды, а другой — в терминах стоимости.

Награда может быть большой положительной величиной, но может стать и отрицательной.
Стоимость же подразумевает, что есть некий оптимальный образ действий, и если нам не удается придерживаться его — то нас штрафуют, забирают у нас что-то ценное. Наша мотивация — "не проиграть", это совсем не то же самое, что "получить награду", выиграть.

Какая разная оптика у этих людей, как по-разному они видят мир?

У кого из них было больше приятных сюрпризов в жизни?

Кто сможет сделать больше в одних и тех же условиях?

Давайте сделаем тут прыжок и поговорим о других ученых — Мартине Селигмане и Стивене Мейере.

Они провели ряд опытов и создали теорию выученной беспомощности, когда под грузом неудач и ощущением отсутствия контроля живое существо выучивает состояние беспомощности. Понятие выученной беспомощности широко известно, но мало кто знает о том, что оно неверно.

Позже Мейер стал изучать мозг и выяснил, что выученной является не беспомощность, а контроль, её противоположность.
Беспомощность является состоянием "по умолчанию". Животные и люди выучивают контроль, умение влиять на свою жизнь и окружающий мир [3].

Есть куча литературы и интересных экспериментов об этом, но тут лучше, наверно, почитать книжку Селигмана [4].

Давайте же и мы на будущей неделе будем думать о наградах... доброй ночи)

[1] https://www.youtube.com/playlist?list=PL_iWQOsE6TfVYGEGiAOMaOzzv41Jfm_Ps
[2] https://youtu.be/awfrsjYnJmw?si=zhGRTkPza9REn5Dn&t=474
[3] https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D1%83%D1%87%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%B1%D0%B5%D1%81%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D0%BD%D0%BE%D1%81%D1%82%D1%8C
[4] https://alpinabook.ru/catalog/book-vyuchennyy-optimizm/

🔥12❤7👍6

640 viewsedited 20:55

Manvel's Channel

Сегодня начинается самое приятное событие лета — Московский джазовый фестиваль!

Отличная возможность потусоваться, насладиться джазом и открыть для себя молодых талантливых музыкантов.

Программа тут:
https://moscowjazzfest.com/schedule/

Как выбрать куда сходить? Находите артистов в соцсетях, слушаете — если нравится, то можно идти.

Можно ли ходить на бесплатные концерты? Да! Даже нужно! Тут и задор, и молодость, и новое прочтение джаза, и мастерство.

Московский джазовый фестиваль

Расписание - Московский джазовый фестиваль

Программа Московского международного джазового фестиваля 2025. Площадки, артисты, время концертов, покупка билетов онлайн на официальном сайте.

👍9🔥6❤5

545 viewsedited 14:36

Manvel's Channel

Забавно, что в последнем батче Y Combinator целых 7 проектов, которые характеризуются как "Cursor for X":
- Cursor for DevOps
- Cursor for knowledge workers
- Cursor for CTOs
- Cursor for lawyers
- Cursor for sales
- Cursor for teachers
- Cursor for data teams

...и еще один, который автоматически документацию пишет и обновляет при разработке.

https://www.ycombinator.com/companies?batch=Spring%202025&query=cursor%20for

Y Combinator

The YC Startup Directory | Y Combinator

A list of companies YC has funded across many verticals including hardware, edtech, biotech, healthcare, developer tools, consumer and enterprise, to name a few.

👍6🔥6❤2

723 views10:22

Manvel's Channel

Дщерь моя забыла у меня свои работы и я без разрешения (читай, преступно) их пофоткал.

Она собирается поступать на художника, я же регулярно ее троллю, говорю что искусственный интеллект их заменит.

В ее среде (эксцентричных подростков*) к этому утверждению относятся как к вздорной шутке.

Сумма возражений сводится к тому, что искусство есть проекция и осмысление человеческого опыта. У ИИ нет человеческого опыта, а значит он не может творить.

А вторая картина — художника Риберы, 1632-1634 года. Она меня глубоко тронула, я оторвался от экскурсии и долго в неё смотрел.

* я один раз ходил в мастерскую, так они там какого-то чувака в трусах рисовали!

❤11🔥9😁5

720 views18:24

Manvel's Channel

Развиваю робота на колесах.

Теперь он ездит по улицам.

Теоретически, я мог бы в это время лежать на диване.
Практически — опасаюсь его отпускать одного.
Написал программу для управления на Steam Deck и хожу с ним.

Программа показывает картинку с левой, фронтальной и правой камер, еще измерение глубины (расстояния до объектов) и результаты определения объектов на фронтальной камере (на фото — мои ноги).

Учу его выполнять все более и более высокоуровневые команды: "вперед пока не встретишь что-то подозрительное", "проедь мимо препятствия" и "доедь до заданной точки на фото с камеры".

Собираюсь заняться манипулятором и робо-собакой)

🔥16👍5👏4❤‍🔥1

443 viewsedited 14:03

Кино о путешествии маленького существа в странном, потустороннем мире.

(Или как роботы воспринимают пространство.)

Музыка тоже моя:
https://music.yandex.ru/album/30050096/track/123344531

🔥11👍5❤‍🔥4❤1

374 viewsedited 11:56

Manvel's Channel

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Собрал open-source манипулятор LeRobot SO-101 от Hugging Face.

Open-source означает, что доступны:
- bill of materials (что надо купить — сервомоторы, плата для управления и питание);
- модели пластиковых деталей (что надо напечатать на 3d-принтере);
- видео как его собрать и настроить;
- исходники кода чтобы этим всем управлять;
- большое сообщество, где помогут-расскажут.

Кажется, что все просто? Не совсем: манипулятором управляют всего шесть чисел, меняя которые во времени мы можем получать то или иное действие.

Уже есть готовый код для имитационного обучения — ты показываешь действие (на отдельной версии манипулятора), ИИ выучивает его и дальше управляет этими шестью числами. Есть и RL, и удаленное управление и много чего еще.

Отличная работа, Hugging Face! Эти ребята не всегда на слуху, но польза, которую они приносят просто огромна и недооценена.

Оставлю тут ссылки:
https://huggingface.co/docs/lerobot/so101
https://github.com/huggingface/lerobot
https://github.com/TheRobotStudio/SO-ARM100

🔥10👏5❤3

337 viewsedited 07:38

About

Blog

Apps

Platform