В мире БЯМ случился небольшой скандальчик.
Ребята из 4 университетов, 3 институтов и 1 лаборатории выяснили, что не все абсолютно честно в лидерборде lmarena.ai (по которому все смотрят какая БЯМ лучше) [1].
Обвинений много, но самые важные — такие:
1) Ряду провайдеров позволено тестировать модели на lmarena.ai до публикации. Так, при запуске LLAMA было протестировано 27 версий модели. (Представьте себе, что вы участвуете в соревновании по стрельбе из лука, при этом все стреляют по разу, а вы можете выстрелить в цель 27 раз, а потом выбрать какая стрела пойдет в зачет.)
2) Гораздо больше внимания уделяется закрытым моделям в ущерб моделям с открытым исходным кодом или открытыми весами.
К сожалению, ответ lmarena.ai оказался довольно слабым, по их словам они "помогли" с запуском LLAMA, а кто не обращается за такой помощью — тот сам себе злобный буратино [2][3].
Andrej Karpathy (я сказал Karpathy) предлагает для сравнения моделей использовать статистику OpenRouter [4]. Этот сервис позволяет клиентам переключаться между провайдерами [5] — такой способ имеет свои недостатки и скорее измеряет качество/стоимость. Также они считают какая цель запросов к LLM — тоже очень полезные числа.
Еще больше подробностей можно почитать в [6].
Конечно же, никто не должен находится в более привилегированном положении. Такой подход будет преувеличивать разницу между open source и closed source моделями.
С другой стороны, все корпорации наверняка будут находиться на приблизительно одинаковых условиях. Получается, что можно верить этим цифрам при сравнении closed source моделей друг с другом.
Но это не точно)
[1] https://arxiv.org/pdf/2504.20879
[2] https://x.com/lmarena_ai/status/1917492084359192890
[3] https://x.com/lmarena_ai/status/1917668731481907527
[4] https://x.com/karpathy/status/1917546757929722115
[5] https://openrouter.ai/rankings
[6] https://simonwillison.net/2025/Apr/30/criticism-of-the-chatbot-arena/
Ребята из 4 университетов, 3 институтов и 1 лаборатории выяснили, что не все абсолютно честно в лидерборде lmarena.ai (по которому все смотрят какая БЯМ лучше) [1].
Обвинений много, но самые важные — такие:
1) Ряду провайдеров позволено тестировать модели на lmarena.ai до публикации. Так, при запуске LLAMA было протестировано 27 версий модели. (Представьте себе, что вы участвуете в соревновании по стрельбе из лука, при этом все стреляют по разу, а вы можете выстрелить в цель 27 раз, а потом выбрать какая стрела пойдет в зачет.)
2) Гораздо больше внимания уделяется закрытым моделям в ущерб моделям с открытым исходным кодом или открытыми весами.
К сожалению, ответ lmarena.ai оказался довольно слабым, по их словам они "помогли" с запуском LLAMA, а кто не обращается за такой помощью — тот сам себе злобный буратино [2][3].
Andrej Karpathy (я сказал Karpathy) предлагает для сравнения моделей использовать статистику OpenRouter [4]. Этот сервис позволяет клиентам переключаться между провайдерами [5] — такой способ имеет свои недостатки и скорее измеряет качество/стоимость. Также они считают какая цель запросов к LLM — тоже очень полезные числа.
Еще больше подробностей можно почитать в [6].
Конечно же, никто не должен находится в более привилегированном положении. Такой подход будет преувеличивать разницу между open source и closed source моделями.
С другой стороны, все корпорации наверняка будут находиться на приблизительно одинаковых условиях. Получается, что можно верить этим цифрам при сравнении closed source моделей друг с другом.
Но это не точно)
[1] https://arxiv.org/pdf/2504.20879
[2] https://x.com/lmarena_ai/status/1917492084359192890
[3] https://x.com/lmarena_ai/status/1917668731481907527
[4] https://x.com/karpathy/status/1917546757929722115
[5] https://openrouter.ai/rankings
[6] https://simonwillison.net/2025/Apr/30/criticism-of-the-chatbot-arena/
🔥9❤5❤🔥3
Посмотрел интервью с эволюционным психологом Гад Саадом [1] и нашел его статью с названием "Дарение подарков на израильских свадьбах как функция генетического сходства и достоверности родства" [2].
Идея следующая: мать почти всегда может быть уверена в том, что растит генетически своих детей, у отцов такой роскоши нет *.
Эволюционная психология предсказывает, что по этой причине родственники по отцовской линии будут менее склоны к инвестициям в детей, чем родственники по материнской линии.
Как проверить это утверждение?
Авторы взяли данные по нескольким сотням свадеб и посчитали среднюю стоимость подарков от родственников невесты и жениха по отцовской и по материнской линиям. Оказалось, что родственники по отцовской линии дарят подарки в среднем за $225, а по материнской линии — за $260!
Казалось бы, теория доказана?
Боюсь, что нет.
Можно придумать множество объяснений этому эффекту.
Например, по большой пятерке женщины более общительны и менее склоны к конфликтам (extraversion, agreeableness).
Разумно предположить, что у женщин более близкие отношения с родственниками, а значит их родственники будут склоны дарить более дорогие подарки.
Следовательно, нужен контроль по характеристикам личности.
Если лень считать все эти регрессии, то давайте сделаем проще: посчитаем такие же данные по приемным детям.
А интервью интересное и этот Гад Саад — очень обаятельный дядька, несмотря на имя) Советую посмотреть.
*) По разным оценкам, 1-10% отцов в западных странах воспитывают генетически не своих детей не зная об этом.
[1] https://youtu.be/1g9VX34MSUA
[2] https://spectrum.library.concordia.ca/id/eprint/982667/1/Saad-JConsPsyc-2017.pdf
Идея следующая: мать почти всегда может быть уверена в том, что растит генетически своих детей, у отцов такой роскоши нет *.
Эволюционная психология предсказывает, что по этой причине родственники по отцовской линии будут менее склоны к инвестициям в детей, чем родственники по материнской линии.
Как проверить это утверждение?
Авторы взяли данные по нескольким сотням свадеб и посчитали среднюю стоимость подарков от родственников невесты и жениха по отцовской и по материнской линиям. Оказалось, что родственники по отцовской линии дарят подарки в среднем за $225, а по материнской линии — за $260!
Казалось бы, теория доказана?
Боюсь, что нет.
Можно придумать множество объяснений этому эффекту.
Например, по большой пятерке женщины более общительны и менее склоны к конфликтам (extraversion, agreeableness).
Разумно предположить, что у женщин более близкие отношения с родственниками, а значит их родственники будут склоны дарить более дорогие подарки.
Следовательно, нужен контроль по характеристикам личности.
Если лень считать все эти регрессии, то давайте сделаем проще: посчитаем такие же данные по приемным детям.
А интервью интересное и этот Гад Саад — очень обаятельный дядька, несмотря на имя) Советую посмотреть.
*) По разным оценкам, 1-10% отцов в западных странах воспитывают генетически не своих детей не зная об этом.
[1] https://youtu.be/1g9VX34MSUA
[2] https://spectrum.library.concordia.ca/id/eprint/982667/1/Saad-JConsPsyc-2017.pdf
👍6🔥6😁6❤1
Дорогие друзья, вы знаете — я человек многих талантов и параллельно занимаюсь музыкой, играю инструментальный модальный импровизационный рок собственного сочинения... а вот в следующую пятницу, 30-го мая в 19:00, состоится концерт в Trigger Bar (вход свободный).
Прикладываю самую суровую, самую веселую и самую странную композиции))
У меня программа на 40-50 минут (не опаздывайте!), потом друзья поиграют каверы, а потом будет свободный джем.
Будет абсолютно душевно и невероятно камерно) Всецелый эмоциональный катарсис обеспечен)
Остальный композиции можно послушать тут (не забывайте лайк, шер, сабскрайб!):
https://music.yandex.ru/artist/18674504
https://mnvl.dev/
https://vk.com/mnvl_music
Прикладываю самую суровую, самую веселую и самую странную композиции))
У меня программа на 40-50 минут (не опаздывайте!), потом друзья поиграют каверы, а потом будет свободный джем.
Будет абсолютно душевно и невероятно камерно) Всецелый эмоциональный катарсис обеспечен)
Остальный композиции можно послушать тут (не забывайте лайк, шер, сабскрайб!):
https://music.yandex.ru/artist/18674504
https://mnvl.dev/
https://vk.com/mnvl_music
❤12❤🔥6🎉6🔥2
❤8👍4❤🔥1
Мне иногда говорят, что мне пора преподавать, передавать свои знания. Я же считаю, что для этого нужен отдельный талант... которого у меня нет.
Да и какой смысл, например, делать курс по обучению с подкреплением, если идеальный курс уже сделан живым классиком — Сергеем Левиным (или Левайном если вы любите Толстого меньше, чем я) и доступен для всех желающих [1]. Я сам с удовольствием смотрю лекции за новый учебный год, как только они попадают на YouTube. Почти как новый сезон любимого сериала.
В одной из первых лекций, Сергей показывает вот такой слайд и говорит, что Беллман в США и Понтрягин в СССР разрабатывали похожие теории, но оперировали разными определениями для подкрепления. У Беллмана — это reward (награда), а у Понтрягина — стоимость [2]. И каждый раз Сергей выводит из этого факта культурологические отличия между двумя странами.
Последний тезис можно легко оспорить и мы не будем далеко в это углубляться.
Давайте лучше рассмотрим двух людей: один думает обо всем в терминах награды, а другой — в терминах стоимости.
Награда может быть большой положительной величиной, но может стать и отрицательной.
Стоимость же подразумевает, что есть некий оптимальный образ действий, и если нам не удается придерживаться его — то нас штрафуют, забирают у нас что-то ценное. Наша мотивация — "не проиграть", это совсем не то же самое, что "получить награду", выиграть.
Какая разная оптика у этих людей, как по-разному они видят мир?
У кого из них было больше приятных сюрпризов в жизни?
Кто сможет сделать больше в одних и тех же условиях?
Давайте сделаем тут прыжок и поговорим о других ученых — Мартине Селигмане и Стивене Мейере.
Они провели ряд опытов и создали теорию выученной беспомощности, когда под грузом неудач и ощущением отсутствия контроля живое существо выучивает состояние беспомощности. Понятие выученной беспомощности широко известно, но мало кто знает о том, что оно неверно.
Позже Мейер стал изучать мозг и выяснил, что выученной является не беспомощность, а контроль, её противоположность.
Беспомощность является состоянием "по умолчанию". Животные и люди выучивают контроль, умение влиять на свою жизнь и окружающий мир [3].
Есть куча литературы и интересных экспериментов об этом, но тут лучше, наверно, почитать книжку Селигмана [4].
Давайте же и мы на будущей неделе будем думать о наградах... доброй ночи)
[1] https://www.youtube.com/playlist?list=PL_iWQOsE6TfVYGEGiAOMaOzzv41Jfm_Ps
[2] https://youtu.be/awfrsjYnJmw?si=zhGRTkPza9REn5Dn&t=474
[3] https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D1%83%D1%87%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%B1%D0%B5%D1%81%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D0%BD%D0%BE%D1%81%D1%82%D1%8C
[4] https://alpinabook.ru/catalog/book-vyuchennyy-optimizm/
Да и какой смысл, например, делать курс по обучению с подкреплением, если идеальный курс уже сделан живым классиком — Сергеем Левиным (или Левайном если вы любите Толстого меньше, чем я) и доступен для всех желающих [1]. Я сам с удовольствием смотрю лекции за новый учебный год, как только они попадают на YouTube. Почти как новый сезон любимого сериала.
В одной из первых лекций, Сергей показывает вот такой слайд и говорит, что Беллман в США и Понтрягин в СССР разрабатывали похожие теории, но оперировали разными определениями для подкрепления. У Беллмана — это reward (награда), а у Понтрягина — стоимость [2]. И каждый раз Сергей выводит из этого факта культурологические отличия между двумя странами.
Последний тезис можно легко оспорить и мы не будем далеко в это углубляться.
Давайте лучше рассмотрим двух людей: один думает обо всем в терминах награды, а другой — в терминах стоимости.
Награда может быть большой положительной величиной, но может стать и отрицательной.
Стоимость же подразумевает, что есть некий оптимальный образ действий, и если нам не удается придерживаться его — то нас штрафуют, забирают у нас что-то ценное. Наша мотивация — "не проиграть", это совсем не то же самое, что "получить награду", выиграть.
Какая разная оптика у этих людей, как по-разному они видят мир?
У кого из них было больше приятных сюрпризов в жизни?
Кто сможет сделать больше в одних и тех же условиях?
Давайте сделаем тут прыжок и поговорим о других ученых — Мартине Селигмане и Стивене Мейере.
Они провели ряд опытов и создали теорию выученной беспомощности, когда под грузом неудач и ощущением отсутствия контроля живое существо выучивает состояние беспомощности. Понятие выученной беспомощности широко известно, но мало кто знает о том, что оно неверно.
Позже Мейер стал изучать мозг и выяснил, что выученной является не беспомощность, а контроль, её противоположность.
Беспомощность является состоянием "по умолчанию". Животные и люди выучивают контроль, умение влиять на свою жизнь и окружающий мир [3].
Есть куча литературы и интересных экспериментов об этом, но тут лучше, наверно, почитать книжку Селигмана [4].
Давайте же и мы на будущей неделе будем думать о наградах... доброй ночи)
[1] https://www.youtube.com/playlist?list=PL_iWQOsE6TfVYGEGiAOMaOzzv41Jfm_Ps
[2] https://youtu.be/awfrsjYnJmw?si=zhGRTkPza9REn5Dn&t=474
[3] https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D1%83%D1%87%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%B1%D0%B5%D1%81%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D0%BD%D0%BE%D1%81%D1%82%D1%8C
[4] https://alpinabook.ru/catalog/book-vyuchennyy-optimizm/
🔥12❤7👍6
Сегодня начинается самое приятное событие лета — Московский джазовый фестиваль!
Отличная возможность потусоваться, насладиться джазом и открыть для себя молодых талантливых музыкантов.
Программа тут:
https://moscowjazzfest.com/schedule/
Как выбрать куда сходить? Находите артистов в соцсетях, слушаете — если нравится, то можно идти.
Можно ли ходить на бесплатные концерты? Да! Даже нужно! Тут и задор, и молодость, и новое прочтение джаза, и мастерство.
Отличная возможность потусоваться, насладиться джазом и открыть для себя молодых талантливых музыкантов.
Программа тут:
https://moscowjazzfest.com/schedule/
Как выбрать куда сходить? Находите артистов в соцсетях, слушаете — если нравится, то можно идти.
Можно ли ходить на бесплатные концерты? Да! Даже нужно! Тут и задор, и молодость, и новое прочтение джаза, и мастерство.
Московский джазовый фестиваль
Расписание - Московский джазовый фестиваль
Программа Московского международного джазового фестиваля 2025. Площадки, артисты, время концертов, покупка билетов онлайн на официальном сайте.
👍9🔥6❤5
Забавно, что в последнем батче Y Combinator целых 7 проектов, которые характеризуются как "Cursor for X":
- Cursor for DevOps
- Cursor for knowledge workers
- Cursor for CTOs
- Cursor for lawyers
- Cursor for sales
- Cursor for teachers
- Cursor for data teams
...и еще один, который автоматически документацию пишет и обновляет при разработке.
https://www.ycombinator.com/companies?batch=Spring%202025&query=cursor%20for
- Cursor for DevOps
- Cursor for knowledge workers
- Cursor for CTOs
- Cursor for lawyers
- Cursor for sales
- Cursor for teachers
- Cursor for data teams
...и еще один, который автоматически документацию пишет и обновляет при разработке.
https://www.ycombinator.com/companies?batch=Spring%202025&query=cursor%20for
Y Combinator
The YC Startup Directory | Y Combinator
A list of companies YC has funded across many verticals including hardware, edtech, biotech, healthcare, developer tools, consumer and enterprise, to name a few.
👍6🔥6❤2
Дщерь моя забыла у меня свои работы и я без разрешения (читай, преступно) их пофоткал.
Она собирается поступать на художника, я же регулярно ее троллю, говорю что искусственный интеллект их заменит.
В ее среде (эксцентричных подростков*) к этому утверждению относятся как к вздорной шутке.
Сумма возражений сводится к тому, что искусство есть проекция и осмысление человеческого опыта. У ИИ нет человеческого опыта, а значит он не может творить.
А вторая картина — художника Риберы, 1632-1634 года. Она меня глубоко тронула, я оторвался от экскурсии и долго в неё смотрел.
* я один раз ходил в мастерскую, так они там какого-то чувака в трусах рисовали!
Она собирается поступать на художника, я же регулярно ее троллю, говорю что искусственный интеллект их заменит.
В ее среде (эксцентричных подростков*) к этому утверждению относятся как к вздорной шутке.
Сумма возражений сводится к тому, что искусство есть проекция и осмысление человеческого опыта. У ИИ нет человеческого опыта, а значит он не может творить.
А вторая картина — художника Риберы, 1632-1634 года. Она меня глубоко тронула, я оторвался от экскурсии и долго в неё смотрел.
* я один раз ходил в мастерскую, так они там какого-то чувака в трусах рисовали!
❤11🔥9😁5
Развиваю робота на колесах.
Теперь он ездит по улицам.
Теоретически, я мог бы в это время лежать на диване.
Практически — опасаюсь его отпускать одного.
Написал программу для управления на Steam Deck и хожу с ним.
Программа показывает картинку с левой, фронтальной и правой камер, еще измерение глубины (расстояния до объектов) и результаты определения объектов на фронтальной камере (на фото — мои ноги).
Учу его выполнять все более и более высокоуровневые команды: "вперед пока не встретишь что-то подозрительное", "проедь мимо препятствия" и "доедь до заданной точки на фото с камеры".
Собираюсь заняться манипулятором и робо-собакой)
Теперь он ездит по улицам.
Теоретически, я мог бы в это время лежать на диване.
Практически — опасаюсь его отпускать одного.
Написал программу для управления на Steam Deck и хожу с ним.
Программа показывает картинку с левой, фронтальной и правой камер, еще измерение глубины (расстояния до объектов) и результаты определения объектов на фронтальной камере (на фото — мои ноги).
Учу его выполнять все более и более высокоуровневые команды: "вперед пока не встретишь что-то подозрительное", "проедь мимо препятствия" и "доедь до заданной точки на фото с камеры".
Собираюсь заняться манипулятором и робо-собакой)
🔥16👍5👏4❤🔥1
Media is too big
VIEW IN TELEGRAM
Кино о путешествии маленького существа в странном, потустороннем мире.
(Или как роботы воспринимают пространство.)
Музыка тоже моя:
https://music.yandex.ru/album/30050096/track/123344531
(Или как роботы воспринимают пространство.)
Музыка тоже моя:
https://music.yandex.ru/album/30050096/track/123344531
🔥11👍5❤🔥4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Собрал open-source манипулятор LeRobot SO-101 от Hugging Face.
Open-source означает, что доступны:
- bill of materials (что надо купить — сервомоторы, плата для управления и питание);
- модели пластиковых деталей (что надо напечатать на 3d-принтере);
- видео как его собрать и настроить;
- исходники кода чтобы этим всем управлять;
- большое сообщество, где помогут-расскажут.
Кажется, что все просто? Не совсем: манипулятором управляют всего шесть чисел, меняя которые во времени мы можем получать то или иное действие.
Уже есть готовый код для имитационного обучения — ты показываешь действие (на отдельной версии манипулятора), ИИ выучивает его и дальше управляет этими шестью числами. Есть и RL, и удаленное управление и много чего еще.
Отличная работа, Hugging Face! Эти ребята не всегда на слуху, но польза, которую они приносят просто огромна и недооценена.
Оставлю тут ссылки:
https://huggingface.co/docs/lerobot/so101
https://github.com/huggingface/lerobot
https://github.com/TheRobotStudio/SO-ARM100
Open-source означает, что доступны:
- bill of materials (что надо купить — сервомоторы, плата для управления и питание);
- модели пластиковых деталей (что надо напечатать на 3d-принтере);
- видео как его собрать и настроить;
- исходники кода чтобы этим всем управлять;
- большое сообщество, где помогут-расскажут.
Кажется, что все просто? Не совсем: манипулятором управляют всего шесть чисел, меняя которые во времени мы можем получать то или иное действие.
Уже есть готовый код для имитационного обучения — ты показываешь действие (на отдельной версии манипулятора), ИИ выучивает его и дальше управляет этими шестью числами. Есть и RL, и удаленное управление и много чего еще.
Отличная работа, Hugging Face! Эти ребята не всегда на слуху, но польза, которую они приносят просто огромна и недооценена.
Оставлю тут ссылки:
https://huggingface.co/docs/lerobot/so101
https://github.com/huggingface/lerobot
https://github.com/TheRobotStudio/SO-ARM100
🔥10👏5❤3