Запрети мне псевдолейблить
3.41K subscribers
199 photos
3 files
185 links
Канал о пути к Kaggle competitions (теперь уже) GrandMaster и поте, которым обливаешься в процессе

Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов

Для контакта пишите в сообщения канала, они бесплатные
Download Telegram
На Kaggle новая драма — соревнование по разметке данных для боевых дронов

https://www.kaggle.com/competitions/leonardo-airborne-object-recognition-challenge

Официально задача звучит так: нужно построить модель, которая будет находить и классифицировать объекты на съемке с летательных аппаратов. В списке классов:

1. люди
2. летательные аппараты
3. дроны
4. машины
5. корабли
6. препятствия для самого носителя камеры — башни, скалы и т.д.

Проблема в том, что все и так прекрасно понимают, для чего сегодня особенно востребованы такие платформы с видео- и фотосъемкой и опцией подсветки снизу.

В датасете почти сразу нашли несколько довольно интересных последовательных кадров — они как раз приложены к посту. После того как началось публичное возмущение, Kaggle на время притормозил соревнование. Сейчас к нему уже нельзя подключиться заново, но те, кто успел зайти и что-то засабмитить, по-прежнему могут продолжать.

Отдельно стоит посмотреть на заказчика — Leonardo Helicopters, итальянскую многоцелевую компанию.
Во-первых, 30% компании принадлежит правительству Италии.
Во-вторых, Leonardo участвует в сотрудничестве с Baykar: у них совместное предприятие 50/50, а сама Baykar — производитель Bayraktar.

Из этого для россиян вытекают и вполне конкретные правовые риски. В действующей редакции статьи 275 УК РФ государственная измена — это не только шпионаж или передача гостайны, но и оказание иностранному государству, международной или иностранной организации финансовой, материально-технической, консультационной либо иной помощи в деятельности, направленной против безопасности РФ. Отдельно статья 275.1 УК РФ наказывает за конфиденциальное сотрудничество с иностранной организацией в целях такого содействия. А статья 189 УК РФ отдельно криминализует незаконную передачу иностранному лицу технологий, работ или услуг, если на них распространяется экспортный контроль.

Ну и в целом все это выглядит как жалкая пародия: несравненный оригинал на эту тему уже когда-то проводила ЧВК «Вагнер».

Мое мнение кстати простенькое:
Кагл хорошая платформа для поиска новых идей, но детекция/классификация объектов тема изъезженная. Думаю тут сорева нужен для хаеринга, а не топ решений/идей. Были бы нужны топ решения/идеи- на инференс давали бы больше ограничений, чем 9 GPU/Hours. Правда, есть и приз за быстродействие, но он считается среди топ участников отдельно.

Это первое соревнование на моей памяти, которое остановили по этическим соображениям.
🤷‍♂17😢12😁10🔥54😭2❤‍🔥1👎1💩1🍌1
Я все еще не оставляю надежд на (новый) LUX
🌭3🍌2
отличная статья от победителя game ai cup (и активного топ-участника lux ai), RL всех победил, но это не просто
🤝9🔥5🍌32🤡2
И ничего не написали. Просто молча анлокнули. Качаем датасет, ищем людей
2
Привет всем!👋
Шутки шутками, а соревнование разблокировали.

#соревнования
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡12😁3🌚3🍌3🤮1💩1
А не, фолсаларм. Там еще больше кринжа просто добавили
👍8
Раст разрабы бывают двух типов
🦄48👍14😁11🤡3🌭3🍌2🔥1
tinygrad это конечно хорошо, но через ThunderBolt (даже 5) максимальная скорость передачи данных это 8GB/s. Для карты в вашем домашнем компе (не серверной стойке) через PCIe 4.0 x16 будет 31.5 гб.
Т.е. для заполнения видеокарты один раз надо будет ждать 5 секунд против одной.

История исключительно для локального инференса
👍10🔥2🍌21
Профессиональные кагглеры делятся опытом о том, как радостно избили детей с помощью нейронок в соревновании для новичков.

Буквально чел с бесконечными ресурсами, чья работа- побеждать на каггле рассказывает как изи побеждать в соревновании, созданном чтобы новички соревновались с равными. Фото с награждения на третьей картинке

https://www.kaggle.com/competitions/playground-series-s6e3/writeups/1st-place-gpt5-4-gemini3-1-claudeopus4-6-kgm
😁737🤡7🔥4🤮4👍2🥱2💩1🍌1
Баскетбол кончился, делитесь страданием в комментах

Я вот улетел на 726 место

upd: Зато на основе ноутбука, который я шарил есть 28 место:
https://www.kaggle.com/competitions/march-machine-learning-mania-2026/discussion/688948
😭28🫡103
Запрети мне псевдолейблить
На Kaggle новая драма — соревнование по разметке данных для боевых дронов https://www.kaggle.com/competitions/leonardo-airborne-object-recognition-challenge Официально задача звучит так: нужно построить модель, которая будет находить и классифицировать объекты…
Беспилотники ВСË

Соревнование по детекции объектов с авиации от компании, производящей боевые вертолеты и ударные дроны отменено.

Кагл стафф проверили датасеты, ничего опасного там не нашли и подтвердили, что 'использованы только симулированные данные пригодные только для гражданских поисковых миссий'. Видимо тот человек на снимках выше 'споткнулся' и 'упал гражданским образом'. Видимо того американского пилота из Ирана спасли и технологический прорыв больше не нужен.

Это первое соревнование на каггле, которое реально отменили по этическим причинам, хоть кагл и не признается.

Раньше по этическим причинам пытались отменить соревнование по распознаванию лиц с камер видеонаблюдения в 2019 году. Кажется, было уже поздновато, потому что findface стартовал аж в 2016.

Отмена featured competition вообще редкое явление с одним (ну или может двумя) примерами: Google Cloud & NCAA® ML Competition 2020-NCAAM

Баскетбол 2020 года был отменен из-за ковида вместе со всеми играми. Формально, это были два соревнования:
Одно для женской лиги и одно для мужской. Сейчас кагл стал скуп на медали и проводит только объединенное соревнование, о котором я жаловался вам в прошлом посте.
14😁6👍4🔥4👎3👏1🍌1
Добрым словом и кодексом можно добиться большего, чем просто кодексом
😁24👎2🤡1
Forwarded from feel the agi | AI & ML (Artem Gorokhov)
Несколько дней назад закончилось Kaggle-соревнование March Machine Learning Mania, в котором мы с @makarbaderko заняли 7-е место и выиграли золотую медаль, а также $5,000 призовых.

По результатам этого соревнования Макар получил статус Kaggle Competitions Expert, а я – Kaggle Competitions Master.

В решении мы опирались на хороший бейзлайн от @pseudolabeling и raddar. Мы использовали продвинутый feature engineering вместе с градиентным бустингом, что дало нам хорошее итоговое решение.

Более подробно ознакомиться с решением можно в нашем write-up.

Благодарим всех тех, кто поддерживал нас!
4433🔥2🍌2
Бот лудоман, часть 1

March Mania на то и мания, что вскрывает все человеческие пороки. Вместо того, чтобы надеяться стать лучше всех в этом соревновании, я решил сделать еще большую ставку на правильность своей модели и заставил codex выигрывать и заключать пари.

Несмотря на все апсеты, получилось заработать +15% к депозиту за неделю с помощью Codex и данных об исторических играх университетских команд NCAA.

Беттинг-платформы зарабатывают на спреде вероятностей, занижая выигрышные коэффициенты:
Если команды абсолютно равны и побеждают с вероятностью 50%, то букмейкер никогда не даст коэффициент x2 на победу, скорее всего этот коэффициент для обеих команд будет 1.9-1.95 в зависимости от жадности букмейкера.
Тогда комиссия букмейкера за организацию игры будет (1 - (1.9 * 0.5)) = 0.1 = 10%.

Выставляемые коэффициенты зависят от нескольких факторов, кроме маржи:
1. Предсказания внутренней модели букмейкера. Обычно используется как инициализация для изначальных коэффициентов
2. Объем ставок на каждую из команд. Это условная 'уверенность толпы'. Он считается околоэффективной и лучше отражающей соотношение шансов, в том числе изменения новостей. Для совсем разгромных матчей пари часто просто не заключаются.

Из этого можно сделать вывод: букмейкер не соревнуется с нами в точности предсказаний, он в любом случае остается в плюсе и зарабатывает на объемах ставок.

Базовая идея:
Предсказания турнира NCAA крайне близки к эффективным. За столько лет проведения убито множество датасаентисто-часов в попытки построить оптимальные модели предсказания исхода матчей. Из этого делаем вывод, что условный Raddar notebook можно использовать как 'честный источник вероятностей исходов'. В нем даже калибровка из коробки есть. Если каждый матч- это подбрасывание монетки, то Raddar Notebook выдает честное отношение шансов на исходы.
Тогда можно использовать коэффициенты букмейкера и считать матожидание прибыли от ставки, опираясь на 'честные вероятности исходов'.

Остается еще несколько проблем:
1. Как автоматически подтянуть коэффициенты от букмейкера?
2. Как менеджерить портфолио, чтобы не разориться? Банк имеет конечный размер и у букмейкера есть минимальный размер ставки, так что надо контролировать риск и выстраивать стратегию.
18👍7🔥4🤩2🍌2
Бот лудоман, часть 2

Первая проблема, конечно, решается парсингом. Ходим на условную страницу <здесь могла бы быть реклама вашего букмейкера> и парсим данные раз в час. К сожалению не очень многие букмейкеры дают открытый API, но с помощью кодекса это легко исправить. А вообще мотивация не давать API не очень ясна, ведь сейчас самое время покорять рынок MCP агентов-лудиков.

Вторая проблема решается очень красиво и математично- критерием Келли. Это формула расчета доли банка, которую нужно ставить, основываясь на истинной вероятностной модели исходов. Такой истинной вероятностной моделью считаем раддар-ноутбук. Для критерия доказана асимптотическая математическая оптимальность скорости роста портфеля. Проще говоря, если играть бесконечное число матчей по этой стратегии и у тебя хороший алгоритм предсказания матчей, то в долгосрочной перспективе будешь обгонять все прочие стратегии. Более того, банк будет расти экспоненциально.

К сожалению, в баскетболе не бесконечное число матчей, так что алгоритм для бота следующий:
1. Подтягиваем коэффициенты и матчи, на которые можно ставить. Мапим к ним оценки вероятностей.
2. Для матчей расcчитываем матожидание профита. Если матожидание меньше 10% ставки- отметаем такой матч. Этот костыль нужен потому, что я хоть и верю в несмещенность раддар-ноутбука, но не верю в его абсолютную непогрешимость. Так что нам нужен тот самый, талебовский, запас надежности.
3. Для матчей, которые остались- ищем новости о командах-участниках. Codex гуглит все последние обновления составов/травмы/трансферы и решает, достаточное ли это основание для изменения шансов на победу. Если достаточное- отметаем.
4. Подтягиваем текущий объем банка и на его основе расчитываем оптимальный объем ставки:
(c * p - 1)
—————— = bet_coef.
(c - 1)

Тут с- коэф бука, p- вероятность из нашей модели и bet_coef- доля банка для ставки
5. Ставим. Если мы на этот матч уже ставили и коэффициенты стали еще более выгодными, то расчитываем сколько еще нужно добавить.
Общий банк был ~40к рублей, так что риск хоть и не слишком большой, но эмоциональную вовлеченность генерящий.

Из интересных происшествий и наблюдений:
1. В какой-то момент бот сам себе сломал метчинг имен и поставил на матч, в котором должен был проиграть. На вопрос 'Ты что, просто решил проиграть?' он честно признался, что ошибся и 'уже ничего не исправить'. Пришлось пересчитывать матожидание и учить бота продавать ставки букмейкеру назад, когда математически выгоднее продать, чем гемблить. Считаем по той же формуле, что в пункте 4 и сравниваем с комиссией за продажу. Она обычно фикс в ~10%, так что можем ограничить ненужный риск.
2. Есть наблюдение, что на 'открытии торгов' коэфы наиболее неэффективны и потом постепенно ползут к оптимальному соотношению. Надо будет в следующем году вам количественное исследование сделать.
3. Иногда выгодно ставить на андердога, потому что именно на него появляется наибольший Edge. Это создает небывалое чувство спокойствия- выиграешь либо в рейтинге на каггле, либо получишь денежную компенсацию.
4. Одновременно может быть несколько матчей, на которые можно эффективно заключить пари. Поэтому важно каждый раз подтягивать размер банка, чтобы добавлять денег в зависимости от исходов матчей. Я решил, что убавлять не нужно, потому что исходы параллельных матчей можно считать независимыми, а значит и вероятность резкого банкротства сильно мала.
5. В постанализе я оценил вероятности того, что бот мог потерять деньги и закончить с банком ниже изначального. Вышло довольно неплохо: тотальный шанс закончить в минус был 15%, а внутридневной порог потери денег опустился ниже 20% всего один раз. И именно потому, что было две большие недооценки андердога со стороны 'рынка'.

Опыт интересный, обожаю истории про выигрышь у казино. Кажется за попытками дистанцироваться от ставок на спорт, я попал в сети ставок на алгоритмы.
🔥245🍌2💩11
Еще один гольф вышел
Видимо ускорять/облегчать модели для бенчей мы будем весь этот год
😁3🍌2🔥1🤡1
Следующий год будет последним, когда меня можно будет номинировать в номинацию «киберспортсмены» в форбс 30 до 30
😭42🏆4🍌31