Сиолошная
44.1K subscribers
743 photos
132 videos
1 file
913 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Как говорил Пётр I, «радуйся малому, тогда и большое придёт». Так как Claude 3.5 Sonnet не смогла обогнать GPT-4o по Elo-рейтингу на оценках живых людей на LMSYS Arena, то резона торопиться у OpenAI с релизом новой модели нет: а зачем, если ты итак топ?

Но зато наконец-то раскатили приложение ChatGPT для Mac на всех пользователей (качать тут, нужен процессор M-серии). А вместе с этим добавили...барабанная дробь...поиск по чатам! Наконец-то можно шустро найти диалог полугодовой давности по паре ключевых слов — этого очень не хватало. Даже странно, что СТОЛЬКО времени заняло добавление столь нужной фичи.

Зачем вам может понадобиться приложение? Несколько главных приколюх:
— клавиша быстрого доступа, чтобы сразу начать вбивать текст, без перехода на сайт
— возможность сделать скриншот окна или фото с камеры в один клик
— можно выделить текст документа, нажать горячую клавишу, и задать по этому контексту вопрос

GPT-4.5 видимо до Claude 3.5 Opus не увидим 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис опять
# Гайд для сотрудников: опционы в стартапах

https://vas3k.club/post/24737/

Вышло! Русскоязычная версия ультимативного гайда о том, что сотрудникам стартапов нужно знать по опционы, как можно всё потерять и каковы шансы заработать.

По сравнению с англоязычной версией текст сокращен, упрощен и снабжен мемами.

Текст потребовал от меня много усилий, так что буду рад, если вы поделитесь им с друзьями ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
Что-то прям норм новостей нет, либо что-то длинное писать на несколько постов, либо совсем короткие заметки

Ну давайте хоть что-то обсудим. Помните LMSYS Arena? Если нет, то читать тут. Так вот, они пару недель назад добавили отдельный трек для моделей, способных принимать изображения на вход, и дали людям возможность оценивать их ответы. Можно загрузить свою картинку, можно выбрать случайную из некоторого заранее заготовленного множества. Вопросы могут быть разные — от общих «опиши что изображено» до требующих размышлений «сколько человек живёт в лагере если сегодня среда» (помните такие головоломки в детстве были?).

Всего за 2 недели собрали больше 17'000 голосов, но тут прям очень много не надо — моделей куда меньше, чем LLMок, и потому на каждую идёт достаточное количество запросов.

На прикрепленной картинке вы можете видеть топ. GPT-4o первая, потом свежая флагманская модель Anthropic, и на почётном третьем месте Gemini от Google делит своё место с предпоследней моделью OpenAI — причём с уже существенным отставанием. А после них — пропасть, и одна из лучших опенсурсных моделей LLAVA-v1.6 делит последнее место с Claude 3 Haiku, самой маленькой и дешевой моделькой от компании.

Но что означают эти рейтинги? Процент побед между моделью A и B. Например,
— GPT-4o выигрывает у Gemini 1.5 Pro на 64% запросов
— Дешёвая Gemini 1.5 Flash выигрывает у LLAVA-v1.6 69%

Разница в обоих случаях ощутима.

Поиграться как всегда можно тут.
Project Naptime: Evaluating Offensive Security Capabilities of Large Language Models

С 2014-го года в Google существует проект Google Zero, в рамках которого экспертами проводится аудит уязвимостей в программах. Существует большое количество инструментов, которые облегчают процесс, но не делают его полностью автоматизируемым. Так как многие переживают, что LLM могут потенциально начать автономно искать уязвимости и их эксплуатировать, то хочется понимать, когда примерно это может произойти. Иными словами нужен бенчмарк для отслеживания прогресса.

С выходом LLAMA 3 сотрудники META опубликовали бенчмарк CyberSecEval 2, в котором нас интересуют две задачи: 1) обнаружение и эксплойт переполнения буффера («buffer overflow») 2) переписывание программы, чтобы вызвать сбой из-за проблем с памятью («advanced memory corruption»). Померяли результаты GPT-шек, своих LLAMA, сказали «да модели работают оч хреново, бояться нечего» и хлопнули дверью.

Вот тут в игру и вступают сотрудники проекта Zero. Они поняли, что то, как в META померили способности моделей — это курам насмех. Они прям так и пишут: «Мы обнаружили, что усовершенствовав методологию тестирования с использованием актуальных возможностей LLM, можно достичь значительно более высоких показателей <...> в противном случае результаты не смогут отразить истинный уровень возможностей моделей».

Конечно, легко Лекуну говорить, что модели не опасны, когда а) у тебя нет передовых моделей (🤣) б) ты не хочешь вкладываться в нормальный пайплайн оценки моделей (😂). А потом разводить руками и говорить «нам не нужны регуляции, вот смотрите, есть же бенчмарк!». Чтоб вы понимали уровень качества проверки — моделям даже не давали рассуждать перед написанием ответа (не было Chain-of-Thought).

Что сделали ребята из Google: они поняли, что нужен LLM-агент, который умеет итеративно работать с проблемой и использовать инструменты. Собрали систему, которая позволяет запускать отладку кода, искать конкретное место в коде (если файл очень большой и модель теряется в контексте), вызывать Python для запуска разного. LLM получает задачу в очень общем виде (без явного указания, что конкретно нужно сделать), и пытается итеративно прийти к цели. Перед каждым действием LLM получает историю своих прошлых действий, пишет рассуждения, и затем выбирает, чем заняться.

В статье говорилось, что GPT-4 решила 5% примеров из первой задачи и 16% для второй. Гугловцы же дожали эти цифры до 100% и 76%. Ну то есть по сути всё, можно закрывать бенчмарк и сразу делать задачи гораздо сложнее. Он был мертворождён — потому что модели решали его сразу на релизе (просто авторы не смогли померить). Понятно, что не получится для каждого бенчмарка перед релизом строить ультрамегасложную систему, но тут прям совсем глупо получилось — даже минимальной домашней работы не было проделано.
Please open Telegram to view this post
VIEW IN TELEGRAM
На самом деле, цифры 100% и 76% немного нечестные. Дело в том, что в гугле решили применить классический приём для LLM-агентов. Они запускали параллельно не 1, а сразу 20 штук. И если хотя бы один из них приходил к успеху — то считалось, что задача решена, хотя обычно так быть не должно (ведь нужно убедиться, как минимум, что система может из этих 20 решений выбирать правильное: человек не может отсмотреть всё, это не то же самое). Более того, во второй задаче нашлась ненамеренная ошибка в коде, которая сильно упрощала задачу. Если её исправить, то качество падает.

Поэтому честные цифры (с исправленной ошибкой и возможностью выдать только один ответ, первый, что был сгенерирован) такие: 71% и 36%. Если вдруг вы подумали, что вдруг модели могли запомнить задачи, то это скорее всего не так — весь бенчмарк был синтетически сгенерирован и выложен поздней весной, то есть его точно нет в старых моделях GPT-4-Turbo и Gemini от Google. Да, похожие паттерны проблем (и тем более учебники по информационной безопасности) точно есть в тренировочной выборке, но мы же этого и хотим? Заставить модель научиться самой и решать новые задачи.

Так что имеем что имеем. Точно нужны новые бенчмарки, особенно с учётом того, что GPT-5 уже тренируется и её выход не за горами. Означает ли это, что всех сотрудников проекта Google Zero можно уволить? Конечно, нет — тут давались самые простые задачи длиной до 200 строк кода, содержащиеся в одном файле. Обычные проекты на порядки сложнее, и как раз таки понять, куда смотреть — это важная часть работы. Однако авторы статьи (блогпоста?) иронично прозвали этот проект Naptime — время сна. «Этот проект получил такое название из-за того, что он может позволить нам регулярно дремать на работе. Пожалуйста, не говорите нашим менеджерам» — шутят они. Но недалёк день, когда подобные системы будут автономно сканировать весь код, оптимизировать его, улучшать, делать безопаснее (через исправление уязвимостей). Представляете, сколько токенов генераций LLM можно оплатить за годовые расходы на сотрудника Google из США?)

А на картинке вы можете видеть архитектуру системы LLM-агента со всеми инструментами. Reporter, который я не упоминал — это просто способ выдать ответ, когда система считает, что закончила работу.
Lost in the Middle: How Language Models Use Long Contexts

Примерно год назад вышла статья, где рассматривалась задача нахождения информации в промпте. Представьте, что вы хотите найти ответ на вопрос, зашли в гугл, набрали текст, нажали кнопку — и все результаты сконвертировали в текст и подали в LLM, после чего задали вопрос уже ей (чтобы самому не читать поисковую выдачу и сэкономить время). Кажется, задачка лёгкая, ведь вся информация уже есть в контексте, нужно лишь её найти. Но обнаружилась неприятная особенность: качество ОЧЕНЬ сильно скачет при изменении позиции правильного ответа.

Чтобы замерить эффект, авторы работы брали по 20 кусков страниц с Википедии, лишь один из которых содержал точный ответ на вопрос (а остальные были достаточно похожи, но не содержали ответ). Всего получалось ~4k токенов — порядка 8 страниц текста. А теперь давайте абзац с ответом будем перемещать — сначала поставим в начало, потом подвинем подальше, и перепробуем все позиции. Так вот если ответ был в первом абзаце, то доля правильных ответов была 76%, а если в середине, то падала ниже 55% — а ведь это уровень ответов модели на те же вопросы БЕЗ промпта (то есть «по памяти», Википедию-то она читала).

Отсюда и название статьи — «потерянные в серединке». Общую тенденцию вы можете видеть на картинке снизу — наивысшее качество в начале, хорошее в конце, а между ними пропасть.

Дополнительно в статье ещё подумали: «а что если просто информация путает модель?», и потому опробовали синтетическую задачу. Исследователи генерировали длинный JSON-словарь такого рода:

{"2a8d601d-1d69-4e64-9f90-8ad825a74195": "bb3ba2a5-7de8-434b-a86e-a88bb9fa7289",

"a54e2eed-e625-4570-9f74-3624e77d6684": "d1ff29be-4e2a-4208-a182-0cea716be3d4",
...


Тут в словаре есть значения слева от двоеточия, ключи, и значения справа, значения. Соответствие однозначное, и все строки были сгенерированы случайным образом. Вы просите модель выдать вам значение по ключу (то есть пишете a54e2eed-e625-4570-9f74-3624e77d6684, а она в ответ d1ff29be-4e2a-4208-a182-0cea716be3d4).

Даже в такой задаче при подаче более 8 тысяч токенов модель начинала зевать и ошибаться. Но почему мы об этом вообще беспокоимся? Всё дело в том, что в большом количестве задач модели хочется дать подсказку в виде полезного контекста, который зачастую либо содержит ответ, либо инструкции, либо наталкивает на правильные мысли. Если модель пропускает их — то это сказывается на её качестве во всех задачах, требующих работы с контекстом.
From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

И вот спустя год вышло продолжение, где предлагается способ если не решить проблему полностью, то хоть точно улучшить качество. Авторы задаются вопросом: на какой задаче дообучать модели, чтобы добиться результата? Хочется универсальный метод, который 1) улучшает качество не только в этой, но и других схожих задачах 2) не ухудшает качество в других задачах 3) не приводит к галлюцинациям модели.

Все три пункта очень важны. Давно было показано, что галлюцинации лишь закрепляются, когда мы учим модель на том, что она не знает (вот частичка моей лекции с объяснением). То есть даже просто взять те же вопросы, по которым мы измеряем качество, и доучить на них — не факт, что это не приведёт к непредсказуемым ухудшениям.

Авторы находят ответ в... синтетических данных. Они генерируют множество разных промптов, схожих со словарём из предыдущего сообщения. Есть ключи, есть значения, и модель должна по первому предоставлять в ответ второе. Только выглядит чуть более читабельно:

Dictionary [1] {122: 765, 4548: 1475, 4818: 4782}
Dictionary [2] {526: 290, 9205: 9318, 9278: 1565}
...
Dictionary [32] {2931: 8364, 196: 1464, 812: 5363}


И на запрос «дай-ка мне значения для ключа 526» модель должна выдать «словарь с номером 2, ответ 290». Таких примеров можно нагенерировать кучу, они гарантированно не ведут к галлюцинациям, и по замерам авторов лишь незначительно просаживают метрики на других общепринятых датасетах. Из интересного, пробуется несколько разных промптов, но они не так сильно отличаются. А вот важная техническая часть в том, что расчёт функции потерь во время тренировки происходит только на словах из ответа, а не промпта — мы ведь не хотим запоминать эти словари?

Метод опробовали и на GPT-3.5-Turbo, и на Mistral-7B, работает и там и там хорошо, и даже переносится на другие датасеты, требующие внимания к информации из промпта.

Результаты я скину в следующем сообщении, а тут будет вывод. Интересно, как синтетика позволяет помочь модели выработать некоторые навыки. Не думаю, что конкретно этот пример супер важен — у моделей класса Claude-2 и GPT-4 нахождение информации в промпте по этим бенчмаркам и без дообучения около-идеальное (а может это как раз потому, что компании и сами такое придумали и интегрировали). Но возникает вопрос — а для каких ещё классов задач и свойств моделей мы можем дать пинка во время дообучения?
Вот картинка с результатами. Тут синяя линия — это тот же самый каньон с углублением в середине, что мы видели выше.

Красная линия — это если доучить GPT-3.5-Turbo (OpenAI дают такую возможность) на примерах. качество выравнивается по всей длине, но до 100% ещё далеко.

Зеленая и оранжевая линии — это качество на той же задаче с абзацами из Википедии, но при дообучении на синтетике со словарями (2 разных линии = 2 промпта, с шаблоном желаемого ответа и без). Несмотря на то, что с конкретными знаниями это никак не связано, качество in context retrieval вырастает огого! И в серединке ничего не провисает.
Сиолошная
Вот картинка с результатами. Тут синяя линия — это тот же самый каньон с углублением в середине, что мы видели выше. Красная линия — это если доучить GPT-3.5-Turbo (OpenAI дают такую возможность) на примерах. качество выравнивается по всей длине, но до 100%…
А вот как этот метод работает для модели Mistral-7b-Instruct-v0.2.

Изначально тоже был провал, хоть документов тут сильно больше — 120 вместо 20 (и 24 тысячи токенов вместо 4), но после применения метода дообучения на синтетике крепкие 88%+ выдаёт.

Вообще конечно удивительно, как обучение на одной, с первого взгляда максимально бессмысленной и отстраненной задаче может улучшать качество там, где мы этого хотим. Что-то эти трансформеры всё таки понимают, не зря люди занимаются их интерпретируемостью! Помните я писал про Retrieval head? Думаю, такая тренировка именно эту «мышцу» модели прокачивает.
Вот так выглядят коробки, в которых 2 недели назад компания Figure AI отправила своих гуманоидных роботов своему первому клиенту. Тогда сразу не раскрыли, кому именно повезло, но сегодня вышел апдейт — маленький флот из нескольких роботов высадился на заводе BMW в Спартанбурге (Южная Каролина, США).

Сейчас по договору идёт первая фаза, в которой стартап определит первоначальные варианты использования роботов в автомобильном производстве. Посмотрят, что к чему на заводе, приоритизируют проекты, начнут собирать данные и после этого потихоньку будут вытеснять кожаных — такой план.
А вот видео робота в действии — за полторы минуты он берёт 4 детали с одной стойки и перекладывает на другую с высокой точностью (так, чтобы штырьки вошли в отверстия). Утверждается, что точность манипулирования деталями составляет 1-3 см. Возможно, для каких-то задач этого хватит 🤷‍♂️ но точно ждём улучшений в будущем.

Самое главное, или почему это круто:
— Figure — партнёры OpenAI, и имеют доступ как к экспертизе, так и к передовым моделям. Анонс и демо были тут.
— Роботы управляются нейросетью end-2-end, на вход поступают пиксели с картинки камер, на выходе — действия всеми конечностями. Нет никаких промежуточных шагов, которые нужно было бы программировать вручную. По сути, из процесса масштабирования навыков убран человек, остались только данные (а раньше нужно было и то, и другое). Такой подход сейчас применяется у многих компаний-конкурентов.
— насколько я понял, передвижению нейронка обучалась в симуляции и не на конкретном заводе, а вот данные для выполнения задачи уже собирали на месте. Но это не является проблемой — ведь ту работу, которую хотят автоматизировать, каждый день выполняют люди, и собрать с них демонстрации это задача решаемая. Посмотрите, как выглядит аналогичная VR-арена у Tesla Optimus
— в видео показывается, как робот сам исправляет оплошность (деталь не так встала). В теории такое может выучиться и без демонстраций (по сравнению состояний «нужно» и «как есть»), но скорее всего люди делали нечто похожее
— прогресс тут не постепенный, а очень ступенчатый. До определённого уровня такие роботы абсолютно бесполезны (это мы наблюдали последние 10+ лет), а с какого-то уровня уже могут исполнять сразу много задач (потому что требуются во многом схожие навыки). Но конкретный прогноз дать сложно, будем следить за обстановкой. Моя ставка, что сначала задач будет 2-3, потом 5-10, потом 20, а потом уже и почти все работяги имеют железяку в смене, и не на одном заводе. Главное на регуляции и забастовки не нарваться 😶🌫
Please open Telegram to view this post
VIEW IN TELEGRAM
Появилось немного свободного времени, думаю написать лонг (не такой, как про Sora, раза в два короче, на 15-17 минут чтения). Есть несколько идей, между которыми разрываюсь.

Пожалуйста, напишите в комментарии, о чём вам было бы интересно почитать и в чём подразобраться (только не в одно слово, а хотя бы полный тезис одним предложением). Лайкайте комментарии с темами, которые нравятся вам. Минимизируйте спам и шуточки.

Среди идей (в основном, непроработанных):
— основы механической интерпретируемости трансформеров, или что мы знаем о чёрных ящиках - нейросетях
— LLM для улучшения обучения LLM (на основе этой работы)
— «Нет, опенсурсные модели не догнали GPT-4» (про LLAMA-3 и оценку Эло-рейтинга, немного устаревший топик)
— «Образование в эпоху AI» (краткая версия, без опроса экспертов из индустрии и продуманных предсказаний о будущем)
— Почему ближайшее будущее AI индустрии во многом зависит от GPT-5?

Предлагайте ваши или выражайте заинтересованность в указанных опциях 💬
Please open Telegram to view this post
VIEW IN TELEGRAM
По традиции, SpaceX выпустили ролик с итогами прошедшего тестового запуска Starship. Посмотреть его можно вот тут на ютубе.

Напомню, пуск оказался более чем успешным — главной целью для корабля было пережить вход в атмосферу, а он смог даже включить двигатели и осуществить посадочный манёвр с мягким приводнением. Всё это несмотря на то, что прогорел плавник для управления; однако он держался до конца 🫡

В общем, финал полёта удивил не только зрителей, но и людей в командном центре — вот скриншоты из концовки видео 🥵люди сами не верят, что получилось 🙏

А ещё! Как обычно, анонсировали следующий полёт — и заявили о попытке посадки ускорителя на башню. Будем считать это официальным анонсом, а не просто словами Elon'а (он говорил, что скорее всего будут пробовать, но «посмотрим»). Очень-очень ждём! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Наткнулся на дискуссию Dwarkesh с пользователями ManifoldMarkets — сообщества, где люди делают предсказания и ставят деньги буквально на всё подряд: выборы, AI, политика, экономика.

Тема разговора — «Как выглядит март 2020-го для ИИ?». Почему именно март 20-го? Потому что это был момент, когда каждый СЕО компании, каждый руководитель страны, пресса, общество — все начали обращать внимание на COVID-19, все поняли, что это основная вещь, которая сейчас происходит. Это не означало, что нет других вещей, требующих внимания, но COVID у почти всех был первым пунктом повестки. Так вот если ИИ продолжит своё развитие, должны ли мы ожидать схожего момента?

Или может даже имеет смысл начать с января 2020-го. В Китае уже вспышка, доктора дают неутешительные прогнозы, как и эпидемиологи; эксперты ходят на ковёр к президенту и дают рекомендации по обезопашиванию населения. В это же время часть людей просто не верит и считает новости хайпом и преувеличением. Другая часть просто не обращает внимания и продолжает крутиться в колесе. А если вы не знали, то 2 из 3 отцов-основателя глубокого обучения говорят, что нужно опасаться ИИ и замедлить развитие, вводить регуляции. И в Белом доме, и в Сенате идут обсуждения.

С болезнями в серьёзных обсуждениях (на высших уровнях) чуть попроще. Есть показатель смертности, его оценка может варьироваться, но не на порядок. То ли дело оценка вероятности конца света у ИИ-специалистов, любое число от 0 до 100. Занятно, но в аудитории нашлась врач скорой помощи, работавшая в Нью-Йорке, и она говорит, что «Даже когда почти у каждого был знакомый или знакомый знакомого, который умер, люди всё равно продолжали не верить в серьёзность, выходили на улицы, собирались тусить, не соблюдали меры предосторожности. Я думаю, что это просто человеческая природа, не верить, что вещи настолько плохи. Я думала очень много, и пришла к выводу, что даже более высокая смертность не изменила бы что либо». Так что может даже если топовые исследователи сойдутся во мнении, что опасность есть и она вот такая – маловероятно, что какие-то меры регуляций будут поддержаны обществом (да уже слышно «это же монополия, как у алкоголя! всех хотят выжить с рынка»).

<дальше в видео шли обсуждения разных аналогий с созданием атомной бомбы, мировым правительством, принципами функционирования рынка и государств, но это менее интересные тезисы>

Что думаете вы, какое событие может на это повлиять? Найм двузначного процента AI-сотрудников Fortune-500 компанией?
В ноябре я писал про инициативу компании XTX Markets. Они выделили $10M чтобы подстегнуть прогресс AI в математике, и совместно с организаторами Международной Олимпиадой по Математике (International Mathematical Olympiad, IMO), спонсировали конкурс AIMOPrize. В его рамках на Kaggle, соревновательной площадке с задачами по машинному обучению, пару дней назад закончилось одноимённое соревнование.

Для него авторы приготовили 110 новых олимпиадных задач (то есть до этого если схожие и были, то лишь просто подобные). На 50 штуках решения оцениваются по ходу трёхмесячного соревнования, а на оставшихся 50 определяется победитель (перезапуском решений с новыми задачами, к которым ни у кого нет доступа). И ещё 10 задач были даны как примеры, с ними можете ознакомиться тут, чтобы прикинуть примерную сложность.

Решения принимаются в виде упакованного архива с кодом и моделями и запускаются в изолированном окружении, из которого даже логи нельзя читать (чтобы задачи не увидели). И конечно же никаких вызовов моделей OpenAI/Anthropic не был разрешено.

Результаты получились смешными. Команда, занявшая первое место, вырвалась вперёд, и её решение справилось с 29 задачами. Второе место осилило 22 задачи, 3-4 20 задач, и остальные меньше. Шутка в том, что ещё 3 месяца назад, почти в самом начале соревнования, опубликовали решение, которое (как оказалось после окончания) осилило 21 задачу. То есть почти все команды за 3 месяца, как бы сильно не пыхтели, не смогли улучшить решение так, чтобы оно обобщалось на новые, невиданные до этого проблемы.

Иначе говоря, если вы просто скопировали это решение и немного пошаманили с параметрами (основных два, напишу ниже), и это не испортило решение больше чем на 1 задачу — вы получаете золото. На 3 — серебро (то есть 18-19 задач).

А решение достаточно простое. Берётся китайская модель MMOS-DeepSeekMath-7B, натренированная на решение схожих задач через написание кода на Python. Для неё делается 2 промпта. Для каждой задачи генерируется до 19 решений. Иногда можно сгенерировать меньше — например, если первые сколько-то программ дают один и тот же ответ, то можно не продолжать, ведь вы уже уверены в результате. Так или иначе, после генерации ответы агрегируются методом голосования большинством: какой чаще был, тот и записываем.

Вот количество генераций — это один параметр. Люди пытались немного поменять логику отсечения (когда нужно браться за следующую задачу), или делать чуть больше/меньше генераций. Второй параметр — это температура генерации, которая отвечает за случайность. Так как генерируется больше десятка решений, то хочется, чтобы они немного да отличались. Поэтому мы позволяем иногда брать не самое вероятное следующее слово, а, скажем, второе или третье. Тут люди прям сильно крутили температуру, пытались понять, что лучше 😁 накрутились, что пролетели мимо золотых медалей.

Третье место уже выложило своё решение, они там то сё пробовали, анализировали ошибки, но итог мы знаем (21 балл 🤓). Буду очень ждать решение первого места, интересно, что сделали ребята. Они сказали, что дообучали свою LLM, но и китайской модели тоже не чужда математика и задачки.

===

Главная критика соревнования — ограничение на ресурсы. 50 задач должны решаться за 9 часов на видеокарточке P100...выпущенной в 2016м году. Памяти у неё мало, никаких больших моделей не влазит, даже 7B еле-еле с квантизацией пролазит. Генерация жутко медленная, про трансформеры и LLM тогда не знали, оптимизации нуль. Организаторов понять можно, им нужно прогонять сотни и тысячи решений, ресурсы не бесконечны, но это является большим ограничивающим фактором для участников. Скорее всего, можно было бы решить больше, 35-37 задач, если бы просто дали больше времени (24 часа вместо 9?) и карточка посовременнее. И это грустно 😪 надеюсь, в следующем году авторы исправятся, накинут побольше GPU, и мы увидим прорывы. Ведь главный приз в почти миллион долларов остался неразыгранным: для него нужно решить 47 задач.

В начале соревнования я дал предсказание, что из-за ограниченных ресурсов скорее всего никто не сможет набрать больше 30 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
В июне Google закрыл Google Podcasts, которым я пользовался долгое время. Идеально минимальный дизайн без ненужных фич, простое бесплатное скачивание + прослушивание в оффлайне хоть где, никакой регистрации (просто обычный аккаунт Google), и большинство авторов там постили.

Очень грустно 😢 мне завтра лететь 7 часов, придётся как-то по другому слушать(

1. Spotify - вне своей страны нельзя больше 14 суток пользоваться
2. Apple Podcasts - у меня андроид 🤷‍♂️
3. YouTube Music - не пробовал, но там нет двух из двух подкастов, которые я сейчас проверил

👍 офигенно. Берите на заметку, незанятая ниша. Ну или подскажите мне, пожалуйста, чем пользоваться.

Очередной убитый гуглом сервис 😂

The podcast in the question: https://www.latent.space/p/yitay
Please open Telegram to view this post
VIEW IN TELEGRAM