Совсем недавно я рассказывал об LLM для математики на митапе CS Space, и вот появилась мощная новость на эту тему. Говорят, новая секретная модель от OpenAI смогла нарешать на золотую медаль Международной математической олимпиады, IMO 2025! Но ведь ещё год назад AlphaProof не хватало одного балла до золота, так что же здесь удивительного? Я написал небольшой пост, здесь выложу только часть о новом результате:
Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?
29 мая появился новый бенчмарк MathArena: Balunovic et al. сравнили o3, o4-mini, Gemini-2.5-Pro, Grok-4 и Deepseek-R1 на разных математических олимпиадах, причём старались делать это с максимальной "силой" модели:
— порождали 32 ответа и выбирали лучший самой же моделью (best-of-32); это хороший способ улучшить результат, особенно в задачах на доказательство;
— проверяли вручную, участвовали четыре судьи с опытом проверки IMO и других олимпиад.
Когда такой эксперимент провели на IMO 2025, у них получилось то, что на рис. 2: огромный прогресс по сравнению с тем, что было в "Proof or Bluff", но далеко не золото. Пост от создателей бенчмарка так и назывался: "Not Even Bronze".
А 18-19 июля исследователи из OpenAI объявили, что их новая модель смогла добраться до уровня золота IMO 2025. У нас пока не так много информации: тред Alexander Wei, репозиторий с решениями задач и тред Noam Brown; если честно, мне кажется, что это "пока" ещё надолго, OpenAI ещё очень долго не планируют релиз этой модели.
И тем не менее кое-что мы узнали:
— это general reasoning LLM, не система вроде AlphaProof или DeepSeek-Prover; иначе говоря, это обычная LLM вроде o3-pro, только лучше, следующая итерация;
— очевидно, там было много улучшений, но главное, о чём пишут Wei и Brown — это следующий шаг в масштабировании test-time reasoning; современные модели "размышляют" в течение считанных минут подряд (Deep Research не считается), а эта секретная модель может думать уже в течение пары часов;
— кстати, о часах — модель участвовала наравне с людьми, в течение двух четырёхчасовых сессий; это тоже важно, потому что, например, AlphaProof в прошлом году решал задачи, кажется, трое суток;
— оценивали тоже наравне с людьми, три судьи с опытом оценки настоящих IMO; в результате модель набрала 35 баллов из 42, решив пять задач из шести; кстати, если это значит, что 5 из 6 решены на 7 баллов, а шестая никак (Wei не уточняет), то это тоже шаг вперёд от текущих LLM, которые всё время чего-то недоговаривают и набирают частичные баллы, даже если идея правильная.
Я хотел было обсудить какую-нибудь задачу из IMO 2025 и её решение новой моделью OpenAI... но быстро сдался. Решения хоть и читаемы в целом, но разбираться в них нелегко; на рис. 3 типичный кусочек.
Надеюсь, Фёдор Петров, который на митапе рассказывал про LLM и олимпиадные задачи, разберётся. Я готов поверить, что умными людьми уже проверено; достижение в любом случае замечательное.
На Manifold был на этот счёт prediction market, на котором отметились даже такие люди, как Пол Кристиано и Элиэзер Юдковский. В 2022 году Кристиано давал 4-8% на золото IMO к 2025 году, а Юдковский был более оптимистичен: "My probability is at least 16%". Конечно, в 2022 предсказать реальную скорость прогресса было очень сложно. Но и сейчас линия этого предсказания выглядит так, как на рис. 4: результат OpenAI был очень неожиданным!
Тизер поста — намёк на знаменитый мем о сборной США на IMO. Может быть, скоро роботы превзойдут людей и в математических олимпиадах. Но главное, конечно, не в том, чтобы решать олимпиадные задачки: шахматы не умерли после Deep Blue (а скорее набрали популярность), и математические олимпиады тоже не умрут.
Главное в том, сможет ли этот прогресс превратиться не просто в спортивный успех, а в новые математические результаты. А где математические, там и алгоритмические, а там и пресловутый self-improvement, первые шаги которого мы только что видели в AlphaEvolve.
И вот это уже очень, очень интересный вопрос.
Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?
29 мая появился новый бенчмарк MathArena: Balunovic et al. сравнили o3, o4-mini, Gemini-2.5-Pro, Grok-4 и Deepseek-R1 на разных математических олимпиадах, причём старались делать это с максимальной "силой" модели:
— порождали 32 ответа и выбирали лучший самой же моделью (best-of-32); это хороший способ улучшить результат, особенно в задачах на доказательство;
— проверяли вручную, участвовали четыре судьи с опытом проверки IMO и других олимпиад.
Когда такой эксперимент провели на IMO 2025, у них получилось то, что на рис. 2: огромный прогресс по сравнению с тем, что было в "Proof or Bluff", но далеко не золото. Пост от создателей бенчмарка так и назывался: "Not Even Bronze".
А 18-19 июля исследователи из OpenAI объявили, что их новая модель смогла добраться до уровня золота IMO 2025. У нас пока не так много информации: тред Alexander Wei, репозиторий с решениями задач и тред Noam Brown; если честно, мне кажется, что это "пока" ещё надолго, OpenAI ещё очень долго не планируют релиз этой модели.
И тем не менее кое-что мы узнали:
— это general reasoning LLM, не система вроде AlphaProof или DeepSeek-Prover; иначе говоря, это обычная LLM вроде o3-pro, только лучше, следующая итерация;
— очевидно, там было много улучшений, но главное, о чём пишут Wei и Brown — это следующий шаг в масштабировании test-time reasoning; современные модели "размышляют" в течение считанных минут подряд (Deep Research не считается), а эта секретная модель может думать уже в течение пары часов;
— кстати, о часах — модель участвовала наравне с людьми, в течение двух четырёхчасовых сессий; это тоже важно, потому что, например, AlphaProof в прошлом году решал задачи, кажется, трое суток;
— оценивали тоже наравне с людьми, три судьи с опытом оценки настоящих IMO; в результате модель набрала 35 баллов из 42, решив пять задач из шести; кстати, если это значит, что 5 из 6 решены на 7 баллов, а шестая никак (Wei не уточняет), то это тоже шаг вперёд от текущих LLM, которые всё время чего-то недоговаривают и набирают частичные баллы, даже если идея правильная.
Я хотел было обсудить какую-нибудь задачу из IMO 2025 и её решение новой моделью OpenAI... но быстро сдался. Решения хоть и читаемы в целом, но разбираться в них нелегко; на рис. 3 типичный кусочек.
Надеюсь, Фёдор Петров, который на митапе рассказывал про LLM и олимпиадные задачи, разберётся. Я готов поверить, что умными людьми уже проверено; достижение в любом случае замечательное.
На Manifold был на этот счёт prediction market, на котором отметились даже такие люди, как Пол Кристиано и Элиэзер Юдковский. В 2022 году Кристиано давал 4-8% на золото IMO к 2025 году, а Юдковский был более оптимистичен: "My probability is at least 16%". Конечно, в 2022 предсказать реальную скорость прогресса было очень сложно. Но и сейчас линия этого предсказания выглядит так, как на рис. 4: результат OpenAI был очень неожиданным!
Тизер поста — намёк на знаменитый мем о сборной США на IMO. Может быть, скоро роботы превзойдут людей и в математических олимпиадах. Но главное, конечно, не в том, чтобы решать олимпиадные задачки: шахматы не умерли после Deep Blue (а скорее набрали популярность), и математические олимпиады тоже не умрут.
Главное в том, сможет ли этот прогресс превратиться не просто в спортивный успех, а в новые математические результаты. А где математические, там и алгоритмические, а там и пресловутый self-improvement, первые шаги которого мы только что видели в AlphaEvolve.
И вот это уже очень, очень интересный вопрос.
❤26👍7🔥2
Главный девиз Google — "Don't be evil" — почему-то совсем не даётся OpenAI. За что ни возьмутся, какая-то мутная ерунда получается. И хотя на этот раз сами результаты, кажется, под сомнение не ставят, давайте вспомним сложные отношения OpenAI с математикой. Я написал большой пост, здесь приведу сокращённый кусочек про FrontierMATH и IMO 2025:
Deep Think и IMO 2025: сложные отношения OpenAI и математики
В январе 2025 года разразился целый "бенчмарк-гейт". Датасет FrontierMATH — сверхсложный математический бенчмарк от Epoch AI, содержащий задачи хоть и с заранее известными ответами, но близкие к исследовательской математике. Я много раз рассказывал о нём в докладах; последний был на CS Space митапе.
И вот OpenAI анонсирует, что o3 набрала на FrontierMATH 25% в то время, как другие модели набирают около 2%. Величайший прорыв в математических рассуждениях? Нууу... в общем да, но со звёздочкой. Оказалось, что OpenAI профинансировала создание FrontierMATH и имела доступ к задачам, а писавшие задачи математики не знали о связях с OpenAI! Потом выяснилось, что есть "holdout" набор задач, к которому у OpenAI нет доступа, но всё это звучало подозрительно. В том, насколько это мутная история, легко убедиться по первоисточникам: просто посмотрите на саму статью Glazer et al. (2024) о FrontierMATH; arXiv помнит всё, и рис. 2 показывает разные версии этой статьи.
Независимая проверка показала, что o3-mini набирает на тестовом множестве FrontierMATH всего 11%. Потом o4-mini показала себя гораздо лучше, и сейчас две верхние строчки с огромным отрывом занимает o4, да и дальше только Gemini 2.5 Pro может конкурировать (рис. 3). Но все до сих пор вспоминают объявление о 25%.
А сегодня мы собрались ради IMO 2025. Мы только что обсуждали, что экспериментальная модель OpenAI решила 5 из 6 задач и достигла уровня золотой медали. Результат действительно впечатляющий... но опять есть нюанс. По словам инсайдеров, организаторы IMO попросили все AI-компании не красть внимание у детей и подождать неделю после церемонии закрытия, прежде чем объявлять свои результаты (рис. 4, рис. 5). А OpenAI объявила результаты сразу после церемонии закрытия, но за неделю до срока, о котором просили; более того, OpenAI не сотрудничала с IMO для официального тестирования.
А вот Google DeepMind повела себя корректно. Их модель Deep Think тоже решила 5 из 6 задач IMO 2025. Как и у OpenAI, речь идёт не об Alpha Proof 2, а о том, что обычная LLM, экспериментальный вариант Gemini под названием Deep Think, решал задачи на естественном языке.
Но, во-первых, Google дождалась официальной сертификации результатов IMO, прежде чем делать объявление. Во-вторых — и это куда важнее для нас, пользователей — модель, которая участвовала в IMO, "на самом деле очень близка к основной модели Gemini, которую мы предлагаем людям". То есть почти готовый продукт, а OpenAI заявляла, что до релиза их модели ещё не меньше нескольких месяцев.
В-третьих, решения Deep Think опубликованы, и вот как они выглядят: сравните рис. 6 (OpenAI) и рис. 7 (Deep Think); у Deep Think куда человечнее. Наверняка можно попросить LLM переписать решения от OpenAI более понятно — но это отчасти подтверждает заявления о более близком релизе.
История отношений OpenAI с математическими бенчмарками — пример того, как не надо строить репутацию. Каждый раз компания технически ничего не нарушает, но ведёт себя мутно, и осадочек всё накапливается и накапливается... Хотя о чём это я, осадок от OpenAI уже давно высыпается из бокала.
В итоге получается странно: в обоих случаях OpenAI ведь и правда сделала большие прорывы в AI для математики. Текущие результаты o4-mini на FrontierMATH никто под сомнение не ставит, да и решения задач IMO, скорее всего, получены честно. Но я уверен, что репутация OpenAI от этих историй проиграла, а не выиграла. И зачем, спрашивается, так было делать?
Как говорится, я решил пятьдесят задач из FrontierMATH, но никто не называет меня "Сэм-Великий-Математик"; я решил пять из шести задач IMO 2025, но никто не называет меня "Сэм-Чемпион-Олимпиад"...
Deep Think и IMO 2025: сложные отношения OpenAI и математики
В январе 2025 года разразился целый "бенчмарк-гейт". Датасет FrontierMATH — сверхсложный математический бенчмарк от Epoch AI, содержащий задачи хоть и с заранее известными ответами, но близкие к исследовательской математике. Я много раз рассказывал о нём в докладах; последний был на CS Space митапе.
И вот OpenAI анонсирует, что o3 набрала на FrontierMATH 25% в то время, как другие модели набирают около 2%. Величайший прорыв в математических рассуждениях? Нууу... в общем да, но со звёздочкой. Оказалось, что OpenAI профинансировала создание FrontierMATH и имела доступ к задачам, а писавшие задачи математики не знали о связях с OpenAI! Потом выяснилось, что есть "holdout" набор задач, к которому у OpenAI нет доступа, но всё это звучало подозрительно. В том, насколько это мутная история, легко убедиться по первоисточникам: просто посмотрите на саму статью Glazer et al. (2024) о FrontierMATH; arXiv помнит всё, и рис. 2 показывает разные версии этой статьи.
Независимая проверка показала, что o3-mini набирает на тестовом множестве FrontierMATH всего 11%. Потом o4-mini показала себя гораздо лучше, и сейчас две верхние строчки с огромным отрывом занимает o4, да и дальше только Gemini 2.5 Pro может конкурировать (рис. 3). Но все до сих пор вспоминают объявление о 25%.
А сегодня мы собрались ради IMO 2025. Мы только что обсуждали, что экспериментальная модель OpenAI решила 5 из 6 задач и достигла уровня золотой медали. Результат действительно впечатляющий... но опять есть нюанс. По словам инсайдеров, организаторы IMO попросили все AI-компании не красть внимание у детей и подождать неделю после церемонии закрытия, прежде чем объявлять свои результаты (рис. 4, рис. 5). А OpenAI объявила результаты сразу после церемонии закрытия, но за неделю до срока, о котором просили; более того, OpenAI не сотрудничала с IMO для официального тестирования.
А вот Google DeepMind повела себя корректно. Их модель Deep Think тоже решила 5 из 6 задач IMO 2025. Как и у OpenAI, речь идёт не об Alpha Proof 2, а о том, что обычная LLM, экспериментальный вариант Gemini под названием Deep Think, решал задачи на естественном языке.
Но, во-первых, Google дождалась официальной сертификации результатов IMO, прежде чем делать объявление. Во-вторых — и это куда важнее для нас, пользователей — модель, которая участвовала в IMO, "на самом деле очень близка к основной модели Gemini, которую мы предлагаем людям". То есть почти готовый продукт, а OpenAI заявляла, что до релиза их модели ещё не меньше нескольких месяцев.
В-третьих, решения Deep Think опубликованы, и вот как они выглядят: сравните рис. 6 (OpenAI) и рис. 7 (Deep Think); у Deep Think куда человечнее. Наверняка можно попросить LLM переписать решения от OpenAI более понятно — но это отчасти подтверждает заявления о более близком релизе.
История отношений OpenAI с математическими бенчмарками — пример того, как не надо строить репутацию. Каждый раз компания технически ничего не нарушает, но ведёт себя мутно, и осадочек всё накапливается и накапливается... Хотя о чём это я, осадок от OpenAI уже давно высыпается из бокала.
В итоге получается странно: в обоих случаях OpenAI ведь и правда сделала большие прорывы в AI для математики. Текущие результаты o4-mini на FrontierMATH никто под сомнение не ставит, да и решения задач IMO, скорее всего, получены честно. Но я уверен, что репутация OpenAI от этих историй проиграла, а не выиграла. И зачем, спрашивается, так было делать?
Как говорится, я решил пятьдесят задач из FrontierMATH, но никто не называет меня "Сэм-Великий-Математик"; я решил пять из шести задач IMO 2025, но никто не называет меня "Сэм-Чемпион-Олимпиад"...
👍26❤8✍4🤨3😁1
Всю неделю занимаюсь формальными бумажками и болею изо всех сил, да и вообще во всём летнее затишье, так что постов нынче мало. Пусть хотя бы пятничный пост будет как обычно.
Snufkin: Melody of Moominvalley
Милая и незамысловатая игра про муми-троллей. Формально это RPG, там есть уровни и сайд-квесты, но на самом деле, конечно, это простенькое линейное приключение. Всё заканчивается быстро, за 3-4 часа вы спасёте Муми-дол, перетянете злых персонажей на сторону добра и увидите много всяческой милоты в довольно классической мумитролльной стилистике.
Если вы любите муми-троллей, рекомендую однозначно. Если любите детские добрые игры и нравится эстетика, тоже. Хотя, кстати, сами муми-тролли не такие уж детские по нынешним временам, они скорее искренне-жизненные. Вот, например, из "Муми-папа и море":
— Мы нашли ящик виски, — сообщил Муми-тролль.
— Великолепно! — сказала Муми-мама. — Теперь мы должны устроить пикник!
Лично я в целом не пожалел, что прошёл, это было очень мило. Но и не сказать, что очень увлекательно, особых твистов сюжета или крутого геймплея тут не ждите. Но расслабиться на вечер или в поездке отлично, мне на два самолёта хватило.
Timelie
Игра-головоломка, где основная механика — это стелс через управление временем. В каждой головоломке ты должен (то есть должна) пройти в дверь, не попадаясь на глаза роботам, и ты можешь перематывать время туда-обратно в любой момент очень детально. Есть, конечно, и ещё несколько механик, в том числе ужасно милый котик, который управляется отдельно и умеет привлекать внимание через мяукание — котики любой игре дают +1 балл сразу, конечно же.
Как головоломка Timelie работает хорошо: в основном проходится легко, но иногда есть о чём подумать, а перемотка времени гарантирует, что нет никакого бэктрекинга и переигрывания по новой, чем часто грешат чистые головоломки. Любителям пазлов рекомендую однозначно.
Но лично мне в игре всё время очень не хватало сюжета. Что вообще в игре происходит, решительно непонятно, всё очень, очень абстрактно. То, куда мы идём и зачем, мотивировано разве что тем, что за нами иногда гонится непонятная волна разрушения. Наверняка это какая-нибудь мощная метафора какой-нибудь потери (котика?). Если бы тут ещё и был хороший сюжет, как было, например, в чистой головоломке Filament (я её здесь не обозревал, а зря, надо бы вернуться к обзорам из архивов), это была бы игра на 8-9 баллов для меня.
Year Walk
Вот это тот жанр, который мне нравится! Очень короткая игра, которая рассказывает тебе интересные вещи, да ещё и немножко играет с четвёртой стеной. Советую просто взять и пройти, это займёт не больше пары часов и будет действительно интересно.
Year walk (Årsgång) — это реально существовавшая шведская традиция особого гадания, когда люди перед Новым годом или Рождеством сначала себя всячески очищали, а потом отправлялись в долгую ритуальную прогулку. Если у них всё на прогулке получалось, то они могли там увидеть будущее, отображение событий наступающего года. Но в игре, кроме шведского фольклора, есть ещё и сюжет (большая часть которого начинается после титров, не пропустите!), и всё умещается в два часа, так что спойлерить особо не буду, просто рекомендую попробовать.
Snufkin: Melody of Moominvalley
Милая и незамысловатая игра про муми-троллей. Формально это RPG, там есть уровни и сайд-квесты, но на самом деле, конечно, это простенькое линейное приключение. Всё заканчивается быстро, за 3-4 часа вы спасёте Муми-дол, перетянете злых персонажей на сторону добра и увидите много всяческой милоты в довольно классической мумитролльной стилистике.
Если вы любите муми-троллей, рекомендую однозначно. Если любите детские добрые игры и нравится эстетика, тоже. Хотя, кстати, сами муми-тролли не такие уж детские по нынешним временам, они скорее искренне-жизненные. Вот, например, из "Муми-папа и море":
— Мы нашли ящик виски, — сообщил Муми-тролль.
— Великолепно! — сказала Муми-мама. — Теперь мы должны устроить пикник!
Лично я в целом не пожалел, что прошёл, это было очень мило. Но и не сказать, что очень увлекательно, особых твистов сюжета или крутого геймплея тут не ждите. Но расслабиться на вечер или в поездке отлично, мне на два самолёта хватило.
Timelie
Игра-головоломка, где основная механика — это стелс через управление временем. В каждой головоломке ты должен (то есть должна) пройти в дверь, не попадаясь на глаза роботам, и ты можешь перематывать время туда-обратно в любой момент очень детально. Есть, конечно, и ещё несколько механик, в том числе ужасно милый котик, который управляется отдельно и умеет привлекать внимание через мяукание — котики любой игре дают +1 балл сразу, конечно же.
Как головоломка Timelie работает хорошо: в основном проходится легко, но иногда есть о чём подумать, а перемотка времени гарантирует, что нет никакого бэктрекинга и переигрывания по новой, чем часто грешат чистые головоломки. Любителям пазлов рекомендую однозначно.
Но лично мне в игре всё время очень не хватало сюжета. Что вообще в игре происходит, решительно непонятно, всё очень, очень абстрактно. То, куда мы идём и зачем, мотивировано разве что тем, что за нами иногда гонится непонятная волна разрушения. Наверняка это какая-нибудь мощная метафора какой-нибудь потери (котика?). Если бы тут ещё и был хороший сюжет, как было, например, в чистой головоломке Filament (я её здесь не обозревал, а зря, надо бы вернуться к обзорам из архивов), это была бы игра на 8-9 баллов для меня.
Year Walk
Вот это тот жанр, который мне нравится! Очень короткая игра, которая рассказывает тебе интересные вещи, да ещё и немножко играет с четвёртой стеной. Советую просто взять и пройти, это займёт не больше пары часов и будет действительно интересно.
Year walk (Årsgång) — это реально существовавшая шведская традиция особого гадания, когда люди перед Новым годом или Рождеством сначала себя всячески очищали, а потом отправлялись в долгую ритуальную прогулку. Если у них всё на прогулке получалось, то они могли там увидеть будущее, отображение событий наступающего года. Но в игре, кроме шведского фольклора, есть ещё и сюжет (большая часть которого начинается после титров, не пропустите!), и всё умещается в два часа, так что спойлерить особо не буду, просто рекомендую попробовать.
❤17
Как я писал раньше, блог Synthesis AI должен будет превратиться в блог Mach Labs, но последнего как-то пока всё не появляется. Но в любом случае мы договорились, что свои старые посты я сохраню самостоятельно, перенеся их на свой собственный сайт.
На выходных начал заливать старые посты в блог на сайте. К сожалению, оказалось, что хотя и тот и другой блог в WordPress, это не просто export и import, технической работы при переносе довольно много. С другой стороны, постов не то чтобы безграничное количество, так что я уже дошёл до начала мега-серии про generative AI.
Поностальгировал знатно. Конечно, большинство этих постов (кроме исторических) уже вряд ли интересны по существу, но прикольно было вспомнить, как оно было пять лет назад. Давайте я попробую и вам напомнить, но разобью на несколько постов — у меня сейчас по свежему материалу затишье, а тут прямо много всего, вдруг будет интересно.
Вот какие посты и мини-серии были в 2020 году (даю уже ссылки на новый сайт); здесь всё про синтетические данные, главный фокус Synthesis AI.
— The Data Problem (Part I, Part II, Part III, Part IV; рис. 1): зачем вообще нужны синтетические данные, в чём "the data problem" у моделей машинного обучения (сейчас в контексте LLM, кстати, она опять актуальна, но это отдельный разговор);
— Synthetic Data: The Early Days (Part I, Part II; рис. 2): история синтетических данных в машинном обучении с 1960-х годов;
— Synthetic Data for Robots (Part I, Part II; рис. 3): почему синтетические симуляторы необходимы в роботике (это до сих пор, конечно, так и есть); первая часть опять же начинает с ранней истории, с того самого Stanford Cart, любопытно было вспомнить;
— Synthetic Data Research Review: Context-Agnostic Cut-and-Paste (рис. 4): промежуточный пост об одной важной (тогда) статье;
— Object Detection with Synthetic Data (Part I, Part II, Part III, Part IV, Part V; рис. 5): длинная серия о том, как синтетические данные используются для распознавания объектов; в первой части говорю о том, что это за задача такая вообще (обвести объекты в bounding boxes), а потом в основном обсуждаю существующие синтетические датасеты для object detection и последние (в 2020) результаты.
Наверное, хватит для начала.) Если будет желание, посмотрите особенно исторические посты и первые части серий, их вполне можно читать и сейчас. Ну и, конечно, всё это было тесно связано с моей книгой "Synthetic Data for Deep Learning", но это уже совсем другая история.
На выходных начал заливать старые посты в блог на сайте. К сожалению, оказалось, что хотя и тот и другой блог в WordPress, это не просто export и import, технической работы при переносе довольно много. С другой стороны, постов не то чтобы безграничное количество, так что я уже дошёл до начала мега-серии про generative AI.
Поностальгировал знатно. Конечно, большинство этих постов (кроме исторических) уже вряд ли интересны по существу, но прикольно было вспомнить, как оно было пять лет назад. Давайте я попробую и вам напомнить, но разобью на несколько постов — у меня сейчас по свежему материалу затишье, а тут прямо много всего, вдруг будет интересно.
Вот какие посты и мини-серии были в 2020 году (даю уже ссылки на новый сайт); здесь всё про синтетические данные, главный фокус Synthesis AI.
— The Data Problem (Part I, Part II, Part III, Part IV; рис. 1): зачем вообще нужны синтетические данные, в чём "the data problem" у моделей машинного обучения (сейчас в контексте LLM, кстати, она опять актуальна, но это отдельный разговор);
— Synthetic Data: The Early Days (Part I, Part II; рис. 2): история синтетических данных в машинном обучении с 1960-х годов;
— Synthetic Data for Robots (Part I, Part II; рис. 3): почему синтетические симуляторы необходимы в роботике (это до сих пор, конечно, так и есть); первая часть опять же начинает с ранней истории, с того самого Stanford Cart, любопытно было вспомнить;
— Synthetic Data Research Review: Context-Agnostic Cut-and-Paste (рис. 4): промежуточный пост об одной важной (тогда) статье;
— Object Detection with Synthetic Data (Part I, Part II, Part III, Part IV, Part V; рис. 5): длинная серия о том, как синтетические данные используются для распознавания объектов; в первой части говорю о том, что это за задача такая вообще (обвести объекты в bounding boxes), а потом в основном обсуждаю существующие синтетические датасеты для object detection и последние (в 2020) результаты.
Наверное, хватит для начала.) Если будет желание, посмотрите особенно исторические посты и первые части серий, их вполне можно читать и сейчас. Ну и, конечно, всё это было тесно связано с моей книгой "Synthetic Data for Deep Learning", но это уже совсем другая история.
🔥15👍2