Когда агенты начнут всерьез жрать рабочие места белых воротничков, будет два противоположных вида страховки: лицензия от регулятора и контролируемая ебанутость.
С регуляторами все понятно: кто-то должен ставить свою подпись под AI слопом. Мой налоговый консультант отвечает на емейлы явно гпт-шным текстом и берет за это полторы сотни в час. Его лицензия все еще будет иметь ценность, даже если claude 5 будет составлять такие же запросы в налоговую из коробки.
Про ебанутость не так очевидно. Типичные верифицируемые задачи продолжат загоняться в посттрейнинг и будут выучиваться до некоторой моды в статистическом смысле, на выходе много качественного информационного фастфуда. Говорю совершенно без осуждения: фастфуд может быть относительно здоровым, зато безгранично доступным. Вот и средний AI-генеренный код лучше среднего человеческого кода, он редко изящный, но читаемый и решает задачу. Аналогично с текстами, решениями рядовых менеджеров, диагнозами уставших терапевтов и так далее.
Только вот компромиссные решения - это скорее регрессия к среднему, защита от плохих исходов, скучное корпоративное болото с малым прогнозируемым ростом, не прогресс и не искусство. Действия opinionated людей - статистический выброс, они повышают лосс. Иногда надо делать не по учебнику, а иррационально принять риск. Настолько иррационально, что кто-то из нормисов может крутить пальцем у виска. Reward модель вашей любимой LLM скорее всего бы оценила тексты вашего любимого писателя не слишком высоко.
Но первое слово в словосочетании "контролируемая ебанутость" не менее важно - просто быть хаотичным дурачком недостаточно. В Кремниевой долине десятилетиями пели гимны фаундерам, бросившим универ. Но есть нюанс: такой архетипичный бунтарь должен бросить условный Стэнфорд (а значит, и попасть туда для начала), а не смолевическое заборостроительное училище. Иррациональный риск не должен быть лудоманией, а чувак с мнением - просто капризным мудаком.
В одном эти две крайности сходятся: исполнительные закрыватели тикетов в джире не нужны.
С регуляторами все понятно: кто-то должен ставить свою подпись под AI слопом. Мой налоговый консультант отвечает на емейлы явно гпт-шным текстом и берет за это полторы сотни в час. Его лицензия все еще будет иметь ценность, даже если claude 5 будет составлять такие же запросы в налоговую из коробки.
Про ебанутость не так очевидно. Типичные верифицируемые задачи продолжат загоняться в посттрейнинг и будут выучиваться до некоторой моды в статистическом смысле, на выходе много качественного информационного фастфуда. Говорю совершенно без осуждения: фастфуд может быть относительно здоровым, зато безгранично доступным. Вот и средний AI-генеренный код лучше среднего человеческого кода, он редко изящный, но читаемый и решает задачу. Аналогично с текстами, решениями рядовых менеджеров, диагнозами уставших терапевтов и так далее.
Только вот компромиссные решения - это скорее регрессия к среднему, защита от плохих исходов, скучное корпоративное болото с малым прогнозируемым ростом, не прогресс и не искусство. Действия opinionated людей - статистический выброс, они повышают лосс. Иногда надо делать не по учебнику, а иррационально принять риск. Настолько иррационально, что кто-то из нормисов может крутить пальцем у виска. Reward модель вашей любимой LLM скорее всего бы оценила тексты вашего любимого писателя не слишком высоко.
Но первое слово в словосочетании "контролируемая ебанутость" не менее важно - просто быть хаотичным дурачком недостаточно. В Кремниевой долине десятилетиями пели гимны фаундерам, бросившим универ. Но есть нюанс: такой архетипичный бунтарь должен бросить условный Стэнфорд (а значит, и попасть туда для начала), а не смолевическое заборостроительное училище. Иррациональный риск не должен быть лудоманией, а чувак с мнением - просто капризным мудаком.
В одном эти две крайности сходятся: исполнительные закрыватели тикетов в джире не нужны.
130🤝68❤30👍18🤡10😨2🐳1
Чтобы гора сгенеренного кода меня не поглотила, к процессу вайбкодинга AI assisted разработки нужно было добавить и AI-based ревью. Но ожидаемо Клод слишком любит код, написанный Клодом, и мышей ловил недостаточно.
Так я начал использовать opencode с Gemini для ревью. Сначала все было хорошо, Gemini - такая странная модель, которую нельзя подпускать к написанию кода (мой любимый комментарий про это), но критиковать умеет по делу. Opencode был всем неплох, но жрал тонны памяти и периодически зависал в неинтерактивном режиме (в т.ч. на CI). Короче, not invented here синдром назревал.
https://github.com/arsenyinfo/nitpicker - just another code review agent. Быстрый, маленький, умеет в LLM council (хоть где-то пригодится подписка на z.ai и minimax), и за счет этого ловит довольно много ошибок (хотя и ценой ложных срабатываний).
Так я начал использовать opencode с Gemini для ревью. Сначала все было хорошо, Gemini - такая странная модель, которую нельзя подпускать к написанию кода (мой любимый комментарий про это), но критиковать умеет по делу. Opencode был всем неплох, но жрал тонны памяти и периодически зависал в неинтерактивном режиме (в т.ч. на CI). Короче, not invented here синдром назревал.
https://github.com/arsenyinfo/nitpicker - just another code review agent. Быстрый, маленький, умеет в LLM council (хоть где-то пригодится подписка на z.ai и minimax), и за счет этого ловит довольно много ошибок (хотя и ценой ложных срабатываний).
1❤56👍17😁8❤🔥1🔥1🙏1
Поскольку Anthropic активно лезет в code review, мне тоже пришлось закоммитить чего-то нового в nitpicker. В частности:
- добавил флаг
- добавил команду
nitpicker уже активно [больше одного человека] пилотируют в некоторых [одном] бигтехе, я буквально в шаге от того, чтобы подниматьраунд стакан с пивком
- добавил флаг
--debate, чтобы ревьюверы могли друг с другом спорить, по вайбам выглядит полезно, пусть и медленнее параллельного ревью.- добавил команду
ask, чтобы ревьюверы могли не только ревьювить, но и просто обсуждать какие-то идеи про этот код (например, быстро приходят к консенсусу, что переписывать nitpicker на zig - тупая идея).nitpicker уже активно [больше одного человека] пилотируют в некоторых [одном] бигтехе, я буквально в шаге от того, чтобы поднимать
1😁74👍30🐳11🔥7❤2❤🔥1🍾1
Слово harness стало резко популярным в моем пузыре (кстати, отличный глубокий обзор про то, что это вообще такое и зачем). И когда из single agent подходов стало тяжелее выжимать заметный буст, все стали смотреть на мультиагентные конфигурации.
Я и сам немного экспериментирую с переменным успехом (первая выжившая версия едва ли была полезнее обычного клодкода, nitpicker - тоже один из экспериментов; остальное в закрытой репе, но идейно близко к этому свежему посту от Anthropic).
Есть направление про agentic swarms / teams, в котором агенты как-то сотрудничают, делегируют, наделяются разными ролями и вообще ведут себя антропоморфно. Некоторые проекты из этой категории удивительно кринжовые, например, Gastown - не хватало еще, чтобы агенты собирались в гильдии и ходили в рейды.
Есть направление, в котором тонкое взаимодействие заменяется брутфорсом, циклами и умеренно наивной валидацией: это и моментально ставший классическим эксперимент про компилятор C от Антропика, и подходы на базе Ralph Loop. Дорогие агенты, делайте что хотите, но будете перемножать матрицы, пока тесты и AI ревью не пройдут.
Мне интутивно кажется, что второй подход ближе к прикладному применению. Все эти антропоморфные идеи и ролевой скевоморфизм чем-то напоминают попытки улучшать современные нейросети, отталкиваясь от строения синапсов. Я предпочитаю map reduce как дефолтный подход к параллелизации, а не заклинания "этот агент будет вести себя как senior frontend developer, а этот - staff UX designer". Люди вынуждены делиться по компетенциям, потому что у нас недостаточно общего претрейна. У агентов он есть, потому их нужно структурировать в графы по данным / задачам, а не по человекочитаемым тайтлам.
С другой стороны, Anthropic сделал свои teams отчасти антропоморфными. Китайские open weight провайдеры тоже вкручивают agent teams нативно в обучение (см kimi 2.5, minimax 2.7). И несмотря на то, что существующие claude agent teams никому пока не нравятся, победит, конечно, тот подход, который затюнят на посттрейне. Повторюсь: we can't fight gradient descent.
Я и сам немного экспериментирую с переменным успехом (первая выжившая версия едва ли была полезнее обычного клодкода, nitpicker - тоже один из экспериментов; остальное в закрытой репе, но идейно близко к этому свежему посту от Anthropic).
Есть направление про agentic swarms / teams, в котором агенты как-то сотрудничают, делегируют, наделяются разными ролями и вообще ведут себя антропоморфно. Некоторые проекты из этой категории удивительно кринжовые, например, Gastown - не хватало еще, чтобы агенты собирались в гильдии и ходили в рейды.
Есть направление, в котором тонкое взаимодействие заменяется брутфорсом, циклами и умеренно наивной валидацией: это и моментально ставший классическим эксперимент про компилятор C от Антропика, и подходы на базе Ralph Loop. Дорогие агенты, делайте что хотите, но будете перемножать матрицы, пока тесты и AI ревью не пройдут.
Мне интутивно кажется, что второй подход ближе к прикладному применению. Все эти антропоморфные идеи и ролевой скевоморфизм чем-то напоминают попытки улучшать современные нейросети, отталкиваясь от строения синапсов. Я предпочитаю map reduce как дефолтный подход к параллелизации, а не заклинания "этот агент будет вести себя как senior frontend developer, а этот - staff UX designer". Люди вынуждены делиться по компетенциям, потому что у нас недостаточно общего претрейна. У агентов он есть, потому их нужно структурировать в графы по данным / задачам, а не по человекочитаемым тайтлам.
С другой стороны, Anthropic сделал свои teams отчасти антропоморфными. Китайские open weight провайдеры тоже вкручивают agent teams нативно в обучение (см kimi 2.5, minimax 2.7). И несмотря на то, что существующие claude agent teams никому пока не нравятся, победит, конечно, тот подход, который затюнят на посттрейне. Повторюсь: we can't fight gradient descent.
❤42👍12🔥3😁2💯2👏1
Семь лет назад я занимался AR примеркой обуви. Однажды к нам пришел один из VC партнеров и спросил: "а почему у вас в приложении нет allbirds? В Долине все только их и носят".
Процедура добавления новой модели предполагала покупку физической пары, потом их сканировали, делали фотограмметрию, а результат доводили до ума руками. Так на полке со скопившейся обувью осталась пара allbirds ровно моего размера, и при увольнении мне ее подарили.
С тех пор я стоптал пар пять этих прекрасных кроссовок разных цветов, они подходили мне идеально. И вот эпоха ушла: allbirds официально переключаются с обуви на GPU инфраструктуру. Раньше мы нагружали видеокарты, чтобы рендерить их кроссовки, теперь они сами будут продавать GPU-часы.
Процедура добавления новой модели предполагала покупку физической пары, потом их сканировали, делали фотограмметрию, а результат доводили до ума руками. Так на полке со скопившейся обувью осталась пара allbirds ровно моего размера, и при увольнении мне ее подарили.
С тех пор я стоптал пар пять этих прекрасных кроссовок разных цветов, они подходили мне идеально. И вот эпоха ушла: allbirds официально переключаются с обуви на GPU инфраструктуру. Раньше мы нагружали видеокарты, чтобы рендерить их кроссовки, теперь они сами будут продавать GPU-часы.
😁125👀15🤣12❤8⚡3😢1
Когда-то я писал про вакансию DL инженера у моих старых корешей из GRAI.fm🎵. Прошло 10 месяцев, и ребята пришли ко мне снова. Они подняли жирный seed раунд, и теперь им нужен еще один могучий ресерч инженер, чтобы обмазываться статьями про аудио и доводить их до продукта. На самом деле инженерных вакансий больше - например, нужен и человек про датку и MLOps.
Их СТО утверждает, что лучшие люди в их команду пришли именно из моего канала, так что не подведите и в этот раз, дорогие подписчики.
Их СТО утверждает, что лучшие люди в их команду пришли именно из моего канала, так что не подведите и в этот раз, дорогие подписчики.
❤51👍8😁4
Мне недавно написал Макс (ресерчер в tessl.io и автор канала @max_dot_sh) и спросил, планирую ли я что-то добавлять в nitpicker. Так я узнал про третью компанию, в которой инженеры всерьез используют мою поделку. Удачное совпадение: как раз на прошлой неделе добрался катнуть несколько изменений.
Во-первых, включил режим debate по умолчанию и подкрутил промпты, чтобы максимизировать adversarial аспект. Ожидаемо все стало еще медленнее.
Во-вторых, попробовав гонять nitpicker на больших проектах целиком вместо мелких пулл реквестов, я уткнулся в ограничения контекста: агент легко мог выжрать 200к+ токенов и упасть. Так что я добавил поддержку субагентов и сжатие контекста после отсечки. По совпадению, субагентов я добавил к релизу Kimi 2.6, которая специально обучена на активное их использование. Правда, еще Kimi регулярно заикалась, пытаясь вызывать одинаковые тулы по кругу, пришлось обмазывать костылями про loop detection.
В итоге машинка может сжечь под миллион токенов и 20 минут на ревью пулл реквеста на 500 строк, что вроде бы долго и дорого. С другой стороны, я проверил на нескольких настоящих живых проектах, и везде нашел какие-то пусть и не критичные, но достойные внимания баги или уязвимости. Люксовые конфиги типа opus 4.7 + gpt 5.5 работают лучше, но и на доступных китайских open weights моделях типа Kimi + GLM результат не полный слоп.
Это все еще вайбчек, а не бенчмарк - надеюсь как-нибудь найти время и померять системно.
Во-первых, включил режим debate по умолчанию и подкрутил промпты, чтобы максимизировать adversarial аспект. Ожидаемо все стало еще медленнее.
Во-вторых, попробовав гонять nitpicker на больших проектах целиком вместо мелких пулл реквестов, я уткнулся в ограничения контекста: агент легко мог выжрать 200к+ токенов и упасть. Так что я добавил поддержку субагентов и сжатие контекста после отсечки. По совпадению, субагентов я добавил к релизу Kimi 2.6, которая специально обучена на активное их использование. Правда, еще Kimi регулярно заикалась, пытаясь вызывать одинаковые тулы по кругу, пришлось обмазывать костылями про loop detection.
В итоге машинка может сжечь под миллион токенов и 20 минут на ревью пулл реквеста на 500 строк, что вроде бы долго и дорого. С другой стороны, я проверил на нескольких настоящих живых проектах, и везде нашел какие-то пусть и не критичные, но достойные внимания баги или уязвимости. Люксовые конфиги типа opus 4.7 + gpt 5.5 работают лучше, но и на доступных китайских open weights моделях типа Kimi + GLM результат не полный слоп.
Это все еще вайбчек, а не бенчмарк - надеюсь как-нибудь найти время и померять системно.
🔥35❤7👍4😁2
Наблюдая одним глазом за внедрением кодинг агентов на разных уровнях в разных компаниях, я не могу ответить на один вопрос: зачем топ-менеджеры поддерживают (а иногда и форсят) политику, что менеджеры теперь всерьез должны коммитить код. Не тимлиды, а настоящие менеджеры менеджеров, часто директора и выше. Не только прототипы на коленке, но и прямо в основные репозитории.
На реддите воют, что такие директорские пуллреквесты в лучшем случае бесполезны. Типичный директор и так не страдает от безделия, у него есть возможность мультипликативно усилить свою команду. И даже самые умные из них обычно знают кишки проектов хуже рядовых разработчиков. Агенты - великие уравнители; и директор, и L4 гребец будут промптить примерно одинаково, только инженер, будучи в контексте проекта, с большей вероятностью отловит слоп до попадания в прод.
Я понимаю, что вайбкодить - особенно в первое время - может быть тупо интересно. Но где тут рациональное зерно, зачем делать из дорогих менеджеров посредственных IC? Пожалуйста, расскажите в комментариях, что я упускаю - не готов поверить, что на волне хайпа экзеки просто слетают с катушек.
На реддите воют, что такие директорские пуллреквесты в лучшем случае бесполезны. Типичный директор и так не страдает от безделия, у него есть возможность мультипликативно усилить свою команду. И даже самые умные из них обычно знают кишки проектов хуже рядовых разработчиков. Агенты - великие уравнители; и директор, и L4 гребец будут промптить примерно одинаково, только инженер, будучи в контексте проекта, с большей вероятностью отловит слоп до попадания в прод.
Я понимаю, что вайбкодить - особенно в первое время - может быть тупо интересно. Но где тут рациональное зерно, зачем делать из дорогих менеджеров посредственных IC? Пожалуйста, расскажите в комментариях, что я упускаю - не готов поверить, что на волне хайпа экзеки просто слетают с катушек.
12👍80❤16😁4
Многие из вас видели заголовок Rewrite Bun in Rust has been merged или, возможно, читали пересказы в популярных каналах (1, 2).
Это сделанный агентом PR на 1 млн строк. Такие масштабы от меня далеки, но с похожими штуками я недавно ковырялся. Далеки - это в данном случае два порядка: получалось добиться успешной трансляции Typescript => Rust на 10к строк. Мои условия были в чем-то сложнее, чем в истории с Bun: тестовое покрытие значительно хуже, и волшебного Mythos у меня тоже не было, только Opus 4.6, GPT 5.4 и готовность сжигать миллионы токенов в дебатах между ними (как у nitpicker).
Этот эксперимент TS=>Rust не заработал с первой попытки, но ломался исключительно на границах - например, не идеально совпадали env var для докерфайла. Тот же харнесс пробовали применить и для более сложной/масштабной задачи, и там one shot работал еще хуже, но в основном тоже из-за сложности в интеграции и нехватки специфического контекста. Там пришлось двигаться итеративно, и каждая такая итерация подсвечивала новые пробелы в контексте, несовершенство тестов и бенчмарков.
В случае Bun отдельный вектор критики в том, что в Rust ветке примерно 10к вхождений
Rust was accidentally designed for AI-assisted development 10 years before anyone knew that mattered. И сложно представить, что может изменить эту траекторию.
Это сделанный агентом PR на 1 млн строк. Такие масштабы от меня далеки, но с похожими штуками я недавно ковырялся. Далеки - это в данном случае два порядка: получалось добиться успешной трансляции Typescript => Rust на 10к строк. Мои условия были в чем-то сложнее, чем в истории с Bun: тестовое покрытие значительно хуже, и волшебного Mythos у меня тоже не было, только Opus 4.6, GPT 5.4 и готовность сжигать миллионы токенов в дебатах между ними (как у nitpicker).
Этот эксперимент TS=>Rust не заработал с первой попытки, но ломался исключительно на границах - например, не идеально совпадали env var для докерфайла. Тот же харнесс пробовали применить и для более сложной/масштабной задачи, и там one shot работал еще хуже, но в основном тоже из-за сложности в интеграции и нехватки специфического контекста. Там пришлось двигаться итеративно, и каждая такая итерация подсвечивала новые пробелы в контексте, несовершенство тестов и бенчмарков.
В случае Bun отдельный вектор критики в том, что в Rust ветке примерно 10к вхождений
unsafe в 700 файлах - "какой же это раст???". Не вижу в этом серьезной проблемы. Наверняка в этой миграции частью дизайна было "переносим все как есть строка в строку, а потом уже оптимизируем. Какое-то количество unsafe кода в рантайме практически неизбежно, и это окей - идиоматичный стиль не запрещает unsafe, а только рекомендует использовать его компактно, обернув в безопасный интерфейсы. Принцип make it work, make it right, make it fast никто не отменял, и снизить количество этих unsafe кусков тем же харнессом с моего дивана не представляется проблемой.Rust was accidentally designed for AI-assisted development 10 years before anyone knew that mattered. И сложно представить, что может изменить эту траекторию.
❤28🤝4💩2👍1
Личный карьерный апдейт: третью неделю работаю в archestra.ai, моя задача - тащить современный агентский слой в широком смысле слова. Иными словами, вернулся к позиции "писать в меру экспериментальный опенсорс за деньги". Снова работать в команде из семи человек после недолгого захода в бигтех - кайф.
Archestra - security-first инфра платформа для агентов. Запустить openclaw-like агента локально несложно, особенно в YOLO режиме; раскатить на большую организацию - совсем не тривиально. Для больших ребят есть enterprise лицензия, forward deployed engineers и все такое; для энтузиастов и компаний поменьше есть опенсорсная репа, которую можно развернуть в любом кластере.
Как я люблю шутить, моя главная роль в любом стартапе - это привлекать удачу, например, вот этот $10M seed, к которому я, конечно, отношения не имею. Зато теперь мне официально не придется ограничивать себя в токенмаксинге.
Archestra - security-first инфра платформа для агентов. Запустить openclaw-like агента локально несложно, особенно в YOLO режиме; раскатить на большую организацию - совсем не тривиально. Для больших ребят есть enterprise лицензия, forward deployed engineers и все такое; для энтузиастов и компаний поменьше есть опенсорсная репа, которую можно развернуть в любом кластере.
Как я люблю шутить, моя главная роль в любом стартапе - это привлекать удачу, например, вот этот $10M seed, к которому я, конечно, отношения не имею. Зато теперь мне официально не придется ограничивать себя в токенмаксинге.
🔥74❤24👎5👏3
История с закрытием доступа к Fable - повод тянуться за шампанским в офисах провайдеров открытых моделей. Каждый executive, который участвовал во внедрении AI в своей организации (т.е. просто каждый executive), резко задумался: "А что и кому они внезапно отключат в следующий раз?". Все страхи про вендорлок материализовались мгновенно, даже если конкретно в этой компании Fable и не начали использовать, да и не планировали.
И поэтому все мультивендорные альтернативы резко заиграли новыми красками. Во-первых, бигтехи, перепродающие много моделей под своей крышей (AWS Bedrock, Databricks Unity AI Gateway, Cursor в случае кодинг агентов). Но это полумера, все еще сильная зависимость от топовых лаб. Потому есть и во-вторых: выбрать что-то с open weights, как раз ключевые игроки в этой нише недавно выкатили свежие релизы (Minimax 3, Kimi 2.7, GLM 5.2). Сменить провайдера в таком сетапе совершенно не проблема.
Где-то тут еще витают страхи, что токены в обозримом будущем подорожают, чтобы отбивать венчурные сотни миллиардов, кодинг агенты по подписке снизят лимиты / перестанут быть доступны для корпораций. В общем, беспокойное время для менеджеров, хорошее время делать vendor-agnostic платформы.
Openrouter идеально подгадал по времени и выкатил fusion ендпоинт, из которого неспециалист достанет только один тейк - "микс из моделей попроще работает не хуже топовой модели". Воспитанные кагглом люди помнят, что ансамбли слабо скоррелированных моделей - универсальный молоток. Дьявол все еще в деталях, универсального способа блендить LLM пока не видно, хотя для частных случаев что-то придумать можно.
—
Именно для этих экспериментов я в свое время и сделал nitpicker - чтобы вайбчекать варианты бленда моделей, пытаясь получить близкое к tier-1 качество, используя tier-2 модели (впрочем, никто не мешает жечь и токены опуса/gpt).
Для тех, кому лень ставить незнакомый софт, сделал бесплатную веб-версию. Ограничения: одно ревью на всех в момент времени, работает только с публичными PR на гитхабе, те самые tier-2 модели, аптайм не гарантирован (хостится у меня под теликом).
И поэтому все мультивендорные альтернативы резко заиграли новыми красками. Во-первых, бигтехи, перепродающие много моделей под своей крышей (AWS Bedrock, Databricks Unity AI Gateway, Cursor в случае кодинг агентов). Но это полумера, все еще сильная зависимость от топовых лаб. Потому есть и во-вторых: выбрать что-то с open weights, как раз ключевые игроки в этой нише недавно выкатили свежие релизы (Minimax 3, Kimi 2.7, GLM 5.2). Сменить провайдера в таком сетапе совершенно не проблема.
Где-то тут еще витают страхи, что токены в обозримом будущем подорожают, чтобы отбивать венчурные сотни миллиардов, кодинг агенты по подписке снизят лимиты / перестанут быть доступны для корпораций. В общем, беспокойное время для менеджеров, хорошее время делать vendor-agnostic платформы.
Openrouter идеально подгадал по времени и выкатил fusion ендпоинт, из которого неспециалист достанет только один тейк - "микс из моделей попроще работает не хуже топовой модели". Воспитанные кагглом люди помнят, что ансамбли слабо скоррелированных моделей - универсальный молоток. Дьявол все еще в деталях, универсального способа блендить LLM пока не видно, хотя для частных случаев что-то придумать можно.
—
Именно для этих экспериментов я в свое время и сделал nitpicker - чтобы вайбчекать варианты бленда моделей, пытаясь получить близкое к tier-1 качество, используя tier-2 модели (впрочем, никто не мешает жечь и токены опуса/gpt).
Для тех, кому лень ставить незнакомый софт, сделал бесплатную веб-версию. Ограничения: одно ревью на всех в момент времени, работает только с публичными PR на гитхабе, те самые tier-2 модели, аптайм не гарантирован (хостится у меня под теликом).
1👍48❤23🔥8😁3🐳1💯1
partially unsupervised
История с закрытием доступа к Fable - повод тянуться за шампанским в офисах провайдеров открытых моделей. Каждый executive, который участвовал во внедрении AI в своей организации (т.е. просто каждый executive), резко задумался: "А что и кому они внезапно отключат…
Самая недохайпованная AI лаба тоже верит в будущее за оркестрацией доступных моделей.
Frontier-level performance without single-vendor dependency.
> Our Fugu models surpass publicly accessible frontier models and are shoulder-to-shoulder with Fable 5 and Mythos Preview in various rigorous engineering, scientific, and reasoning benchmarks while delivering frontier capability without the risk of export controls.
Как обычно, европейцам без впна можно только почитать репорт.
Frontier-level performance without single-vendor dependency.
> Our Fugu models surpass publicly accessible frontier models and are shoulder-to-shoulder with Fable 5 and Mythos Preview in various rigorous engineering, scientific, and reasoning benchmarks while delivering frontier capability without the risk of export controls.
Как обычно, европейцам без впна можно только почитать репорт.
❤22👍9🔥2😁1
☭ https://sovietrxiv.org ☭
Самое время идти к VC с питчем: "Ивахненко и Вапник - два моих деда, нашел их записные книжки на даче, дайте миллиард"
Самое время идти к VC с питчем: "Ивахненко и Вапник - два моих деда, нашел их записные книжки на даче, дайте миллиард"
👍23🤣11❤7🔥3