Forwarded from Голос из-под шторки | Миша Левченко
Как занять последнее место в соревновании агентов
Сегодня я принял участие в сорвеновании по разработке агентов BITGN-PAC1 от @llm_under_hood. И занял последнее место в локальном лидерборде в Белграде. Мой слон правильно решил 9/104 задач. Как прийти к успеху, как я:
Первый ключ к успеху – тайминг. У меня была довольно тяжелая неделя и я добрался до того чтобы запилить первую версию агента в ночь с четверга на пятницу. А это, если что, соревнование, где заранее открыт тестовый датасет и вы упорно пилите агента пару недель до соревнования, а на самом мероприятии запускаете их на продовом датасете.
Второй ключ к успеху – запустить агента как джина с указанием в плане "выбить 43/43 тестового датасета". Утром пятницы у меня был готов "агент" выбивающий 43/43. Но было две проблемы:
1. там не было ни одного вызова LLM
2. Выбивал он их регулярками на датасете который он скачал, чтобы быстрее итерироваться
Третий ключ к успеху – незнакомая архитектура. Помните я писал про RLM и pi? Я подумал что соревнование – отличный повод опробовать на практике штуку, с которой я раньше не работал. У меня не было достаточно опыта, чтобы хорошо описать архитектуру и времени, чтобы много итерироваться. Например, только сегодня я обнаружил, что агент всё время пытается решить задачу за один проход, игнорируя точки останова, которые я ему дал чтобы исследовать проблему и потом уже придумывать алгоритм решения.
Четвертый ключ к успеху – отсутствие инструментов наблюдения и мониторинга, что же там агент делает на самом деле, какие тулы вызывает и где спотыкается. Это я всё сделал в день соревнования и только тогда смог найти своим взглядом баг выше.
Что я сделаю по-другому, когда буду принимать участие в следующем соревновании:
- начну сильно заранее и высвобожу под это больше времени
- сразу накидаю репортилку в которой будет удобно смотреть процесс и результаты
- запущу как можно быстрее версию которую просто сделает нейронка как ей понравится
- посмотрю на репорты и выведу ключевые идеи на основании которых выброшу всё и перепишу на v2
- на основе тестового датасета попрошу нагенерировать дополнительных кейсов
- дальше итеративно буду улучшать агента, отслеживая генерализацию, чтобы не было оверфита на тестовых задачах
Ещё один классный инсайт от одного из участников Виталия – поговорить с агентом на тему "как мыслить о такой задаче". Заметапромптить самого себя, так сказать. Это бы помогло подсветить заранее риски, возможные проблемы и, например, указать мне на тот факт, что задачи можно сабмитить на платформу параллельными воркерами.
Сегодня я принял участие в сорвеновании по разработке агентов BITGN-PAC1 от @llm_under_hood. И занял последнее место в локальном лидерборде в Белграде. Мой слон правильно решил 9/104 задач. Как прийти к успеху, как я:
Первый ключ к успеху – тайминг. У меня была довольно тяжелая неделя и я добрался до того чтобы запилить первую версию агента в ночь с четверга на пятницу. А это, если что, соревнование, где заранее открыт тестовый датасет и вы упорно пилите агента пару недель до соревнования, а на самом мероприятии запускаете их на продовом датасете.
Второй ключ к успеху – запустить агента как джина с указанием в плане "выбить 43/43 тестового датасета". Утром пятницы у меня был готов "агент" выбивающий 43/43. Но было две проблемы:
1. там не было ни одного вызова LLM
2. Выбивал он их регулярками на датасете который он скачал, чтобы быстрее итерироваться
Третий ключ к успеху – незнакомая архитектура. Помните я писал про RLM и pi? Я подумал что соревнование – отличный повод опробовать на практике штуку, с которой я раньше не работал. У меня не было достаточно опыта, чтобы хорошо описать архитектуру и времени, чтобы много итерироваться. Например, только сегодня я обнаружил, что агент всё время пытается решить задачу за один проход, игнорируя точки останова, которые я ему дал чтобы исследовать проблему и потом уже придумывать алгоритм решения.
Четвертый ключ к успеху – отсутствие инструментов наблюдения и мониторинга, что же там агент делает на самом деле, какие тулы вызывает и где спотыкается. Это я всё сделал в день соревнования и только тогда смог найти своим взглядом баг выше.
Что я сделаю по-другому, когда буду принимать участие в следующем соревновании:
- начну сильно заранее и высвобожу под это больше времени
- сразу накидаю репортилку в которой будет удобно смотреть процесс и результаты
- запущу как можно быстрее версию которую просто сделает нейронка как ей понравится
- посмотрю на репорты и выведу ключевые идеи на основании которых выброшу всё и перепишу на v2
- на основе тестового датасета попрошу нагенерировать дополнительных кейсов
- дальше итеративно буду улучшать агента, отслеживая генерализацию, чтобы не было оверфита на тестовых задачах
Ещё один классный инсайт от одного из участников Виталия – поговорить с агентом на тему "как мыслить о такой задаче". Заметапромптить самого себя, так сказать. Это бы помогло подсветить заранее риски, возможные проблемы и, например, указать мне на тот факт, что задачи можно сабмитить на платформу параллельными воркерами.
❤1
Forwarded from Мобильный Гоша из Dodo
AI-First ≠ просто использование AI
Прочитал статью CTO CREAO - компании из 25 человек, которая перестроила весь инженерный процесс вокруг AI-агентов. 99% продакшен-кода пишет AI. Фичу шипят утром, A/B тестят к обеду, убивают к вечеру если данные не сходятся, и выкатывают улучшенную версию до конца дня. Раньше такой цикл занимал 6 недель‼️
Ключевая мысль: AI-first - это не ”добавить Copilot в IDE”
Это перепроектирование процессов, архитектуры и оргструктуры вокруг того, что AI - основной билдер, а люди дают направление и суждение.
OpenAI опубликовали этот концепт в феврале и назвали его:
Harness engineering
Что они сделали:
- Стянули всё в монорепо, чтобы агент видел всю кодовую базу
- Построили 6-фазный CI/CD
- Три параллельных AI-ревью с Claude Code на каждый PR (качество, безопасность, зависимости)
- Self-healing loop: каждое утро агент анализирует ошибки в проде, кластеризует, создаёт тикеты с диагнозом, а после фикса сам проверяет и закрывает
Результат: 3–8 деплоев в день. Раньше за две недели не было ни одного релиза.
Самое интересное - оргструктура. Остаётся 1–2 архитектора, которые строят систему и настраивают AI. Все остальные - операторы: AI находит баг, создаёт тикет, предлагает решение, человек валидирует и аппрувит фикс. Джуны адаптировались быстрее сеньоров - у них нет десяти лет привычек, которые нужно переучивать.
Я в Додо вижу ровно то же самое. Внедряем AI-инструменты: Claude Code, Cursor, Copilot, Gemini и упираемся не в возможности моделей, а в текущие процессы.
Спринты, ревью-циклы, ручной QA, регресс - всё это становится боттлнеком, когда реализация фичи занимает часы, а не недели. AI даёт 10–20% буста, но структурного сдвига не происходит, пока не меняешь сам процесс. И это самое сложное, потому что менять процессы и оргструктуру на порядок труднее, чем подключить ещё один инструмент.
Статья длинная, но стоит прочитать целиком, там много конкретики про стек, пайплайн и человеческую сторону перехода.
Ссылка
Прочитал статью CTO CREAO - компании из 25 человек, которая перестроила весь инженерный процесс вокруг AI-агентов. 99% продакшен-кода пишет AI. Фичу шипят утром, A/B тестят к обеду, убивают к вечеру если данные не сходятся, и выкатывают улучшенную версию до конца дня. Раньше такой цикл занимал 6 недель‼️
Ключевая мысль: AI-first - это не ”добавить Copilot в IDE”
Это перепроектирование процессов, архитектуры и оргструктуры вокруг того, что AI - основной билдер, а люди дают направление и суждение.
OpenAI опубликовали этот концепт в феврале и назвали его:
Harness engineering
Что они сделали:
- Стянули всё в монорепо, чтобы агент видел всю кодовую базу
- Построили 6-фазный CI/CD
- Три параллельных AI-ревью с Claude Code на каждый PR (качество, безопасность, зависимости)
- Self-healing loop: каждое утро агент анализирует ошибки в проде, кластеризует, создаёт тикеты с диагнозом, а после фикса сам проверяет и закрывает
- Каждая фича за feature flag с kill switchРезультат: 3–8 деплоев в день. Раньше за две недели не было ни одного релиза.
Самое интересное - оргструктура. Остаётся 1–2 архитектора, которые строят систему и настраивают AI. Все остальные - операторы: AI находит баг, создаёт тикет, предлагает решение, человек валидирует и аппрувит фикс. Джуны адаптировались быстрее сеньоров - у них нет десяти лет привычек, которые нужно переучивать.
Я в Додо вижу ровно то же самое. Внедряем AI-инструменты: Claude Code, Cursor, Copilot, Gemini и упираемся не в возможности моделей, а в текущие процессы.
Спринты, ревью-циклы, ручной QA, регресс - всё это становится боттлнеком, когда реализация фичи занимает часы, а не недели. AI даёт 10–20% буста, но структурного сдвига не происходит, пока не меняешь сам процесс. И это самое сложное, потому что менять процессы и оргструктуру на порядок труднее, чем подключить ещё один инструмент.
Статья длинная, но стоит прочитать целиком, там много конкретики про стек, пайплайн и человеческую сторону перехода.
Ссылка
🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🚀 Anthropic запустила Claude Design - отдельный продукт, который заточен на генерацию готовых макетов, прототипов, слайдов и сайтом.
Под капотом Claude Opus 4.7, их самая сильная модель с пониманием визуала.
Главная фишка не в генерации картинок, а в том, что Claude читает твою кодовую базу и дизайн-файлы, вытаскивает оттуда дизайн-систему продукта и дальше сам держит всё в рамках бренда. Никакого ручного объяснения, какие у вас шрифты, цвета и отступы.
Пока это research preview на планах Pro, Max, Team и Enterprise, раскатка идёт в течение дня.
Попробовать: claude.ai/design
@ai_machinelearning_big_data
#claude #Anthropic
Под капотом Claude Opus 4.7, их самая сильная модель с пониманием визуала.
Главная фишка не в генерации картинок, а в том, что Claude читает твою кодовую базу и дизайн-файлы, вытаскивает оттуда дизайн-систему продукта и дальше сам держит всё в рамках бренда. Никакого ручного объяснения, какие у вас шрифты, цвета и отступы.
Пока это research preview на планах Pro, Max, Team и Enterprise, раскатка идёт в течение дня.
Попробовать: claude.ai/design
@ai_machinelearning_big_data
#claude #Anthropic
Forwarded from iOS Makes Me Hate
AI Clean Code Skill
Я тут был удивлен, что для Swift нет полноценного Clean Code скилла. Ну прям который по книге дяди Боба. И решил сделать свой. Чтобы вот прям без примесей чистый фундаментальный код.
Если вам такого не хватало как и мне — пользуйтесь. Мини хелпер.
UPD: обновил скилл по когнитивной сложности кода
Я тут был удивлен, что для Swift нет полноценного Clean Code скилла. Ну прям который по книге дяди Боба. И решил сделать свой. Чтобы вот прям без примесей чистый фундаментальный код.
Если вам такого не хватало как и мне — пользуйтесь. Мини хелпер.
UPD: обновил скилл по когнитивной сложности кода
GitHub
GitHub - levabond/iOS-clean-code-skills
Contribute to levabond/iOS-clean-code-skills development by creating an account on GitHub.
🎉3
Forwarded from iOS Makes Me Hate
AI iOS Performance Skills by Lev Bondarenko
Извините. Я не смог остановиться и у меня появились идеи еще для пачки скиллов.
В этот раз я собрал плотную пачку с перформансом в iOS:
• CPU, GPU, Render Server, Hitches
• Swift Collections
• UIKit, UIKit
• Алгоритмы
• Generics, Диспетчирезация
• Network
• GCD, Swift Concurrency
Скиллы будут обновляться и дополняться. Скачивай и пиши код как сеньор.
Извините. Я не смог остановиться и у меня появились идеи еще для пачки скиллов.
В этот раз я собрал плотную пачку с перформансом в iOS:
• CPU, GPU, Render Server, Hitches
• Swift Collections
• UIKit, UIKit
• Алгоритмы
• Generics, Диспетчирезация
• Network
• GCD, Swift Concurrency
Скиллы будут обновляться и дополняться. Скачивай и пиши код как сеньор.
GitHub
GitHub - levabond/iOS-ai-performance-skills
Contribute to levabond/iOS-ai-performance-skills development by creating an account on GitHub.
👍2🎉2🔥1💩1
Forwarded from iOS Makes Me Hate
AI Mobile System Design Skills
Еще один скилл, которого мне не хватало — Mobile System Design.
Раньше iOS-разработчики жили в тепличных условиях: красили кнопки, а продуктами пользовалась горстка элитарных юзеров. Сейчас бизнес требует другого — системного мышления и умения влиять на архитектуру в целом.
System design за это и отвечает. Но в нём много рутины — и именно её хорошо закрывают аи-ассистенты.
Я создал скилл, который помогает оценивать задачи по масштабу, выявлять неопределенность, задавать правильные вопросы и предлагать архитектурные решения с учётом мобильной специфики.
Чем конкретно поможет скилл:
🟣 Спроектировать фичу
🟣 Оценить задачу
🟣 Понять лучшие практики модуляризации, DI, UI, Network и много другого
🟣 Подготовиться к mobile system design интервью
🟣 Впитать майндсет сеньоров FAANG'а через аи скилл
Будет обновляться
Еще один скилл, которого мне не хватало — Mobile System Design.
Раньше iOS-разработчики жили в тепличных условиях: красили кнопки, а продуктами пользовалась горстка элитарных юзеров. Сейчас бизнес требует другого — системного мышления и умения влиять на архитектуру в целом.
System design за это и отвечает. Но в нём много рутины — и именно её хорошо закрывают аи-ассистенты.
Я создал скилл, который помогает оценивать задачи по масштабу, выявлять неопределенность, задавать правильные вопросы и предлагать архитектурные решения с учётом мобильной специфики.
Чем конкретно поможет скилл:
Будет обновляться
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - levabond/ai-mobile-system-design-skills
Contribute to levabond/ai-mobile-system-design-skills development by creating an account on GitHub.
🎉3
Forwarded from Data, Stories and Languages
How We Built an AI Second Brain for 60K Knowledge Workers
https://medium.com/@AnalyticsAtMeta/how-we-built-an-ai-second-brain-for-60k-knowledge-workers-78c507dd795b
Официальный блогпост от меты о том, как second brain используется в компании. Типа агент собирает всю релевантную информацию, компилирует, потом это проще читать, проще итерироваться, проще агентам использовать её.
Про полезность этого... так себе. Я веду дневные заметки о том, что делаю + заметки по проектам. Из любопытства попросил LLM проанализировать то, что у меня есть и сравнить с second brain - получил ответ, что у меня итак норм, на 90% покрывает.
В итоге я это использую чисто для того, чтобы агенты имели информацию в удобной для себя структуре. Я даже не открываю эти заметки - они чисто для агентов. :)
#ai
https://medium.com/@AnalyticsAtMeta/how-we-built-an-ai-second-brain-for-60k-knowledge-workers-78c507dd795b
Официальный блогпост от меты о том, как second brain используется в компании. Типа агент собирает всю релевантную информацию, компилирует, потом это проще читать, проще итерироваться, проще агентам использовать её.
Про полезность этого... так себе. Я веду дневные заметки о том, что делаю + заметки по проектам. Из любопытства попросил LLM проанализировать то, что у меня есть и сравнить с second brain - получил ответ, что у меня итак норм, на 90% покрывает.
В итоге я это использую чисто для того, чтобы агенты имели информацию в удобной для себя структуре. Я даже не открываю эти заметки - они чисто для агентов. :)
#ai
Medium
How We Built an AI Second Brain for 60K Knowledge Workers
Author: Analytics at Meta
Forwarded from Эйч Вакансии
AI-генералист в 🏢 СБЕР
📍 Москва, можно удалённо
💸 ЗП не указана
💎 Middle, Senior
📍 Москва, можно удалённо
💸 ЗП не указана
💎 Middle, Senior
СБЕР — это крупнейшая финансовая и IT-компания России, занимающаяся разработкой инновационных решений в сфере финансовых технологий и искусственного интеллекта. Исследовательское подразделение компании фокусируется на изучении человеческого поведения и психологии для улучшения продуктов и процессов.
Что делать:
• Разработка решений для применения LLM в анализе данных и ускорении исследований.
• Вабкодинг прототипов проектов на основе гипотез и запросов бизнеса.
• Создание простых ИИ-агентов и графовых баз данных.
• Консультирование коллег по вопросам ИИ и вайбкодинга.
Forwarded from 🍻 Стас под пивас
Слепая печать больше не нужна
Где-то месяц назад я распробовал диктовку текста. И это прям огонь, если дать чуть больше доступов, то она запоминает не только технических термины и названия, но и ваши жаргонизмы. Результат прям классный.
Использую как для человеческого чатика, так и для промтов.
По технологиям:
• Компания оплатила Wispr Flow
• Пока мне согласовывали, я игрался с VoiceInk (бесплатно, если собрать из исходников) – чуть похуже с UX, но распознает также годно
Буст прям серьезный. Но немного подстраиваться под то как модель лучше распознает.
Из минусов: мотивации ходить в офис еще меньше, потому что в кабинете не хочется мешать коллегам общаясь вслух.
subtitles by Dmitriy Torzok
Где-то месяц назад я распробовал диктовку текста. И это прям огонь, если дать чуть больше доступов, то она запоминает не только технических термины и названия, но и ваши жаргонизмы. Результат прям классный.
Использую как для человеческого чатика, так и для промтов.
По технологиям:
• Компания оплатила Wispr Flow
• Пока мне согласовывали, я игрался с VoiceInk (бесплатно, если собрать из исходников) – чуть похуже с UX, но распознает также годно
Буст прям серьезный. Но немного подстраиваться под то как модель лучше распознает.
Из минусов: мотивации ходить в офис еще меньше, потому что в кабинете не хочется мешать коллегам общаясь вслух.
subtitles by Dmitriy Torzok
Forwarded from iOS Good Reads – swift, разработка мобильных приложений, архитектура, блокчейн, VR, AR, карьера, IT (Egor Tolstoy)
App Explorer – генератор карты экранов
App Explorer – CLI тул вокруг Claude Code, который делает следующее:
👉Открывает на клаудном устройстве ваше приложение и протыкивает там все интерактивные элементы.
👉Каждый экран скриншотится.
👉Генерируется отчет с картой всех переходов.
App Explorer – CLI тул вокруг Claude Code, который делает следующее:
👉Открывает на клаудном устройстве ваше приложение и протыкивает там все интерактивные элементы.
👉Каждый экран скриншотится.
👉Генерируется отчет с картой всех переходов.
GitHub
GitHub - RevylAI/app-explorer: Map every screen and user path in a mobile app — interactive navigation maps with screenshots
Map every screen and user path in a mobile app — interactive navigation maps with screenshots - RevylAI/app-explorer