AI Makes Me Hate
204 subscribers
12 photos
3 videos
3 files
41 links
Все самое полезное для практики про AI инструменты
Download Telegram
Как занять последнее место в соревновании агентов

Сегодня я принял участие в сорвеновании по разработке агентов BITGN-PAC1 от @llm_under_hood. И занял последнее место в локальном лидерборде в Белграде. Мой слон правильно решил 9/104 задач. Как прийти к успеху, как я:

Первый ключ к успеху – тайминг. У меня была довольно тяжелая неделя и я добрался до того чтобы запилить первую версию агента в ночь с четверга на пятницу. А это, если что, соревнование, где заранее открыт тестовый датасет и вы упорно пилите агента пару недель до соревнования, а на самом мероприятии запускаете их на продовом датасете.

Второй ключ к успеху – запустить агента как джина с указанием в плане "выбить 43/43 тестового датасета". Утром пятницы у меня был готов "агент" выбивающий 43/43. Но было две проблемы:
1. там не было ни одного вызова LLM
2. Выбивал он их регулярками на датасете который он скачал, чтобы быстрее итерироваться

Третий ключ к успеху – незнакомая архитектура. Помните я писал про RLM и pi? Я подумал что соревнование – отличный повод опробовать на практике штуку, с которой я раньше не работал. У меня не было достаточно опыта, чтобы хорошо описать архитектуру и времени, чтобы много итерироваться. Например, только сегодня я обнаружил, что агент всё время пытается решить задачу за один проход, игнорируя точки останова, которые я ему дал чтобы исследовать проблему и потом уже придумывать алгоритм решения.

Четвертый ключ к успеху – отсутствие инструментов наблюдения и мониторинга, что же там агент делает на самом деле, какие тулы вызывает и где спотыкается. Это я всё сделал в день соревнования и только тогда смог найти своим взглядом баг выше.

Что я сделаю по-другому, когда буду принимать участие в следующем соревновании:
- начну сильно заранее и высвобожу под это больше времени
- сразу накидаю репортилку в которой будет удобно смотреть процесс и результаты
- запущу как можно быстрее версию которую просто сделает нейронка как ей понравится
- посмотрю на репорты и выведу ключевые идеи на основании которых выброшу всё и перепишу на v2
- на основе тестового датасета попрошу нагенерировать дополнительных кейсов
- дальше итеративно буду улучшать агента, отслеживая генерализацию, чтобы не было оверфита на тестовых задачах

Ещё один классный инсайт от одного из участников Виталия – поговорить с агентом на тему "как мыслить о такой задаче". Заметапромптить самого себя, так сказать. Это бы помогло подсветить заранее риски, возможные проблемы и, например, указать мне на тот факт, что задачи можно сабмитить на платформу параллельными воркерами.
1
AI-First ≠ просто использование AI

Прочитал статью CTO CREAO - компании из 25 человек, которая перестроила весь инженерный процесс вокруг AI-агентов. 99% продакшен-кода пишет AI. Фичу шипят утром, A/B тестят к обеду, убивают к вечеру если данные не сходятся, и выкатывают улучшенную версию до конца дня. Раньше такой цикл занимал 6 недель‼️
Ключевая мысль: AI-first - это не ”добавить Copilot в IDE”
Это перепроектирование процессов, архитектуры и оргструктуры вокруг того, что AI - основной билдер, а люди дают направление и суждение.

OpenAI опубликовали этот концепт в феврале и назвали его:
Harness engineering

Что они сделали:
- Стянули всё в монорепо, чтобы агент видел всю кодовую базу
- Построили 6-фазный CI/CD
- Три параллельных AI-ревью с Claude Code на каждый PR (качество, безопасность, зависимости)
- Self-healing loop: каждое утро агент анализирует ошибки в проде, кластеризует, создаёт тикеты с диагнозом, а после фикса сам проверяет и закрывает
- Каждая фича за feature flag с kill switch

Результат: 3–8 деплоев в день. Раньше за две недели не было ни одного релиза.
Самое интересное - оргструктура. Остаётся 1–2 архитектора, которые строят систему и настраивают AI. Все остальные - операторы: AI находит баг, создаёт тикет, предлагает решение, человек валидирует и аппрувит фикс. Джуны адаптировались быстрее сеньоров - у них нет десяти лет привычек, которые нужно переучивать.

Я в Додо вижу ровно то же самое. Внедряем AI-инструменты: Claude Code, Cursor, Copilot, Gemini и упираемся не в возможности моделей, а в текущие процессы.
Спринты, ревью-циклы, ручной QA, регресс - всё это становится боттлнеком, когда реализация фичи занимает часы, а не недели. AI даёт 10–20% буста, но структурного сдвига не происходит, пока не меняешь сам процесс. И это самое сложное, потому что менять процессы и оргструктуру на порядок труднее, чем подключить ещё один инструмент.

Статья длинная, но стоит прочитать целиком, там много конкретики про стек, пайплайн и человеческую сторону перехода.

Ссылка
🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🚀 Anthropic запустила Claude Design - отдельный продукт, который заточен на генерацию готовых макетов, прототипов, слайдов и сайтом.

Под капотом Claude Opus 4.7, их самая сильная модель с пониманием визуала.

Главная фишка не в генерации картинок, а в том, что Claude читает твою кодовую базу и дизайн-файлы, вытаскивает оттуда дизайн-систему продукта и дальше сам держит всё в рамках бренда. Никакого ручного объяснения, какие у вас шрифты, цвета и отступы.

Пока это research preview на планах Pro, Max, Team и Enterprise, раскатка идёт в течение дня.

Попробовать: claude.ai/design

@ai_machinelearning_big_data

#claude #Anthropic
Forwarded from iOS Makes Me Hate
AI Clean Code Skill

Я тут был удивлен, что для Swift нет полноценного Clean Code скилла. Ну прям который по книге дяди Боба. И решил сделать свой. Чтобы вот прям без примесей чистый фундаментальный код.

Если вам такого не хватало как и мне — пользуйтесь. Мини хелпер.

UPD: обновил скилл по когнитивной сложности кода
🎉3
Forwarded from iOS Makes Me Hate
AI iOS Performance Skills by Lev Bondarenko

Извините. Я не смог остановиться и у меня появились идеи еще для пачки скиллов.

В этот раз я собрал плотную пачку с перформансом в iOS:
• CPU, GPU, Render Server, Hitches
• Swift Collections
• UIKit, UIKit
• Алгоритмы
• Generics, Диспетчирезация
• Network
• GCD, Swift Concurrency

Скиллы будут обновляться и дополняться. Скачивай и пиши код как сеньор.
👍2🎉2🔥1💩1
Forwarded from iOS Makes Me Hate
AI Mobile System Design Skills

Еще один скилл, которого мне не хватало — Mobile System Design.

Раньше iOS-разработчики жили в тепличных условиях: красили кнопки, а продуктами пользовалась горстка элитарных юзеров. Сейчас бизнес требует другого — системного мышления и умения влиять на архитектуру в целом.

System design за это и отвечает. Но в нём много рутины — и именно её хорошо закрывают аи-ассистенты.

Я создал скилл, который помогает оценивать задачи по масштабу, выявлять неопределенность, задавать правильные вопросы и предлагать архитектурные решения с учётом мобильной специфики.

Чем конкретно поможет скилл:
🟣Спроектировать фичу
🟣Оценить задачу
🟣Понять лучшие практики модуляризации, DI, UI, Network и много другого
🟣Подготовиться к mobile system design интервью
🟣Впитать майндсет сеньоров FAANG'а через аи скилл

Будет обновляться
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉3
How We Built an AI Second Brain for 60K Knowledge Workers

https://medium.com/@AnalyticsAtMeta/how-we-built-an-ai-second-brain-for-60k-knowledge-workers-78c507dd795b

Официальный блогпост от меты о том, как second brain используется в компании. Типа агент собирает всю релевантную информацию, компилирует, потом это проще читать, проще итерироваться, проще агентам использовать её.

Про полезность этого... так себе. Я веду дневные заметки о том, что делаю + заметки по проектам. Из любопытства попросил LLM проанализировать то, что у меня есть и сравнить с second brain - получил ответ, что у меня итак норм, на 90% покрывает.
В итоге я это использую чисто для того, чтобы агенты имели информацию в удобной для себя структуре. Я даже не открываю эти заметки - они чисто для агентов. :)

#ai
Аи генералисты тут?
Forwarded from Эйч Вакансии
AI-генералист в 🏢 СБЕР

📍 Москва, можно удалённо
💸 ЗП не указана
💎 Middle, Senior

СБЕР — это крупнейшая финансовая и IT-компания России, занимающаяся разработкой инновационных решений в сфере финансовых технологий и искусственного интеллекта. Исследовательское подразделение компании фокусируется на изучении человеческого поведения и психологии для улучшения продуктов и процессов.
Что делать:
• Разработка решений для применения LLM в анализе данных и ускорении исследований.
• Вабкодинг прототипов проектов на основе гипотез и запросов бизнеса.
• Создание простых ИИ-агентов и графовых баз данных.
• Консультирование коллег по вопросам ИИ и вайбкодинга.
Слепая печать больше не нужна

Где-то месяц назад я распробовал диктовку текста. И это прям огонь, если дать чуть больше доступов, то она запоминает не только технических термины и названия, но и ваши жаргонизмы. Результат прям классный.

Использую как для человеческого чатика, так и для промтов.

По технологиям:
• Компания оплатила Wispr Flow
• Пока мне согласовывали, я игрался с VoiceInk (бесплатно, если собрать из исходников) – чуть похуже с UX, но распознает также годно

Буст прям серьезный. Но немного подстраиваться под то как модель лучше распознает.
Из минусов: мотивации ходить в офис еще меньше, потому что в кабинете не хочется мешать коллегам общаясь вслух.

subtitles by Dmitriy Torzok
App Explorer – генератор карты экранов

App Explorer – CLI тул вокруг Claude Code, который делает следующее:

👉Открывает на клаудном устройстве ваше приложение и протыкивает там все интерактивные элементы.
👉Каждый экран скриншотится.
👉Генерируется отчет с картой всех переходов.