Forwarded from LLM под капотом
SO CoT - самый полезный паттерн при создании продуктов с LLM под капотом
Так выходит, если судить по комментариям в моем прошлом опросе.
Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:
- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/
Ваш, @llm_under_hood 🤗
Так выходит, если судить по комментариям в моем прошлом опросе.
Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:
- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/
Ваш, @llm_under_hood 🤗
Forwarded from Валентин Бочкарёв
Как получить магистратуру по Computer Science в топовом вузе США без переезда и лишних трат (и почему я в итоге отказался)
Я уже работал в IT, писал код в Barclays, но у меня была четкая цель — попасть в Microsoft. Я знал, что это не будет просто, поэтому плотно готовился: учил алгоритмы, разбирал задачи, шлифовал резюме.
Меня 6 раз рефералили в Microsoft, и 5 раз мне отказывали на этапе резюме. Это было странно, потому что я не просто на коленке резюме писал, а консультировался с профессионалами, разбирал каждую деталь. Но отказы продолжались.
В какой-то момент я начал задаваться вопросом: а может, проблема не в резюме, а в образовании?
У меня инженерный бэкграунд, но не Computer Science. И хотя я уже работал в индустрии, у меня засела мысль: а вдруг рекрутеры просто срезают меня по этому критерию?
И тут я подумал: а что, если получить CS-образование?
⸻
Можно ли получить американский диплом по CS онлайн?
Я начал искать варианты и наткнулся на удивительную штуку: оказывается, несколько топовых американских университетов предлагают магистратуру по CS онлайн. Не какие-то сомнительные курсы, а полноценный Master’s Degree с дипломом.
Я сразу решил, что если и учиться, то только в американском вузе – раз я хочу в американскую компанию, то и образование должно быть соответствующее.
И тут я нашел идеальный вариант – Georgia Tech (Georgia Institute of Technology).
💡 Почему Georgia Tech?
✔ Высокий рейтинг:
• Топ-40 среди всех вузов США.
• Топ-10 среди государственных университетов.
✔ Цена – просто космос (в хорошем смысле): вся магистратура стоит $7,000, а не $50-70K, как у других вузов.
✔ Полностью онлайн: можно учиться, не переезжая в США.
✔ Гибкость: можно учиться в своем темпе, брать паузы.
✔ Можно приехать на выпускной и получить диплом на церемонии, как в американских фильмах.
Я подумал: ну все, это оно! Начал изучать процесс поступления.
⸻
Как поступить в OMSCS в Georgia Tech?
📌 Дедлайны:
• Осенний семестр – до 1 марта.
• Весенний семестр – до 15 августа.
📌 Что нужно для поступления?
✔ Диплом бакалавра (желательно в CS, но не обязательно).
✔ GPA 3.0 и выше.
✔ TOEFL / IELTS (если ты не учился в англоязычном вузе).
✔ Три рекомендации (от коллег, преподавателей).
😎 GRE сдавать не нужно!
После поступления нужно в первый год пройти два базовых курса и сдать их на B или выше – это что-то типа теста на прочность.
⸻
Как проходит обучение?
👨🎓 Для получения диплома нужно 30 кредитных часов (примерно 10 курсов).
🔹 Можно выбрать специализацию:
• Machine Learning
• Computing Systems
• Robotics & AI
• Interactive Intelligence
🔹 Темп обучения – как хочешь:
• 1 курс за семестр → закончишь за ~3,5-4 года.
• 2 курса за семестр → можно уложиться в 2-2,5 года.
• Можно делать перерывы, но всё нужно закончить за 6 лет.
💰 Стоимость:
• $195 за кредитный час.
• Тех. сбор – $107 за семестр.
• Вся магистратура ~$7,000 (что для США — просто подарок). Например, та же программа в очном формате стоит порядка $60,000.
⸻
Почему я в итоге не поступил?
Я был настолько замотивирован, что уже начал готовиться к TOEFL, чтобы податься в следующий прием.
Но… внезапно мне пришло приглашение на собеседование в Microsoft.
Вы сами понимаете, все приоритеты мгновенно изменились. Я переключился на подготовку к собеседованию, и в итоге… я его прошел.
Магистратура уже не была нужна – цель-то была достигнута.
⸻
Вывод
Если у вас нет CS-образования, но хочется американский диплом без переезда и за нормальные деньги, Georgia Tech OMSCS – топовый вариант.
Мне он в итоге не пригодился, но сам факт, что можно получить американскую магистратуру по CS онлайн за $7,000, – это очень крутая возможность, о которой мало кто знает.
Если эта возможность вас заинтересовала, вот несколько статей от выпускников программы, которые мне попадались, когда я глубже изучал этот вопрос.
https://habr.com/en/articles/645663/
https://habr.com/en/articles/682310/
Официальный сайт Georgia Tech, где помимо онлайн-магистратуры по Computer Science также доступны:
• Online Master of Science in Analytics
Я уже работал в IT, писал код в Barclays, но у меня была четкая цель — попасть в Microsoft. Я знал, что это не будет просто, поэтому плотно готовился: учил алгоритмы, разбирал задачи, шлифовал резюме.
Меня 6 раз рефералили в Microsoft, и 5 раз мне отказывали на этапе резюме. Это было странно, потому что я не просто на коленке резюме писал, а консультировался с профессионалами, разбирал каждую деталь. Но отказы продолжались.
В какой-то момент я начал задаваться вопросом: а может, проблема не в резюме, а в образовании?
У меня инженерный бэкграунд, но не Computer Science. И хотя я уже работал в индустрии, у меня засела мысль: а вдруг рекрутеры просто срезают меня по этому критерию?
И тут я подумал: а что, если получить CS-образование?
⸻
Можно ли получить американский диплом по CS онлайн?
Я начал искать варианты и наткнулся на удивительную штуку: оказывается, несколько топовых американских университетов предлагают магистратуру по CS онлайн. Не какие-то сомнительные курсы, а полноценный Master’s Degree с дипломом.
Я сразу решил, что если и учиться, то только в американском вузе – раз я хочу в американскую компанию, то и образование должно быть соответствующее.
И тут я нашел идеальный вариант – Georgia Tech (Georgia Institute of Technology).
💡 Почему Georgia Tech?
✔ Высокий рейтинг:
• Топ-40 среди всех вузов США.
• Топ-10 среди государственных университетов.
✔ Цена – просто космос (в хорошем смысле): вся магистратура стоит $7,000, а не $50-70K, как у других вузов.
✔ Полностью онлайн: можно учиться, не переезжая в США.
✔ Гибкость: можно учиться в своем темпе, брать паузы.
✔ Можно приехать на выпускной и получить диплом на церемонии, как в американских фильмах.
Я подумал: ну все, это оно! Начал изучать процесс поступления.
⸻
Как поступить в OMSCS в Georgia Tech?
📌 Дедлайны:
• Осенний семестр – до 1 марта.
• Весенний семестр – до 15 августа.
📌 Что нужно для поступления?
✔ Диплом бакалавра (желательно в CS, но не обязательно).
✔ GPA 3.0 и выше.
✔ TOEFL / IELTS (если ты не учился в англоязычном вузе).
✔ Три рекомендации (от коллег, преподавателей).
😎 GRE сдавать не нужно!
После поступления нужно в первый год пройти два базовых курса и сдать их на B или выше – это что-то типа теста на прочность.
⸻
Как проходит обучение?
👨🎓 Для получения диплома нужно 30 кредитных часов (примерно 10 курсов).
🔹 Можно выбрать специализацию:
• Machine Learning
• Computing Systems
• Robotics & AI
• Interactive Intelligence
🔹 Темп обучения – как хочешь:
• 1 курс за семестр → закончишь за ~3,5-4 года.
• 2 курса за семестр → можно уложиться в 2-2,5 года.
• Можно делать перерывы, но всё нужно закончить за 6 лет.
💰 Стоимость:
• $195 за кредитный час.
• Тех. сбор – $107 за семестр.
• Вся магистратура ~$7,000 (что для США — просто подарок). Например, та же программа в очном формате стоит порядка $60,000.
⸻
Почему я в итоге не поступил?
Я был настолько замотивирован, что уже начал готовиться к TOEFL, чтобы податься в следующий прием.
Но… внезапно мне пришло приглашение на собеседование в Microsoft.
Вы сами понимаете, все приоритеты мгновенно изменились. Я переключился на подготовку к собеседованию, и в итоге… я его прошел.
Магистратура уже не была нужна – цель-то была достигнута.
⸻
Вывод
Если у вас нет CS-образования, но хочется американский диплом без переезда и за нормальные деньги, Georgia Tech OMSCS – топовый вариант.
Мне он в итоге не пригодился, но сам факт, что можно получить американскую магистратуру по CS онлайн за $7,000, – это очень крутая возможность, о которой мало кто знает.
Если эта возможность вас заинтересовала, вот несколько статей от выпускников программы, которые мне попадались, когда я глубже изучал этот вопрос.
https://habr.com/en/articles/645663/
https://habr.com/en/articles/682310/
Официальный сайт Georgia Tech, где помимо онлайн-магистратуры по Computer Science также доступны:
• Online Master of Science in Analytics
Forwarded from Data Blog
Which LIME should I trust? Concepts, Challenges, and Solutions
🦙 Доброго утра, друзья!
Продолжаю читать кликбейтные статьи, и в этот раз — пришла к вам с полезной для практики.
💡Про что:
LIME (local model agnostic explanation) — один из самых популярных инструментов XAI, в том числе для глубоких моделей. В простом приближении задача LIME — построить простую (линейную) модель, интерполирующую поведение основной в окрестностях конкретного примера.
Метод прост, легко реализуем и масштабируем до глобальных объяснений (то есть на всем наборе данных, а не только для одной точки). Однако, для него есть место критике критике: нестабильность результатов, низкая достоверность, проблемы с интерпретацией и масштабируемостью.
💡Что:
Статья "Which LIME Should I Trust?" Не вводит ничего нового, но дает шикарный обзор существующих улучшений LIME. Внутри — таксономия (классификация) более 50ти модификаций оригинального LIME.
Они поделены:
— по типу улучшения — что надстроено над оригинальным LIME (например, изменение выборки, модели-суррогата или визуализации объяснений);
— по типу решаемой проблемы (локальность, достоверность, стабильность и др.).
🦙 Доброго утра, друзья!
Продолжаю читать кликбейтные статьи, и в этот раз — пришла к вам с полезной для практики.
💡Про что:
LIME (local model agnostic explanation) — один из самых популярных инструментов XAI, в том числе для глубоких моделей. В простом приближении задача LIME — построить простую (линейную) модель, интерполирующую поведение основной в окрестностях конкретного примера.
Метод прост, легко реализуем и масштабируем до глобальных объяснений (то есть на всем наборе данных, а не только для одной точки). Однако, для него есть место критике критике: нестабильность результатов, низкая достоверность, проблемы с интерпретацией и масштабируемостью.
💡Что:
Статья "Which LIME Should I Trust?" Не вводит ничего нового, но дает шикарный обзор существующих улучшений LIME. Внутри — таксономия (классификация) более 50ти модификаций оригинального LIME.
Они поделены:
— по типу улучшения — что надстроено над оригинальным LIME (например, изменение выборки, модели-суррогата или визуализации объяснений);
— по типу решаемой проблемы (локальность, достоверность, стабильность и др.).
Forwarded from Data Blog
💡Что полезно:
В обзоре есть прекрасный практико-ориентированный раздел — описано, какие версии LIME работают лучше для изображений, текста, временных рядов или графов и где их найти. Так что если вы хотите использовать LIME в работе, вам может пригодится интерактивный сайт, где собрана и регулярно обновляется (по заявлению авторов) информация обо всех вариантах LIME — which-lime-to-trust.
Сохраняйте куда-то, вдруг :)
Потыкать LIME на табличках и почитать про метод: можно тут.
Отличных выходных и хорошего настроя на новую неделю, друзья!
Ваш Дата-автор!
В обзоре есть прекрасный практико-ориентированный раздел — описано, какие версии LIME работают лучше для изображений, текста, временных рядов или графов и где их найти. Так что если вы хотите использовать LIME в работе, вам может пригодится интерактивный сайт, где собрана и регулярно обновляется (по заявлению авторов) информация обо всех вариантах LIME — which-lime-to-trust.
Сохраняйте куда-то, вдруг :)
Потыкать LIME на табличках и почитать про метод: можно тут.
Отличных выходных и хорошего настроя на новую неделю, друзья!
Ваш Дата-автор!
Forwarded from Kali Novskaya
🌸LLM-агенты для науки: теперь и от OpenAI🌸
#nlp #про_nlp #nlp_papers
Вчера OpenAI зарелизили PaperBench — новый бенчмарк для оценки агентов по их способности понять и полностью воспроизвести основной технический вклад научной статьи, с кодом и результатами.
🌸TLDR Claude 3.5 оказался на нем лучше всех на задачах длиной 12 часов.
Бенчмарк состоит из 20 статей ICML 2024 года, принятых к представлению в Spotlight и устных докладов. Полное воспроизведение включает в себя понимание статьи, разработку кодовой базы с нуля для реализации всех экспериментов, а также запуск, мониторинг и устранение неполадок этих экспериментов по мере необходимости. Каждая задача репликации является крайне сложной и требует от экспертов-людей как минимум нескольких дней работы.
Все отобранные статьи
— представляют темы reinforcement learning, robustness, probabilistic methods.
— сделаны лабораториями без прямого индустриального финансирования (что интересно! см пост про независимость науки)
— отвечают критериям воспроизводимости и машиночитаемости из authors checklist — имеют четкое описание вычислительного бюджета, конкретных датасетов, бенчмарков, версий моделей.
Агентам можно ходить в интернет, но нельзя пользоваться непосредственным списком ресурсов из статей (защита от списывания слабоватая, конечно, обычно статью подробно разбирают в каком-нибудь блоге с кусочками кода). Для оценки используются LLM-судьи и автоматические метрики. На выполнение каждой задачи дается 12 часов, на одну статью — 3 попытки.
На основе текста и кода статей составляются 8,316 отдельных подзадач для агентов, и ряд LLM (O1, O3, Claude 3.5, Gemini) тестируются в нескольких агентских фреймворках:
— Basic Agent — по сути ReACT
— Iterative Agent — openai-ишное поделие, которое использует всю ту же логику, но убирает возможность закончить эксперимент раньше срока, пытаться надо как бы до конца, и это все будет одной попыткой.
У бенчмарка два подмножества: основное на 20 задачах, и мини на 3х статьях.
🌸Из интересного:
— в отличие от результатов MLE-bench, где лучшим вполне осмысленно оказался AIDE + O1— самым лучшим в базовой постановке задачи оказался обычный ReACT + Anthropic Claude 3.5
— Не совсем ясно, пробовали ли еще какие-то агентские фреймворки вообще, и не опробованными оказались более новые модели — Claude 3.7, Deepseek R1 новый, Gemini 2.5
— в целом работа производит впечатление очень сырой, что авторы и сами отмечают: работа с развитием агентных методов может существенно улучшить текущие результаты моделей.
— Лидерборд меняется, если ограничить решение задачи 36 часами, а не 12: тогда комбинация итеративного агента с О1 побеждает Claude + ReAct.
— В статье достаточно интересные результаты относительно сравнения с настоящими исследователями: агенты могут опережать их в течение первого часа автоматической работы, но затем выходят на плато, и после 12-24 часов работы человеческий результат стабильно обгоняет текущие решения ML-агентов. Учитывая наметившийся тренд и внимание к долгим задачам, постепенное улучшение в этом направлении очень ожидаемо.
🟣 Paper
🟣 Github (спросила про лицензию, у всего репозитория вроде MIT)
🟣 Blogpost
#nlp #про_nlp #nlp_papers
Вчера OpenAI зарелизили PaperBench — новый бенчмарк для оценки агентов по их способности понять и полностью воспроизвести основной технический вклад научной статьи, с кодом и результатами.
🌸TLDR Claude 3.5 оказался на нем лучше всех на задачах длиной 12 часов.
Бенчмарк состоит из 20 статей ICML 2024 года, принятых к представлению в Spotlight и устных докладов. Полное воспроизведение включает в себя понимание статьи, разработку кодовой базы с нуля для реализации всех экспериментов, а также запуск, мониторинг и устранение неполадок этих экспериментов по мере необходимости. Каждая задача репликации является крайне сложной и требует от экспертов-людей как минимум нескольких дней работы.
Все отобранные статьи
— представляют темы reinforcement learning, robustness, probabilistic methods.
— сделаны лабораториями без прямого индустриального финансирования (что интересно! см пост про независимость науки)
— отвечают критериям воспроизводимости и машиночитаемости из authors checklist — имеют четкое описание вычислительного бюджета, конкретных датасетов, бенчмарков, версий моделей.
Агентам можно ходить в интернет, но нельзя пользоваться непосредственным списком ресурсов из статей (защита от списывания слабоватая, конечно, обычно статью подробно разбирают в каком-нибудь блоге с кусочками кода). Для оценки используются LLM-судьи и автоматические метрики. На выполнение каждой задачи дается 12 часов, на одну статью — 3 попытки.
На основе текста и кода статей составляются 8,316 отдельных подзадач для агентов, и ряд LLM (O1, O3, Claude 3.5, Gemini) тестируются в нескольких агентских фреймворках:
— Basic Agent — по сути ReACT
— Iterative Agent — openai-ишное поделие, которое использует всю ту же логику, но убирает возможность закончить эксперимент раньше срока, пытаться надо как бы до конца, и это все будет одной попыткой.
У бенчмарка два подмножества: основное на 20 задачах, и мини на 3х статьях.
🌸Из интересного:
— в отличие от результатов MLE-bench, где лучшим вполне осмысленно оказался AIDE + O1— самым лучшим в базовой постановке задачи оказался обычный ReACT + Anthropic Claude 3.5
— Не совсем ясно, пробовали ли еще какие-то агентские фреймворки вообще, и не опробованными оказались более новые модели — Claude 3.7, Deepseek R1 новый, Gemini 2.5
— в целом работа производит впечатление очень сырой, что авторы и сами отмечают: работа с развитием агентных методов может существенно улучшить текущие результаты моделей.
— Лидерборд меняется, если ограничить решение задачи 36 часами, а не 12: тогда комбинация итеративного агента с О1 побеждает Claude + ReAct.
— В статье достаточно интересные результаты относительно сравнения с настоящими исследователями: агенты могут опережать их в течение первого часа автоматической работы, но затем выходят на плато, и после 12-24 часов работы человеческий результат стабильно обгоняет текущие решения ML-агентов. Учитывая наметившийся тренд и внимание к долгим задачам, постепенное улучшение в этом направлении очень ожидаемо.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers
На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.
🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.
Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.
Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.
🌸А теперь самое интересное: на чем меряем?
На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA
🌸Что не так с такими оценками?
— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.
— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;
— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.
— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.
В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.
Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."
🟣 Пост METR
🟣 Arxiv
#nlp #про_nlp #nlp_papers
На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.
🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.
Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.
Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.
🌸А теперь самое интересное: на чем меряем?
На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA
🌸Что не так с такими оценками?
— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.
— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;
— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.
— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.
В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.
Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."
Please open Telegram to view this post
VIEW IN TELEGRAM
metr.org
Measuring AI Ability to Complete Long Tasks
We propose measuring AI performance in terms of the *length* of tasks AI agents can complete. We show that this metric has been consistently exponentially increasing over the past 6 years, with a doubling time of around 7 months. Extrapolating this trend…
Forwarded from Облачный адвокат (Dmitri Soshnikov)
Друзья, спешу сообщить, что запись вчерашнего вебинара по созданию умных ассистентов в Yandex Cloud уже доступна на сайте, а самое главное - есть код на GitHub, который позволяет разобраться с тем, как создавать ассистентов с RAG и Function Calling в одном флаконе. Кажется, это на текущий момент наиболее доступный цельный пример создания ассистентов, хотя очень хорошие примеры есть в самом YC ML SDK.
По просьбам зрителей будем дальше совершенствовать этот пример, добавляя в него многоагентности, ну а также возможность подбирать водку к пельменям (в текущем варианте он умеет только в красное вино).
P.S. Спасибо всем, присоединившимся к каналу по итогам вебинара - рад вас тут видеть!
По просьбам зрителей будем дальше совершенствовать этот пример, добавляя в него многоагентности, ну а также возможность подбирать водку к пельменям (в текущем варианте он умеет только в красное вино).
P.S. Спасибо всем, присоединившимся к каналу по итогам вебинара - рад вас тут видеть!
Forwarded from КПД
YDS - Efficient models (Сжатие LLM).pdf
6.1 MB
Презентация с моей сегодняшней лекции про методы сжатия БЯМ на курсе Школы Анализа Данных Яндекса "Эффективные Модели".
В ней даю краткий обзор по существующим подходам, актуальным работам в области и некоторые общие рекомендации.
В ней даю краткий обзор по существующим подходам, актуальным работам в области и некоторые общие рекомендации.
This media is not supported in your browser
VIEW IN TELEGRAM
Нейронка уже пишет на Common Lisp лучше стажера
Сейчас за час, не написав ни строчки кода сделал такую библиотеку:
https://github.com/40ants/routes/pull/1/files
там и тесты есть с документацией.
Многое конечно еще предстоит поправить, но получилось неплохо.
Использовал VSCode + Roo Code плагин + Claude 3.7 от Anthropic.
Оно даже тесты само умеет запускать в терминале, смотреть что падает и чинить. Сначала пробовала запускать через голый SBCL, но адаптировалась, когда я подсказал использовать для запуска
Единственный момент, который огорчает – в течении этого часа я чувствовал себя, как прораб миллиарда обезьян, пишущих Войну и Мир. И не получил ни капли от того количества эндорфина, котрый обычно получаю, программируя на Common Lisp.
Завтра вчитаюсь внимательно в то что получилось, и буду этот код рефакторить с помощью нейронки.
#lisp #ai #codeassistant
Сейчас за час, не написав ни строчки кода сделал такую библиотеку:
https://github.com/40ants/routes/pull/1/files
там и тесты есть с документацией.
Многое конечно еще предстоит поправить, но получилось неплохо.
Использовал VSCode + Roo Code плагин + Claude 3.7 от Anthropic.
Оно даже тесты само умеет запускать в терминале, смотреть что падает и чинить. Сначала пробовала запускать через голый SBCL, но адаптировалась, когда я подсказал использовать для запуска
qlot exec ros run.Единственный момент, который огорчает – в течении этого часа я чувствовал себя, как прораб миллиарда обезьян, пишущих Войну и Мир. И не получил ни капли от того количества эндорфина, котрый обычно получаю, программируя на Common Lisp.
Завтра вчитаюсь внимательно в то что получилось, и буду этот код рефакторить с помощью нейронки.
#lisp #ai #codeassistant
Кстати, плагин который я использовал, умеет общаться с серверами поддерживающими Model Context Protocol. Так что можно запилить такой сервер, который даст нейронке возможность делать интроспекцию внутри образа, читать докстринги, ставить либы из Quicklisp, запускать там код и делать прочие нехорошие вещи. Жду не дождусь это попробовать.
Недавно на Reddit был анонс про MCP сервер для лисп системы Gendl. Может оттуда удастся что-то переиспользовать.
Недавно на Reddit был анонс про MCP сервер для лисп системы Gendl. Может оттуда удастся что-то переиспользовать.
GitHub
GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
Model Context Protocol Servers. Contribute to modelcontextprotocol/servers development by creating an account on GitHub.
Forwarded from Айтигребец
Купил Middle разработчика за 20$ в месяц 🚬
⬇️ Шёл пятый месяц. Впечатления от Cursor ⬇️
Господа коллеги, если вы до сих пор программируете не через Cursor/Windsurf/другой_AI_IDE - вы допускаете ошибку и подсаживаетесь в лодочку к луддитам.
И так, Cursor - это IDE построенная поверх vscode (если вы пользуетесь другой - об этом ниже) со встроенным AI-инструментарием. Если в двух словах - есть окно для ввода промпта, где вы описываете что вам нужно сделать и смотрите на магию.
❓ Почему это сильно отличается от подхода "Вбил в чатгпт => скопировал"?
0. Начнем с того, что не нужно использовать ChatGPT для кодинга. Сегодня - Claude Sonnet (3.5/3.7) от антропиков - пока лучшая модель для генерации кода. Однако, можно выбрать если захочется и модели openAI
1. Курсор умеет сразу в обработку многих файлов. Добавление/изменение/удаление - на каждом этапе он создаёт restore point (можно всё откатывать в один кликесли до сих пор гит не юзаете хД).
2. Прямо в процессе вы можете видеть удобный DIFF - фича, которая позволяет вам посмотреть что именно и в каких файлах он поменял и провести "ревью" изменений после каждого промпта (или после нескольких). Да, у вас может быть "цепочка" промптов, т.е. "мини-сессия"
3. Курсор умеет индексировать и засовывать в контекст от "нужных файлов" до либ из специфичных урлов, которые нужны вам именно в этом проекте. Да, контекст ограничен, но в целом уже достаточен. О нём чуть ниже.
4. Уже сейчас (после обновы) он работает в агентском режиме по-умолчанию, т.е. перед отправкой вашего промпта он на локальной машине собирает нужную ему информацию (допустим грепает файлы или их структуру, ходит по импортам и тд), а уже потом с правильным контекстом бежит на сервер.
5. Он умеет смотреть на ошибки компиляции после применения кода и автоматически их править, вам не нужно "вклиниваться" в процесс и просить его об этом.
6. Есть отдельные настройки и инструкции для всех запросов, куда вы можете написать свои пожелания по генерации.
В общем.. а что вам еще нужно?
Как это ощущается?
Ощущается это - как вы КУПИЛИ себе МИДЛА за 20$!!! Ну такой, немножко с особенностями, но точно уже не джун. Вы формулируете ему задачу по коду, отправляете делать, а вы на N секунд/минут отправляетесь заниматься чем-то другим. А потом приходите и проверяете что он там вам накрабил. Делаете ревью, просите что-то поправить или вовсе переделать.
‼️ Экономит тонну времени - вот что вам нужно знать в первую очередь о курсоре.
Где он особенно хорош :
- написание тестов (это просто киллер-фича. только ради этого уже можно платить)
- небольшие/пет-проекты/прототипирование. Если проект небольшой или выхотите написать какой-то пруф-оф-концепт - он справляется с этим на 10 из 10, т.к. чаще всего имеет в контексте вообще всё что нужно
- бойлерплейты. Если у вас есть какие-то "типовые" классы, конструкции, связи, сервисы и тд и вы можете ему на это указать и написать "сделай вот как тут, но..."
- прекрасно "подстраивается" под то, что вы ему указываете как референс. Всю скучную генерацию всяких DTO, схем, моделей, маппингов - прекрасно отрабатывает.
Но давайте немного и о минусах
1) Чем развесистее кодовая база, тем ему сложнее "подстроится" под проект. Контекстное окно - вот вокруг чего сейчас крутятся все оптимизации тулов и справляются они уже неплохо. Курсор построен на RAG'е, а так же может юзать ваши MCP если нужно. Ну и простроенные AST в самой IDE всё лучше интегрируются с AI (привет JetBrains'у, который до сих пор почему-то отстаёт в этой гонке).
2) Порог входа. Он и супер-низкий и ... неочевидно сложен. Поясню - вы очень легко можете "потыкать" в триальную версию. Не впечатлиться. И уйти дальше крабить в своей любимой IDE. И всё - будете рассказывать всем вокруг как оно не работает и вообще фу. Нужно пожить с ним недельки две каждодневного взаимодействия - и тогда вы сможете "распробовать". На разных задачах, с разными подходами, как работать с лимитами и прочее.
Так ... растёкся как всегда тут ручьём по древу. Не влазит в пост. Продолжение чуть ниже⬇️
Господа коллеги, если вы до сих пор программируете не через Cursor/Windsurf/другой_AI_IDE - вы допускаете ошибку и подсаживаетесь в лодочку к луддитам.
И так, Cursor - это IDE построенная поверх vscode (если вы пользуетесь другой - об этом ниже) со встроенным AI-инструментарием. Если в двух словах - есть окно для ввода промпта, где вы описываете что вам нужно сделать и смотрите на магию.
0. Начнем с того, что не нужно использовать ChatGPT для кодинга. Сегодня - Claude Sonnet (3.5/3.7) от антропиков - пока лучшая модель для генерации кода. Однако, можно выбрать если захочется и модели openAI
1. Курсор умеет сразу в обработку многих файлов. Добавление/изменение/удаление - на каждом этапе он создаёт restore point (можно всё откатывать в один клик
2. Прямо в процессе вы можете видеть удобный DIFF - фича, которая позволяет вам посмотреть что именно и в каких файлах он поменял и провести "ревью" изменений после каждого промпта (или после нескольких). Да, у вас может быть "цепочка" промптов, т.е. "мини-сессия"
3. Курсор умеет индексировать и засовывать в контекст от "нужных файлов" до либ из специфичных урлов, которые нужны вам именно в этом проекте. Да, контекст ограничен, но в целом уже достаточен. О нём чуть ниже.
4. Уже сейчас (после обновы) он работает в агентском режиме по-умолчанию, т.е. перед отправкой вашего промпта он на локальной машине собирает нужную ему информацию (допустим грепает файлы или их структуру, ходит по импортам и тд), а уже потом с правильным контекстом бежит на сервер.
5. Он умеет смотреть на ошибки компиляции после применения кода и автоматически их править, вам не нужно "вклиниваться" в процесс и просить его об этом.
6. Есть отдельные настройки и инструкции для всех запросов, куда вы можете написать свои пожелания по генерации.
В общем.. а что вам еще нужно?
Как это ощущается?
Ощущается это - как вы КУПИЛИ себе МИДЛА за 20$!!! Ну такой, немножко с особенностями, но точно уже не джун. Вы формулируете ему задачу по коду, отправляете делать, а вы на N секунд/минут отправляетесь заниматься чем-то другим. А потом приходите и проверяете что он там вам накрабил. Делаете ревью, просите что-то поправить или вовсе переделать.
‼️ Экономит тонну времени - вот что вам нужно знать в первую очередь о курсоре.
Где он особенно хорош :
- написание тестов (это просто киллер-фича. только ради этого уже можно платить)
- небольшие/пет-проекты/прототипирование. Если проект небольшой или выхотите написать какой-то пруф-оф-концепт - он справляется с этим на 10 из 10, т.к. чаще всего имеет в контексте вообще всё что нужно
- бойлерплейты. Если у вас есть какие-то "типовые" классы, конструкции, связи, сервисы и тд и вы можете ему на это указать и написать "сделай вот как тут, но..."
- прекрасно "подстраивается" под то, что вы ему указываете как референс. Всю скучную генерацию всяких DTO, схем, моделей, маппингов - прекрасно отрабатывает.
Но давайте немного и о минусах
1) Чем развесистее кодовая база, тем ему сложнее "подстроится" под проект. Контекстное окно - вот вокруг чего сейчас крутятся все оптимизации тулов и справляются они уже неплохо. Курсор построен на RAG'е, а так же может юзать ваши MCP если нужно. Ну и простроенные AST в самой IDE всё лучше интегрируются с AI (привет JetBrains'у, который до сих пор почему-то отстаёт в этой гонке).
2) Порог входа. Он и супер-низкий и ... неочевидно сложен. Поясню - вы очень легко можете "потыкать" в триальную версию. Не впечатлиться. И уйти дальше крабить в своей любимой IDE. И всё - будете рассказывать всем вокруг как оно не работает и вообще фу. Нужно пожить с ним недельки две каждодневного взаимодействия - и тогда вы сможете "распробовать". На разных задачах, с разными подходами, как работать с лимитами и прочее.
Так ... растёкся как всегда тут ручьём по древу. Не влазит в пост. Продолжение чуть ниже
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Айтигребец
3) Нужно внимательно ревьювать этого товарища. Он всё еще может делать смешно. От "поменял optional параметр с true на false" до "давай мы под падающий тест поменяем код" :))
И это ок. Вы даёте задачу и именно вы проверяете как она сделана. Хотелось бы конечно без этого вот всего, но с другой стороны а как иначе.
4) Если вы живёте в другой IDE - придётся "жить" на две IDE. Именно так сейчас делают все и так делал я. Это не особо напрягает, воспринимайте в этом случае курсор как "хелпер с боку", на который вам нужно переключиться при написании какого-нибудь бойлерплейта.
5) Платный. Не то чтобы это даже минус. на самом деле 20$ эт прям недорого учитывая сколько он может экономить вам времени. Плюс ... если у вас есть подписка на chat gpt, вы можете её отключать, т.к. и "режим чата" там тоже поддерживается, но это если совсем бюджетируете траты.
ВЫВОДЫ
"Использовать нельзя игнорировать" - запятую уже очевидно куда ставить.
Правда в том, что Работы для вас остаётся всё еще много. Просто она смещается сильно на более высокий уровень во многих местах. На примере своего последнего пет-проекта (о нём в след посте) - инженер тут всё еще ВЫ и пока никакой AI вас не заменит, если у вас за плечами опыт. У меня вообще есть ощущение, что сейчас спрос на хороших Senior специалистов будет расти. Эдакий хуман-RAG для AI
Я сейчас фоново прохожу процесс собеседований и отчётливо вижу спрос на этот новый навык. Поэтому если RAG, MCP, контекстные input/output окна - для вас незнакомые термины, возможно, самое время начинать догонять. Всё как в Алисе из страны чудес :
Нужно бежать со всех ног, чтобы только оставаться на месте, а чтобы куда-то попасть, надо бежать как минимум вдвое быстрее
Я немного удивлён тем как отстаёт майкрософт со своими моделями и тулами. Копайлот пока не так хорош, как и 4o модели (близко, но недостаточно). Но почему-то есть уверенность, что совсем скоро он всё же отожрёт бОльшую часть рынка. Наблюдаем.
Если вы еще не в этой AI-лодке - срочно запрыгивайте. И весло своё оставьте на берегу - вам дадут своего маленького гребца.
Please open Telegram to view this post
VIEW IN TELEGRAM