Ключевые навыки в программировании с использованием ChatGPT
Дмитрий Нестерук записал получасовой ролик про использование нейронок в программировании - получился эдакий базовый курс для программистов.
Кому подойдет?
1. Тем, кто по той или иной причине еще толком не успел попробовать AI в разработке.
2. Тем, кто уже успел попробовать ChatGPT или другую LLM, но ничего путного у вас из этого не вышло.
Ссылка на видео: https://youtu.be/y6VVnZs1bnE
Дмитрий Нестерук записал получасовой ролик про использование нейронок в программировании - получился эдакий базовый курс для программистов.
Кому подойдет?
1. Тем, кто по той или иной причине еще толком не успел попробовать AI в разработке.
2. Тем, кто уже успел попробовать ChatGPT или другую LLM, но ничего путного у вас из этого не вышло.
Ссылка на видео: https://youtu.be/y6VVnZs1bnE
YouTube
Ключевые навыки в программировании с использованием ChatGPT
Рассказываю о ключевых навыках которыми стоит пользоваться при написании систем с использованием языковых моделей вроде ChatGPT.
Гибкая генерация JSON DTO'шек из json файла на любом ЯП через ChatGPT
Обнаружил очередной классный юзкейс применения ChatGPT. Берем JSON файл (можно даже большой) затем скармливаем этот JSON файл ChatGPT и просим сгенерить модельку, на которую будет мапиться JSON (например, на C#).
В чем преимущество в сравнении с готовыми статическими генераторами? В гибкости. Мы можем задать в промпте любые правила генерации DTO'шек (к примеру, для C# это може быть поддержка Nullable Reference Types в моделях или написать XMLDOC с примерами значений).
Диалог из ChatGPT для примера: https://chatgpt.com/share/172d156f-96bc-4dad-bc72-d04cfadd693f
Ну, и здесь же поделюсь ссылкой на сервис, который я раньше использовал для этой задачи: https://app.quicktype.io/
—
Пробелов.NET. Спасибо, что читаете :)
Обнаружил очередной классный юзкейс применения ChatGPT. Берем JSON файл (можно даже большой) затем скармливаем этот JSON файл ChatGPT и просим сгенерить модельку, на которую будет мапиться JSON (например, на C#).
В чем преимущество в сравнении с готовыми статическими генераторами? В гибкости. Мы можем задать в промпте любые правила генерации DTO'шек (к примеру, для C# это може быть поддержка Nullable Reference Types в моделях или написать XMLDOC с примерами значений).
Диалог из ChatGPT для примера: https://chatgpt.com/share/172d156f-96bc-4dad-bc72-d04cfadd693f
Ну, и здесь же поделюсь ссылкой на сервис, который я раньше использовал для этой задачи: https://app.quicktype.io/
—
Пробелов.NET. Спасибо, что читаете :)
Лучшая модель для кодирования - Claude Sonnet 3.5
Вы уже наверняка слышали, что Anthropic на днях выпустили новую LLM, которая во многих бенчмарках обходит gpt-4o. Таким образом, Claude Sonnet 3.5 становится лучшей моделей для написания кода на сегодня.
Действительно ли лучшая?
Скорее всего, да. Я уже писал о своем любимом бенчмарке на кодирование LiveCodeBench - это набор задач а-ля литкод разной сложности.
Так вот, в LCB в задачках средней сложности новая Sonnet примерно на четверть обходит gpt-4o, а вот в Hard задачки она решает аж в 2 раза лучше! (даже чуть больше). Теперь понятно почему у людей новая соннет действительно решает принципиально более сложные задачи лучше, чем gpt-4o.
Кстати, неожиданные результаты в бенчмарке aider - обычные правки новая Sonnet действительно делает лучше всех с отрывом от GPT-4o на 5.3% (и то при формате редактирования whole, но это уже детали). При этом сразу за Sonnet идёт новая DeepSeek Coder V2, слегка опережая GPT-4o - видимо, из-за лучшего следования инструкциям.
А вот, в задачах на рефакторинг (с большим контекстом), новая Sonnet заметно проседает и отстаёт от Opus на 17.2%, и от GPT-4o на 7.8%.
Мой опыт
1. Мою сложную задачу на вычисление максимальной глубины проекта в зависимостях в итоге смогла решить только новая Sonnet, остальные не вывозили, как я их ни мучал.
2. Новая Sonnet смогла полностью реализовать программу для мерджа множество .NET солюшенов в один большой солюшн (правда, с моими подсказками). Об этом я напишу в отдельном посте.
Так что, рекомендую попробовать (особенно скептикам) - возможно, нейросети вам откроются с новой стороны.
Как воспользоваться?
A) На сайте Claude новая моделька доступна даже в бесплатной версии (с определенными лимитами).
B) Через OpenRouter (после регистрации).
—
Пробелов.NET. Спасибо, что читаете :)
Вы уже наверняка слышали, что Anthropic на днях выпустили новую LLM, которая во многих бенчмарках обходит gpt-4o. Таким образом, Claude Sonnet 3.5 становится лучшей моделей для написания кода на сегодня.
Действительно ли лучшая?
Скорее всего, да. Я уже писал о своем любимом бенчмарке на кодирование LiveCodeBench - это набор задач а-ля литкод разной сложности.
Так вот, в LCB в задачках средней сложности новая Sonnet примерно на четверть обходит gpt-4o, а вот в Hard задачки она решает аж в 2 раза лучше! (даже чуть больше). Теперь понятно почему у людей новая соннет действительно решает принципиально более сложные задачи лучше, чем gpt-4o.
А вот, в задачах на рефакторинг (с большим контекстом), новая Sonnet заметно проседает и отстаёт от Opus на 17.2%, и от GPT-4o на 7.8%.
Мой опыт
1. Мою сложную задачу на вычисление максимальной глубины проекта в зависимостях в итоге смогла решить только новая Sonnet, остальные не вывозили, как я их ни мучал.
2. Новая Sonnet смогла полностью реализовать программу для мерджа множество .NET солюшенов в один большой солюшн (правда, с моими подсказками). Об этом я напишу в отдельном посте.
Так что, рекомендую попробовать (особенно скептикам) - возможно, нейросети вам откроются с новой стороны.
Как воспользоваться?
A) На сайте Claude новая моделька доступна даже в бесплатной версии (с определенными лимитами).
B) Через OpenRouter (после регистрации).
—
Пробелов.NET. Спасибо, что читаете :)
Учимся промптить, генерировать картинки видео и музыку и все это за 3 часа
Не совсем про программирование, но очень интересно. Сегодня YouTube со своей прекрасной системной рекомендаций подсказал мне видео "Как войти в топ 1% по использованию ChatGPT и других ИИ-инструментов?" - это новое интервью на канале Армана Сулейманова, которое сделано в формате скринкаста и обучающей форме. За 3 часа ребята довольно подробно разобрали наиболее популярные и широкие нейросети:
🔸 ChatGPT для текстогенерации
🔸 Perplexity для поиска
🔸 GPTs для специфичных задач
🔸 DALL-E, Midjourney и Stable Diffusion для генерации изображений
🔸 Suno, Udio, Sounddraw для генерации музыки
🔸 Pika, Runway для генерации видео
🔸 HeyGen для создания цифрового двойника
В общем, получился эдакий бесплатный практический вводный курс по современным нейросетям за 3 часа. Ах да, Руслан Сыздыков - Prompt Engineer из компании Higgsfield.ai. Весь ролик я посмотреть пока не успел, но часть про промптинг мне зашла.
От себя дополню в тему промптингу - Antropic недавно выпустили прекрасный инструмент для генерации промптов Prompt Generator. Еще, важный нюанс в том, что у Claude моделей контекст менее дырявый, чем у gpt-4o (см. бенчмарк BABIlong и paper про Sonnet 3.5).
Кстати, на неделе вышло несколько новых мощных нейросетей, в т. ч. для кодинга - если кому-то интересен краткий обзор этих нейросетей в задачах на программирование (основанный не code-бенчмарках) - скажите и я постараюсь найти время на соотв. пост.
—
Пробелов.NET. Спасибо, что читаете :)
Не совсем про программирование, но очень интересно. Сегодня YouTube со своей прекрасной системной рекомендаций подсказал мне видео "Как войти в топ 1% по использованию ChatGPT и других ИИ-инструментов?" - это новое интервью на канале Армана Сулейманова, которое сделано в формате скринкаста и обучающей форме. За 3 часа ребята довольно подробно разобрали наиболее популярные и широкие нейросети:
🔸 ChatGPT для текстогенерации
🔸 Perplexity для поиска
🔸 GPTs для специфичных задач
🔸 DALL-E, Midjourney и Stable Diffusion для генерации изображений
🔸 Suno, Udio, Sounddraw для генерации музыки
🔸 Pika, Runway для генерации видео
🔸 HeyGen для создания цифрового двойника
В общем, получился эдакий бесплатный практический вводный курс по современным нейросетям за 3 часа. Ах да, Руслан Сыздыков - Prompt Engineer из компании Higgsfield.ai. Весь ролик я посмотреть пока не успел, но часть про промптинг мне зашла.
От себя дополню в тему промптингу - Antropic недавно выпустили прекрасный инструмент для генерации промптов Prompt Generator. Еще, важный нюанс в том, что у Claude моделей контекст менее дырявый, чем у gpt-4o (см. бенчмарк BABIlong и paper про Sonnet 3.5).
Кстати, на неделе вышло несколько новых мощных нейросетей, в т. ч. для кодинга - если кому-то интересен краткий обзор этих нейросетей в задачах на программирование (основанный не code-бенчмарках) - скажите и я постараюсь найти время на соотв. пост.
—
Пробелов.NET. Спасибо, что читаете :)
YouTube
Как войти в топ 1% по использованию ChatGPT и других ИИ-инструментов? - Руслан Сыздыков, Higgsfield
nFactorial Club - это invite-only сообщество предпринимателей, фаундеров, инвесторов, топ-менеджеров и экспертов. Подать заявку: https://nfactorialschool.typeform.com/to/LybSrqwc
Объявляем новый поток на онлайн-курс «Генеративный ИИ: от нуля до профи за…
Объявляем новый поток на онлайн-курс «Генеративный ИИ: от нуля до профи за…
Текущая картина по моделькам для кодинга, мое грядущее выступление на DotNext и... конкурс
Но начну вот с чего: набрел тут на сервис https://glhf.chat/ - он позволяет в один клик запускать разные модели с HF, а по запросу могут даже включить API доступ к развернутым вами моделькам. Сервис пока в бете, поэтому доступ бесплатный (после регистрации). В лимиты пока не успел упереться, так что неизвестно, есть ли они вообще.
Быстрый чек показал, что модели похожи на настоящие (ну кто ж знает, вдруг, обманывают). Во всяком случае, по запросу
А на скриншоте ключевой кусочек корректной реализации задачки на параллелизм от llama-3.1-405b (в котором моделька выбрала "продвинутый" метод из TPL, появившийся в .NET 6 - кажется, о нем разработчики-то не все еще знают).
Собственно, уже давно был запрос написать что-то про новую большую лламу на 400b параметров. Вот, пишу.
Опираясь на мой любимый LiveCodeBench (задачки а-ля литкод дают более-менее объективнумю картину), видно, что LLama3.1-405b-Ins-FP8 хорошая модель, но не лучшая. Что касается моего (небольшого) субъективного опыта применения этой модели в .NET-specified задачах, то могу лишь сказать, что мне ответы Sonnet 3.5 и gpt-4o нравятся больше.
Кстати, пощупать новую большую лламу помимо glhf.chat можно еще и на https://hyperbolic.xyz/ (при регистрации они дают халявные 10$ - этого должно хватить примерно на 2 млн токенов).
Далее, из интересных актуальных моделек хочу отдельно выделить Yi-Coder-9B-Chat - судя по LiveCodeBench на текущий момент это единственная открытая 9B модель, которая перегнала gpt-3.5 в кодинге. Напомню, что 9B модели можно запускать на M1,2,3 макбуках с 32 GB shared memory, а если они квантизованные, то и 18 GB будет достаточно.
Еще, 11 сентября в 11:30 (по МСК) я буду выступать с очередным докладом про применения LLM в разработке (онлайн с Бали).
Кроме меня на конференции, как обычно, выступает множество спикеров, в т. ч. многоуважаемый Евгений Пешков (@epeshkblog) с докладом про сравнение реализаций асинхронности в разных платформах: .NET, Java и Go - это одна из моих любимых тем (после AI, конечно), так что должно быть очень интересно. Кстати, конкретно доклад Жени будет транслироваться для всех безоплатно.
🔥Конкурс🔥
Я люблю коллекционировать классные кейсы применения LLM в разработке, а потом о самых удачных рассказывать другим разработчикам. Поэтому, если у вас есть крутые кейсы из практики - предлагаю поделиться ими в комментариях к этому посту. А автору самого интересного кейса достанется билет на этот DotNext (онлайн или оффлайн).
—
Пробелов.NET. Спасибо, что читаете :)
Но начну вот с чего: набрел тут на сервис https://glhf.chat/ - он позволяет в один клик запускать разные модели с HF, а по запросу могут даже включить API доступ к развернутым вами моделькам. Сервис пока в бете, поэтому доступ бесплатный (после регистрации). В лимиты пока не успел упереться, так что неизвестно, есть ли они вообще.
Быстрый чек показал, что модели похожи на настоящие (ну кто ж знает, вдруг, обманывают). Во всяком случае, по запросу
Create API client in .NET for OpenAI that supports parallel embeddings generation with configurable dop
что-то адекватное выдала только самая большая ллама на 405b. Хваленая Reflection, кстати, без подсказок не реализует адекватный параллелизм.А на скриншоте ключевой кусочек корректной реализации задачки на параллелизм от llama-3.1-405b (в котором моделька выбрала "продвинутый" метод из TPL, появившийся в .NET 6 - кажется, о нем разработчики-то не все еще знают).
Собственно, уже давно был запрос написать что-то про новую большую лламу на 400b параметров. Вот, пишу.
Опираясь на мой любимый LiveCodeBench (задачки а-ля литкод дают более-менее объективнумю картину), видно, что LLama3.1-405b-Ins-FP8 хорошая модель, но не лучшая. Что касается моего (небольшого) субъективного опыта применения этой модели в .NET-specified задачах, то могу лишь сказать, что мне ответы Sonnet 3.5 и gpt-4o нравятся больше.
Кстати, пощупать новую большую лламу помимо glhf.chat можно еще и на https://hyperbolic.xyz/ (при регистрации они дают халявные 10$ - этого должно хватить примерно на 2 млн токенов).
Далее, из интересных актуальных моделек хочу отдельно выделить Yi-Coder-9B-Chat - судя по LiveCodeBench на текущий момент это единственная открытая 9B модель, которая перегнала gpt-3.5 в кодинге. Напомню, что 9B модели можно запускать на M1,2,3 макбуках с 32 GB shared memory, а если они квантизованные, то и 18 GB будет достаточно.
Еще, 11 сентября в 11:30 (по МСК) я буду выступать с очередным докладом про применения LLM в разработке (онлайн с Бали).
Кроме меня на конференции, как обычно, выступает множество спикеров, в т. ч. многоуважаемый Евгений Пешков (@epeshkblog) с докладом про сравнение реализаций асинхронности в разных платформах: .NET, Java и Go - это одна из моих любимых тем (после AI, конечно), так что должно быть очень интересно. Кстати, конкретно доклад Жени будет транслироваться для всех безоплатно.
🔥Конкурс🔥
Я люблю коллекционировать классные кейсы применения LLM в разработке, а потом о самых удачных рассказывать другим разработчикам. Поэтому, если у вас есть крутые кейсы из практики - предлагаю поделиться ими в комментариях к этому посту. А автору самого интересного кейса достанется билет на этот DotNext (онлайн или оффлайн).
—
Пробелов.NET. Спасибо, что читаете :)
Media is too big
VIEW IN TELEGRAM
aider — AI-Junior разработчик, доступный из вашей любимой IDE
Друзья, совместно с клубом Эволюция Кода публикуем воркшоп по (субъективно) наиболее удобному и мощному инструменту для разработки, доступному из любой IDE.
По-моему, на текущий момент это единственный воркшоп по aider в открытом интернете.
А что вообще за aider такой?
aider это инструмент для парного программирования с использованием языковых моделей (LLM), позволяющий редактировать код в вашем локальном git-репозитории. С его помощью вы можете начать новый проект или работать с существующим git-репозиторием. Aider наиболее эффективен при использовании GPT-4o и Claude 3.5 Sonnet, но также совместим практически с любыми другими языковыми моделями (официальное описание).
От себя добавлю, что aider — это действительно прекрасный инструмент, который, фактически, служит клеем между IDE и LLM; в консоли разработчик на естественном языке описывает то, что нужно исправить/создать, aider обрабатывает это сообщение, сам патчит необходимые исходные файлы, (если надо) запускает команды в консоли (типа dotnet install) и коммитит изменения в репозиторий. В общем, инструмент мощнейшний.
Единственная проблема aider в том, что с ходу его вряд ли получится использовать эффективно. По-хорошему, нужно будет посвятить какое-то время на его изучение. Именно поэтому мы записали воркшоп, в котором на примере конкретной задачи демонстрируем установку, настройку и использование aider.
Кстати, на днях в соседнем канале LLM под капотом Ринат опубликовал свой воркфлоу разработки, в который входит и aider, там же есть инструкция о том, как можно хорошо сэкономить на его использовании (включить кеширование).
Пользуясь случаем подробнее расскажу про клуб Эволюция кода.
В клубе регулярно проводятся тематические созвоны и воркшопы, а его участники регулярно делятся полезными инструментами - например, недавно запостили ссылочку на открытый инструмент для чата с репозиторием (поиск по коду на естественном языке).
Еще, доступна открытая коллекция юзкейсов от участников клуба.
В общем, горячо рекомендую Эволюцию Кода.
Отдельно хочу поблагодарить Лекса @itbeard, который организовал этот воркшоп.
Upd: залили на YouTube: https://youtu.be/NXwWLNPHd38
—
Пробелов.NET совместно с клубом Эволюция кода. Спасибо, что читаете :)
Друзья, совместно с клубом Эволюция Кода публикуем воркшоп по (субъективно) наиболее удобному и мощному инструменту для разработки, доступному из любой IDE.
По-моему, на текущий момент это единственный воркшоп по aider в открытом интернете.
А что вообще за aider такой?
aider это инструмент для парного программирования с использованием языковых моделей (LLM), позволяющий редактировать код в вашем локальном git-репозитории. С его помощью вы можете начать новый проект или работать с существующим git-репозиторием. Aider наиболее эффективен при использовании GPT-4o и Claude 3.5 Sonnet, но также совместим практически с любыми другими языковыми моделями (официальное описание).
От себя добавлю, что aider — это действительно прекрасный инструмент, который, фактически, служит клеем между IDE и LLM; в консоли разработчик на естественном языке описывает то, что нужно исправить/создать, aider обрабатывает это сообщение, сам патчит необходимые исходные файлы, (если надо) запускает команды в консоли (типа dotnet install) и коммитит изменения в репозиторий. В общем, инструмент мощнейшний.
Единственная проблема aider в том, что с ходу его вряд ли получится использовать эффективно. По-хорошему, нужно будет посвятить какое-то время на его изучение. Именно поэтому мы записали воркшоп, в котором на примере конкретной задачи демонстрируем установку, настройку и использование aider.
Кстати, на днях в соседнем канале LLM под капотом Ринат опубликовал свой воркфлоу разработки, в который входит и aider, там же есть инструкция о том, как можно хорошо сэкономить на его использовании (включить кеширование).
Пользуясь случаем подробнее расскажу про клуб Эволюция кода.
В клубе регулярно проводятся тематические созвоны и воркшопы, а его участники регулярно делятся полезными инструментами - например, недавно запостили ссылочку на открытый инструмент для чата с репозиторием (поиск по коду на естественном языке).
Еще, доступна открытая коллекция юзкейсов от участников клуба.
В общем, горячо рекомендую Эволюцию Кода.
Отдельно хочу поблагодарить Лекса @itbeard, который организовал этот воркшоп.
Upd: залили на YouTube: https://youtu.be/NXwWLNPHd38
—
Пробелов.NET совместно с клубом Эволюция кода. Спасибо, что читаете :)
🍓o1 — Новая прорывная модель для кодинга от OpenAI
Не успел я выступить на DotNext с докладом про использование LLM в разработке (слайды тут) и хвалами в адрес Claude Sonnet 3.5, как OpenAI выпустили новую модель для программирования, которая по их же описанию оставила далеко позади все остальные модели в задачах на программирование и математику.
Результаты у этих моделей, судя по анонсу OpenAI, действительно прорывные. Я не буду здесь пересказывать анонс OpenAI, т. к. это уже многие сделали (раз, два, три).
Результаты моделей o1 в задачах на программирование
Собственно, перейду сразу к результатам. Я предлагаю сразу смотреть на мой любимый LiveCodeBench, т. к. кажется, что остальные бенчмарки по программированию с выходом Sonnet 3.5 и o1 уже не очень показательны (например, HumanEval).
Сосредоточим внимание на колонке Hard и Medium (т. к. в. категории Easy там уже почти некуда соревноваться). Если включить все задачки (оттянуть ползунок влево), то мы увидим картинку как на скриншоте. Видно, что в категории задач уровня Hard (требующих наилучшего reasoning), модель O1-Preview опережает Sonnet 3.5 почти на 30%, а вот модель O1-Mini на сложных задачах оказалось умнее, чем Sonnet 3.5 аж более, чем в 3 раза!
Кроме того, на свеженькие вопросы со StackOverflow новые модели отвечают на 30% лучше.
Отмечу, что размер контекстного окна на output существенно расширен (для o1-preview до 32к токенов, а для o1-mini до 65к). При этом, общий размер контекстного окна (вход + выход) 128к токенов (тут, увы, не удивили).
Как это работает?
Есть такой интересный прием CoT (Chain of thought) - это когда в конце промпта мы просто добавлявляем "Думай шаг за шагом". Удивительно, но этот подход существенно улучшает способности модели к решению сложных задач - он универсален, т. е. применим чуть ли не к любым LLM. Так вот, OpenAI каким-то образом приучили свои новые модели всегда использовать этот подход, наделив их, по сути, нативными способностями к декомпозиции и подробному, многошаговому анализу задачу. Примечательно, что новые модели даже иногда могут прийти к некому промежуточному выводу, затем поймать себя на ошибке исправиться. Всю инфу по o1 OpenAI собрали в хабе o1.
А еще, ребята из GitHub Copilot тоже подсуетились и, похоже, совсем скоро мы увидим новые модели и там.
Как попробовать?
1) В интерфейсе ChatGPT с подпиской ChatGPT Plus.
2) Через API OpenAI (но для этого пока нуженаж 5-й tier upd: уже 3-й tier)
3) Через API OpenRouter - я тестировал именно так, работает действительно отлично.
4) Через API Azure OpenAI (но сначала нужно оставить заявку на доступ)
5) Бесплатно из плагина Double для VSCode (спасибо автору канала Not Boring Tech за инструкцию)
6) Через телеграм-бот Ильи Гусева (бесплатно всего 2 запроса в день)
P.S. Рад видеть новых подписчиков в своем канале - спасибо всем, кто присоединился! Чуть позже будет пост-навигатор по самым интересным материалам канала, а также мощный воркшоп про смысл асинхронности в .NET.
—
Пробелов.NET. Спасибо, что читаете :)
Не успел я выступить на DotNext с докладом про использование LLM в разработке (слайды тут) и хвалами в адрес Claude Sonnet 3.5, как OpenAI выпустили новую модель для программирования, которая по их же описанию оставила далеко позади все остальные модели в задачах на программирование и математику.
Результаты у этих моделей, судя по анонсу OpenAI, действительно прорывные. Я не буду здесь пересказывать анонс OpenAI, т. к. это уже многие сделали (раз, два, три).
Результаты моделей o1 в задачах на программирование
Собственно, перейду сразу к результатам. Я предлагаю сразу смотреть на мой любимый LiveCodeBench, т. к. кажется, что остальные бенчмарки по программированию с выходом Sonnet 3.5 и o1 уже не очень показательны (например, HumanEval).
Сосредоточим внимание на колонке Hard и Medium (т. к. в. категории Easy там уже почти некуда соревноваться). Если включить все задачки (оттянуть ползунок влево), то мы увидим картинку как на скриншоте. Видно, что в категории задач уровня Hard (требующих наилучшего reasoning), модель O1-Preview опережает Sonnet 3.5 почти на 30%, а вот модель O1-Mini на сложных задачах оказалось умнее, чем Sonnet 3.5 аж более, чем в 3 раза!
Кроме того, на свеженькие вопросы со StackOverflow новые модели отвечают на 30% лучше.
Отмечу, что размер контекстного окна на output существенно расширен (для o1-preview до 32к токенов, а для o1-mini до 65к). При этом, общий размер контекстного окна (вход + выход) 128к токенов (тут, увы, не удивили).
Как это работает?
Есть такой интересный прием CoT (Chain of thought) - это когда в конце промпта мы просто добавлявляем "Думай шаг за шагом". Удивительно, но этот подход существенно улучшает способности модели к решению сложных задач - он универсален, т. е. применим чуть ли не к любым LLM. Так вот, OpenAI каким-то образом приучили свои новые модели всегда использовать этот подход, наделив их, по сути, нативными способностями к декомпозиции и подробному, многошаговому анализу задачу. Примечательно, что новые модели даже иногда могут прийти к некому промежуточному выводу, затем поймать себя на ошибке исправиться. Всю инфу по o1 OpenAI собрали в хабе o1.
А еще, ребята из GitHub Copilot тоже подсуетились и, похоже, совсем скоро мы увидим новые модели и там.
Как попробовать?
1) В интерфейсе ChatGPT с подпиской ChatGPT Plus.
2) Через API OpenAI (но для этого пока нужен
3) Через API OpenRouter - я тестировал именно так, работает действительно отлично.
4) Через API Azure OpenAI (но сначала нужно оставить заявку на доступ)
5) Бесплатно из плагина Double для VSCode (спасибо автору канала Not Boring Tech за инструкцию)
6) Через телеграм-бот Ильи Гусева (бесплатно всего 2 запроса в день)
P.S. Рад видеть новых подписчиков в своем канале - спасибо всем, кто присоединился! Чуть позже будет пост-навигатор по самым интересным материалам канала, а также мощный воркшоп про смысл асинхронности в .NET.
—
Пробелов.NET. Спасибо, что читаете :)
Актуальная картина по LLM для разработки на октябрь
Звезда недели — Claude Sonnet 3.5 v2 — самая практичная модель для кодинга
Многие ждали новую Opus, но Anthropic всех удивили слегка улучшенной Sonnet. И действительно, если посмотреть на мой любимый бенчмарк LCB, то там новая Sonnet и вовсе оказалась даже чуть хуже своего предка (50.2 vs 50.8 на всей выборке). А вот если посмотреть LiveBench (они расширили секцию кодинга задачами на заполнение недостающего кода, а также добавили несколько других секция, включая Reasoning).
claude-3-5-sonnet-20241022 - это и есть Claude 3.5 Sonnet v2.
Можно было бы и на этом закончить, но давайте пойдем дальше. Я иногда люблю поглядывать бенчмарк от aider - из него уже можно получить более практичную картину по LLMкам в программистских задачах, требующих работы с несколькими файлами одновременно или даже рефакторингов. Так вот, в aider новая соннет показывает результаты даже круче, чем o1 (o1 очень "умная", но у нее проблемы с соблюдением форматов). Особенно существенный прирост (почти 30%) мы видим как раз в задачах на рефакторинг (у меня, например, таких больше всего в реальной разработке).
Так что, работу ребята из Anthropic проделали существенную, за что им и спасибо.
Кстати, самое интересное, что Anthropic со своей новой моделью с ходу залетели в лидерборд бенчмарка по разработке ПО SWE-bench Verified, еще и сразу с лучшим результатом (49%). Тут я обращаю внимание на то, что они использовали не чистую модель, а некий Tools (в посте ниже описываю как они этого добились) - результат потрясающий. Еще, отрадно видеть в этом лидерборде весьма неплохие результаты от команды nFactorial AI (ребята из Казахстана).
Как попробовать обновленную Sonnet?
1) В веб интерфейсе Anthropic (после регистрации и с лимитами)
2) Через API Anthropic (платно)
3) Через веб интерфейс или API OpenRouter (платно)
4) Через Blackbox (слева сверху нужно выбрать модель Sonnet (работает хорошо, но нет 100%-й уверенности, что это именно новая Sonnet).
5) Через LLM Playground (бесплатно и с лимитом до 1000 символов)
6) Через телеграм-бот Ильи Гусева (бесплатно всего 3 запроса в день)
Qwen 2.5 Ins 72B - открытая модель уровня GPT-4o в кодинге
Что еще случилось за этот месяц? Ребята из Alibaba Cloud выпустили очередное обновление своей линейки Qwen до версии 2.5. Теперь их самая большая моделька Qwen2.5-72B-Instruct кодит на уровне самых топовых закрытых моделей, на уровне GPT-4o (судя по LCB). Эта модель доступна через OpenRouter по цене в несколько раз ниже GPT-4o.
Ну и последний фаворит (точнее, фаворитка) - модель Qwen 2.5 Coder Ins 7B, показывающая в LCB результаты в кодинге, сопоставимые с одной из первых версий gpt-4 (а это очень достойный уровень). В действительности, именно с этой моделью все сложнее, т. к. если выборку начать с 4/1/2024, то в рейтинге эта модель сильно падает аж до уровня Claude 3 Haiku. Так что, возможно, ее как-то очень по хитрому обучили на задачах из бенчмарка. Но если вы любитель локальных моделей, то попробовать стоит в любом случае.
А вот нашумевшая модель llama-3.1-nemotron-70b оказалось не такой уж и выдающейся (Qwen 2.5 72B показывает существенно лучшие результаты).
—
Еще одна хорошая новость - я расширяю команду проекта CodeAlive, в котором мы делаем поиск по коду на естественном языке, существенно превосходящий аналогичные решения в качестве и кое-что большее. Waitlist здесь.
Еще, у меня за последние пару месяцев накопилось с десяток разных идей продуктов с GenAI под капотом, но времени на их реализацию нет совершенно. Поэтому, если у кого-то из вас давно чесались руки сделать GenAI пет-проект - напишите мне, я поделюсь идеями и, возможно, даже своими представлениями по реализации.
—
Пробелов.NET. Спасибо, что читаете :)
Звезда недели — Claude Sonnet 3.5 v2 — самая практичная модель для кодинга
Многие ждали новую Opus, но Anthropic всех удивили слегка улучшенной Sonnet. И действительно, если посмотреть на мой любимый бенчмарк LCB, то там новая Sonnet и вовсе оказалась даже чуть хуже своего предка (50.2 vs 50.8 на всей выборке). А вот если посмотреть LiveBench (они расширили секцию кодинга задачами на заполнение недостающего кода, а также добавили несколько других секция, включая Reasoning).
claude-3-5-sonnet-20241022 - это и есть Claude 3.5 Sonnet v2.
Можно было бы и на этом закончить, но давайте пойдем дальше. Я иногда люблю поглядывать бенчмарк от aider - из него уже можно получить более практичную картину по LLMкам в программистских задачах, требующих работы с несколькими файлами одновременно или даже рефакторингов. Так вот, в aider новая соннет показывает результаты даже круче, чем o1 (o1 очень "умная", но у нее проблемы с соблюдением форматов). Особенно существенный прирост (почти 30%) мы видим как раз в задачах на рефакторинг (у меня, например, таких больше всего в реальной разработке).
Так что, работу ребята из Anthropic проделали существенную, за что им и спасибо.
Кстати, самое интересное, что Anthropic со своей новой моделью с ходу залетели в лидерборд бенчмарка по разработке ПО SWE-bench Verified, еще и сразу с лучшим результатом (49%). Тут я обращаю внимание на то, что они использовали не чистую модель, а некий Tools (в посте ниже описываю как они этого добились) - результат потрясающий. Еще, отрадно видеть в этом лидерборде весьма неплохие результаты от команды nFactorial AI (ребята из Казахстана).
Как попробовать обновленную Sonnet?
1) В веб интерфейсе Anthropic (после регистрации и с лимитами)
2) Через API Anthropic (платно)
3) Через веб интерфейс или API OpenRouter (платно)
4) Через Blackbox (слева сверху нужно выбрать модель Sonnet (работает хорошо, но нет 100%-й уверенности, что это именно новая Sonnet).
5) Через LLM Playground (бесплатно и с лимитом до 1000 символов)
6) Через телеграм-бот Ильи Гусева (бесплатно всего 3 запроса в день)
Qwen 2.5 Ins 72B - открытая модель уровня GPT-4o в кодинге
Что еще случилось за этот месяц? Ребята из Alibaba Cloud выпустили очередное обновление своей линейки Qwen до версии 2.5. Теперь их самая большая моделька Qwen2.5-72B-Instruct кодит на уровне самых топовых закрытых моделей, на уровне GPT-4o (судя по LCB). Эта модель доступна через OpenRouter по цене в несколько раз ниже GPT-4o.
А вот нашумевшая модель llama-3.1-nemotron-70b оказалось не такой уж и выдающейся (Qwen 2.5 72B показывает существенно лучшие результаты).
—
Еще одна хорошая новость - я расширяю команду проекта CodeAlive, в котором мы делаем поиск по коду на естественном языке, существенно превосходящий аналогичные решения в качестве и кое-что большее. Waitlist здесь.
Еще, у меня за последние пару месяцев накопилось с десяток разных идей продуктов с GenAI под капотом, но времени на их реализацию нет совершенно. Поэтому, если у кого-то из вас давно чесались руки сделать GenAI пет-проект - напишите мне, я поделюсь идеями и, возможно, даже своими представлениями по реализации.
—
Пробелов.NET. Спасибо, что читаете :)
Please open Telegram to view this post
VIEW IN TELEGRAM
SearchGPT для задач программирования
Новая функция поиска в ChatGPT — вещь потрясающая и для задач на программирование тоже. Рисовал только что графы через React Flow, и GPT никак не мог изменить background color графа — но стоило лишь активировать поиск и он тут же справился с задачей. Для этого я включил функцию поиска (внизу под чатом) и просто отправил сообщение "Still (not working). Try to search in the internet.".
Что отдельно радует — так это то, что работает поиск очень быстро (по ощущениям менее секунды).
Похоже, что вот оно и долгожданное решение проблемы неактуальных версий и API.
Браво, OpenAI!
Доступна новая фича пока только по подписке Plus, но в будущем обещают и бесплатным пользователям выдать доступ.
Кстати, уже давно есть бесплатные суррогаты а-ля GPT с поиском для программистов. Например, на devv.ai или blackbox.ai. Но лучше оригинальный SearchGPT, конечно.
А у вас какой опыт использования нового поиска?
Новая функция поиска в ChatGPT — вещь потрясающая и для задач на программирование тоже. Рисовал только что графы через React Flow, и GPT никак не мог изменить background color графа — но стоило лишь активировать поиск и он тут же справился с задачей. Для этого я включил функцию поиска (внизу под чатом) и просто отправил сообщение "Still (not working). Try to search in the internet.".
Что отдельно радует — так это то, что работает поиск очень быстро (по ощущениям менее секунды).
Похоже, что вот оно и долгожданное решение проблемы неактуальных версий и API.
Браво, OpenAI!
Доступна новая фича пока только по подписке Plus, но в будущем обещают и бесплатным пользователям выдать доступ.
Кстати, уже давно есть бесплатные суррогаты а-ля GPT с поиском для программистов. Например, на devv.ai или blackbox.ai. Но лучше оригинальный SearchGPT, конечно.
А у вас какой опыт использования нового поиска?