Як краще створювати код за допомогою LLM
29 subscribers
38 photos
172 links
Корисні поради, приклади, інструкції та інші матеріали на тему LLM, які допоможуть вам у програмуванні.

https://aicode.danvoronov.com/

З приводу онлайн чи офлайн (Київ) лекцій - @dan_voronov
Download Telegram
Як краще створювати код за допомогою LLM
У відео розглядається використання LangGraph для генерації коду. Основна ідея полягає в тому, щоб генерувати набір рішень, ранжувати їх і вдосконалювати на основі тестування без участі людини https://youtu.be/MvNdgmM7uyc
AlphaCodium від CodiumAI

CodiumAI, на відміну від інших систем штучного інтелекту для роботи з кодом, вибрали і зайняли вузьку нішу - покращення якості коду (генерація тестів, аналіз безпеки та продуктивності).

Тепер їх наступний крок - система AlphaCodium, яка може автоматично перевіряти якість згенерованого коду. Тим самим це схоже як працюють GAN. Вона open-source на OpenAI API ключі, та вирішує проблеми сформульовані у CodeContest форматі JSON.

відео пояснення / блог пост
Від “Інженерії запитів” до "Інженерії потоку"
2
Кілька тижнів експериментую в чаті з моделлю claude-3-opus-20240229 і, на мою думку, вона зараз створює працюючий код при мінімальній кількості запитів порівняно з іншими моделями.

Щоб використовувати в VSCode треба в Phind змінити підписку з 10 на 20 $/місяць.
Cody також додали Claude 3 Opus з 6 березня за 9 $/місяць.
👍1
Автор розширення для VS Code Double каже, що його мотивувало два роки спостереження за тим, як команда GitHub Copilot не виправляла недоліки користувацького інтерфейсу:
- некоректне закриття дужок,
- погані автодоповнення коментарів,
- відсутність автоімпорту бібліотек,
- неповноцінна робота багатокурсорного режиму,
та всі інші проблеми застарілої моделі GPT-3.5 (тому що використовується GPT-4 там, де система вирішить).

В останній версії Double інтегрована модель Claude 3 Opus від Anthropic, яка, згідно з деякими бенчмарками, перевершує GPT-4. Окрім Opus, також присутня GPT-4 Turbo.

Double.bot прийняли в акселератор Y Combinator. Безкоштовно доступно 50 запитів на будь-яку з цих моделей на місяць. Повноцінна підписка коштує 20$ (а GitHub Copilot зараз коштує 10$ без slash-команд, 19$ з ними).

Розширення немає на open-vsx.org.
Для реєстрації треба ввести код з SMS - на мій український номер він так і не надійшов.
У цьому відео наведено використання Tabby як локальної заміни GitHub Copilot для автодоповнення коду та генерації функцій. Система буде працювати без інтернету. Код не залишає ваш комп'ютер.

Використовується модель StarCoder-3B у VSCode. Розглядається встановлення та налаштування Tabby через Docker на машині з GPU NVIDIA GeForce RTX 3070.

🛠 Встановлення та налаштування Tabby через Docker
⚙️ Вибір моделі (StarCoder, CodeLlama, DeepseekCoder)
💡 Можливість запуску Tabby на машині з GPU або CPU - що треба встановити, щоб працювала CUDA

Автор вважає, що Tabby зручніше використовувати, ніж сервер ollama.
Відео порівняння плагінів під VSCode локальної генерації коду - Continue чи Twinny

Варіанти:
🤖 Continue: усе тільки через чат, відсутність автодоповнення коду
🦙 Llama Coder: автодоповнення коду, відсутність чат-інтерфейсу
🔍 Cody від Sourcegraph: цінова модель незрозуміла

👯‍♂️ Twinny: новий проєкт, який 🤝 поєднує функції Llama Coder та Continue - чат і автодоповнення коду.

Для автодоповнення, щоб воно не підвисало, звичайно, потрібно брати меншу "базову" модель (1-3B) і потужніший комп'ютер. Щоб працював чат треба ще підняти "instruct" модель.
І я також додався до цього своєю мишкою 😉

З моменту запуску проекту Chatbot Arena модель GPT-4 завжди була на першому місці. (новина)

Цікаво, якщо на початку модель GPT-3.5 викликала захоплення, то зараз у порівнянні з новими моделями вона виглядає дуже слабкою і видає слабкі результати. Очікуємо найближчим часом якусь зміну від компанії OpenAI.
Stability AI представили, а на olllama додали до репозиторію instruct варіант їх моделі генерації коду Stable Code. Модель має 3b розмір й якість генерації на очікуваному рівні

https://ollama.com/library/stable-code
За 13 хв проф. Andrew Ng (в нього багато курсів про ШІ) демонструє на слайдах передові методи використання великих мовних моделей для покращення процесу розробки програмного забезпечення.

Головні ідеї виступу:

🧠 Агентні підходи в AI стають все більш популярними та ефективними. Це ітеративний процес, де AI може вчитися, переглядати й покращувати свій результат.

✍️ Рефлексія: AI агент може оцінити власний код/результат та допрацювати його. Це підвищує продуктивність.

🤖 Мультиагентні системи: використання двох або більше агентів, як експерт-кодер та експерт-рецензент, значно покращує якість.

🔧 Використання інструментів: підключення AI до різних інструментів (вебпошук, аналіз даних тощо) розширює її можливості.

👷‍♂️ Планування: AI агенти можуть автономно планувати дії та змінювати план в разі збоїв, що вражає.

🔀 Комбінація всіх цих підходів відкриває нові можливості та покращує результати AI у порівнянні з простим ґенеруванням коду (є слайд з графіком, але з 40% вісь).

https://www.youtube.com/watch?v=sal78ACtGTc

Тобто агентні технології штучного інтелекту можливо є наступним кроком у галузі розробки програмного забезпечення.
Як краще створювати код за допомогою LLM
Автор розширення для VS Code Double каже, що його мотивувало два роки спостереження за тим, як команда GitHub Copilot не виправляла недоліки користувацького інтерфейсу: - некоректне закриття дужок, - погані автодоповнення коментарів, - відсутність автоімпорту…
У розділі чатів на Chatbot Arena та у Perplexity playground з'явилася dbrx-instruct модель (github). Я провів низку тестів із генерації коду, і справді результати гідні. До того ж швидче ніж CodeLLaMA-70B.

Розробник VSСode плагіну Double додав до GPT-4 Turbo та Claude 3 (Opus) теж DBRX Instruct, хоча не дуже зрозуміло навіщо та ще й GPT-5 вейтліст відкрив.

Компанія DataBricks, відома своїми рішеннями для обробки та аналізу даних, випустила одну з найпотужніших та найефективніших відкритих LLM - DBRX. На графіках, які опубліковані в пості з презентацією моделі, DBRX випереджає інші відкриті рішення в галузях математики та програмування.

Ця MoE 16x12B мультиекспертна модель (132 мільярди загальних параметрів - 36 мільярдів активних параметрів для обробки кожного токену), яка у багатьох завданнях перевершуює відкриту Grok-1 та закриту GPT-3.5 Turbo (але не Claude 3 Haiku). Контекстне вікно 32k, токенайзер як й у GPT-4. Knowledge cutoff - грудень 2023.

Вони говорять, що за тестами перевершують CodeLLaMA-70B. Модель DBRX досить великого розміру, щоб не кожен міг її запустити, проте не настільки величезна, як Grok-1, яку зараз практично ніхто не зможе розгорнути у себе. Meta планує випустити Lllama 3 десь у липні.

Чат ще є на https://huggingface.co/spaces/databricks/dbrx-instruct
(5-shoot max)
https://youtu.be/ZUzfPy8qq00

Bito найбільш схожий на Github Copilot продукт, але з обмеженим безкоштовним планом (100 доповнень на місяць, 20 повідомлень у чаті на день).

🤖 Відео розповідає про нового Bito AI Code Review Agent, який допомагає скоротити час на код-ревю на 50% та поліпшити якість коду (працює тільки у плані за $15/місяць, але є тріал).

🔧 Агент інтегрується з GitHub та GitLab, автоматично виконує статичний аналіз коду, перевіряє на вразливості та надає детальні коментарі з рекомендаціями щодо покращення коду.
Google виклали відео з їх Gemma Developer Day 2024.

Gemma це відкриті LLM, які можна використовувати локально.
Знайшов стартап Coze — значно розширенний клон функціоналу GPTs, де

1) немає підв'язяки чату тільки під сайт OpenAI - доступ до боту можливий з Discord, Telegram, Slack (бізнес-боти), Facebook та Instagram Messenger, LINE (популярна в Азії), Reddit (боти для спеціалізованих спільнот), Cici, Lark.

2) можливо обрати GPT 3.5, де ліміт 500 повідомлень/день

3) каталог вже налаштованих plugins де є GitHub, StackOverFlow, Code Interpreter, Data Analysis

4) режим мульті-агентів - поясненя у відео https://www.youtube.com/watch?v=l00ZB2ZaVO0

⌨️ У bot store я знайшов Code Companion від icheQ - зараз 11.7K юзерів. Є до нього й доступ з телеграм @codecompaniondcbot

Мінус - це стартап зараз без фінансової моделі. Доступ тільки з USA, телеграм бот відповів мені через 3 хвилини й в цілом дуже повільно все працює. Ліміти GPT-4 100-50 повідомлень/день.

чат хаос https://t.me/+m7bX9D4WjV4yMzgx
У Phind теперь є 5 (10 для юзерів) безкоштовних запитів на 70b на день. Раніше така опція була для GPT-4.

Також з'явилася вкладка під назвою 'задати питання щодо вашого коду', позначена як експериментальна, і немає можливості її протестувати на плані за $10, треба перейти на $20.

Підозрюю, це повинно підключати репозиторій, але на сторінці опису платних планів поки немає жодних деталей.
Відео "Чому я більше не використовую Copilot":

🧠 Якщо не практикувати навички, можна їх втратити. Використання Copilot вплинуло на мій спосіб написання коду, спонукаючи мене чекати на підказки ШІ, замість того, щоб використовувати власний мозок.

👨‍💻 Написання коду стало менш цікавим. Copilot позбавив мене можливості вчитись, бути креативним і вирішувати проблеми самостійно, що приносило мені задоволення.

🔍 Якість підказок Copilot була нестабільною - часто вони були застарілі або містили помилки. Доводилося перевіряти документацію, що знижувало ефективність.

🔒 Конфіденційність є великою проблемою. Кожного разу, коли я використовував Copilot, фрагменти мого коду відправлялись на віддалений сервер, що неприйнятно для мене як прихильника конфіденційності та самостійного хостингу.

https://www.youtube.com/watch?v=Wap2tkgaT1Q
( трохи клікбейт та тільки одна точка зору )
👍1
На конференції Cloud Next Google показали свого асистента для програмування (на слайді це був плагін VSCode) - основний акцент зробили на тому, що в Gemeni 1.5 таке контекстне вікно, якого немає у жодного конкурента - на 1М токенів.

Gemini Code Assist доступний для тестування безкоштовно до 11 липня 2024 року.
Відео від VRSEN про представлення Devid - AI-інженера програмного забезпечення. У ньому автор демонструє свою відкриту реалізацію Devin, яка має три основні переваги: повний доступ до вихідного коду, тренування на реальних задачах кодування, а не тільки на Issue-ах GitHub, і це агентна система.

Автор показує, як Devid створює веб-сайт з грою "Гра життя", модифікуючи HTML, CSS та JavaScript файли. Потім він демонструє, як імпортувати Devid та інших агентів у свій власний проект, використовуючи контейнери Docker. Автор також описує, як налаштувати агентів-планувальників, агентів-розробників та агентів-браузерів, щоб вони ефективно співпрацювали для виконання завдань.

Врешті-решт, автор тестує цю агентну систему на завданні з бенчмаркінгу декількох API-інтерфейсів, показуючи, як агенти можуть знаходити документацію, виконувати код та надавати результати.

Наразі все працює доволі посередньо, хоча він звинувачує у цьому OpenAI. Якщо документація має багато сторінок, виникають помилки. Також не згадується, скільки токенів спожили ці завдання, просто стверджується, що це ефективніше, ніж у Devin.

https://youtu.be/BEpDRj9H3zE
Claude 3 тепер доступний для всіх користувачів Cody 🚀
( блог )

Cody тепер підтримує нову сім'ю моделей Claude 3 від Anthropic, яка включає три моделі: Haiku (найшвидша), Opus (найрозумніша) та Sonnet (проміжна).

Ці моделі демонструють покращення в генерації коду, здатності до швидкого пригадування інформації з великого контексту та інших важливих для Cody характеристиках.

🆓 Для користувачів Cody Free модель Sonnet (4та у рейтингу LMSYS Chatbot Arena) тепер використовується за замовчуванням, замінивши Claude 2.0 (15та у рейтингу LMSYS Chatbot Arena).

Користувачі Cody Pro можуть обирати між Haiku (8ма у рейтингу LMSYS Chatbot Arena), Sonnet і Opus (1ша у рейтингу LMSYS Chatbot Arena)
👍1