ChatGPTevelopment & Promptgramming
19 subscribers
186 photos
33 videos
5 files
298 links
#ChatGPT using development & Prompt based programming – new era of coding! 🥹
#ChatGPT #GPT4dev
Download Telegram
Forwarded from Weekly Charts
📊 Мгновенно создавайте графики с помощью ИИ

Ранее писал про AI-инструмент для визуализации данных ChartGPT. Сегодня в мини-обзоре ещё один – GraphMaker 📈, позволяющий общаться с вашими данными (задавать вопросы данным) на естественном языке: покажи заказы по регионам, сколько пользователей etc. За считанные секунды AI создаст барплот, точечный график, пайчарт, гистограмму или линейный график. Всё делается в три шага: 1) загружаете данные (CSV, гугл-таблицы, или демо-набор) 2) Формулируете вопрос к данным или используете заранее заготовленный шаблон запроса 3) получаете график.

Конечно, первый же барплот, который я построил, хочется переделать 😊 Интересно, кроме графика можно посмотреть эксплейнер, в котором пошагово описывается как создавался график. Графики можно потом разместить на дашборде.

Под капотом всё тот же ChatGPT от OpenAI. Утверждается, что GraphMaker не хранит данные — удаляются в течение 30 дней, а в OpenAI передается только информация о столбцах в наборе данных.

#AI #dataviz #дашборды
Forwarded from data будни (Саша Михайлов)
Промпт-инженеры

Зацепила фраза Григория Бакунова (bobuk) про промт для GitHub Copilot (работает на ChatGPT):

> Для тех кто не программирует, посмотрите на картинку — вот так выглядит будущее программирование искусственного интеллекта.

Действительно эти ~25 предложений можно представить как ~25 абзацев кода для какого-то приложения.

Продолжая аналогию с программированием, можно вспомнить с чего начинается почти каждый урок — тот самый Hello world! И то же самое происходит с тем, кто впервые сталкивается с гот-моделями — их промты простые и односложные.

А вот продвинутые юзеры гпт-моделей через пробы и ошибки учатся улучшают свои промты и некоторые уже даже не помещаются на страницу. Чем не продвинутая программа уже?

Получается, придумали весь этот МЛ, чтобы не писать кучу IF’ов — и теперь пишем эти же ифы, только теперь на естественном языке.
Forwarded from Клуб CDO (PostoplanBot)
В мире ИИ происходит смена парадигмы: фокус в приложении усилий смещается от работы над архитектурами ML моделей в сторону работы над данными для обучения и инференса. Эта парадигма получила названия Data-centric AI и неплохо описана в статье ниже.

Data-centric AI - дисциплина систематического проектирования данных, используемых для создания системы ИИ (кстати, термин ввел знаменитый Эндрю Нг, лекции и курсы которого в очередной раз горячо рекомендую к ознакомлению).

Хороший пример - хайповые ChatGPT модели. На самом деле развиваясь от версии 1 к 4 каждый качественный шаг в результатах их работы достигался не изменением архитектуры модели, а увеличением ее размера и использовании для обучения большего количества все более качественно подготовленных данных.

В частности:

GPT-1: в обучении используется набор данных BooksCorpus. Этот набор данных содержит 4629,00 МБ необработанного текста, охватывающего книги различных жанров, таких как приключения, фэнтези и романтика.

GPT-2: WebText используется в обучении. Это внутренний набор данных в OpenAI, созданный путем извлечения исходящих ссылок из Reddit.
Результат: после фильтрации получается 40 ГБ текста и GPT-2 дает неплохие результаты без дополнительного файн-тюнинга.

GPT-3: Обучение GPT-3 в основном основано на Common Crawl.
Результат: 570Гб текста получается после фильтрации из 45Тб открытого текста (при такой фильтрации качества отбирается всего 1,27% данных). И GPT-3 значительно превосходит GPT-2.

InstructGPT: тут уже люди оценивают ответы GPT-3, чтобы он лучше соответствовал человеческим ожиданиям. Тут OpenAI проделала очень большую работу с аннотаторами и организации их работы, мотивации и тд.
Результат: InstructGPT показывает большую достоверность и меньше предвзятости.

ChatGPT-4: подробности не раскрываются OpenAI. Но известно, что GPT-4 в значительной степени повторяют дизайн предыдущих моделей GPT, и они по-прежнему используют RLHF для настройки моделей (с потенциально большим количеством данных/меток более высокого качества). Принято считать, что GPT-4 использовала еще больший набор данных, так как веса модели были увеличены.

Вывод: ИИ, ориентированный на данные, становится все более важным. После многих лет исследований дизайн моделей уже стал очень зрелым, особенно после появления модели Transformer. Инженерия данных становится решающим (или, возможно, единственным) способом улучшения систем ИИ в будущем.

https://towardsdatascience.com/what-are-the-data-centric-ai-concepts-behind-gpt-models-a590071bb727
Forwarded from эйай ньюз
🦍 Gorilla: Large Language Model Connected with Massive APIs

Языковые модели иногда врут и голлюцинируют и по умолчанию имеют доступ только к срезу данных, на которых обучались. Чтобы хоть частично решить эти проблемы, решено было дать им доступ к интернету, чтобы они гуглили и научить их пользоваться сторонними инструментами (через плагины). Вот тут я писал про плагины к ChatGPT, о которых позаботилась OpenAI.

А как же домашние LLM?
И тут опенсоурс не отстаёт. В этой работе парни прикрутили более 1600 API к LLaMa-7B. И их затюненая LLaMa обошла по качеству API вызовов даже GPT-4 и Claude AI!

Е-е-е, оупен-сорс вперёд!

Основной фокус этой статьи — вызовы нейронок через API с платформ Torch Hub, HuggingFace и Tensorflow Hub. То есть ты пишешь "я хочу детектировать и трекать голубей на видео" и модель выдаст вам какие API запросы нужно сделать. И это можно выстраивать в умные пайплайны, где по желанию пользователя будут вызываться разные модели.

Попробуй Гориллу за 60 сек (колаб)
Код
Сайт проекта

@ai_newz
🔥 OpenAI выпускает обновления для своего API

- наконец версия gpt3.5 с 16к токенами (теперь будет влезать больше текста в запрос/ответ)
- снижение стоимости
- доступ к gpt-4 большими количеству разработчиков
- Function calling - нейросеть вернет ответ в JSON формате с возможностью передачи напрямую в описанную функцию

Источник: https://openai.com/blog/function-calling-and-other-api-updates

Пост дополняется
Последняя версия на
@rvnikita_blog

#openai #gpt
Forwarded from эйай ньюз
🦍 Gorilla: Large Language Model Connected with Massive APIs

Языковые модели иногда врут и голлюцинируют и по умолчанию имеют доступ только к срезу данных, на которых обучались. Чтобы хоть частично решить эти проблемы, решено было дать им доступ к интернету, чтобы они гуглили и научить их пользоваться сторонними инструментами (через плагины). Вот тут я писал про плагины к ChatGPT, о которых позаботилась OpenAI.

А как же домашние LLM?
И тут опенсоурс не отстаёт. В этой работе парни прикрутили более 1600 API к LLaMa-7B. И их затюненая LLaMa обошла по качеству API вызовов даже GPT-4 и Claude AI!

Е-е-е, оупен-сорс вперёд!

Основной фокус этой статьи — вызовы нейронок через API с платформ Torch Hub, HuggingFace и Tensorflow Hub. То есть ты пишешь "я хочу детектировать и трекать голубей на видео" и модель выдаст вам какие API запросы нужно сделать. И это можно выстраивать в умные пайплайны, где по желанию пользователя будут вызываться разные модели.

Попробуй Гориллу за 60 сек (колаб)
Код
Сайт проекта

@ai_newz
ChatGPT в помощь архитектору / Николай Голов, Иван Шумов

В этом увлекательном видео, Ваня рассматривает три захватывающих кейса, которые демонстрируют, как ChatGPT может помочь начинающим и продвинутым архитекторам автоматизировать свою работу.
В первом кейсе мы рассмотрим, как ChatGPT может использоваться для первичного сбора информации о редкой предметной области на примере построения системы управления аэропортом. Второй кейс демонстрирует, как ChatGPT может использоваться для проектирования системы бронирования столиков в ресторане. Наконец, в третьем кейсе мы рассмотрим, как ChatGPT может помочь командам принимать технические решения.
Не пропустите это захватывающее видео, чтобы узнать, как ChatGPT может помочь вам сделать вашу работу более эффективной и продуктивной в мире архитектуры ПО!

Видео уже на YouTube, Boosty ❤️
Аудио версия уже на Apple Podcast, Spotify, Yandex Music 🎧

https://t.me/DE_events/1037
GPT-3progrNaPython.pdf
10.4 MB
Оооо))) какие книжки начали появляться)))

GPT-3 Программирование на python в примерах!
Forwarded from Сиолошная
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом. А то GPT-4 то, GPT-4 это, то она юрист, то историк. Может и инженер?

Было выбрано 30 курсов (от базовой алгебры до топологии ). Получилось собрать 1679 задач, или 4550 отдельных вопросов. Малую часть этого, порядка 10%, отложили для оценки способностей модели, а всё остальное испольовали как вспомогательный материал — на этих данных либо учили модели, либо помещали в базу данных для того, чтобы для каждого тестового вопроса находить наиболее похожие (по векторам от вопросов) и подавать в промпт как пример.

Помимо примеров в промпте, использовали также другие методы:
— цепочка рассуждений (попросить модель думать шаг за шагом, прям в промпте написать, да)
— вместо самого решения написать код для получения ответа (не применимо ко всем задачам)
— критик: отдельный промпт (всего 3 уникальных), которые добавляется после ответа и подается снова на вход GPT. Мол, найди ошибки в решении, и попробуй дать правильный ответ. И так можно делать несколько раз к ряду
— (!) Expert Prompting: добавлять в самое начало промпта фразу, которая, как мы верим, заставляет GPT-4 думать как определенный человек. Например, "You are an MIT Professor of Computer Science and Mathematics teaching Calculus". Фишка в том, что эти фразы тоже предварительно генерит модель, отвечая на вопрос "Give an educated guess of the three experts most capable of solving this question."

А дальше всё просто - комбинировали методы выше в цепочки (зачастую это просто объединение двух-трех промптов, не более: ДА, ВОТ ТАК ПРОСТО), генерировали ответы и проверяли их. Причем, тоже интересно: давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет.

GPT-4 без разных техник решила 90% (от тех. 10%, что отложили), а со всеми трюками выше дала 100% правильных ответов. То есть идеально прорешала все вопросы, таким образом, как бы "получив" диплом MIT.

СТО ПРОЦЕНТОВ ВСЁ РЕШИЛА ПОНИМАЕТЕ? Никого ничего не смутило?
Forwarded from Сиолошная
Сиолошная
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом.…
Вот такие метрики. Первые 4 строчки - это открытые модели, включая хайповую LLAMA. Ну и цифра, соответственно, доля решенных задач: 0.48 = 48%

FS - это как раз Few-Shot, когда среди 90% вопросов мы превентивно находим максимально похожие и добавляем в промпт как примеры, чтобы она "научилась"
CoT - это фраза "let's think step by step"
Self-critique - это итеравно просить найти и исправить ошибки
ну и Experts, как написано выше, добавление еще одной волшебной фразы
Forwarded from Сиолошная
Сиолошная
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом.…
No, GPT4 can’t ace MIT

На фоне хайпа статьи выше в твиттере нашлись другие исследователи из MIT, которые задались вопросом - а это вообще правда, что 100% правильных ответов набралось?

Конечно, нет. Самая первая простая и понятная придирка - это как вообще понимать, что "давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет."? Кто-то проверял, что модель хорошо оценивает решения? Нет. То есть модель сама же оценивала свои же ответы! Ну конечно же это непрвильно, и нельзя говорить, что это честная оценка.

А дальше начались чистые анекдоты.
1) Оказывается, среди вопросов были повторы, и как только мы добавляем поиск похожих вопросов - мы по сути сразу же берем и добавляем правильный ответ на точно такую же задачу в промпт! (не знаю, почему это не привело к 100% сразу, теряюсь в догадках). Вы буквально говорите "так, модель, 3+4=7, а 2+2=4. Теперь реши задачу: 2+2=?". Ну и конечно она знает ответ!
2) примерно 4% вопросов были нерешаемыми для языковой модели — потому что там были вопросы про диаграмы и графики. Как модель может только по тексту на них ответить? да никак, если только ответа нет в промпте (см. пункт 1)
3) Часть вопросов...вообще не была вопросами. Это просто текст, начало задачи, и из-за того, что на проверке это просмотрели, такое попалось в наборе вопросов.
4) ну и конечно нет разбивки по годам, чтобы понять, а не видела ли GPT-4 эти задачи в интернете? Потому что даже без поиска похожих вопросов уже получается 90%, что достаточно весомо (хах, настолько же, как и 90% в Bar Exam, американском экзамене для юристов - писал про проблемы с ним тут)

И все это нашлось буквально за несколько часов и только по малой доле опубликованных вопросов — кто знает, что было бы, если авторы полностью выложили и вопросы, и ответы, и генерации модели?

В общем, нет, модель не решает 100% вопросов по-честному, и сама оригинальная работа не должна (пока) восприниматься всерьёз. И вообще конкретно сейчас очень важно гораздо внимательнее относиться к способам оценки и валидации моделей, тем более что мы не знаем, на чем и как они тренировались. Есть риски наделать много ошибок в логических цепочках, особенно если делать ничем не подкрепленные выводы в духе "ну модель сама может проверить по ответу корректность, да".

Главный посыл: важно очень четко понимать, что и как мы проверяем у модели, и насколько этому можно доверять.
Forwarded from Сиолошная
И последнее по теме. С выходом всех этих Vicuna, Koala, Dolly и других обитателей зоопарка стало модным производить сравнение между моделями с помощью...GPT-4 (как и в примере выше).

Дается специальный промпт, в него вставляются два ответа на один и тот же вопрос — от модели A и от модели B, а затем просят дать оценку по шкале от 1 до 8. 1 - это модель А сильно лучше, 8 - модель Б сильно лучше, 4-5 это ничья, ну и 2-3 и 6-7 понятно дело "модель получше".

Кажется логичным, что если модели А и Б поменять местами, то оценка по факту не поменяется (7 станет 2, 8 станет 1), и если модель стабильно лучше, то она и будет выгрывать. А вот нет! Проявляется так называемое "позиционное смещение", где модель чаще выдает оценку выше для модели А (единицу). Посмотрите на график - он должен быть почти симметричен относительно 4-5 (так как модели перемешиваются случайно). Для оценки людьми, например, это выполняется.

А что если попросить модель учесть это, чтобы она не разбрасывалась единицами? Это частично сработает...перекосив график в другую сторону (но уже менее критично).

Господа из HuggingFace 🤗 сделали исследование, разметив ответы 4 моделей на 329 разных вопросов. В целом, там много интересного написано, но из интреесного:
— для 4 моделей их ранжирование по парным сравнениям совпало между оценкой человека и GPT-4, но получились разные зазоры по Эло-рейтингу. То есть плохое от хорошего модель отличит, а вот пограничные случаи уже менее похожи на людские
— при этом модель выше оценивает ответы...других моделей (обученных на ответах GPT-4, лол 👍), нежели реальные человеческие ответы
— оценка GPT-4 очень сильно коррелирует (Pearson=0.96) с количеством уникальных токенов в ответе. Что, опять же, указывает на то, что модель не оценивает качество ответа - поэтому нужно быть максимально осторожным.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Сиолошная
No, GPT4 can’t ace MIT На фоне хайпа статьи выше в твиттере нашлись другие исследователи из MIT, которые задались вопросом - а это вообще правда, что 100% правильных ответов набралось? Конечно, нет. Самая первая простая и понятная придирка - это как вообще…
У меня не влезло из-за ограничений телеграма, поэтому допишу пятый "анекдот" отдельным сообщением, однако он не такой однозначный.

Авторы применяли все методы по цепочке. То есть если GPT-4 не смогла ответить на вопрос, то тогда ей показывали 3 самых похожих примера в промпте и просили решить. Если не могла - добавляли фразу "думай шаг за шагом". Не справлялась снова - пиши код. Ну и так далее. А те вопросы, на которые модель ответила правильно (согласно самой же GPT-4, напомню), уже не переспрашивались.

Кажется, тут можно сказать "ну это абсурдно же, так как по сути мы смотрим на правлиьные ответы. Это как будто кто-то на экзамене стоит над вами, и к каждому решению говорит, что оно неправильное. А если оно правильное - перестает ругаться, а вы перестаете его менять". С одной стороны, да, это правда - получается, что воспроизвести подобное в продакшене не получится (потому что нет правильного ответа, чтобы сравнить и остановить цепочку рассуждений).

Также ясно, почему это нечестно с точки зрения метрик - кажется, если модели на правильный ответ дать хотя бы промпт критика, мол, "найди тут ошибки и исправься" - то правильное решение может стать неправильным, ответ изменится, и всё!

Но с другой стороны OpenAI недавно выпустили статью, про которую я писал, где показывали, что можно научить модель очень качественно валидировать промежуточные шаги в решении задач и вычислениях. Так что при наличии оной (или если GPT-4 научится/умеет делать также) в теории можно повторить.

В хорошей статье, конечно, это тоже должно было исследоваться, как сильно меняются метрики, и на сколько просаживается качество. А эта статья, ну...нехорошая 🐈
Please open Telegram to view this post
VIEW IN TELEGRAM