ChatGPTevelopment & Promptgramming

Forwarded from Это разве аналитика?

GPT-3progrNaPython.pdf

10.4 MB

Оооо))) какие книжки начали появляться)))

GPT-3 Программирование на python в примерах!

3 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Сиолошная

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Исследователи из MIT, лучшего технического университета мира (если верить множеству рейтингов), решили понять, сможет ли GPT-4 сдать экзамены в их альма-матер, чтобы получить диплом. А то GPT-4 то, GPT-4 это, то она юрист, то историк. Может и инженер?

Было выбрано 30 курсов (от базовой алгебры до топологии ). Получилось собрать 1679 задач, или 4550 отдельных вопросов. Малую часть этого, порядка 10%, отложили для оценки способностей модели, а всё остальное испольовали как вспомогательный материал — на этих данных либо учили модели, либо помещали в базу данных для того, чтобы для каждого тестового вопроса находить наиболее похожие (по векторам от вопросов) и подавать в промпт как пример.

Помимо примеров в промпте, использовали также другие методы:
— цепочка рассуждений (попросить модель думать шаг за шагом, прям в промпте написать, да)
— вместо самого решения написать код для получения ответа (не применимо ко всем задачам)
— критик: отдельный промпт (всего 3 уникальных), которые добавляется после ответа и подается снова на вход GPT. Мол, найди ошибки в решении, и попробуй дать правильный ответ. И так можно делать несколько раз к ряду
— (!) Expert Prompting: добавлять в самое начало промпта фразу, которая, как мы верим, заставляет GPT-4 думать как определенный человек. Например, "You are an MIT Professor of Computer Science and Mathematics teaching Calculus". Фишка в том, что эти фразы тоже предварительно генерит модель, отвечая на вопрос "Give an educated guess of the three experts most capable of solving this question."

А дальше всё просто - комбинировали методы выше в цепочки (зачастую это просто объединение двух-трех промптов, не более: ДА, ВОТ ТАК ПРОСТО), генерировали ответы и проверяли их. Причем, тоже интересно: давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет.

GPT-4 без разных техник решила 90% (от тех. 10%, что отложили), а со всеми трюками выше дала 100% правильных ответов. То есть идеально прорешала все вопросы, таким образом, как бы "получив" диплом MIT.

СТО ПРОЦЕНТОВ ВСЁ РЕШИЛА ПОНИМАЕТЕ? Никого ничего не смутило?

3 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Сиолошная

Сиолошная

Вот такие метрики. Первые 4 строчки - это открытые модели, включая хайповую LLAMA. Ну и цифра, соответственно, доля решенных задач: 0.48 = 48%

FS - это как раз Few-Shot, когда среди 90% вопросов мы превентивно находим максимально похожие и добавляем в промпт как примеры, чтобы она "научилась"
CoT - это фраза "let's think step by step"
Self-critique - это итеравно просить найти и исправить ошибки
ну и Experts, как написано выше, добавление еще одной волшебной фразы

3 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Сиолошная

Сиолошная

No, GPT4 can’t ace MIT

На фоне хайпа статьи выше в твиттере нашлись другие исследователи из MIT, которые задались вопросом - а это вообще правда, что 100% правильных ответов набралось?

Конечно, нет. Самая первая простая и понятная придирка - это как вообще понимать, что "давали GPT-4 задачу, правильный ответ, потом сгенерированный ответ и просили оценить, правильно или нет."? Кто-то проверял, что модель хорошо оценивает решения? Нет. То есть модель сама же оценивала свои же ответы! Ну конечно же это непрвильно, и нельзя говорить, что это честная оценка.

А дальше начались чистые анекдоты.
1) Оказывается, среди вопросов были повторы, и как только мы добавляем поиск похожих вопросов - мы по сути сразу же берем и добавляем правильный ответ на точно такую же задачу в промпт! (не знаю, почему это не привело к 100% сразу, теряюсь в догадках). Вы буквально говорите "так, модель, 3+4=7, а 2+2=4. Теперь реши задачу: 2+2=?". Ну и конечно она знает ответ!
2) примерно 4% вопросов были нерешаемыми для языковой модели — потому что там были вопросы про диаграмы и графики. Как модель может только по тексту на них ответить? да никак, если только ответа нет в промпте (см. пункт 1)
3) Часть вопросов...вообще не была вопросами. Это просто текст, начало задачи, и из-за того, что на проверке это просмотрели, такое попалось в наборе вопросов.
4) ну и конечно нет разбивки по годам, чтобы понять, а не видела ли GPT-4 эти задачи в интернете? Потому что даже без поиска похожих вопросов уже получается 90%, что достаточно весомо (хах, настолько же, как и 90% в Bar Exam, американском экзамене для юристов - писал про проблемы с ним тут)

И все это нашлось буквально за несколько часов и только по малой доле опубликованных вопросов — кто знает, что было бы, если авторы полностью выложили и вопросы, и ответы, и генерации модели?

В общем, нет, модель не решает 100% вопросов по-честному, и сама оригинальная работа не должна (пока) восприниматься всерьёз. И вообще конкретно сейчас очень важно гораздо внимательнее относиться к способам оценки и валидации моделей, тем более что мы не знаем, на чем и как они тренировались. Есть риски наделать много ошибок в логических цепочках, особенно если делать ничем не подкрепленные выводы в духе "ну модель сама может проверить по ответу корректность, да".

Главный посыл: важно очень четко понимать, что и как мы проверяем у модели, и насколько этому можно доверять.

3 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Сиолошная

И последнее по теме. С выходом всех этих Vicuna, Koala, Dolly и других обитателей зоопарка стало модным производить сравнение между моделями с помощью...GPT-4 (как и в примере выше).

Дается специальный промпт, в него вставляются два ответа на один и тот же вопрос — от модели A и от модели B, а затем просят дать оценку по шкале от 1 до 8. 1 - это модель А сильно лучше, 8 - модель Б сильно лучше, 4-5 это ничья, ну и 2-3 и 6-7 понятно дело "модель получше".

Кажется логичным, что если модели А и Б поменять местами, то оценка по факту не поменяется (7 станет 2, 8 станет 1), и если модель стабильно лучше, то она и будет выгрывать. А вот нет! Проявляется так называемое "позиционное смещение", где модель чаще выдает оценку выше для модели А (единицу). Посмотрите на график - он должен быть почти симметричен относительно 4-5 (так как модели перемешиваются случайно). Для оценки людьми, например, это выполняется.

А что если попросить модель учесть это, чтобы она не разбрасывалась единицами? Это частично сработает...перекосив график в другую сторону (но уже менее критично).

Господа из HuggingFace 🤗 сделали исследование, разметив ответы 4 моделей на 329 разных вопросов. В целом, там много интересного написано, но из интреесного:
— для 4 моделей их ранжирование по парным сравнениям совпало между оценкой человека и GPT-4, но получились разные зазоры по Эло-рейтингу. То есть плохое от хорошего модель отличит, а вот пограничные случаи уже менее похожи на людские
— при этом модель выше оценивает ответы...других моделей (обученных на ответах GPT-4, лол 👍), нежели реальные человеческие ответы
— оценка GPT-4 очень сильно коррелирует (Pearson=0.96) с количеством уникальных токенов в ответе. Что, опять же, указывает на то, что модель не оценивает качество ответа - поэтому нужно быть максимально осторожным.

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Сиолошная

Сиолошная

У меня не влезло из-за ограничений телеграма, поэтому допишу пятый "анекдот" отдельным сообщением, однако он не такой однозначный.

Авторы применяли все методы по цепочке. То есть если GPT-4 не смогла ответить на вопрос, то тогда ей показывали 3 самых похожих примера в промпте и просили решить. Если не могла - добавляли фразу "думай шаг за шагом". Не справлялась снова - пиши код. Ну и так далее. А те вопросы, на которые модель ответила правильно (согласно самой же GPT-4, напомню), уже не переспрашивались.

Кажется, тут можно сказать "ну это абсурдно же, так как по сути мы смотрим на правлиьные ответы. Это как будто кто-то на экзамене стоит над вами, и к каждому решению говорит, что оно неправильное. А если оно правильное - перестает ругаться, а вы перестаете его менять". С одной стороны, да, это правда - получается, что воспроизвести подобное в продакшене не получится (потому что нет правильного ответа, чтобы сравнить и остановить цепочку рассуждений).

Также ясно, почему это нечестно с точки зрения метрик - кажется, если модели на правильный ответ дать хотя бы промпт критика, мол, "найди тут ошибки и исправься" - то правильное решение может стать неправильным, ответ изменится, и всё!

Но с другой стороны OpenAI недавно выпустили статью, про которую я писал, где показывали, что можно научить модель очень качественно валидировать промежуточные шаги в решении задач и вычислениях. Так что при наличии оной (или если GPT-4 научится/умеет делать также) в теории можно повторить.

В хорошей статье, конечно, это тоже должно было исследоваться, как сильно меняются метрики, и на сколько просаживается качество. А эта статья, ну...нехорошая 🐈

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Сиолошная

Transformative AGI by 2043 is <1% likely

Перед нами очень интересная даже не статья, а очерк, подготовленный в рамках Open Philanthropy AI Worldviews Contest. Задачей было развернуто ответить на вопрос: "Какова вероятность того, что AGI будет разработан к 2043 году?".

Если вы слушали мои подкасты или интервью, то знаете о проблеме определения AGI (Artificial General Intelligence) — сложно понять, что это, как оценить. В рамках работы авторы целятся в Transformative AGI, как ясно из названия. Это такой AGI, который вызывает трансформации общества и устоев по меньшей мере столь же значительные, как во время сельскохозяйственной или промышленной революций.

Такая оговорка важна, потому что можно получить AGI, который невозможно применять на практике в силу нецелесообразности (например, из-за дороговизны вычислительных мощностей). А сам AGI определяется как такой ИИ, который можно быстро и недорого обучить выполнению почти всех экономически и стратегически важных задач с затратами, сравнимыми с человеческими. В рамках работы авторы берут ориентир в $25/час (то есть машина должна решать задачу, на которую у человека уходил бы час, за вычислительные мощности, доступные на $25).

Сама же оценка строится по прицнипу Уравнения Дрейка — это формула для определения числа внеземных цивилизаций в Галактике, с которыми у человечества есть шанс вступить в контакт, основанная на перемножении 7 параметров. Соответственно, меняя оценки этих параметров с появлением знаний и изучением мира можно уточнять предсказание. То же применимо и для AGI — мы можем выписать несколько событий, которые гарантированно должны произойти, чтобы достичь этого вашего ИИ. У авторов их получилось 10 штук (см. следующий пост для деталей).

Ни один из этих шагов не гарантирован — их вероятностные оценки варьируются от 16% до 95%. Самая узкая часть как раз про стоимость вычислений: авторы проводят глубокий анализ изменения рынка вычислительных мощностей, учитывают Закон Мура и его затухание, возможности компаний наращивать производство. Эти оценки важны как для тренировки (получения) AGI, так и для применения. В общем, достаточно глубокий анализ — ведь вся работа занимает 114 страниц!

В итоге авторы приходят к выводу: вероятность появления Transformative AGI к 2043му году составляет 0.4%. Если вы не согласны с их оценками вероятностей — можно поиграться с настройками в специальном калькуляторе, и сделать предсказание. Однако маловероятно, что вы получите что-то выше 10%, если будете пытаться следовать логике, рассуждать, а не брать цифры с потолка.

В общем, будем следить за развитием ситуации, и держать кулачки за наших 🤖 робо-ребят!

@seeallochnaya

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Сиолошная

Сиолошная

А вот и детализация тех самых 10 необходимых шагов для получения Transformative AGI с оценками от авторов:

1. Мы изобретаем алгоритмы для создания Transformative AGI (60%)
2. Мы изобретаем способ, с помощью которого алгоритмы могут учиться быстрее, чем люди (40%)
3. Стоимость применения моделей будет меньше $25/час (16%) (самое узкое место, так как нужно одновременно и развивать сами вычислительные ускорители, так и существенно — на порядки — удешевлять энергию. А термоядерного синтеза всё еще нет 😭)
4. Мы изобретаем и масштабируем способы производства дешевых качественных роботов (60%)
5. Мы массово масштабируем производство чипов и энергии (46%) (сейчас, с текущим уровнем технологий, авторы оценивают стоимость обучения AGI от $700 миллиардов до $70 квадриллионов — я такие числа только в детстве видел!)
6. Мы не перестаем разрабатывать AGI из-за регулирований (70%)
7. Человечество избегает задержек в разработке AGI в связи с более ранними и слабыми версиями AI (90%) (тут имеется в виду, что более ранние алгортитмы могут сильно навредить)
8. Мы избегаем кардинального изменения мира от войн (70%) (тут учтены как вероятности войны между Китаем и США, так и эскалации — в том числе ядерной — конфликта между Россией и Украиной)
9. Мы избегаем изменений в оценках из-за глобальных пандемий (90%)
10. Не случится тяжелых мировых депрессий, затягивающих или делающих разработу ненужной (95%)

Что скажете, совпадает с вашими оценками? Пишите в комментарии ⬇️💬 и кидайте скриншоты с сайта-калькулятора вероятностей!

@seeallochnaya

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Мысли Рвачева

🤖 Embedchain - фреймворк для создания LLM-ботов на основе собственных данных

Embedchain абстрагирует весь процесс загрузки набора данных, его разбиения на части, создания векторных представлений (embeddings) и сохранения их в векторной базе данных.

Все это и раньше можно было сделать с помощью Python кода и OpenAI API, но требовало глубокого понимания как работают Embeddings, расчет дистанций между векторами и т.д. Embedchain упрощает весь процесс сводя его по сути к коду из пару десятков строк.

Представим, вы хотите создать бота Naval Ravikant, из информации на основе 1 видео на YouTube, 1 книги в формате PDF и 2 его блог-постах, а также нескольких пар вопрос-ответ, которую вы загрузили. Все, что вам нужно сделать, это добавить ссылки на видео, PDF и блог-посты, а также пару вопрос-ответ, и Embedchain создаст для вас бота.

Embedchain поддерживает следующие форматы: YouTube видео, PDF файлы, веб-страницы, текст и пары вопрос-ответ.

Стек технологий на котором это все работает:
- Langchain как фреймворк LLM для загрузки, разделения и индексации данных;
- Модель встраивания Ada от OpenAI для создания embeddings;
- ChatGPT API от OpenAI как LLM для получения ответов, учитывая контекст;
- Chroma в качестве векторной базы данных для хранения embeddings.

👨‍💻 Github: https://github.com/embedchain/embedchain

#ai #gpt #llm #langchain #bot

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Инжиниринг Данных (Dmitry)

Бесплатный тренинг по Generative AI, если пройдете получите бэйдж. Даже если вам не нужно создавать с нуля Generative AI, все равно придется с ними работать рано или поздно. Многие компании бросились изучать данный вопрос и искать варианты применения современных подходов.

Поэтому будет нелишним понимать суть и уметь оперировать простыми решениями на уровне готовых ML блоков, примерно так же, как многие из вас принимают участие в ML решениях при подготовки данных, релизе или просто знают теорию и делали ML после нескольких tutorials. В этом плане databricks очень удобное место, чтобы понять, как применять на практики решения generative AI.

databricks еще купил mosaic AI, чтобы еще больше демократизировать gen ai и развивать open source - Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

В целом кардинально разный подход между databricks (открытый подход) и snowflake (хотят вас подсадить на "вендорскую иглу").

Хорошо, что я сразу работаю и с тем и с другим. Осталось на проект попасть, где внедряют gen ai решение.

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Data & IT Career (Николай Крупий)

хотя, есть и кое-что по теме довольно интересное: https://t.me/pandas_ru/3128

🤩

Please open Telegram to view this post

VIEW IN TELEGRAM

Maxim Abrosimov in pandas_ru

PandasAI

С появлением ChatGPT многие задачи были автоматизированы в удобных утилитах. Для датасайентистов тоже появился такой лакомый кусочек: PandasAI. Эта библиотека-расширение pandas, в которую добавлена возможность выполнять задачи обработки данных без…

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Клуб анонимных аналитиков

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from LEFT JOIN

Chat Notebooks: ноутбуки Wolfram со встроенной языковой моделью 🧠
Идея ноутбуков, появившаяся на свет в 1987 (нет, мы сейчас не про те, что лэптопы!), за 36 лет своего существования оказала существенное влияние на рабочие процессы в науке о данных, став их неотъемлемой частью. И вот на днях взята новая веха: отныне, ноутбуки Wolfram дополняются функционалом для работы с языковой моделью.

В интерфейсе ноутбуков Wolfram появились «окошки» для общения с ИИ. В статье рассказывается о двух типах новых ноутбуков: ноутбуки с правами на чат (chat-enabled) и ноутбуки, управляемые с помощью чата (chat-driven). Вторые отличаются от первых тем, что для работы с ними не требуется прибегать к языку программирования Wolfram. Также любопытен тот факт, что ячейки чата в ноутбуке считываются ИИ последовательно, то есть, каждая последующая учитывает информацию из предыдущей, но не знает о последующей.

Другой особенностью Chat Notebooks является то, что искусственный образ, роль которого вы бы хотели, чтобы ИИ играл в общении с вами, может настраиваться на разных уровнях: вы можете указать роль ИИ для всей переписки в ноутбуке, а также задать отдельные образы внутри каждого отдельного чата.

В целом, Chat Notebooks похож на интеграцию ChatGPT в интерфейс ноутбуков Wolfram. Подробное руководство по работе с новшеством вы найдете в статье. А в комментариях мы приглашаем вас обсудить, какие другие сервисы нуждаются в интеграциии языковых моделей!

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Запускаем ruGPT-3.5 в Colab'е

Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).

Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Собрал небольшой Colab. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.

👉 Colab | Хабр | HF

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face

2 views06:32

ChatGPTevelopment & Promptgramming

Forwarded from Sber AI

Сбер открыл доступ к ruGPT-3.5 13B, способной генерировать тексты на русском языке, и к новой версии модели mGPT 13B, умеющей в тексты на 61 языке.

Первая справляется с текстами на русском и английском, может в кодинг (пишут, что ей скормили часть датасета The Stack + Stack Overflow + некоторые статьи Хабра). Длина контекста ― 2048 токенов. Финальный чекпойнт ― базовый претрейн для дальнейших экспериментов.

Вторая модель имеет длину контекста 512 токенов, генерирует тексты, решает задачи NLP. Можно дообучить или внедрить в ансамбль моделей.

Обучение претрейна требует значительного количества ресурсов, которых нет даже у большей части бизнеса. Всем необходимым, как правило, обладают только крупные компании. Хорошо, что они готовы делиться наработками, во благо остальных. А тут ещё и мощное обучение на русском языке.

Модель ruGPT-3.5 13B обучали в два этапа. Сначала почти полтора месяца ушло на обработку 300 Гб данных, состоящих из книг, научных статей и статей энциклопедий, плюс соцсетей и других источников. Затем её дообучали на 110 Гб данных, включающих языки программирования, юридические документы и обновлённые тексты википедий.

Если хочется узнать больше, вопросы создателям можно задать в комментариях на Хабре или обсудить тут.

9 views06:32

ChatGPTevelopment & Promptgramming

https://t.me/data_career/1407

Data & IT Career

7 views06:34

ChatGPTevelopment & Promptgramming

Forwarded from Neural Shit

Это вообще законно?

https://t.me/ai_newz/2080

эйай ньюз

🤯Там Андрей Карпатый уже вовсю запускает LLaMa-2 на рисоварке

Андрей вдохновился известным репозиторием llama.cpp для инференса LLM моделей на С++ и написал 500 строк кода на чистом C, которые прогоняют инференес модели LLaMa2.

llama2.c — тупо 500 строк...…

10 views08:24

ChatGPTevelopment & Promptgramming

Судя по таймкодам (пока не слушал) Радио-Т скоро мб переименовывать в "LLM для программистов" 😁

76 views11:28

ChatGPTevelopment & Promptgramming

Радио-Т 874

Umputun, Bobuk, Gray, Ksenks, Alek.sys

Радио-Т 874

Темы
Отказ от GitHub Copilot - 00:00:46.
Moonbit - новый язык которые победил всех - 00:14:41.
Code Llama - AI для программирования - 00:40:55.
Годные улучшения GitHub Copilot Chat - 00:56:26.
Microsoft закрывает Visual Studio for Mac - 01:01:25.
UTM - 01:05:33.
Почему все надо хранить внутри VM - 01:25:17.
Худший из программистов - 01:40:31.
Темы слушателей - 01:47:11.

аудио • лог чата

https://t.me/radio_t_podcast/214

15 viewsedited 11:28

ChatGPTevelopment & Promptgramming

Forwarded from Нейромания

Какой промпт добавляется в каждый диалог, чтобы GPT-4 включал роль помощника программиста в GitHub Copilot?

https://twitter.com/marvinvonhagen/status/1657060506371346432

7 views09:13

About

Blog

Apps

Platform