🔺 Let's build (chat)GPT
Новое видео от Андрея Карпати. На этот раз с нуля собираем GPT (генеративную языковую модель) в colab'е. Также на пальцах рассказывается, что такое ChatGPT.
Как обычно, все объясняется с самых основ. Причем, если что-то непонятно, то Андрей уже записал и выложил ряд крутых лекций под общим названием "Neural Nets. From zero to hero". Очень полезный образовательный контент.
👉 Видео | nanoGPT | Код из занятия
Новое видео от Андрея Карпати. На этот раз с нуля собираем GPT (генеративную языковую модель) в colab'е. Также на пальцах рассказывается, что такое ChatGPT.
Как обычно, все объясняется с самых основ. Причем, если что-то непонятно, то Андрей уже записал и выложил ряд крутых лекций под общим названием "Neural Nets. From zero to hero". Очень полезный образовательный контент.
👉 Видео | nanoGPT | Код из занятия
🔥47👍6❤🔥3❤1⚡1🎉1
🔺 ChatGPT и языки
Поспрашивал сеть в контексте знания разных языков. Крайне любопытным показалось то, что при ответе на вопрос
Поспрашивал сеть в контексте знания разных языков. Крайне любопытным показалось то, что при ответе на вопрос
"как транскрибировать имя Сергей китайскими иероглифами?"она дала правильный (общеупотребительный) вариант "谢尔盖" (Xiè ěr gài) плюс придумала какой-то новый "塞尔吉" (Sài ěr jí), но который также похож на правду.
🔥19😁8🤓4❤🔥2👍1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
В Nvidia Broadcast (программу для записи стримов и видеоконференций) добавили новую фичу — eye contact. Теперь можно бесконечно смотреть в глаза коллегам на созвонах.
🔥45😁12👍3❤🔥2🤯1
🔺 Is ChatGPT A Good Translator?
В Tencent провели исследование ChatGPT в области машинного перевода. Проверяли три аспекта:
1️⃣ Влияние промпта
Посчитали метрики (BLEU и ChrF++) на подсказках, предложенных самой же сетью. Проверяли на паре китайский-английский. Выбрали лучший (BLEU 24.73):
Взяли 4 языка из FLORES 101 — немецкий, английский, румынский, китайский, как-будто бы покрывая несколько языковых семей и две письменности. На каждой паре из 12-ти посчитали BLEU и показали разницу +/- с Google Translate в процентах, а также результат DeepL 🚀(см. картинку).
В итоге на популярных языках разница небольшая (-2.9% и -5.5% для de-en и en-de). И может быть очень большой в случае малоресурсного языка (тут это румынский) -21% для ro-zh. Интересно, что есть и выигрыш — +0.2% для de-ro.
3️⃣ Надежность перевода
Так как перевод может сильно отличаться для разных доменов, важно понимать насколько универсальной может быть система.
Взяли три сета — WMT19 Bio (много специфической медицинской терминологии), WMT20 Rob2 (комменты с Reddit с грамматическими ошибками)
и Rob3 (ASR транскрипции).
Опять-таки, на специализированном корпусе результат оказался значительно хуже чем у коммерческих решений. Но на расшифровках аудио (что-то похожее на диалоги), ChatGPT оказалась значительно лучше (см. картинку). Исследователи связывают это с первичной задачей сети вести себя как вопросно-ответный агент.
👉 Статья
В Tencent провели исследование ChatGPT в области машинного перевода. Проверяли три аспекта:
1️⃣ Влияние промпта
Посчитали метрики (BLEU и ChrF++) на подсказках, предложенных самой же сетью. Проверяли на паре китайский-английский. Выбрали лучший (BLEU 24.73):
Please provide the [TGT] translation for these sentences:2️⃣ Мультиязычность
Взяли 4 языка из FLORES 101 — немецкий, английский, румынский, китайский, как-будто бы покрывая несколько языковых семей и две письменности. На каждой паре из 12-ти посчитали BLEU и показали разницу +/- с Google Translate в процентах, а также результат DeepL 🚀(см. картинку).
В итоге на популярных языках разница небольшая (-2.9% и -5.5% для de-en и en-de). И может быть очень большой в случае малоресурсного языка (тут это румынский) -21% для ro-zh. Интересно, что есть и выигрыш — +0.2% для de-ro.
3️⃣ Надежность перевода
Так как перевод может сильно отличаться для разных доменов, важно понимать насколько универсальной может быть система.
Взяли три сета — WMT19 Bio (много специфической медицинской терминологии), WMT20 Rob2 (комменты с Reddit с грамматическими ошибками)
и Rob3 (ASR транскрипции).
Опять-таки, на специализированном корпусе результат оказался значительно хуже чем у коммерческих решений. Но на расшифровках аудио (что-то похожее на диалоги), ChatGPT оказалась значительно лучше (см. картинку). Исследователи связывают это с первичной задачей сети вести себя как вопросно-ответный агент.
👉 Статья
🔥13👍4🆒2✍1
Forwarded from AbstractDL
🤗Illustrated Reinforcement Learning from Human Feedback (RLHF)
Отличный блог-пост от HuggingFace с разбором RL для файнтюна языковых моделей (webGPT, instructGPT, chatGPT).
А ещё, RLHF теперь официально поддерживается в
P.S. Сейчас все побегут учить свою mini-chatGPT в колабе)
Блог, GitHub
Отличный блог-пост от HuggingFace с разбором RL для файнтюна языковых моделей (webGPT, instructGPT, chatGPT).
А ещё, RLHF теперь официально поддерживается в
transformers через библиотеку trl!P.S. Сейчас все побегут учить свою mini-chatGPT в колабе)
Блог, GitHub
👍21🔥4⚡2❤🔥2❤1
🚀 Подъехал мерч от ODS. Мерч клёвый, но надеть пока не дают...
Подарили за статью DIY. Книги для всех, даром про создание мультиязычных параллельных книг. Спасибокиноакадемии тому, кто номинировал статью, и всем, кто поддержал! Проект развивается, скоро будут новости.
Подарили за статью DIY. Книги для всех, даром про создание мультиязычных параллельных книг. Спасибо
🔥38👍6❤5😁3🍾3🎉1
🔺 Скрипт для массового обращения к ChatGPT
Ребят, тут узнали имя модели ChatGPT и оно работает через официальное API OpenAI! Написал скрипт для массового обращения.
🔸 Имя модели в запросе text-chat-davinci-002-20221122.
🔸 Иногда сервер шлёт 500 и 503, просто обращаемся снова.
🔸 В какой-то момент в ошибке вылезло сообщение про RateLimit 150k/min, что странно, потому что упереться в него трудновато.
@doomgrad
Upd. 9.02.2023. Скрипт сейчас не работает. Карпати пришел в OpenAI и пофиксил.
👉 Теперь нужно так
-------------
👉 GitHub
Ребят, тут узнали имя модели ChatGPT и оно работает через официальное API OpenAI! Написал скрипт для массового обращения.
🔸 Имя модели в запросе text-chat-davinci-002-20221122.
🔸 Иногда сервер шлёт 500 и 503, просто обращаемся снова.
🔸 В какой-то момент в ошибке вылезло сообщение про RateLimit 150k/min, что странно, потому что упереться в него трудновато.
@doomgrad
Upd. 9.02.2023. Скрипт сейчас не работает. Карпати пришел в OpenAI и пофиксил.
👉 Теперь нужно так
-------------
👉 GitHub
🔥21⚡4🤯2❤🔥1🆒1
🔸 Год назад я ставил на ночь скрипты для генерации картинок типа
🔸 Теперь я ставлю ChatGPT генерировать мне рэп и факты про языки мира (вот скрипт для запуска).
🔸 Уверен, через год будем делать такое
картина [Будапешта, Праги, Милана, ...] [летом, зимой] в стиле [акварели, скетча, ...]чтобы утром посмотреть на результат. Очень это нравилось и в течение года качество становилось лучше, а сейчас уже есть куча классных моделей для этого.
🔸 Теперь я ставлю ChatGPT генерировать мне рэп и факты про языки мира (вот скрипт для запуска).
🔸 Уверен, через год будем делать такое
сделай видеоклип в стиле Раммштайн про кабачок на чувашском языке, trending on youtube
👍22🔥8💯4😁3
Forwarded from Kali Novskaya (Tatiana Shavrina)
Пришло время признаться: у меня блогерский дебют.
COPYLEFT — авторский формат, где я буду делиться историями про технологии более популярно, рассказывать про опенсорс и важность реальных достижений в ИИ.
Поддержите формат, если вам заходит!
На Рабкоре — женский голос!
#nlp #про_nlp
https://youtu.be/rJGjPEZpkOY
COPYLEFT — авторский формат, где я буду делиться историями про технологии более популярно, рассказывать про опенсорс и важность реальных достижений в ИИ.
Поддержите формат, если вам заходит!
На Рабкоре — женский голос!
#nlp #про_nlp
https://youtu.be/rJGjPEZpkOY
YouTube
Кому принадлежит интеллект в 2023?
Ресурсы Кали Новской
https://t.me/rybolos_channel
✅Отправить пожертвование на освещение дела Кагарлицкого и работу канала «Рабкор»: 2200 7004 3856 6977 (Тинькофф)
✅Карта для международных переводов: 4165 9816 0119 6631
✅Поддержать нас на Бусти: https:/…
https://t.me/rybolos_channel
✅Отправить пожертвование на освещение дела Кагарлицкого и работу канала «Рабкор»: 2200 7004 3856 6977 (Тинькофф)
✅Карта для международных переводов: 4165 9816 0119 6631
✅Поддержать нас на Бусти: https:/…
👍13🔥5🤓2❤1
Андрей Карпати присоединяется к OpenAI! Ждем курс по написанию ChatGPT с нуля в колабе.
🔥28😁15❤🔥3🎉3⚡1
🔺 Новости недели #ml_news
🔸 Microsoft провела event про встраиваниеGTA GPT 4 в свой поиск. Google ответил на следующий день, рассказав про своего ассистента Bard, но фурора не произвел, да и демки, чтобы попробовать, пока что нет.
🔸 BioGPT. Microsoft выложила модели для анализа текстов на медицинскую тематику. Весов на 1.5B, на специализированном бенчмарке PubMedQA показывает SOTA результат. Статья.
🔸 Андрей Карпати перешел в OpenAI и из публичного API сразу пропала ChatGPT, а скрипт перестал работать. Также в интерфейсе появилась возможность подписки на платный план за $20.
🔸 PEFT. В huggingface собрали текущие методы p-tuning'а в одну библиотеку peft. P-tuning, — это когда берешь жирную сеть, но дообучаешь какие-то отдельные части или вставки, — слои-адаптеры, дополнительные эмбеддинги. Очень круто, пока что есть несколько самых распространенных методов. Можно прикручивать к диффузионкам (colab).
🔸 Коллеги засабмитили модель FRED-T5 на денойзерах (как в UL2) на RussianSuperGlue и вышли на второе место. Это претрейн для русского, который можно будет использовать для своих seq2seq задач, качество должно быть повыше чем у текущих моделек. Веса для 1.7B скоро будут тут.
🔸 Also коллеги добавили в Kandinsky 2.0 синтез картинок из других картинок же наподобие midjouney. Ну и вроде получилось неплохо. Ждем релиз.
🔸 Я попробовал выравнивать аудиокнигу и текст, пока что получилось транскрибировать аудио и достать временные метки на уровне слов. Осталось выровнять это с оригиналом и прикрутить к книжке-трансформеру. Следим за событиями.
🔸 Microsoft провела event про встраивание
🔸 BioGPT. Microsoft выложила модели для анализа текстов на медицинскую тематику. Весов на 1.5B, на специализированном бенчмарке PubMedQA показывает SOTA результат. Статья.
🔸 Андрей Карпати перешел в OpenAI и из публичного API сразу пропала ChatGPT, а скрипт перестал работать. Также в интерфейсе появилась возможность подписки на платный план за $20.
🔸 PEFT. В huggingface собрали текущие методы p-tuning'а в одну библиотеку peft. P-tuning, — это когда берешь жирную сеть, но дообучаешь какие-то отдельные части или вставки, — слои-адаптеры, дополнительные эмбеддинги. Очень круто, пока что есть несколько самых распространенных методов. Можно прикручивать к диффузионкам (colab).
🔸 Коллеги засабмитили модель FRED-T5 на денойзерах (как в UL2) на RussianSuperGlue и вышли на второе место. Это претрейн для русского, который можно будет использовать для своих seq2seq задач, качество должно быть повыше чем у текущих моделек. Веса для 1.7B скоро будут тут.
🔸 Also коллеги добавили в Kandinsky 2.0 синтез картинок из других картинок же наподобие midjouney. Ну и вроде получилось неплохо. Ждем релиз.
🔸 Я попробовал выравнивать аудиокнигу и текст, пока что получилось транскрибировать аудио и достать временные метки на уровне слов. Осталось выровнять это с оригиналом и прикрутить к книжке-трансформеру. Следим за событиями.
👍23❤7🔥7⚡1💯1
🔹 Меня зовут Сергей Аверкиев. Долгие годы писал бэкенд под .NET пока не увлекся машинным обучением и сейчас занимаюсь NLP в славной команде SberDevice'ов.
Увлекаюсь разными вещами, в том числе очень люблю языки и все, что с ними связано. Подучиваю то один, то другой ради удовольствия, по каким-то сдавал экзамены. Сейчас занимаюсь китайским. Отсюда же берут начало некоторые мои пет-проекты:
• Lingtrain Studio. Приложение для выравнивания текстов на разных языках и создания книг и параллельных корпусов. Внутри используется LaBSE, поэтому поддерживается большое количество языков (100+), пробовал дообучать на малоресурсные языки.
• Книжки-трансформеры. Хочу чтобы каждый мог сделать себе нужную книгу из своих текстов на нескольких языках с удобными режимами для чтения и прослушивания. Выглядит это пока так: Мастер, Шекли, 1984. Собирается автоматически и хостится бесплатно на гитхабе. Обсуждаем тут.
🔹 Иногда что-то пишу на хабр, что-то коммичу на гитхаб.
🔹 Так как я переходил в ML из другой области (а в программирование пошел, почитав пару книжек), то могу посоветовать материалы и поделиться опытом на эту тему. Считаю, что каждому под силу сменить область деятельности, если она тебе интересна.
🔹 В этом канале предлагаю делиться полезными вещами и новостями на тему программирования и ML, историями из жизни и работы, а иногда чем-то несерьезным.
〰️ Случайные факты:
🔸 Пару-тройку раз отчислялся из универа.
🔸 Плавал вокруг Петропавловской крепости.
🔸 Родился там, где зимой под -60 и очень красиво.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74👍32❤10❤🔥4🍾2🤗2🥴1
🔺 RLHF
Пробежался по слайдам новой лекции из CS224N (увидел тут). Там в принципе есть про весь пайплайн обучения этих ваших ChatGPT в сжатой форме. Слайды хорошие, можно помедитировать, если углубляетесь в тему.
Слайды | Все лекции
Пробежался по слайдам новой лекции из CS224N (увидел тут). Там в принципе есть про весь пайплайн обучения этих ваших ChatGPT в сжатой форме. Слайды хорошие, можно помедитировать, если углубляетесь в тему.
Слайды | Все лекции
🔥17👍4❤🔥3⚡1
🔺 Корпуса малоресурсных языков
Айгиз Кунафин выложил на huggingface 🤗 русско-башкирский (700k пар) и русско-марийский (350k) параллельные корпуса.
Корпуса собирались и собираются группами энтузиастов в течение долгого времени, ребята любят и продвигают свой родной язык.
Молодцы, ждём чувашей и коми.
👉 Upd. Чувашский корпус есть.
Айгиз Кунафин выложил на huggingface 🤗 русско-башкирский (700k пар) и русско-марийский (350k) параллельные корпуса.
Корпуса собирались и собираются группами энтузиастов в течение долгого времени, ребята любят и продвигают свой родной язык.
Молодцы, ждём чувашей и коми.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
AigizK/bashkir-russian-parallel-corpora · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥33🆒8❤🔥4👍2⚡1
🔺 Новости недели #ml_news
🔸 LLaMA. Meta почти выложила в открытый доступ сильные мультиязычные (20 языков) претрейны от 7B до 65B параметров. 13B бьет приснопамятную GPT-3 (175B) на большинстве тестов. Обучали на открытых корпусах, показывая, что и на них можно достичь SOTA. Есть нюанс, — получить чекпоинт можно по запросу, а лицензия — noncommercial.
🔸 OpenAI написали заметку про наступление эпохи AGI (сильного искусственного интеллекта) "Planning for AGI and beyond" и о своей миссии в этом (три принципа в короткой и долгой перспективе).
🔸 Toolformer. Вновь работа от Meta, теперь развиваем идею повышения эффективности языковых моделей внешними инструментами. Если по какому-то API доступен калькулятор или качественный машинный перевод, то предсказываем что и когда в него нужно передать. Результат встраиваем в генерацию. Хороший обзор от Гриши Сапунова.
🔸 FlexGen. Еще один фреймворк от сообщества для запуска больших моделей на одной видеокарте (показывают пример с OPT-175B). Работает за счет сжатия весов и offloading'а, наподобие HF Accelerate и DeepSpeed Zero, но, говорят, быстрее на порядок, так как ориентирован на высокую производительность.
🔸 Умелец добавил редактор поз в Automatic1111. Кто не знает, — это инструмент для удобного использования Stable Diffusion моделей через web UI. Очень удобно, если есть своя карта. Можно подкладывать разные специализированные чекпоинты от сообщества и использовать плагины.
🔸 Вернулся из отпуска, будем с вами продолжать чинить добро и причинять радость.
🔸 LLaMA. Meta почти выложила в открытый доступ сильные мультиязычные (20 языков) претрейны от 7B до 65B параметров. 13B бьет приснопамятную GPT-3 (175B) на большинстве тестов. Обучали на открытых корпусах, показывая, что и на них можно достичь SOTA. Есть нюанс, — получить чекпоинт можно по запросу, а лицензия — noncommercial.
🔸 OpenAI написали заметку про наступление эпохи AGI (сильного искусственного интеллекта) "Planning for AGI and beyond" и о своей миссии в этом (три принципа в короткой и долгой перспективе).
🔸 Toolformer. Вновь работа от Meta, теперь развиваем идею повышения эффективности языковых моделей внешними инструментами. Если по какому-то API доступен калькулятор или качественный машинный перевод, то предсказываем что и когда в него нужно передать. Результат встраиваем в генерацию. Хороший обзор от Гриши Сапунова.
🔸 FlexGen. Еще один фреймворк от сообщества для запуска больших моделей на одной видеокарте (показывают пример с OPT-175B). Работает за счет сжатия весов и offloading'а, наподобие HF Accelerate и DeepSpeed Zero, но, говорят, быстрее на порядок, так как ориентирован на высокую производительность.
🔸 Умелец добавил редактор поз в Automatic1111. Кто не знает, — это инструмент для удобного использования Stable Diffusion моделей через web UI. Очень удобно, если есть своя карта. Можно подкладывать разные специализированные чекпоинты от сообщества и использовать плагины.
🔸 Вернулся из отпуска, будем с вами продолжать чинить добро и причинять радость.
👍17🔥10⚡3👀1