Градиент обреченный

🔸 Год назад я ставил на ночь скрипты для генерации картинок типа

картина [Будапешта, Праги, Милана, ...] [летом, зимой] в стиле [акварели, скетча, ...]

чтобы утром посмотреть на результат. Очень это нравилось и в течение года качество становилось лучше, а сейчас уже есть куча классных моделей для этого.

🔸 Теперь я ставлю ChatGPT генерировать мне рэп и факты про языки мира (вот скрипт для запуска).

🔸 Уверен, через год будем делать такое

сделай видеоклип в стиле Раммштайн про кабачок на чувашском языке, trending on youtube

👍22🔥8💯4😁3

2.72K viewsSergei Averkiev, 07:15

Градиент обреченный

Forwarded from Kali Novskaya (Tatiana Shavrina)

Пришло время признаться: у меня блогерский дебют.

COPYLEFT — авторский формат, где я буду делиться историями про технологии более популярно, рассказывать про опенсорс и важность реальных достижений в ИИ.
Поддержите формат, если вам заходит!

На Рабкоре — женский голос!

#nlp #про_nlp

https://youtu.be/rJGjPEZpkOY

YouTube

Кому принадлежит интеллект в 2023?

Ресурсы Кали Новской
https://t.me/rybolos_channel

✅Отправить пожертвование на освещение дела Кагарлицкого и работу канала «Рабкор»: 2200 7004 3856 6977 (Тинькофф)
✅Карта для международных переводов: 4165 9816 0119 6631
✅Поддержать нас на Бусти: https:/…

👍13🔥5🤓2❤1

2.02K viewsSergei Averkiev, 14:53

Градиент обреченный

Андрей Карпати присоединяется к OpenAI! Ждем курс по написанию ChatGPT с нуля в колабе.

🔥28😁15❤‍🔥3🎉3⚡1

2.59K viewsSergei Averkiev, edited 07:14

Градиент обреченный

🔺 Новости недели #ml_news

🔸 Microsoft провела event про встраивание ~~GTA~~ GPT 4 в свой поиск. Google ответил на следующий день, рассказав про своего ассистента Bard, но фурора не произвел, да и демки, чтобы попробовать, пока что нет.
🔸 BioGPT. Microsoft выложила модели для анализа текстов на медицинскую тематику. Весов на 1.5B, на специализированном бенчмарке PubMedQA показывает SOTA результат. Статья.
🔸 Андрей Карпати перешел в OpenAI и из публичного API сразу пропала ChatGPT, а скрипт перестал работать. Также в интерфейсе появилась возможность подписки на платный план за $20.
🔸 PEFT. В huggingface собрали текущие методы p-tuning'а в одну библиотеку peft. P-tuning, — это когда берешь жирную сеть, но дообучаешь какие-то отдельные части или вставки, — слои-адаптеры, дополнительные эмбеддинги. Очень круто, пока что есть несколько самых распространенных методов. Можно прикручивать к диффузионкам (colab).
🔸 Коллеги засабмитили модель FRED-T5 на денойзерах (как в UL2) на RussianSuperGlue и вышли на второе место. Это претрейн для русского, который можно будет использовать для своих seq2seq задач, качество должно быть повыше чем у текущих моделек. Веса для 1.7B скоро будут тут.
🔸 Also коллеги добавили в Kandinsky 2.0 синтез картинок из других картинок же наподобие midjouney. Ну и вроде получилось неплохо. Ждем релиз.
🔸 Я попробовал выравнивать аудиокнигу и текст, пока что получилось транскрибировать аудио и достать временные метки на уровне слов. Осталось выровнять это с оригиналом и прикрутить к книжке-трансформеру. Следим за событиями.

👍23❤7🔥7⚡1💯1

3.43K viewsSergei Averkiev, edited 11:53

Градиент обреченный

👋 Друзья, нас становится все больше и больше (1700+), — давайте скорее знакомиться.

🔹 Меня зовут Сергей Аверкиев. Долгие годы писал бэкенд под .NET пока не увлекся машинным обучением и сейчас занимаюсь NLP в славной команде SberDevice'ов.

Увлекаюсь разными вещами, в том числе очень люблю языки и все, что с ними связано. Подучиваю то один, то другой ради удовольствия, по каким-то сдавал экзамены. Сейчас занимаюсь китайским. Отсюда же берут начало некоторые мои пет-проекты:

• Lingtrain Studio. Приложение для выравнивания текстов на разных языках и создания книг и параллельных корпусов. Внутри используется LaBSE, поэтому поддерживается большое количество языков (100+), пробовал дообучать на малоресурсные языки.
• Книжки-трансформеры. Хочу чтобы каждый мог сделать себе нужную книгу из своих текстов на нескольких языках с удобными режимами для чтения и прослушивания. Выглядит это пока так: Мастер, Шекли, 1984. Собирается автоматически и хостится бесплатно на гитхабе. Обсуждаем тут.

🔹 Иногда что-то пишу на хабр, что-то коммичу на гитхаб.

🔹 Так как я переходил в ML из другой области (а в программирование пошел, почитав пару книжек), то могу посоветовать материалы и поделиться опытом на эту тему. Считаю, что каждому под силу сменить область деятельности, если она тебе интересна.

🔹 В этом канале предлагаю делиться полезными вещами и новостями на тему программирования и ML, историями из жизни и работы, а иногда чем-то несерьезным.

〰️ Случайные факты:

🔸 Пару-тройку раз отчислялся из универа.
🔸 Плавал вокруг Петропавловской крепости.
🔸 Родился там, где зимой под -60 и очень красиво.

🤗 А как у вас дела?

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥74👍32❤10❤‍🔥4🍾2🤗2🥴1

3.83K viewsSergei Averkiev, 14:00

Градиент обреченный

Градиент обреченный pinned a photo

14:04

Градиент обреченный

🔺 RLHF

Пробежался по слайдам новой лекции из CS224N (увидел тут). Там в принципе есть про весь пайплайн обучения этих ваших ChatGPT в сжатой форме. Слайды хорошие, можно помедитировать, если углубляетесь в тему.

Слайды | Все лекции

🔥17👍4❤‍🔥3⚡1

4.07K viewsSergei Averkiev, 07:09

Градиент обреченный

В отпуске посетил музей Анталии и увидел предтечу midjourney в виде статуи Афродиты. I век н.э.

😁25🔥5👍3❤2🤓1

2.2K viewsSergei Averkiev, 18:02

Градиент обреченный

🔺 Корпуса малоресурсных языков

Айгиз Кунафин выложил на huggingface 🤗 русско-башкирский (700k пар) и русско-марийский (350k) параллельные корпуса.

Корпуса собирались и собираются группами энтузиастов в течение долгого времени, ребята любят и продвигают свой родной язык.

Молодцы, ждём чувашей и коми.

👉

Upd. Чувашский корпус есть.

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

AigizK/bashkir-russian-parallel-corpora · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥33🆒8❤‍🔥4👍2⚡1

1.97K viewsSergei Averkiev, edited 18:00

Градиент обреченный

🔺 Новости недели #ml_news

🔸 LLaMA. Meta почти выложила в открытый доступ сильные мультиязычные (20 языков) претрейны от 7B до 65B параметров. 13B бьет приснопамятную GPT-3 (175B) на большинстве тестов. Обучали на открытых корпусах, показывая, что и на них можно достичь SOTA. Есть нюанс, — получить чекпоинт можно по запросу, а лицензия — noncommercial.
🔸 OpenAI написали заметку про наступление эпохи AGI (сильного искусственного интеллекта) "Planning for AGI and beyond" и о своей миссии в этом (три принципа в короткой и долгой перспективе).
🔸 Toolformer. Вновь работа от Meta, теперь развиваем идею повышения эффективности языковых моделей внешними инструментами. Если по какому-то API доступен калькулятор или качественный машинный перевод, то предсказываем что и когда в него нужно передать. Результат встраиваем в генерацию. Хороший обзор от Гриши Сапунова.
🔸 FlexGen. Еще один фреймворк от сообщества для запуска больших моделей на одной видеокарте (показывают пример с OPT-175B). Работает за счет сжатия весов и offloading'а, наподобие HF Accelerate и DeepSpeed Zero, но, говорят, быстрее на порядок, так как ориентирован на высокую производительность.
🔸 Умелец добавил редактор поз в Automatic1111. Кто не знает, — это инструмент для удобного использования Stable Diffusion моделей через web UI. Очень удобно, если есть своя карта. Можно подкладывать разные специализированные чекпоинты от сообщества и использовать плагины.
🔸 Вернулся из отпуска, будем с вами продолжать чинить добро и причинять радость.

👍17🔥10⚡3👀1

1.85K viewsSergei Averkiev, edited 11:03

Градиент обреченный

Друзья, а как вы чистите текстовые данные?

Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.

После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.

👉 Поделитесь своим опытом в этом деле.

🔥 Upd. Предложения

🔸 Эвристики на словарях
🔸 Фильтры моделями по семантической близости
🔸 По перплексии
🔸 По энтропии (считаем коэфф-т сжатия)
🔸 Чувствительный к ошибкам классификатор на n-граммах
🔸 По языку
🔸 Еще эвристики на регулярках

👀14👍11🔥4🤓1

1.75K viewsSergei Averkiev, 06:03

Градиент обреченный

🔺 Тренируем с коллегами одну модель. Потихоньку просыпается!

Программист, забывший пароли,
Взламывает компьютеры богов.
Судьба программиста — познать печаль.

🔥44😁14⚡2✍2🥴2👍1

1.66K viewsSergei Averkiev, 08:02

Градиент обреченный

🔺 ChatGPT и Whisper стали доступны по API

В первый день весны OpenAI заоптимизировали свои модели (говорят, что теперь тратят на 90% меньше ресурсов чем два месяца назад) и сделали их доступными по API.

Теперь можно встраивать в свои приложения генерацию контента через ChatGPT и распознавание речи через Whisper (97 языков).

Цена за ASR — $0.006/минута аудио, за ChatGPT — $0.002/тыс. токенов.

👉 Пост

Openai

Introducing ChatGPT and Whisper APIs

Developers can now integrate ChatGPT and Whisper models into their apps and products through our API.

🔥32😱5👍3❤1⚡1

2.4K viewsSergei Averkiev, 18:35

Градиент обреченный

Forwarded from AbstractDL

GPT теперь принимает на вход эмбеддинги

Наконец! В transformers добавлена поддержка эмбеддингов в качестве инпута для полноценной генерации в GPT-like моделях.

За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!

Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию 4.27.0.

GitHub

🔥21👍6⚡3💯1

1.57K viewsSergei Averkiev, 08:37

Градиент обреченный

Заполните форму, говорили они. #LLaMA

👉 утекли веса новой модельки от Meta

😁30🔥13🍾2⚡1👍1

2.01K viewsSergei Averkiev, edited 15:09

About

Blog

Apps

Platform