Градиент обреченный

#event #nlp

NLP в Тинькофф

Заглянул на NLP-митап "Монолог". Удивило, что аудитория была в основном очень молодого возраста, а не "старички" как на HighLoad'ах 😁

Все доклады полезные, больше всего зашел новый P-tuning (вид дообучения больших языковых моделей, при котором мы замораживаем все кроме какой-то дополнительной части P, а эту часть пытаются вживить в разные места большой модели), который не замедляет инференс и сохраняет возможность многозадачности (можно хранить дообучаемые вектора отдельно). Тестировали на SuperGLUE, обещают скоро выложить статью.

🔸 Видео с докладов пока нету, как появятся — скину в комментарии.

👍12🔥10⚡4

1.45K viewsSergei Averkiev, 17:39

Градиент обреченный

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 SD 2.0 и Depth-Conditional SD

Несколько часов назад на 🤗 выложили чекпоинты новой версии Stable Diffusion!

Кроме того, в репозитории на GitHub появилась еще одна модель — Depth-Conditional SD, которая позволяет делать генерацию по картинке с сохранением формы (пример наверху).

Для этого, через MiDaS строится карта глубины изображения с последующим обуславливанием SD на эту карту. Выглядит очень круто.

👉 GitHub | SD 2.0 | Depth-Conditional SD

👉 Upd. Завели в колабе

👉 Upd 2. Добавили в diffusers

🔥7⚡3👍2🎉1

2.35K viewsSergei Averkiev, edited 07:33

Градиент обреченный

Сходил на лекцию антрополога Дробышевского про левый мизинец (!), узнал:

- можно долго и увлекательно рассказывать про что угодно
- генетики не парятся по поводу сохранности ископаемых артефактов
- у эмбриона генетически формируется 7 пальцев, но реализуется 5
- как вид мы эволюционно все
вымрем.

Дробышевский предлагает самим создавать следующую версию человека с большим мозгом, который будет жить после нас. Я для этих же целей предлагаю создать ИИ, который в будущем всех нас сменит и отправится колонизировать космос. Главное, успеть сделать что-то до вымирания.

🔥23😁5👍4⚡1

1.71K viewsSergei Averkiev, 15:34

Градиент обреченный

#nlp #event

⭐ ML meetup #1

Коллеги прямо сейчас рассказывают про свои наработки и последние тенденции в мире машинного обучения. Решили рассказать все за несколько сессий, которые будут проходить по средам.

Сегодня как раз больше про NLP, — языковые модели, прикладные задачи (spell check, суммаризация и рерайтинг) и про молотилку 🔨

~~👉 Подключаемся~~

👉

Upd. Митап закончился, ссылки на записи скоро будут.

👉 Upd 2. Ссылки на видео

👉 Генеративные NLP инструменты 2022: рерайтер и суммаризатор, Алена Феногенова, Team Lead AGI NLP и Альбина Ахметгареева, DataEngineer AGI NLP

👉 Молотилка: ML Toolkit for Continuous Learning, Антон Емельянов, Senior DS AGI NLP

👉 State-of-the-art spellchecker для русского языка. Никита Мартынов, DS AGI NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Генеративные NLP инструменты 2022 - Salute AI Day 30.11.2022

Генеративные NLP инструменты 2022 - Salute AI Day 30.11.2022

Алена Феногенова, Team Lead AGI NLP, SberDevices
Альбина Ахметгареева, Engineer AGI NLP, SberDevices

Как мы строим рабочие пайплайны для работы с текстом на примере рерайтера и суммаризатора.…

🔥6👍4⚡3

1.42K viewsSergei Averkiev, edited 15:12

Градиент обреченный

🚀 Тьюринг к нам приходит

Друзья, как вы, наверное, уже заметили, сегодня вышел замечательный релиз сети ChatGPT от OpenAI.

〰️ Что это?

Об этом она сам вам расскажет, добавлю лишь, что впервые вижу настолько качественного чат-бота. Он умеет логически рассуждать, отличая бред от того, что действительно могло бы произойти. Поэтому многие ответы дает в стиле душнилы, что мол "да не может такого быть, ты чего это, друг, давай-ка посерьезней". Срез знаний у нее на конец 2021 года, умеет кратко пересказывать книги и сюжет фильмов, причем может переделывать их, меняя детали на заказ. Хорошо держит контекст беседы, можно классно с ней чатиться.

〰️ Этика

Видно, что очень сильно затюнена этически, чтобы никого случайно незаабьюзить:

• На вопрос "Чего хочет женщина?" отвечает, что все женщины разные. Чтобы узнать, надо с ней побеседовать.
• Про отличия между странами или людьми, опять же, говорит, что все сложно и нельзя просто так делить людей на категории.

〰️ Языки

Основной язык английский, на нем она дает наиболее развернутые ответы. Но, как вы видите, я ее спрашивал на русском и на нем генерация тоже есть. Заметно, что выдается существенно меньше токенов, а значит русского в обучающей выборке было немного.

👉 Чтобы поиграться, нужно регаться на openai, сама демка здесь. А вот статья про нее.

🤯16👍11🔥6⚡2

1.91K viewsSergei Averkiev, 18:05

Градиент обреченный

Это похоже на какой-то киберпанк квест, но ChatGPT 👆 попросили вести себя как linux терминал, вошли в виртуалку, смогли через нее делать запросы во внешнюю сеть и обратились curl’ом к ней самой через сайт Open AI.

https://www.engraved.blog/building-a-virtual-machine-inside/

Engraved

Building A Virtual Machine inside ChatGPT

Unless you have been living under a rock, you have heard of this new ChatGPT assistant made by OpenAI. Did you know, that you can run a whole virtual machine inside of ChatGPT?

🤯34👍8🔥5😁2⚡1

4.05K viewsSergei Averkiev, 06:46

Градиент обреченный

🔺 Саммари по ChatGPT за последние пару дней

🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят

From the ControlProblem community on Reddit: I gave ChatGPT the 117 question, eight dimensional PolitiScales test

Explore this post and more from the ControlProblem community

🔥20👍9⚡1

11.6K viewsSergei Averkiev, 13:50

Градиент обреченный

#nlp #event

🔺 SberDevices NLP meetup #2

Коллеги продолжают делиться опытом и наработками (прямо сейчас начинаем). На этот раз про NLP на стыке с творчеством:

1️⃣ Нейромузыка и нейропение: генерация музыкальных дорожек и голоса с сохранением мелодической интонации

2️⃣ Контролируемая генерация: добавление в болталку на основе ruGPT-3

3️⃣ Мечтают ли нейросети о Пегасах. Конечно, мечтают. Пишем хорошие стихи нейросетями на заданную тему.

4️⃣ Нейрофэнтези: текстовые квесты типа AI Dungeon только на русском и с картинками. Статья про это на Хабре.

Записи будут. Вопросы можно задавать онлайн или в чатике.

⏰

~~Подключаемся тут~~

👉

Upd. Сергей Марков рассказывает про трансформерную революцию 17-го года.

👉

Upd 2. Встреча закончилась. Записи скоро будут.

👉

Upd 3. Видосики

1️⃣ Сергей Марков про трансформеры и будущее ИИ

2️⃣ Леонид Синев. Практика внедрения метода контролируемой генерации Keyword2Text в болталку на ruGPT3

3️⃣ Павел Гращенков. Нейрофэнтези: сочиняем фэнтези с GPT3

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍4❤2

1.73K viewsSergei Averkiev, edited 15:02

Градиент обреченный

Обновляем резюме

ОЕЯ-инженер, увлекаюсь КЗ, люблю ОСП, хочу большую ЗП

😁15✍5💯3👍2🤓1

1.55K viewsSergei Averkiev, edited 17:58

Градиент обреченный

Forwarded from Lingtrain

🔺 Обновление Lingtrain

Всем привет! Добавил важный функционал в наш выравниватель (что это такое).

🔁 Экспорт и импорт

Теперь выравнивание, в том числе и незаконченное, можно скачать в .lt формате и загрузить его на вкладке Alignments. После загрузки можно будет продолжать с ним работать, править и т.д. Таким образом, если кто-то выравнивал текст и в нем остались ошибки, то можно будет загрузить выравнивание в Lingtrain и подредактировать его.

🚀 beta.lingtra.in

Какое-то время назад поднимал тестовую версию выравнивателя для русского и английского языков (там модель rubert-tiny). Прошляпил момент, когда на аккаунте закончились деньги и его удалили 🤷‍♂️

Поднял новый сервер и настроил нормальный адрес, там сейчас последняя версия с той же tiny моделью. Поддерживаются английский и русский языки.

http://beta.lingtra.in

🐳 Docker

Образы для локального запуска:

• lingtrain/studio:v8.4 (50+ языков)
• lingtrain/studio:v8.4-labse (100+ языков)
• lingtrain/studio:v8.4-tiny (ru-en)

Запускается все как раньше (инструкция).

👉 GitHub

🔥13👍5❤3🤗1

1.63K viewsSergei Averkiev, 11:52

Градиент обреченный

#dataset #emnlp2022

🔺 Crossmodal-3600

Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.

〰️ Языки

Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:

Arabic, Bengali, Chinese, Croatian, Cusco, Quechua, Czech, Danish, Dutch, English, Filipino, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Maori, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Swahili, Swedish, Telugu, Thai, Turkish, Ukrainian, Vietnamese

Используют как бенчмарк для своих мультиязычных моделей типа image captioning и image retrieval. Заявляют, что сильно коррелирует с человеческой оценкой.

👉 Paper | Скачать | Поиск по датасету

👍4🔥3✍1🤓1

1.64K viewsSergei Averkiev, edited 07:56

Градиент обреченный

🔺 Друзья, написал статью про создание параллельного корпуса на 10 языках при помощи моего маленького проекта во выравниванию.

На выходе получается корпус Woland-10, про который писал и про который многие спрашивали.

Хабр

Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов

📌 градиент обреченный Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи пет-проекта, которым я занимаюсь несколько лет. Для примера возьмем 10 редакций "Мастера и...

🔥17👍5❤2❤‍🔥1👏1😁1🎉1

2.69K viewsSergei Averkiev, 12:03

Градиент обреченный

🔺 TAPE

Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.

〰️ Что это?

Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.

〰️ Устойчивость к шуму

В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).

👉 Хабр | GitHub | HF

Хабр

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500...

🔥17👍6❤2⚡1🤗1

6.09K viewsSergei Averkiev, 11:47

Градиент обреченный

🗿 Сходил на выставку "Всеобщий язык" в Пушкинском. Кто интересуется различными видами письменностей, очень рекомендую. Их там такое количество, что глаза разбегаются.

Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.

Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.

👍25🔥9❤‍🔥3✍1⚡1

1.45K viewsSergei Averkiev, 07:32

About

Blog

Apps

Platform