Градиент обреченный
7.98K subscribers
834 photos
20 videos
8 files
454 links
Download Telegram
#event #nlp

NLP в Тинькофф

Заглянул на NLP-митап "Монолог". Удивило, что аудитория была в основном очень молодого возраста, а не "старички" как на HighLoad'ах 😁

Все доклады полезные, больше всего зашел новый P-tuning (вид дообучения больших языковых моделей, при котором мы замораживаем все кроме какой-то дополнительной части P, а эту часть пытаются вживить в разные места большой модели), который не замедляет инференс и сохраняет возможность многозадачности (можно хранить дообучаемые вектора отдельно). Тестировали на SuperGLUE, обещают скоро выложить статью.

🔸 Видео с докладов пока нету, как появятся — скину в комментарии.
👍12🔥104
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 SD 2.0 и Depth-Conditional SD

Несколько часов назад на 🤗 выложили чекпоинты новой версии Stable Diffusion!

Кроме того, в репозитории на GitHub появилась еще одна модель — Depth-Conditional SD, которая позволяет делать генерацию по картинке с сохранением формы (пример наверху).

Для этого, через MiDaS строится карта глубины изображения с последующим обуславливанием SD на эту карту. Выглядит очень круто.

👉 GitHub | SD 2.0 | Depth-Conditional SD

👉 Upd. Завели в колабе

👉 Upd 2. Добавили в diffusers
🔥73👍2🎉1
Сходил на лекцию антрополога Дробышевского про левый мизинец (!), узнал:

- можно долго и увлекательно рассказывать про что угодно
- генетики не парятся по поводу сохранности ископаемых артефактов
- у эмбриона генетически формируется 7 пальцев, но реализуется 5
- как вид мы эволюционно все
вымрем.

Дробышевский предлагает самим создавать следующую версию человека с большим мозгом, который будет жить после нас. Я для этих же целей предлагаю создать ИИ, который в будущем всех нас сменит и отправится колонизировать космос. Главное, успеть сделать что-то до вымирания.
🔥23😁5👍41
#nlp #event

ML meetup #1

Коллеги прямо сейчас рассказывают про свои наработки и последние тенденции в мире машинного обучения. Решили рассказать все за несколько сессий, которые будут проходить по средам.

Сегодня как раз больше про NLP, — языковые модели, прикладные задачи (spell check, суммаризация и рерайтинг) и про молотилку 🔨

👉 Подключаемся

👉 Upd. Митап закончился, ссылки на записи скоро будут.

👉 Upd 2. Ссылки на видео

👉 Генеративные NLP инструменты 2022: рерайтер и суммаризатор, Алена Феногенова, Team Lead AGI NLP и Альбина Ахметгареева, DataEngineer AGI NLP

👉
Молотилка: ML Toolkit for Continuous Learning, Антон Емельянов, Senior DS AGI NLP

👉
State-of-the-art spellchecker для русского языка. Никита Мартынов, DS AGI NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍43
🚀 Тьюринг к нам приходит

Друзья, как вы, наверное, уже заметили, сегодня вышел замечательный релиз сети ChatGPT от OpenAI.

〰️ Что это?

Об этом она сам вам расскажет, добавлю лишь, что впервые вижу настолько качественного чат-бота. Он умеет логически рассуждать, отличая бред от того, что действительно могло бы произойти. Поэтому многие ответы дает в стиле душнилы, что мол "да не может такого быть, ты чего это, друг, давай-ка посерьезней". Срез знаний у нее на конец 2021 года, умеет кратко пересказывать книги и сюжет фильмов, причем может переделывать их, меняя детали на заказ. Хорошо держит контекст беседы, можно классно с ней чатиться.

〰️ Этика

Видно, что очень сильно затюнена этически, чтобы никого случайно незаабьюзить:

• На вопрос "Чего хочет женщина?" отвечает, что все женщины разные. Чтобы узнать, надо с ней побеседовать.
• Про отличия между странами или людьми, опять же, говорит, что все сложно и нельзя просто так делить людей на категории.

〰️ Языки

Основной язык английский, на нем она дает наиболее развернутые ответы. Но, как вы видите, я ее спрашивал на русском и на нем генерация тоже есть. Заметно, что выдается существенно меньше токенов, а значит русского в обучающей выборке было немного.

👉 Чтобы поиграться, нужно регаться на openai, сама демка здесь. А вот статья про нее.
🤯16👍11🔥62
Это похоже на какой-то киберпанк квест, но ChatGPT 👆 попросили вести себя как linux терминал, вошли в виртуалку, смогли через нее делать запросы во внешнюю сеть и обратились curl’ом к ней самой через сайт Open AI.

https://www.engraved.blog/building-a-virtual-machine-inside/
🤯34👍8🔥5😁21
🔺 Саммари по ChatGPT за последние пару дней

🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
🔥20👍91
#nlp #event

🔺 SberDevices NLP meetup #2

Коллеги продолжают делиться опытом и наработками (прямо сейчас начинаем). На этот раз про NLP на стыке с творчеством:

1️⃣ Нейромузыка и нейропение: генерация музыкальных дорожек и голоса с сохранением мелодической интонации

2️⃣ Контролируемая генерация: добавление в болталку на основе ruGPT-3

3️⃣ Мечтают ли нейросети о Пегасах. Конечно, мечтают. Пишем хорошие стихи нейросетями на заданную тему.

4️⃣ Нейрофэнтези: текстовые квесты типа AI Dungeon только на русском и с картинками. Статья про это на Хабре.

Записи будут. Вопросы можно задавать онлайн или в чатике.

Подключаемся тут

👉 Upd. Сергей Марков рассказывает про трансформерную революцию 17-го года.

👉 Upd 2. Встреча закончилась. Записи скоро будут.

👉 Upd 3. Видосики

1️⃣ Сергей Марков про трансформеры и будущее ИИ

2️⃣ Леонид Синев. Практика внедрения метода контролируемой генерации Keyword2Text в болталку на ruGPT3

3️⃣ Павел Гращенков. Нейрофэнтези: сочиняем фэнтези с GPT3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍42
Обновляем резюме

ОЕЯ-инженер, увлекаюсь КЗ, люблю ОСП, хочу большую ЗП
😁155💯3👍2🤓1
Forwarded from Lingtrain
🔺 Обновление Lingtrain

Всем привет! Добавил важный функционал в наш выравниватель (что это такое).

🔁 Экспорт и импорт

Теперь выравнивание, в том числе и незаконченное, можно скачать в .lt формате и загрузить его на вкладке Alignments. После загрузки можно будет продолжать с ним работать, править и т.д. Таким образом, если кто-то выравнивал текст и в нем остались ошибки, то можно будет загрузить выравнивание в Lingtrain и подредактировать его.

🚀 beta.lingtra.in

Какое-то время назад поднимал тестовую версию выравнивателя для русского и английского языков (там модель rubert-tiny). Прошляпил момент, когда на аккаунте закончились деньги и его удалили 🤷‍♂️

Поднял новый сервер и настроил нормальный адрес, там сейчас последняя версия с той же tiny моделью. Поддерживаются английский и русский языки.

http://beta.lingtra.in

🐳 Docker

Образы для локального запуска:

• lingtrain/studio:v8.4 (50+ языков)
• lingtrain/studio:v8.4-labse (100+ языков)
• lingtrain/studio:v8.4-tiny (ru-en)

Запускается все как раньше (инструкция).

👉 GitHub
🔥13👍53🤗1
#dataset #emnlp2022

🔺 Crossmodal-3600

Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.

〰️ Языки

Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:

Arabic, Bengali, Chinese, Croatian, Cusco, Quechua, Czech, Danish, Dutch, English, Filipino, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Maori, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Swahili, Swedish, Telugu, Thai, Turkish, Ukrainian, Vietnamese

Используют как бенчмарк для своих мультиязычных моделей типа image captioning и image retrieval. Заявляют, что сильно коррелирует с человеческой оценкой.


👉 Paper | Скачать | Поиск по датасету
👍4🔥31🤓1
🔺 Друзья, написал статью про создание параллельного корпуса на 10 языках при помощи моего маленького проекта во выравниванию.

На выходе получается корпус Woland-10, про который писал и про который многие спрашивали.
🔥17👍52❤‍🔥1👏1😁1🎉1
🔺 TAPE

Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.

〰️ Что это?

Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.

〰️ Устойчивость к шуму

В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).

👉 Хабр | GitHub | HF
🔥17👍621🤗1
🗿 Сходил на выставку "Всеобщий язык" в Пушкинском. Кто интересуется различными видами письменностей, очень рекомендую. Их там такое количество, что глаза разбегаются.

Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.

Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
👍25🔥9❤‍🔥311