#event #nlp
NLP в Тинькофф
Заглянул на NLP-митап "Монолог". Удивило, что аудитория была в основном очень молодого возраста, а не "старички" как на HighLoad'ах 😁
Все доклады полезные, больше всего зашел новый P-tuning (вид дообучения больших языковых моделей, при котором мы замораживаем все кроме какой-то дополнительной части P, а эту часть пытаются вживить в разные места большой модели), который не замедляет инференс и сохраняет возможность многозадачности (можно хранить дообучаемые вектора отдельно). Тестировали на SuperGLUE, обещают скоро выложить статью.
🔸 Видео с докладов пока нету, как появятся — скину в комментарии.
NLP в Тинькофф
Заглянул на NLP-митап "Монолог". Удивило, что аудитория была в основном очень молодого возраста, а не "старички" как на HighLoad'ах 😁
Все доклады полезные, больше всего зашел новый P-tuning (вид дообучения больших языковых моделей, при котором мы замораживаем все кроме какой-то дополнительной части P, а эту часть пытаются вживить в разные места большой модели), который не замедляет инференс и сохраняет возможность многозадачности (можно хранить дообучаемые вектора отдельно). Тестировали на SuperGLUE, обещают скоро выложить статью.
🔸 Видео с докладов пока нету, как появятся — скину в комментарии.
👍12🔥10⚡4
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 SD 2.0 и Depth-Conditional SD
Несколько часов назад на 🤗 выложили чекпоинты новой версии Stable Diffusion!
Кроме того, в репозитории на GitHub появилась еще одна модель — Depth-Conditional SD, которая позволяет делать генерацию по картинке с сохранением формы (пример наверху).
Для этого, через MiDaS строится карта глубины изображения с последующим обуславливанием SD на эту карту. Выглядит очень круто.
👉 GitHub | SD 2.0 | Depth-Conditional SD
👉 Upd. Завели в колабе
👉 Upd 2. Добавили в diffusers
Несколько часов назад на 🤗 выложили чекпоинты новой версии Stable Diffusion!
Кроме того, в репозитории на GitHub появилась еще одна модель — Depth-Conditional SD, которая позволяет делать генерацию по картинке с сохранением формы (пример наверху).
Для этого, через MiDaS строится карта глубины изображения с последующим обуславливанием SD на эту карту. Выглядит очень круто.
👉 GitHub | SD 2.0 | Depth-Conditional SD
👉 Upd. Завели в колабе
👉 Upd 2. Добавили в diffusers
🔥7⚡3👍2🎉1
Сходил на лекцию антрополога Дробышевского про левый мизинец (!), узнал:
- можно долго и увлекательно рассказывать про что угодно
- генетики не парятся по поводу сохранности ископаемых артефактов
- у эмбриона генетически формируется 7 пальцев, но реализуется 5
- как вид мы эволюционно все
вымрем.
Дробышевский предлагает самим создавать следующую версию человека с большим мозгом, который будет жить после нас. Я для этих же целей предлагаю создать ИИ, который в будущем всех нас сменит и отправится колонизировать космос. Главное, успеть сделать что-то до вымирания.
- можно долго и увлекательно рассказывать про что угодно
- генетики не парятся по поводу сохранности ископаемых артефактов
- у эмбриона генетически формируется 7 пальцев, но реализуется 5
- как вид мы эволюционно все
вымрем.
Дробышевский предлагает самим создавать следующую версию человека с большим мозгом, который будет жить после нас. Я для этих же целей предлагаю создать ИИ, который в будущем всех нас сменит и отправится колонизировать космос. Главное, успеть сделать что-то до вымирания.
🔥23😁5👍4⚡1
#nlp #event
⭐ ML meetup #1
Коллеги прямо сейчас рассказывают про свои наработки и последние тенденции в мире машинного обучения. Решили рассказать все за несколько сессий, которые будут проходить по средам.
Сегодня как раз больше про NLP, — языковые модели, прикладные задачи (spell check, суммаризация и рерайтинг) и про молотилку 🔨
👉 Подключаемся
👉 Upd. Митап закончился, ссылки на записи скоро будут.
👉 Upd 2. Ссылки на видео
👉 Генеративные NLP инструменты 2022: рерайтер и суммаризатор, Алена Феногенова, Team Lead AGI NLP и Альбина Ахметгареева, DataEngineer AGI NLP
👉 Молотилка: ML Toolkit for Continuous Learning, Антон Емельянов, Senior DS AGI NLP
👉 State-of-the-art spellchecker для русского языка. Никита Мартынов, DS AGI NLP
⭐ ML meetup #1
Коллеги прямо сейчас рассказывают про свои наработки и последние тенденции в мире машинного обучения. Решили рассказать все за несколько сессий, которые будут проходить по средам.
Сегодня как раз больше про NLP, — языковые модели, прикладные задачи (spell check, суммаризация и рерайтинг) и про молотилку 🔨
👉 Генеративные NLP инструменты 2022: рерайтер и суммаризатор, Алена Феногенова, Team Lead AGI NLP и Альбина Ахметгареева, DataEngineer AGI NLP
👉 Молотилка: ML Toolkit for Continuous Learning, Антон Емельянов, Senior DS AGI NLP
👉 State-of-the-art spellchecker для русского языка. Никита Мартынов, DS AGI NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Генеративные NLP инструменты 2022 - Salute AI Day 30.11.2022
Генеративные NLP инструменты 2022 - Salute AI Day 30.11.2022
Алена Феногенова, Team Lead AGI NLP, SberDevices
Альбина Ахметгареева, Engineer AGI NLP, SberDevices
Как мы строим рабочие пайплайны для работы с текстом на примере рерайтера и суммаризатора.…
Алена Феногенова, Team Lead AGI NLP, SberDevices
Альбина Ахметгареева, Engineer AGI NLP, SberDevices
Как мы строим рабочие пайплайны для работы с текстом на примере рерайтера и суммаризатора.…
🔥6👍4⚡3
🚀 Тьюринг к нам приходит
Друзья, как вы, наверное, уже заметили, сегодня вышел замечательный релиз сети ChatGPT от OpenAI.
〰️ Что это?
Об этом она сам вам расскажет, добавлю лишь, что впервые вижу настолько качественного чат-бота. Он умеет логически рассуждать, отличая бред от того, что действительно могло бы произойти. Поэтому многие ответы дает в стиле душнилы, что мол "да не может такого быть, ты чего это, друг, давай-ка посерьезней". Срез знаний у нее на конец 2021 года, умеет кратко пересказывать книги и сюжет фильмов, причем может переделывать их, меняя детали на заказ. Хорошо держит контекст беседы, можно классно с ней чатиться.
〰️ Этика
Видно, что очень сильно затюнена этически, чтобы никого случайно незаабьюзить:
• На вопрос "Чего хочет женщина?" отвечает, что все женщины разные. Чтобы узнать, надо с ней побеседовать.
• Про отличия между странами или людьми, опять же, говорит, что все сложно и нельзя просто так делить людей на категории.
〰️ Языки
Основной язык английский, на нем она дает наиболее развернутые ответы. Но, как вы видите, я ее спрашивал на русском и на нем генерация тоже есть. Заметно, что выдается существенно меньше токенов, а значит русского в обучающей выборке было немного.
👉 Чтобы поиграться, нужно регаться на openai, сама демка здесь. А вот статья про нее.
Друзья, как вы, наверное, уже заметили, сегодня вышел замечательный релиз сети ChatGPT от OpenAI.
〰️ Что это?
Об этом она сам вам расскажет, добавлю лишь, что впервые вижу настолько качественного чат-бота. Он умеет логически рассуждать, отличая бред от того, что действительно могло бы произойти. Поэтому многие ответы дает в стиле душнилы, что мол "да не может такого быть, ты чего это, друг, давай-ка посерьезней". Срез знаний у нее на конец 2021 года, умеет кратко пересказывать книги и сюжет фильмов, причем может переделывать их, меняя детали на заказ. Хорошо держит контекст беседы, можно классно с ней чатиться.
〰️ Этика
Видно, что очень сильно затюнена этически, чтобы никого случайно незаабьюзить:
• На вопрос "Чего хочет женщина?" отвечает, что все женщины разные. Чтобы узнать, надо с ней побеседовать.
• Про отличия между странами или людьми, опять же, говорит, что все сложно и нельзя просто так делить людей на категории.
〰️ Языки
Основной язык английский, на нем она дает наиболее развернутые ответы. Но, как вы видите, я ее спрашивал на русском и на нем генерация тоже есть. Заметно, что выдается существенно меньше токенов, а значит русского в обучающей выборке было немного.
👉 Чтобы поиграться, нужно регаться на openai, сама демка здесь. А вот статья про нее.
🤯16👍11🔥6⚡2
Это похоже на какой-то киберпанк квест, но ChatGPT 👆 попросили вести себя как linux терминал, вошли в виртуалку, смогли через нее делать запросы во внешнюю сеть и обратились curl’ом к ней самой через сайт Open AI.
https://www.engraved.blog/building-a-virtual-machine-inside/
https://www.engraved.blog/building-a-virtual-machine-inside/
Engraved
Building A Virtual Machine inside ChatGPT
Unless you have been living under a rock, you have heard of this new ChatGPT assistant made by OpenAI. Did you know, that you can run a whole virtual machine inside of ChatGPT?
🤯34👍8🔥5😁2⚡1
🔺 Саммари по ChatGPT за последние пару дней
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
Reddit
From the ControlProblem community on Reddit: I gave ChatGPT the 117 question, eight dimensional PolitiScales test
Explore this post and more from the ControlProblem community
🔥20👍9⚡1
#nlp #event
🔺 SberDevices NLP meetup #2
Коллеги продолжают делиться опытом и наработками (прямо сейчас начинаем). На этот раз про NLP на стыке с творчеством:
1️⃣ Нейромузыка и нейропение: генерация музыкальных дорожек и голоса с сохранением мелодической интонации
2️⃣ Контролируемая генерация: добавление в болталку на основе ruGPT-3
3️⃣ Мечтают ли нейросети о Пегасах. Конечно, мечтают. Пишем хорошие стихи нейросетями на заданную тему.
4️⃣ Нейрофэнтези: текстовые квесты типа AI Dungeon только на русском и с картинками. Статья про это на Хабре.
Записи будут. Вопросы можно задавать онлайн или в чатике.
⏰ Подключаемся тут
👉 Upd. Сергей Марков рассказывает про трансформерную революцию 17-го года.
👉 Upd 2. Встреча закончилась. Записи скоро будут.
👉 Upd 3. Видосики
1️⃣ Сергей Марков про трансформеры и будущее ИИ
2️⃣ Леонид Синев. Практика внедрения метода контролируемой генерации Keyword2Text в болталку на ruGPT3
3️⃣ Павел Гращенков. Нейрофэнтези: сочиняем фэнтези с GPT3
🔺 SberDevices NLP meetup #2
Коллеги продолжают делиться опытом и наработками (прямо сейчас начинаем). На этот раз про NLP на стыке с творчеством:
1️⃣ Нейромузыка и нейропение: генерация музыкальных дорожек и голоса с сохранением мелодической интонации
2️⃣ Контролируемая генерация: добавление в болталку на основе ruGPT-3
3️⃣ Мечтают ли нейросети о Пегасах. Конечно, мечтают. Пишем хорошие стихи нейросетями на заданную тему.
4️⃣ Нейрофэнтези: текстовые квесты типа AI Dungeon только на русском и с картинками. Статья про это на Хабре.
Записи будут. Вопросы можно задавать онлайн или в чатике.
1️⃣ Сергей Марков про трансформеры и будущее ИИ
2️⃣ Леонид Синев. Практика внедрения метода контролируемой генерации Keyword2Text в болталку на ruGPT3
3️⃣ Павел Гращенков. Нейрофэнтези: сочиняем фэнтези с GPT3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4❤2
Forwarded from Lingtrain
🔺 Обновление Lingtrain
Всем привет! Добавил важный функционал в наш выравниватель (что это такое).
🔁 Экспорт и импорт
Теперь выравнивание, в том числе и незаконченное, можно скачать в .lt формате и загрузить его на вкладке Alignments. После загрузки можно будет продолжать с ним работать, править и т.д. Таким образом, если кто-то выравнивал текст и в нем остались ошибки, то можно будет загрузить выравнивание в Lingtrain и подредактировать его.
🚀 beta.lingtra.in
Какое-то время назад поднимал тестовую версию выравнивателя для русского и английского языков (там модель rubert-tiny). Прошляпил момент, когда на аккаунте закончились деньги и его удалили 🤷♂️
Поднял новый сервер и настроил нормальный адрес, там сейчас последняя версия с той же tiny моделью. Поддерживаются английский и русский языки.
http://beta.lingtra.in
🐳 Docker
Образы для локального запуска:
• lingtrain/studio:v8.4 (50+ языков)
• lingtrain/studio:v8.4-labse (100+ языков)
• lingtrain/studio:v8.4-tiny (ru-en)
Запускается все как раньше (инструкция).
👉 GitHub
Всем привет! Добавил важный функционал в наш выравниватель (что это такое).
🔁 Экспорт и импорт
Теперь выравнивание, в том числе и незаконченное, можно скачать в .lt формате и загрузить его на вкладке Alignments. После загрузки можно будет продолжать с ним работать, править и т.д. Таким образом, если кто-то выравнивал текст и в нем остались ошибки, то можно будет загрузить выравнивание в Lingtrain и подредактировать его.
🚀 beta.lingtra.in
Какое-то время назад поднимал тестовую версию выравнивателя для русского и английского языков (там модель rubert-tiny). Прошляпил момент, когда на аккаунте закончились деньги и его удалили 🤷♂️
Поднял новый сервер и настроил нормальный адрес, там сейчас последняя версия с той же tiny моделью. Поддерживаются английский и русский языки.
http://beta.lingtra.in
🐳 Docker
Образы для локального запуска:
• lingtrain/studio:v8.4 (50+ языков)
• lingtrain/studio:v8.4-labse (100+ языков)
• lingtrain/studio:v8.4-tiny (ru-en)
Запускается все как раньше (инструкция).
👉 GitHub
🔥13👍5❤3🤗1
#dataset #emnlp2022
🔺 Crossmodal-3600
Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.
〰️ Языки
Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:
👉 Paper | Скачать | Поиск по датасету
🔺 Crossmodal-3600
Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.
〰️ Языки
Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:
Arabic, Bengali, Chinese, Croatian, Cusco, Quechua, Czech, Danish, Dutch, English, Filipino, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Maori, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Swahili, Swedish, Telugu, Thai, Turkish, Ukrainian, VietnameseИспользуют как бенчмарк для своих мультиязычных моделей типа image captioning и image retrieval. Заявляют, что сильно коррелирует с человеческой оценкой.
👉 Paper | Скачать | Поиск по датасету
👍4🔥3✍1🤓1
🔺 Друзья, написал статью про создание параллельного корпуса на 10 языках при помощи моего маленького проекта во выравниванию.
На выходе получается корпус Woland-10, про который писал и про который многие спрашивали.
На выходе получается корпус Woland-10, про который писал и про который многие спрашивали.
Хабр
Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов
📌 градиент обреченный Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи пет-проекта, которым я занимаюсь несколько лет. Для примера возьмем 10 редакций "Мастера и...
🔥17👍5❤2❤🔥1👏1😁1🎉1
🔺 TAPE
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Хабр
TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке
Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500...
🔥17👍6❤2⚡1🤗1
🗿 Сходил на выставку "Всеобщий язык" в Пушкинском. Кто интересуется различными видами письменностей, очень рекомендую. Их там такое количество, что глаза разбегаются.
Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.
Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.
Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
👍25🔥9❤🔥3✍1⚡1