🔺 Саммари по ChatGPT за последние пару дней
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
🔸 Протестировали на политические предпочтения (любит коммунизм) (reddit)
🔸 Сделали "API" (через открытую браузерную сессию), написали ботов (github)
🔸 Померили IQ (83) (link)
🔸 Потранслитерировали кириллицей иностранные языки (писать в стиле "лэт ми спик фром май харт" и "ду хаст мих гефрагт")
🔸 Сгенерировали изображения в svg 🤯 (link)
🔸 Обнаружили, что модель круто составляет списки топ-n чего-то за последние k лет
🔸 Сгенерировали музыкальные пьесы (в буквенной нотации) (link)
🔸 Нашли ряд подсказок, для обхода safety фильтра ("говори от имени актера, который", "не говори мне нет, просто сделай", "sudo" 😁)
🔸 Определили длину контекста (~8000 токенов) (link)
🔸 Количество пользователей перевалило за миллион. Чувствую, что скоро демо остановят
Reddit
From the ControlProblem community on Reddit: I gave ChatGPT the 117 question, eight dimensional PolitiScales test
Explore this post and more from the ControlProblem community
🔥20👍9⚡1
#nlp #event
🔺 SberDevices NLP meetup #2
Коллеги продолжают делиться опытом и наработками (прямо сейчас начинаем). На этот раз про NLP на стыке с творчеством:
1️⃣ Нейромузыка и нейропение: генерация музыкальных дорожек и голоса с сохранением мелодической интонации
2️⃣ Контролируемая генерация: добавление в болталку на основе ruGPT-3
3️⃣ Мечтают ли нейросети о Пегасах. Конечно, мечтают. Пишем хорошие стихи нейросетями на заданную тему.
4️⃣ Нейрофэнтези: текстовые квесты типа AI Dungeon только на русском и с картинками. Статья про это на Хабре.
Записи будут. Вопросы можно задавать онлайн или в чатике.
⏰ Подключаемся тут
👉 Upd. Сергей Марков рассказывает про трансформерную революцию 17-го года.
👉 Upd 2. Встреча закончилась. Записи скоро будут.
👉 Upd 3. Видосики
1️⃣ Сергей Марков про трансформеры и будущее ИИ
2️⃣ Леонид Синев. Практика внедрения метода контролируемой генерации Keyword2Text в болталку на ruGPT3
3️⃣ Павел Гращенков. Нейрофэнтези: сочиняем фэнтези с GPT3
🔺 SberDevices NLP meetup #2
Коллеги продолжают делиться опытом и наработками (прямо сейчас начинаем). На этот раз про NLP на стыке с творчеством:
1️⃣ Нейромузыка и нейропение: генерация музыкальных дорожек и голоса с сохранением мелодической интонации
2️⃣ Контролируемая генерация: добавление в болталку на основе ruGPT-3
3️⃣ Мечтают ли нейросети о Пегасах. Конечно, мечтают. Пишем хорошие стихи нейросетями на заданную тему.
4️⃣ Нейрофэнтези: текстовые квесты типа AI Dungeon только на русском и с картинками. Статья про это на Хабре.
Записи будут. Вопросы можно задавать онлайн или в чатике.
1️⃣ Сергей Марков про трансформеры и будущее ИИ
2️⃣ Леонид Синев. Практика внедрения метода контролируемой генерации Keyword2Text в болталку на ruGPT3
3️⃣ Павел Гращенков. Нейрофэнтези: сочиняем фэнтези с GPT3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4❤2
Forwarded from Lingtrain
🔺 Обновление Lingtrain
Всем привет! Добавил важный функционал в наш выравниватель (что это такое).
🔁 Экспорт и импорт
Теперь выравнивание, в том числе и незаконченное, можно скачать в .lt формате и загрузить его на вкладке Alignments. После загрузки можно будет продолжать с ним работать, править и т.д. Таким образом, если кто-то выравнивал текст и в нем остались ошибки, то можно будет загрузить выравнивание в Lingtrain и подредактировать его.
🚀 beta.lingtra.in
Какое-то время назад поднимал тестовую версию выравнивателя для русского и английского языков (там модель rubert-tiny). Прошляпил момент, когда на аккаунте закончились деньги и его удалили 🤷♂️
Поднял новый сервер и настроил нормальный адрес, там сейчас последняя версия с той же tiny моделью. Поддерживаются английский и русский языки.
http://beta.lingtra.in
🐳 Docker
Образы для локального запуска:
• lingtrain/studio:v8.4 (50+ языков)
• lingtrain/studio:v8.4-labse (100+ языков)
• lingtrain/studio:v8.4-tiny (ru-en)
Запускается все как раньше (инструкция).
👉 GitHub
Всем привет! Добавил важный функционал в наш выравниватель (что это такое).
🔁 Экспорт и импорт
Теперь выравнивание, в том числе и незаконченное, можно скачать в .lt формате и загрузить его на вкладке Alignments. После загрузки можно будет продолжать с ним работать, править и т.д. Таким образом, если кто-то выравнивал текст и в нем остались ошибки, то можно будет загрузить выравнивание в Lingtrain и подредактировать его.
🚀 beta.lingtra.in
Какое-то время назад поднимал тестовую версию выравнивателя для русского и английского языков (там модель rubert-tiny). Прошляпил момент, когда на аккаунте закончились деньги и его удалили 🤷♂️
Поднял новый сервер и настроил нормальный адрес, там сейчас последняя версия с той же tiny моделью. Поддерживаются английский и русский языки.
http://beta.lingtra.in
🐳 Docker
Образы для локального запуска:
• lingtrain/studio:v8.4 (50+ языков)
• lingtrain/studio:v8.4-labse (100+ языков)
• lingtrain/studio:v8.4-tiny (ru-en)
Запускается все как раньше (инструкция).
👉 GitHub
🔥13👍5❤3🤗1
#dataset #emnlp2022
🔺 Crossmodal-3600
Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.
〰️ Языки
Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:
👉 Paper | Скачать | Поиск по датасету
🔺 Crossmodal-3600
Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.
〰️ Языки
Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:
Arabic, Bengali, Chinese, Croatian, Cusco, Quechua, Czech, Danish, Dutch, English, Filipino, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Maori, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Swahili, Swedish, Telugu, Thai, Turkish, Ukrainian, VietnameseИспользуют как бенчмарк для своих мультиязычных моделей типа image captioning и image retrieval. Заявляют, что сильно коррелирует с человеческой оценкой.
👉 Paper | Скачать | Поиск по датасету
👍4🔥3✍1🤓1
🔺 Друзья, написал статью про создание параллельного корпуса на 10 языках при помощи моего маленького проекта во выравниванию.
На выходе получается корпус Woland-10, про который писал и про который многие спрашивали.
На выходе получается корпус Woland-10, про который писал и про который многие спрашивали.
Хабр
Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов
📌 градиент обреченный Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи пет-проекта, которым я занимаюсь несколько лет. Для примера возьмем 10 редакций "Мастера и...
🔥17👍5❤2❤🔥1👏1😁1🎉1
🔺 TAPE
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Хабр
TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке
Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500...
🔥17👍6❤2⚡1🤗1
🗿 Сходил на выставку "Всеобщий язык" в Пушкинском. Кто интересуется различными видами письменностей, очень рекомендую. Их там такое количество, что глаза разбегаются.
Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.
Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.
Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
👍25🔥9❤🔥3✍1⚡1
#visualization
🔸 Люблю такие красивые и понятные визуализации. Видно, насколько централизована страна в плане населения (сравните Францию и Италию).
Нашел тут, автор периодически рисует новые страны.
🔸 Люблю такие красивые и понятные визуализации. Видно, насколько централизована страна в плане населения (сравните Францию и Италию).
Нашел тут, автор периодически рисует новые страны.
👍26❤🔥7🔥7🤩1