градиент обреченный
5.51K subscribers
437 photos
8 videos
7 files
259 links
• Машинное обучение c уклоном в NLP
• Популярная лингвистика
• tg-буст канала https://t.me/doomgrad?boost
Download Telegram
#superminor

Друзья, начинаю тестировать SuperMinor, платформу для перевода датасетов, с помощью которой сообщество сможет переводить инструктивные датасеты на свои языки.

Делал его долгими зимними вечерами, постарался сделать UI красивым и понятным, а загрузку модулей по API и их хранение на бэкенде простым.

Начали переводить базовые промпты на башкирский язык, готовлю модули под другие языки.

Страничку с инструкцией добавляю, но базовый функционал готов, поэтому предлагаю попробовать попереводить отрывок датасета NLLB Seed с английского на русский, задача полезная. Просто открываем ссылку и начинаем переводить.

В интерфейсе есть возможность вставить машинный перевод, он достаточно неплохой, но после вставки его нужно подкорректировать. Все изменения сохраняются автоматически.

Посмотрите, что можно добавить, что понятно, а что нет. Пишите.

P.S. На картинку на главной странице не смотрите, сгенерировал за 5 минут тут.

👉 http://sumi.ac/about/en
🔺 Короткометражки от Sora

После анонса модели для генерации видео по тексту OpenAI предложила попробовать её нескольким художникам и режиссерам, чтобы собрать фидбек. Смотрим на результат.

👉 Видео
#event

Друзья, через неделю проводим митап, на котором расскажем про наши наработки и опыт в разных областях — про обработку речи и жестов, 3D, NLP эксперименты, бенчмарки и GigaChat.

Тоже там буду, так что заходите, если получится дойти в рабочий день (это будет пятница), поболтаем. Трансляция будет.
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги, очередной шаг в будущее от стартапа Suno.

1️⃣ Идём на suno.ai и жмем на Make a Song.

2️⃣ Пишем, о чём хотите песню и в каком жанре, можно на русском. Например, «лирическая песня с пианино про телеграм-канал градиент обречённый».

3️⃣ Наслаждаемся хитом.

Стартап уже существует некоторое время, но сейчас выпустили 3 версию своей модели. Получилось что-то типа midjourney для песен.

Есть расширенный режим, в нем можно подкорректировать слова сгенерированной песни, так как грамматика для русского иногда ломается. Напишите, как вам качество. По-моему, очень круто.
Сходил тут сдал HSK — экзамен на знание китайского языка (некоторое время учу его в свое удовольствие). Было забавно выполнять тесты в аудитории, где большинство сдающих — это дети, так как уровень экзамена самый базовый. Интересно, какого возраста будут студенты на следующих ступенях.

Признавайтесь, кто какие языки учит в качестве хобби?
#superminor

Друзья, всем спасибо за тестирование. Сделал много доработок по вашему фидбеку, продолжаем дальше.

• Добавил страницу с просмотром всех заданий модуля.
• Добавил возможность редактирования ранее переведенных заданий (на странице просмотра).
• Добавил прогресс-бары на страницах с заданиями.
• Внес кучу мелких правок, которые подсказали (опечатки, всплывающие окошки, подсказки и т.д.).
• Добавил инструкцию.

Сделал первые модули для якутского, татарского, чувашского, удмуртского и алтайского, можно начинать переводить. Первые два модуля для башкирского уже перевели, так что готовлю следующие.

Так же все желающие могут подключиться к тестированию на переводе NLLB Seed с английского на русский в этом модуле. Около 100 единиц уже перевели. Как и прежде, пишите, что можно улучшить.
Forwarded from AbstractDL
Как устроено пространство, в котором думают языковые модели?

Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.

Статья, хабр
🔺 Обзор мультиязычных LLM

Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.

Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми мультиязычными датасетами.

Из странного то, что упомянули GPT-4, но забыли про Claude. Хотя по ощущениям Claude Opus очень хорошо понимает языки и даже неплохо переводит на малоресурсные (обсуждали с носителями удмуртского, алтайского и нескольких других).

👉 Статья
Сермяга
🔺 SAGE. Выложили модели для коррекции орфографии

Коллеги из нашей команды обучили и выложили пачку моделей в открытый доступ. Это модели для исправления ошибок на основе FRED'а и мультиязычной mT5 (одна модель для русского и английского).

Также выложили дистиллированную модель для быстрого инференса. Сравнились с платными решениями и написали про это статью, которую уже опубликовали на EACL 24.

Работать можно через библиотеку SAGE, код и примеры есть в репозитории. Прошу пробовать. Библиотеку будут развивать дальше, так что пишите свои идеи и предложения.

Upd. Issue для предложений.

👉 Хабр | GitHub | HF | Paper
Всем привет! Сегодня не только тот день, когда понедельник действительно начинается в субботу, но и один год с того момента, как мы начали выкатывать Гигачат в открытый доступ. Мы — это очень много людей, которые участвуют в его разработке и развитии, к которым я бы отнес и вас, друзья.

С этим вас и поздравляю, а еще с майскими, на которых можно спокойно почитать, погулять, поработать.

Сам я выбрался в Питер, где успел погулять по снежку (!), съесть шаверму и зайти в Подписные издания. Еще, кстати, понравился книжный СпбГУ, много научпопа и местных изданий, нашел там книжку с олимпиадными заданиями по китайскому. Надо подумать, куда бы еще сходить.
Генрих Кампендонк писал картины в стиле Кандинского без всяких нейросетей.

Картина из Главного штаба Эрмитажа.
Сходил сдал следующий экзамен на знание китайского (HSK2, тоже не сложный). Проходило все не в МГЛУ, как в прошлый раз, а в отеле напротив парка Хуамин на Ботаническом саду (сам парк, кстати, очень красивый).

Оказалось, что там сегодня проходит выставка об образовании и работе в Китае. Есть около десяти стендов различных университетов, где их представители рассказывают про условия обучения.

Кому интересно, заходите, вход свободный.
Тестируем GPT-4o
С пониманием новых шуток, по-моему, справляется плюс-минус также, в целом нравится.

Заявлена мультиязычность, пишите что перевести и на какой язык, проверим как она переводит.