Градиент обреченный

🔺 Claude 3

Anthropic выпустил нового Клода.

Всего три версии, Haiku, Sonnet и Opus. Opus, собственно, на тестах в пресс-релизе бьет GPT-4.

Поигрался с ним и в целом доволен. Хорошо отвечает на русском, работает очень быстро. Также пишут, что модель стала в два раза реже отказываться отвечать, видимо, лучше выровняли. Контекст для пользователей 200k токенов, но для отдельных пользователей могут активировать контекст до 1M токенов.

Чтобы попробовать, придется регистрировать аккаунт, подтверждать телефон и вот это все. Проще пойти и еще потыкать в le Chat и mistral-large :).

👉 Claude

🔥22❤5🤯4🏆1👀11

3.87K viewsSergei Averkiev, edited 16:32

Градиент обреченный

Claude Opus и перевод на малоресурсный язык (кабардино-черкесский)

Любопытный пост в твиттере. Как будто бы контекста из нескольких тысяч параллельных примеров (5.7k в данном случае) хватает, чтобы он начал хорошо переводить в обе стороны.

Проверил, что без файлика переводит явно плохо, тексты разной длины и другим алфавитом. Сам файлик попросил у автора поста, посмотрю и попробую с другим языком.

Интересно, что предыдущая (вторая) версия Claude показывала лучший результат на бенчмарке MTOB (Machine Translation from One Book) на момент его выхода в феврале (чуть позже Google анонсировал Gemini 1.5 Pro и сказал, что она немного лучше на MTOB). Там освещен папуасский язык каламанг с менее чем 200 носителями. И перевод идет на основе книги по его грамматике, словаре на 2000 слов и корпусе из пары сотен параллельных предложений.

👉 Пост

🔥14👍7❤62

4.73K viewsSergei Averkiev, 08:21

Градиент обреченный

Forwarded from Kali Novskaya (Tatiana Shavrina)

🌸 Женщины в AI Research🌸

Сегодня 8 марта, и это отличный повод поделиться с вами списком исследовательниц в ИИ и смежных областях, за работами которых я слежу и которыми вдохновляюсь:

🟣

Fei-Fei Li — Professor of Computer Science, Stanford University, создательница Imagenet, многих основополагающих работ по CV и unsupervised learning

🟣

Cathy O'Neil — Professor at Barnard College, автор фундаментальных книг по Data Science в 2010х, а также смещениях в данных и результирующих моделях

🟣

Timnit Gebru — founder and executive director of Distributed AI Research Institute (DAIR), этика в ИИ, соавтор знаменитой статьи stochastic parrots

🟣

Emily M. Bender — President of ACL в 2024, одни из основополагающих работ по этике в NLP, соавтор stochastic parrots вместе с Timnit Gebru

🟣

Anna Goldenberg — Assistant Professor, Department of Computer Science, at University of Toronto (Computational Biology Group) — ML и генетика

🟣

Joy Buolamwini — MIT, The Algorithmic Justice league, множество работ по CV в распознавании лиц и biases

🟣

Katharina Kann — Assistant Professor of Computer Science, University of Colorado Boulder — множество работ по соревнованиям в NLP

🟣

Mirella Lapata — School of Informatics, Edinburgh University, множество работ по вычислительной сематике и применении векторных моделей в NLP

🟣

Maria Schuld — Quantum computing Senior researcher at Xanadu, ML в физике и квантовые вычисления

🟣

Barbara Plank — Professor, LMU Munich and ITU Copenhagen, глава лаборатории Natural Language Processing, множество работ по NER, POS-tagging, классическим методам NLP

🟣

Anima Anandkumar — California Institute of Technology and NVIDIA, general CV, image and video semantic segmentation

🟣

Doina Precup — Researcher at DeepMind, general RL

🟣

Raia Hadsell — Research Director at DeepMind, ML в робототехнике

🟣

Chelsea Finn — Professor in Computer Science and Electrical Engineering at Stanford University, ML в робототехнике

🟣

Renée DiResta — Research Manager, Stanford Internet Observatory, работы по борьбе с псевдонаукой, риски в ML

🟣

Tamara Broderick — Associate Professor of EECS, MIT, байесовские методы, general ML

🟣

Tara Sainath — Principal Research Scientist, Google, работы по распознаванию речи

🟣

Corinna Cortes — VP in Google Research, general ML

🟣

Daphne Koller — CEO and Founder, Insitro, ML для генетики, bioML

🟣

Irina Rish — Université de Montréal (UdeM), general ML, AI Trustworthiness

🟣

Mounia Lalmas — Director of Research at Spotify, много основополагающих работ по RecSys

🟣

Lise Getoor — Professor of Computer Science, University of California, causal inference, grounding и символьные методы

Кого бы вы ещё добавили? Давайте делиться в комментариях

Please open Telegram to view this post

VIEW IN TELEGRAM

❤24🔥882

3.11K viewsSergei Averkiev, 08:44

Градиент обреченный

Forwarded from Lingtrain

🔺 Книжка-трансформер

Добавил в нашу книжку-трансформер с малыми языками редакцию «Маленького принца» на орокском языке, языке малочисленного народа Дальнего Востока.

За текст спасибо @gislygisly

📚 Итого их стало 15: алтайский, балкарский, башкирский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, орокский (уйльтинский), татарский, чувашский, якутский, русский и французский.

Можно выбирать любую комбинацию. Присылайте еще тексты. На очереди бурятский язык.

Иллюстрация сгенерирована DALL-E

👉 Книжка, чат

🔥35❤92🤝1🆒1

4.45K viewsSergei Averkiev, 07:32

Градиент обреченный

#grok #safety

А неплохую модель обещают выложить.

😁51🔥16🤯6⚡2👾22

5.26K viewsSergei Averkiev, 12:23

Градиент обреченный

🔺 Переводим NLLB Seed

Друзья, есть отличная возможность поспособствовать развитию машинного перевода.

Есть датасет NLLB-Seed, состоящий из 6-ти тысяч предложений, который уже переведен на 39 малоресурсных языков, но при этом нет его перевода на русский язык. Датасет очень полезный, в силу своего разнообразия он улучшает качество моделей, обучающихся с его использованием.

Наш общий друг Давид Дале, участник проекта, заведующего этим датасетом, а также FLORES и другими связанными с переводом вещами, собрал бота @crowd_translate_bot, через которого можно добавлять и одобрять переводы.

Перевод идет с английского на русский, а самих текстов не так много, так что помощь каждого будет значимой.

А на следующей неделе потестируем с вами SuperMinor, проект направленный на коллективный перевод инструкций на малоресурсные языки. Сам же функционал портала, думаю, сможем попробовать на том же NLLB Seed и переводом на русский.

👉 @crowd_translate_bot

ACL Anthology

Small Data, Big Impact: Leveraging Minimal Data for Effective Machine Translation

Jean Maillard, Cynthia Gao, Elahe Kalbassi, Kaushik Ram Sadagopan, Vedanuj Goswami, Philipp Koehn, Angela Fan, Francisco Guzman. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023.

❤14🔥3👍2🤝1

12.3K viewsSergei Averkiev, edited 12:28

Градиент обреченный

Генерю тут нейросетями картинки по известным стихам.
Угадайте, где какие.

Upd.

Ответы: Пушкин «Зимний вечер», Есенин «Мне осталась одна забава», Маяковский «Облако в штанах», Бродский «Пилигримы» и «Не выходи из комнаты».

• Промпты для генерации делались при помощи Gemini Advanced (больше всего понравились), GPT-4 и GigaChat.

• 1,3 и 4 — DALL-E, 2 и 5 — Kandinsky.

🔥17😁6❤4👍3🆒1

4.16K viewsSergei Averkiev, 16:50

Градиент обреченный

🔺 Grok выложили в открытый доступ

🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.

🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.

🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).

🔸 Токенизатор на 131k токенов.

> tokenizer.EncodeAsPieces('Языковая модель Grok')

> ['▁Я', 'зы', 'кова', 'я', '▁мо', 'дель', '▁Gro', 'k']

🔸 Лицензия Apache 2.0.

👉 GitHub | HF | Release

🔥23👍85❤1⚡1

4.76K viewsSergei Averkiev, edited 05:40

Градиент обреченный

#superminor

Друзья, начинаю тестировать SuperMinor, платформу для перевода датасетов, с помощью которой сообщество сможет переводить инструктивные датасеты на свои языки.

Делал его долгими зимними вечерами, постарался сделать UI красивым и понятным, а загрузку модулей по API и их хранение на бэкенде простым.

Начали переводить базовые промпты на башкирский язык, готовлю модули под другие языки.

Страничку с инструкцией добавляю, но базовый функционал готов, поэтому предлагаю попробовать попереводить отрывок датасета NLLB Seed с английского на русский, задача полезная. Просто открываем ссылку и начинаем переводить.

В интерфейсе есть возможность вставить машинный перевод, он достаточно неплохой, но после вставки его нужно подкорректировать. Все изменения сохраняются автоматически.

Посмотрите, что можно добавить, что понятно, а что нет. Пишите.

P.S. На картинку на главной странице не смотрите, сгенерировал за 5 минут тут.

👉 http://sumi.ac/about/en

🔥31👍7❤61

7.15K viewsSergei Averkiev, 15:36

Градиент обреченный

🔺 Короткометражки от Sora

После анонса модели для генерации видео по тексту OpenAI предложила попробовать её нескольким художникам и режиссерам, чтобы собрать фидбек. Смотрим на результат.

👉 Видео

🔥10❤‍🔥4🏆11

5.88K viewsSergei Averkiev, 10:30

Градиент обреченный

#event

Друзья, через неделю проводим митап, на котором расскажем про наши наработки и опыт в разных областях — про обработку речи и жестов, 3D, NLP эксперименты, бенчмарки и GigaChat.

Тоже там буду, так что заходите, если получится дойти в рабочий день (это будет пятница), поболтаем. Трансляция будет.

❤15🔥7👍63🤔1

3.34K viewsSergei Averkiev, 05:59

Градиент обреченный

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

Коллеги, очередной шаг в будущее от стартапа Suno.

1️⃣ Идём на suno.ai и жмем на Make a Song.

2️⃣ Пишем, о чём хотите песню и в каком жанре, можно на русском. Например, «лирическая песня с пианино про телеграм-канал градиент обречённый».

3️⃣ Наслаждаемся хитом.

Стартап уже существует некоторое время, но сейчас выпустили 3 версию своей модели. Получилось что-то типа midjourney для песен.

Есть расширенный режим, в нем можно подкорректировать слова сгенерированной песни, так как грамматика для русского иногда ломается. Напишите, как вам качество. По-моему, очень круто.

🔥37💯1

3.89K viewsSergei Averkiev, 11:05

Градиент обреченный

Сходил тут сдал HSK — экзамен на знание китайского языка (некоторое время учу его в свое удовольствие). Было забавно выполнять тесты в аудитории, где большинство сдающих — это дети, так как уровень экзамена самый базовый. Интересно, какого возраста будут студенты на следующих ступенях.

Признавайтесь, кто какие языки учит в качестве хобби?

🔥55❤10😁64👍2🆒2🤝1

3.93K viewsSergei Averkiev, 12:52

Градиент обреченный

#superminor

Друзья, всем спасибо за тестирование. Сделал много доработок по вашему фидбеку, продолжаем дальше.

• Добавил страницу с просмотром всех заданий модуля.
• Добавил возможность редактирования ранее переведенных заданий (на странице просмотра).
• Добавил прогресс-бары на страницах с заданиями.
• Внес кучу мелких правок, которые подсказали (опечатки, всплывающие окошки, подсказки и т.д.).
• Добавил инструкцию.

Сделал первые модули для якутского, татарского, чувашского, удмуртского и алтайского, можно начинать переводить. Первые два модуля для башкирского уже перевели, так что готовлю следующие.

Так же все желающие могут подключиться к тестированию на переводе NLLB Seed с английского на русский в этом модуле. Около 100 единиц уже перевели. Как и прежде, пишите, что можно улучшить.

🔥15❤8👏3👍11

5.59K viewsSergei Averkiev, edited 08:18

Градиент обреченный

Forwarded from AbstractDL

Как устроено пространство, в котором думают языковые модели?

Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.

Статья, хабр

👍32🔥11🆒5❤3👏3

3.93K viewsSergei Averkiev, 18:35

About

Blog

Apps

Platform