У Meta, оказывается, тоже есть генератор картинок. Немного странноват, правда.
😁58🔥3👾2👍1💅1
🔺 Claude 3
Anthropic выпустил нового Клода.
Всего три версии, Haiku, Sonnet и Opus. Opus, собственно, на тестах в пресс-релизе бьет GPT-4.
Поигрался с ним и в целом доволен. Хорошо отвечает на русском, работает очень быстро. Также пишут, что модель стала в два раза реже отказываться отвечать, видимо, лучше выровняли. Контекст для пользователей 200k токенов, но для отдельных пользователей могут активировать контекст до 1M токенов.
Чтобы попробовать, придется регистрировать аккаунт, подтверждать телефон и вот это все. Проще пойти и еще потыкать в le Chat и mistral-large :).
👉 Claude
Anthropic выпустил нового Клода.
Всего три версии, Haiku, Sonnet и Opus. Opus, собственно, на тестах в пресс-релизе бьет GPT-4.
Поигрался с ним и в целом доволен. Хорошо отвечает на русском, работает очень быстро. Также пишут, что модель стала в два раза реже отказываться отвечать, видимо, лучше выровняли. Контекст для пользователей 200k токенов, но для отдельных пользователей могут активировать контекст до 1M токенов.
Чтобы попробовать, придется регистрировать аккаунт, подтверждать телефон и вот это все. Проще пойти и еще потыкать в le Chat и mistral-large :).
👉 Claude
🔥22❤5🤯4🏆1👀1 1
Claude Opus и перевод на малоресурсный язык (кабардино-черкесский)
Любопытный пост в твиттере. Как будто бы контекста из нескольких тысяч параллельных примеров (5.7k в данном случае) хватает, чтобы он начал хорошо переводить в обе стороны.
Проверил, что без файлика переводит явно плохо, тексты разной длины и другим алфавитом. Сам файлик попросил у автора поста, посмотрю и попробую с другим языком.
Интересно, что предыдущая (вторая) версия Claude показывала лучший результат на бенчмарке MTOB (Machine Translation from One Book) на момент его выхода в феврале (чуть позже Google анонсировал Gemini 1.5 Pro и сказал, что она немного лучше на MTOB). Там освещен папуасский язык каламанг с менее чем 200 носителями. И перевод идет на основе книги по его грамматике, словаре на 2000 слов и корпусе из пары сотен параллельных предложений.
👉 Пост
Любопытный пост в твиттере. Как будто бы контекста из нескольких тысяч параллельных примеров (5.7k в данном случае) хватает, чтобы он начал хорошо переводить в обе стороны.
Проверил, что без файлика переводит явно плохо, тексты разной длины и другим алфавитом. Сам файлик попросил у автора поста, посмотрю и попробую с другим языком.
Интересно, что предыдущая (вторая) версия Claude показывала лучший результат на бенчмарке MTOB (Machine Translation from One Book) на момент его выхода в феврале (чуть позже Google анонсировал Gemini 1.5 Pro и сказал, что она немного лучше на MTOB). Там освещен папуасский язык каламанг с менее чем 200 носителями. И перевод идет на основе книги по его грамматике, словаре на 2000 слов и корпусе из пары сотен параллельных предложений.
👉 Пост
🔥14👍7❤6 2
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸 Женщины в AI Research🌸
Сегодня 8 марта, и это отличный повод поделиться с вами списком исследовательниц в ИИ и смежных областях, за работами которых я слежу и которыми вдохновляюсь:
🟣 Fei-Fei Li — Professor of Computer Science, Stanford University, создательница Imagenet, многих основополагающих работ по CV и unsupervised learning
🟣 Cathy O'Neil — Professor at Barnard College, автор фундаментальных книг по Data Science в 2010х, а также смещениях в данных и результирующих моделях
🟣 Timnit Gebru — founder and executive director of Distributed AI Research Institute (DAIR), этика в ИИ, соавтор знаменитой статьи stochastic parrots
🟣 Emily M. Bender — President of ACL в 2024, одни из основополагающих работ по этике в NLP, соавтор stochastic parrots вместе с Timnit Gebru
🟣 Anna Goldenberg — Assistant Professor, Department of Computer Science, at University of Toronto (Computational Biology Group) — ML и генетика
🟣 Joy Buolamwini — MIT, The Algorithmic Justice league, множество работ по CV в распознавании лиц и biases
🟣 Katharina Kann — Assistant Professor of Computer Science, University of Colorado Boulder — множество работ по соревнованиям в NLP
🟣 Mirella Lapata — School of Informatics, Edinburgh University, множество работ по вычислительной сематике и применении векторных моделей в NLP
🟣 Maria Schuld — Quantum computing Senior researcher at Xanadu, ML в физике и квантовые вычисления
🟣 Barbara Plank — Professor, LMU Munich and ITU Copenhagen, глава лаборатории Natural Language Processing, множество работ по NER, POS-tagging, классическим методам NLP
🟣 Anima Anandkumar — California Institute of Technology and NVIDIA, general CV, image and video semantic segmentation
🟣 Doina Precup — Researcher at DeepMind, general RL
🟣 Raia Hadsell — Research Director at DeepMind, ML в робототехнике
🟣 Chelsea Finn — Professor in Computer Science and Electrical Engineering at Stanford University, ML в робототехнике
🟣 Renée DiResta — Research Manager, Stanford Internet Observatory, работы по борьбе с псевдонаукой, риски в ML
🟣 Tamara Broderick — Associate Professor of EECS, MIT, байесовские методы, general ML
🟣 Tara Sainath — Principal Research Scientist, Google, работы по распознаванию речи
🟣 Corinna Cortes — VP in Google Research, general ML
🟣 Daphne Koller — CEO and Founder, Insitro, ML для генетики, bioML
🟣 Irina Rish — Université de Montréal (UdeM), general ML, AI Trustworthiness
🟣 Mounia Lalmas — Director of Research at Spotify, много основополагающих работ по RecSys
🟣 Lise Getoor — Professor of Computer Science, University of California, causal inference, grounding и символьные методы
Кого бы вы ещё добавили? Давайте делиться в комментариях
Сегодня 8 марта, и это отличный повод поделиться с вами списком исследовательниц в ИИ и смежных областях, за работами которых я слежу и которыми вдохновляюсь:
Кого бы вы ещё добавили? Давайте делиться в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24🔥8 8 2
Forwarded from Lingtrain
🔺 Книжка-трансформер
Добавил в нашу книжку-трансформер с малыми языками редакцию «Маленького принца» на орокском языке, языке малочисленного народа Дальнего Востока.
За текст спасибо @gislygisly
📚 Итого их стало 15: алтайский, балкарский, башкирский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, орокский (уйльтинский), татарский, чувашский, якутский, русский и французский.
Можно выбирать любую комбинацию. Присылайте еще тексты. На очереди бурятский язык.
Иллюстрация сгенерирована DALL-E
👉 Книжка, чат
Добавил в нашу книжку-трансформер с малыми языками редакцию «Маленького принца» на орокском языке, языке малочисленного народа Дальнего Востока.
За текст спасибо @gislygisly
📚 Итого их стало 15: алтайский, балкарский, башкирский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, орокский (уйльтинский), татарский, чувашский, якутский, русский и французский.
Можно выбирать любую комбинацию. Присылайте еще тексты. На очереди бурятский язык.
Иллюстрация сгенерирована DALL-E
👉 Книжка, чат
🔥35❤9 2🤝1🆒1
😁51🔥16🤯6⚡2👾2 2
🔺 Переводим NLLB Seed
Друзья, есть отличная возможность поспособствовать развитию машинного перевода.
Есть датасет NLLB-Seed, состоящий из 6-ти тысяч предложений, который уже переведен на 39 малоресурсных языков, но при этом нет его перевода на русский язык. Датасет очень полезный, в силу своего разнообразия он улучшает качество моделей, обучающихся с его использованием.
Наш общий друг Давид Дале, участник проекта, заведующего этим датасетом, а также FLORES и другими связанными с переводом вещами, собрал бота @crowd_translate_bot, через которого можно добавлять и одобрять переводы.
Перевод идет с английского на русский, а самих текстов не так много, так что помощь каждого будет значимой.
А на следующей неделе потестируем с вами SuperMinor, проект направленный на коллективный перевод инструкций на малоресурсные языки. Сам же функционал портала, думаю, сможем попробовать на том же NLLB Seed и переводом на русский.
👉 @crowd_translate_bot
Друзья, есть отличная возможность поспособствовать развитию машинного перевода.
Есть датасет NLLB-Seed, состоящий из 6-ти тысяч предложений, который уже переведен на 39 малоресурсных языков, но при этом нет его перевода на русский язык. Датасет очень полезный, в силу своего разнообразия он улучшает качество моделей, обучающихся с его использованием.
Наш общий друг Давид Дале, участник проекта, заведующего этим датасетом, а также FLORES и другими связанными с переводом вещами, собрал бота @crowd_translate_bot, через которого можно добавлять и одобрять переводы.
Перевод идет с английского на русский, а самих текстов не так много, так что помощь каждого будет значимой.
А на следующей неделе потестируем с вами SuperMinor, проект направленный на коллективный перевод инструкций на малоресурсные языки. Сам же функционал портала, думаю, сможем попробовать на том же NLLB Seed и переводом на русский.
👉 @crowd_translate_bot
ACL Anthology
Small Data, Big Impact: Leveraging Minimal Data for Effective Machine Translation
Jean Maillard, Cynthia Gao, Elahe Kalbassi, Kaushik Ram Sadagopan, Vedanuj Goswami, Philipp Koehn, Angela Fan, Francisco Guzman. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023.
❤14🔥3👍2🤝1
Генерю тут нейросетями картинки по известным стихам.
Угадайте, где какие.
Upd.
Ответы:Пушкин «Зимний вечер», Есенин «Мне осталась одна забава», Маяковский «Облако в штанах», Бродский «Пилигримы» и «Не выходи из комнаты».
• Промпты для генерации делались при помощи Gemini Advanced (больше всего понравились), GPT-4 и GigaChat.
• 1,3 и 4 — DALL-E, 2 и 5 — Kandinsky.
Угадайте, где какие.
Upd.
Ответы:
• Промпты для генерации делались при помощи Gemini Advanced (больше всего понравились), GPT-4 и GigaChat.
• 1,3 и 4 — DALL-E, 2 и 5 — Kandinsky.
🔥17😁6❤4👍3🆒1
🔺 Grok выложили в открытый доступ
🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.
🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.
🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).
🔸 Токенизатор на 131k токенов.
🔸 Лицензия Apache 2.0.
👉 GitHub | HF | Release
🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.
🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.
🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).
🔸 Токенизатор на 131k токенов.
> tokenizer.EncodeAsPieces('Языковая модель Grok')
> ['▁Я', 'зы', 'кова', 'я', '▁мо', 'дель', '▁Gro', 'k']🔸 Лицензия Apache 2.0.
👉 GitHub | HF | Release
🔥23👍8 5❤1⚡1
#superminor
Друзья, начинаю тестировать SuperMinor, платформу для перевода датасетов, с помощью которой сообщество сможет переводить инструктивные датасеты на свои языки.
Делал его долгими зимними вечерами, постарался сделать UI красивым и понятным, а загрузку модулей по API и их хранение на бэкенде простым.
Начали переводить базовые промпты на башкирский язык, готовлю модули под другие языки.
Страничку с инструкцией добавляю, но базовый функционал готов, поэтому предлагаю попробовать попереводить отрывок датасета NLLB Seed с английского на русский, задача полезная. Просто открываем ссылку и начинаем переводить.
В интерфейсе есть возможность вставить машинный перевод, он достаточно неплохой, но после вставки его нужно подкорректировать. Все изменения сохраняются автоматически.
Посмотрите, что можно добавить, что понятно, а что нет. Пишите.
P.S. На картинку на главной странице не смотрите, сгенерировал за 5 минут тут.
👉 http://sumi.ac/about/en
Друзья, начинаю тестировать SuperMinor, платформу для перевода датасетов, с помощью которой сообщество сможет переводить инструктивные датасеты на свои языки.
Делал его долгими зимними вечерами, постарался сделать UI красивым и понятным, а загрузку модулей по API и их хранение на бэкенде простым.
Начали переводить базовые промпты на башкирский язык, готовлю модули под другие языки.
Страничку с инструкцией добавляю, но базовый функционал готов, поэтому предлагаю попробовать попереводить отрывок датасета NLLB Seed с английского на русский, задача полезная. Просто открываем ссылку и начинаем переводить.
В интерфейсе есть возможность вставить машинный перевод, он достаточно неплохой, но после вставки его нужно подкорректировать. Все изменения сохраняются автоматически.
Посмотрите, что можно добавить, что понятно, а что нет. Пишите.
P.S. На картинку на главной странице не смотрите, сгенерировал за 5 минут тут.
👉 http://sumi.ac/about/en
🔥31👍7❤6 1
🔺 Короткометражки от Sora
После анонса модели для генерации видео по тексту OpenAI предложила попробовать её нескольким художникам и режиссерам, чтобы собрать фидбек. Смотрим на результат.
👉 Видео
После анонса модели для генерации видео по тексту OpenAI предложила попробовать её нескольким художникам и режиссерам, чтобы собрать фидбек. Смотрим на результат.
👉 Видео
🔥10❤🔥4🏆1 1
#event
Друзья, через неделю проводим митап, на котором расскажем про наши наработки и опыт в разных областях — про обработку речи и жестов, 3D, NLP эксперименты, бенчмарки и GigaChat.
Тоже там буду, так что заходите, если получится дойти в рабочий день (это будет пятница), поболтаем. Трансляция будет.
Друзья, через неделю проводим митап, на котором расскажем про наши наработки и опыт в разных областях — про обработку речи и жестов, 3D, NLP эксперименты, бенчмарки и GigaChat.
Тоже там буду, так что заходите, если получится дойти в рабочий день (это будет пятница), поболтаем. Трансляция будет.
❤15🔥7👍6 3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги, очередной шаг в будущее от стартапа Suno.
1️⃣ Идём на suno.ai и жмем на Make a Song.
2️⃣ Пишем, о чём хотите песню и в каком жанре, можно на русском. Например, «лирическая песня с пианино про телеграм-канал градиент обречённый».
3️⃣ Наслаждаемся хитом.
Стартап уже существует некоторое время, но сейчас выпустили 3 версию своей модели. Получилось что-то типа midjourney для песен.
Есть расширенный режим, в нем можно подкорректировать слова сгенерированной песни, так как грамматика для русского иногда ломается. Напишите, как вам качество. По-моему, очень круто.
1️⃣ Идём на suno.ai и жмем на Make a Song.
2️⃣ Пишем, о чём хотите песню и в каком жанре, можно на русском. Например, «лирическая песня с пианино про телеграм-канал градиент обречённый».
3️⃣ Наслаждаемся хитом.
Стартап уже существует некоторое время, но сейчас выпустили 3 версию своей модели. Получилось что-то типа midjourney для песен.
Есть расширенный режим, в нем можно подкорректировать слова сгенерированной песни, так как грамматика для русского иногда ломается. Напишите, как вам качество. По-моему, очень круто.
🔥37💯1