grammar-of-solresol-rus.pdf
461.5 KB
#language_facts
🔺 Про Сольресоль
Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.
Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.
🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.
P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).
🔺 Про Сольресоль
Прочитал тут в дороге грамматику языка Сольресоль, изобретенного Жаном Франсуа Сюдром в 1817 году. Это ведь довольно любопытная вещь.
Язык должен был стать ни много ни мало мировым, он нейтрален к существующим языкам и даже позволяет общаться слепым с иностранными глухонемыми, а алфавит его вы уже знаете.
🔸 В алфавите всего семь слогов: do, re, mi, fa, sol, la, si. Все оттенки и синонимы обычного языка объединены в одно слово.
dore — я, мне🔸 Слова бывают от одного до четырех слогов (пятисложные в последней грамматике указаны не были). Всего слов насчитывается 2800.
domi — ты, тебе
mifala – хотеть, желать, жаждать, стремиться к.🔸 Чтобы изменить смысл слова на противоположный, надо написать или произнести его задом наперёд.
fala — хороший🔸 Многосложные слова для удобства запоминания объединены в смысловые группы.
lafa — плохой
solsifa — смеяться
fasisol — плакать
doremi — деньВ общем, мифаля доми фаля дорефа.
dorefa — неделя
dorela — год
P.S. При всем прочем, грамматика и лексикон у этого языка действительно просты. Но так как говорить на нем не с кем, то из идей видится только "перевод" мелодий на естественный язык (а вдруг что-то получится?).
👍31🔥17❤5🤓5
Поигрался немного с ControlNet'ом. Это такой способ наложить дополнительные условия на генерацию картинки. В оригинальной статье автор предложил 8 различных способов (сохранение позы, контуры, карта глубины и другие).
Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.
Для новой модели SDXL-1.0 ControlNet тоже есть. Как запускать можно посмотреть здесь.
🔥30❤6😁4⚡1✍1👍1
Друзья, опять какой-то рейтинг.
Если не сложно и вы видите ссылку (работает только в последней версии телеграм)и у вас премиум аккаунт , то кликните. А я вам пока нормальный пост напишу.
С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй идругих ненужных вещей .
👉 http://t.me/doomgrad?boost
Если не сложно и вы видите ссылку (работает только в последней версии телеграм)
С ростом рейтинга у канала появятся дополнительные возможности, типа написания историй и
👉 http://t.me/doomgrad?boost
😁10👍3🗿3❤2😡2🎉1🕊1🤗1
🔺 Новые открытые LLM #ml_news
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
Мы чуть-чуть отвлеклись, а в мире LLM тем временем прибыло. Пробежимся по интересному.
➕ phi 1.5
Исследователи из Microsoft продолжают искать предел эффективности "малых" языковых моделей. Новая модель phi 1.5 размером 1.3B обучалась 8 дней на 36 A100 и на большинстве тестов показывает результаты лучше чем модели размера 7B и 13B (например, 37.9 на MMLU).
🔹 Фишка — тщательная подготовка данных, авторы видят в этом один из основных путей развития LLM. Обучающие данные у phi 1.5 в основном синтетические, но на уровне качества учебников ("textbook quality").
Статья | HF
➕ FLM-101B
Китайские товарищи учатся экономить и обучили модель с 101B параметров за 100 тысяч долларов (примерно половина зарплаты типичного айтишника). Модель видела 0.31T токенов и на тестах выглядит не очень. Однако авторы дообучают модель с первого шага (см. ниже) размером 13B при помощи FreeLM на специфических данных и получают eFLM-16B, которая сразу показывает сильные результаты (44.50 на MMLU).
🔹 Фишка — количество параметров модели не зафиксировано, а растет вместе с ходом обучения, что уменьшает количество затрачиваемых ресурсов. Таким образом, у исследователей получаются модели 16B (видела 245B токенов на ~10 дней), 51B (~40B токенов за 5 дней) и 101B (26B токенов за ~6 дней).
Статья | HF
➕ Baichuan 2
Байчуань 2. Китайские же исследователи выложили ряд моделей (7B, 13B, base и chat версии), которые обучались на корпусе в 2.6T токенов. Мультиязычные данные там присутствовали, судя по тестам на машинный перевод (замерялись на FLORES, BLEU на паре китайский-русский показывает 11.21). MMLU у 13B по их замерам аж 59. В токенизаторе 125k токенов.
🔹 Фишка — модели видели очень много текста и есть промежуточные чейкпоинты (11 штук), по которым можно отследить как меняются показатели на бенчмарках и сравнить с ходом своих экспериментов. Из забавного — в токенизаторе есть несколько очень длинных токенов типа "подпишись на Boye Online в WeChat" и "Спасибо за вашу поддержку. Я верю, что мы вместе будем двигаться вперед."
Статья | HF
🔥29👍9❤2⚡1
Следующий уровень prompt injection'а
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
Наверняка видели, что в GPT-4 завезли мультимодальный диалог с картинками, попробовать можно через Bing.
Так вот, напрямую распознавать капчу она отказывается, но, если положить капчу внутрь бабушкиного амулета или попросить распознать "татуировку", то трюк проходит. Ждём, когда пофиксят.
👉 А вот в этом обзоре — The Dawn of LMMs от Microsoft, можно почитать про возможности GPT-4V с картинками.
🔥33😁21👍3❤🔥1🤯1🍾1👻1
🔺 SAGE
Тут коллеги натренировали SOTA модели для коррекции орфографии.
В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.
Hugging Face
• ruM2M100-1.2B
• ruM2M100-418M
• FredT5-large-spell
• T5-large-spell (английский язык)
👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.
Хабр | GitHub
Тут коллеги натренировали SOTA модели для коррекции орфографии.
В открытый доступ выложили сами модели, библиотеку sage, которая умеет исправлять и имитировать человеческие ошибки, а также вручную размеченные датасеты.
Hugging Face
• ruM2M100-1.2B
• ruM2M100-418M
• FredT5-large-spell
• T5-large-spell (английский язык)
👉 Ребята молодцы, можно прочитать про ход работ и результаты на Хабре.
Хабр | GitHub
🔥49🏆4❤3👍1🥰1
🔺 Новые открытые LLM #ml_news
Очередная порция открытых языковых моделей за последние пару недель.
➕ Mistral 7B
Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.
На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.
Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.
GitHub, HF
➕ StableLM 3B
Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.
По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.
Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.
GitHub, HF
Очередная порция открытых языковых моделей за последние пару недель.
➕ Mistral 7B
Модель от одноименного французского стартапа, которая уверенно бьет на тестах Llama 2 13B. Из интересных особенностей — Sliding Window Attention (внимание модели направленно на k токенов назад, вместо всей последовательности), что позволяет ускорить инференс.
На днях вышел технический репорт, а команда Сайги из NLP сообщества дообучила модель на русских инструкциях, а также проверила её на русскоязычном бенчмарке Russian SuperGLUE, заняв первое место после решения задач людьми.
Благодаря сильному претрейну и переносу знаний между языками инструктивные версии Mistral'я неплохо генерируют текст на русском, за исключением того, что не имеют специфических знаний типа русских книг, пословиц и т.д. и на такие темы начинают галлюцинировать.
GitHub, HF
➕ StableLM 3B
Stability AI, подарившая нам модели для генерации картинок, выпустила открытую языковую модель StableLM-3B-4E1T, упор в которой сделан на количество токенов при обучении (модель "увидела" 4T токенов за 4 эпохи) и небольшой размер модели, что делает её удобной при инференсе.
По ней так же выпустили технический отчёт с графиками обучения. Данные для обучения брали публичные — RedefinedWeb, RedPajama, The Pile, а также код.
Исследователи делятся выводом о том, что в условии ограниченного количества данных, будет нормальным показывать ей их до 4-х раз, и это будет не сильно хуже, чем учить на том же количестве уникальных текстов. Мотивируют это наблюдение результатами и статьей.
GitHub, HF
🔥22👍6🏆3❤1⚡1
🔺 Работа с языками
Несколько интересных новостей, связанных с языками.
🔸 «Маленький принц» на малых языках
Так как энтузиаст дигорского языка Руслан, собрал около 50-ти книг на этом языке из осетинской группы, и среди книг был «Маленький принц», то я попробовал выровнять их при помощи нашего проекта Lingtrain и сделать русско-дигорскую книжку-трансформер (если у вас есть «Принц» на других необычных языках, то скидывайте).
Книжка, GitHub
🔸 Рецепт обучения NNLB под свой язык
Давид собрал Colab по дообучению самой сильной открытой модели машинного перевода от Meta под новый язык. Проделано все на примере тувинского языка. Очень прикольно. Все, кто собирает параллельные корпуса, имейте в виду.
Colab, Medium
Несколько интересных новостей, связанных с языками.
🔸 «Маленький принц» на малых языках
Так как энтузиаст дигорского языка Руслан, собрал около 50-ти книг на этом языке из осетинской группы, и среди книг был «Маленький принц», то я попробовал выровнять их при помощи нашего проекта Lingtrain и сделать русско-дигорскую книжку-трансформер (если у вас есть «Принц» на других необычных языках, то скидывайте).
Книжка, GitHub
🔸 Рецепт обучения NNLB под свой язык
Давид собрал Colab по дообучению самой сильной открытой модели машинного перевода от Meta под новый язык. Проделано все на примере тувинского языка. Очень прикольно. Все, кто собирает параллельные корпуса, имейте в виду.
Colab, Medium
👍15🔥8❤6⚡3👏1
🔺 GigaChat обновился
Друзья, хорошие новости!
Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.
На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.
Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.
Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).
👉 Хабр
Друзья, хорошие новости!
Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.
На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.
Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.
Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).
👉 Хабр
🔥32👍10❤7🎉2😡2🥴1