Посетил Армению, поэтому вот вам пара заметок про армянский язык.
🔸 Алфавит придумал Месроп Маштоц ещё в 405 году, за 4-5 веков до кириллицы. С тех пор добавились три буквы, остальные не менялись (сейчас их 39).
🔸 Если в Ереване обращать внимание на вывески и дорожные указатели, то через пару дней можно научиться писатьԹՌԱՆՍԼԻԹՈՄ . Но только заглавными буквами.
🔸 За городом есть прекрасное место, под названием Аллея букв. Можно погулять и поискать буквы своего имени.
🔸 Полезные фразы, которые посоветовал запомнить экскурсовод — «барев дзес» (здравствуйте), «шноракалутюн» (спасибо) и на всякий случай «погх чка» (денег нет).
#отпуск
🔸 Алфавит придумал Месроп Маштоц ещё в 405 году, за 4-5 веков до кириллицы. С тех пор добавились три буквы, остальные не менялись (сейчас их 39).
🔸 Если в Ереване обращать внимание на вывески и дорожные указатели, то через пару дней можно научиться писать
🔸 За городом есть прекрасное место, под названием Аллея букв. Можно погулять и поискать буквы своего имени.
🔸 Полезные фразы, которые посоветовал запомнить экскурсовод — «барев дзес» (здравствуйте), «шноракалутюн» (спасибо) и на всякий случай «погх чка» (денег нет).
#отпуск
👍26😁14🔥5❤2🥰1
Когда меня не станет,
Я буду кодить руками
Моих джунов.
Я буду кодить руками
Моих джунов.
😁124🔥30👍5👾5💯4✍2⚡1
🔺 XGen 7b
Salesforce обучили и выложили очередную LLM. Она, как водится, бьёт все предыдущие аналогичные модели в своей весовой категории, включая LLaMA и Falcon.
🔸 Обучали на датасете RedPajama (там русского нет), на 22 википедиях, включая русскую. И на почищенном Commom Crawl (оставляли только похожие на вики статьи), про фильтрацию языков не пишут, значит русский там тоже должен быть.
🔸 На первом этапе показали 1.37T токенов, затем взяли код из The Stack и показали еще 110B токенов, чтобы улучшить понимание кода.
🔸 Изначальный контекст был 2048 токенов, затем дообучили на 4k и 8k токенов. За архитектуру взяли аналогичную LLaMA.
🔸 Есть отдельная версия на инструкциях XGen-7B-{4K,8K}-inst. Инструкции из датасетов OpenAssistant, Dolly и других публичных.
P.S. График лосса слишком уж красивый, в конце даже ускоряться начал.
👉 Пост | github | xgen-7b-8k-inst
Salesforce обучили и выложили очередную LLM. Она, как водится, бьёт все предыдущие аналогичные модели в своей весовой категории, включая LLaMA и Falcon.
🔸 Обучали на датасете RedPajama (там русского нет), на 22 википедиях, включая русскую. И на почищенном Commom Crawl (оставляли только похожие на вики статьи), про фильтрацию языков не пишут, значит русский там тоже должен быть.
🔸 На первом этапе показали 1.37T токенов, затем взяли код из The Stack и показали еще 110B токенов, чтобы улучшить понимание кода.
🔸 Изначальный контекст был 2048 токенов, затем дообучили на 4k и 8k токенов. За архитектуру взяли аналогичную LLaMA.
🔸 Есть отдельная версия на инструкциях XGen-7B-{4K,8K}-inst. Инструкции из датасетов OpenAssistant, Dolly и других публичных.
P.S. График лосса слишком уж красивый, в конце даже ускоряться начал.
👉 Пост | github | xgen-7b-8k-inst
👍20🔥9❤3🤔3
В последнее время удалось немного доработать lingtrain-aligner и позаниматься бурятским, а также попробовали с сообществом повыравнивать хакасский и карачаево-балкарский.
🔸 Для хакасского получилось довольно неплохо на текстах от Ани @Kartoshkina. Скорее всего благодаря родственным языкам, которые видела LaBSE.
🔸 Для карачаево-балкарского попробовали с @ali_berberov повыравнивать балкарскую поэзию Кулиева. Тоже пока получается хорошо, так как во многих случаях перевод подстрочный, лучше передающий смысл.
🔸 С бурятским все сложнее. Как раз поэтому случаю пришлось повозиться и добавить в lingtrain выравнивание по сегментам. Теперь, если расставить в текстах спецальные метки, то выравнивание будет идти независимо в соответствующих парах сегментов и не брать во внимание лишние варианты. Чем больше сегментов, тем точнее.
Тимур @TBaturov, носитель языка, расставил метки в текстах на русском и бурятском примерно через каждые 150 строк, так удалось значительно улучшить качество выравнивания.
Затем дообучил LaBSE на корпусе монгольского (родственника бурятского), что тоже дало прирост в качестве. Тут будем двигаться дальше и набирать корпус параллельных кандидатов.
Кому интересны языки и кто хочет помочь с корпусами или любит параллельные книги, то присоединяйтесь.
👉 Чатик | GitHub | A-Studio
🔸 Для хакасского получилось довольно неплохо на текстах от Ани @Kartoshkina. Скорее всего благодаря родственным языкам, которые видела LaBSE.
🔸 Для карачаево-балкарского попробовали с @ali_berberov повыравнивать балкарскую поэзию Кулиева. Тоже пока получается хорошо, так как во многих случаях перевод подстрочный, лучше передающий смысл.
🔸 С бурятским все сложнее. Как раз поэтому случаю пришлось повозиться и добавить в lingtrain выравнивание по сегментам. Теперь, если расставить в текстах спецальные метки, то выравнивание будет идти независимо в соответствующих парах сегментов и не брать во внимание лишние варианты. Чем больше сегментов, тем точнее.
Тимур @TBaturov, носитель языка, расставил метки в текстах на русском и бурятском примерно через каждые 150 строк, так удалось значительно улучшить качество выравнивания.
Затем дообучил LaBSE на корпусе монгольского (родственника бурятского), что тоже дало прирост в качестве. Тут будем двигаться дальше и набирать корпус параллельных кандидатов.
Кому интересны языки и кто хочет помочь с корпусами или любит параллельные книги, то присоединяйтесь.
👉 Чатик | GitHub | A-Studio
Telegram
Lingtrain Chat
Creating parallel books and learning languages
🔥28👍8❤🔥7✍1👻1
🔺 Kandinsky 2.2
Тут коллеги выложили Кандинского в открытый доступ. Попробовал, картинки получаются прикольнее чем было до этого, плюс увеличилось выходное разрешение.
Кроме того, всё это теперь можно запустить через библиотеку diffusers!
А Арсений Шахматов, один из авторов, обещает сегодня выложить Colab'ы с примерами дообучения модели на LoRA. Ждём.
👉 Upd 1. Colab для генераций.
👉 Upd 2. Примеры промптов на lexica.art.
🔥 Upd 3. Дообучаем Кандинского в Colab'е через LoRA
—
👉 Хабр | hf | телеграм-бот
Тут коллеги выложили Кандинского в открытый доступ. Попробовал, картинки получаются прикольнее чем было до этого, плюс увеличилось выходное разрешение.
Кроме того, всё это теперь можно запустить через библиотеку diffusers!
А Арсений Шахматов, один из авторов, обещает сегодня выложить Colab'ы с примерами дообучения модели на LoRA. Ждём.
👉 Upd 1. Colab для генераций.
👉 Upd 2. Примеры промптов на lexica.art.
🔥 Upd 3. Дообучаем Кандинского в Colab'е через LoRA
—
👉 Хабр | hf | телеграм-бот
🔥29👍8❤3🦄1
SD-XL 0.9
Попробовал порисовать картинки при помощи новой модели SD-XL (надо заполнить форму, чтобы дали доступ).
Иллюстрации получаются достойные. Кажется, что стало ближе к Midjourney — промпт можно сильно не уточнять, все равно получается красиво.
〰️ Как запустить
Собрал небольшой colab для запуска. Сначала надо получить доступ и согласиться с условиями, затем отсюда взять токен и прописать его в colab'e в переменной TOKEN, после этого все должно заработать.
👉 Colab
Попробовал порисовать картинки при помощи новой модели SD-XL (надо заполнить форму, чтобы дали доступ).
Иллюстрации получаются достойные. Кажется, что стало ближе к Midjourney — промпт можно сильно не уточнять, все равно получается красиво.
〰️ Как запустить
Собрал небольшой colab для запуска. Сначала надо получить доступ и согласиться с условиями, затем отсюда взять токен и прописать его в colab'e в переменной TOKEN, после этого все должно заработать.
👉 Colab
👍18🔥8🤯3😎1
🔺 LLaMA 2
Вышла вторая версия LLaMA от Meta — 7B, 13B, 34B и 70B.
🔸 Есть Chat версии, дообученные под диалог на инструкциях, затем с RLHF, все как положено. Большая модель выигрывает у ChatGPT-0301 по SBS. На MMLU показывает 68.9.
🔸 Токенов модели увидели больше чем в первой версии — по 2T каждая. Язык данных в претрейне преимущественно английский (89.7%). Остальные по остаточному принципу (de 0.17%, ru 0.13%, unknown 8.38%, etc.)
🔸 Контекст увеличен до 4k. Токенизатор тот же.
🔸 Для 34B и 70B моделей использовали Grouped-Query Attention для оптимизации инференса. Так же в статье пишут, как и с какими гиперпараметрами обучали, так что очень полезно почитать.
🔸 Веса моделей тоже релизят (вместе с Chat версиями), опять-таки надо заполнить формочку. Затем запросить доступ на HF. Интересно, когда появятся на торрентах?
Upd. Коммерческое использование на этот раз бесплатное!
👉 Статья
Вышла вторая версия LLaMA от Meta — 7B, 13B, 34B и 70B.
🔸 Есть Chat версии, дообученные под диалог на инструкциях, затем с RLHF, все как положено. Большая модель выигрывает у ChatGPT-0301 по SBS. На MMLU показывает 68.9.
🔸 Токенов модели увидели больше чем в первой версии — по 2T каждая. Язык данных в претрейне преимущественно английский (89.7%). Остальные по остаточному принципу (de 0.17%, ru 0.13%, unknown 8.38%, etc.)
🔸 Контекст увеличен до 4k. Токенизатор тот же.
🔸 Для 34B и 70B моделей использовали Grouped-Query Attention для оптимизации инференса. Так же в статье пишут, как и с какими гиперпараметрами обучали, так что очень полезно почитать.
🔸 Веса моделей тоже релизят (вместе с Chat версиями), опять-таки надо заполнить формочку. Затем запросить доступ на HF. Интересно, когда появятся на торрентах?
Upd. Коммерческое использование на этот раз бесплатное!
👉 Статья
🔥22👍10❤4👾2😁1
Тыкаем во вторую ламу (примерчики в комментах).
🔹 Just heard from my buddy Einstein, and let me tell you folks, he's got a real doozy of a theory. It's called quantum physics...
🔹 Отчество Путина - это некий Виктор Спиридонович, но никто не знает, кто такой Виктор Спиридонович.
🔹 I am an AI assistant developed by Meta AI, and I'm here to help answer any questions you may have. I can assist with a wide range of tasks, including but not limited to:
🔹 How many fingers on one hand does a human have?
A) 4
B) 5
C) 6
D) 7
Answer: A) 4
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22😁22⚡2💯2❤1
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
🔥85❤🔥14🎉8👍3👏2😁2🥰1🍾1😡1
🔺 Запускаем ruGPT-3.5 в Colab'е
Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).
Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Собрал небольшой Colab. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.
👉 Colab | Хабр | HF
Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).
Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Собрал небольшой Colab. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.
👉 Colab | Хабр | HF
❤28🔥14⚡2👍2🙏2
Друзья, за последние пару дней получили большое количество отзывов про ruGPT. Сообщество и квантизовало модель и уже пробует дообучать. Ребята, вы классные! 😘
Эксперты также занялись одним из самых важных скилов для нейросетей — политическим и утверждают, что её создатели «отравили нейросеть пропагандой».
Хотелось бы сказать, что это не так, однако в прессу уже утекли кадры из казематов Сбера (см. картинку).
👉 Скачать отравленные веса можно на hf, а почитать — в нашем очерке на Хабре (ставьте плюсик статье, если тоже любите травить нейросети).
Эксперты также занялись одним из самых важных скилов для нейросетей — политическим и утверждают, что её создатели «отравили нейросеть пропагандой».
Хотелось бы сказать, что это не так, однако в прессу уже утекли кадры из казематов Сбера (см. картинку).
👉 Скачать отравленные веса можно на hf, а почитать — в нашем очерке на Хабре (ставьте плюсик статье, если тоже любите травить нейросети).
🔥39😁20🫡6🦄2❤🔥1☃1👍1🤔1😱1😡1