Forwarded from Lingtrain
🔺 Обновление Lingtrain
Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)
Разбиение конфликтов
Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.
Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.
Docker
Образы для локального запуска:
• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)
Запускается все как раньше (инструкция).
Beta
На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.
👉 GitHub
Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)
Разбиение конфликтов
Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.
Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.
Docker
Образы для локального запуска:
• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)
Запускается все как раньше (инструкция).
Beta
На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.
👉 GitHub
👍24🔥8❤3⚡2 1
Коллеги выкатили генерацию новогодних открыток Гигачатом и Кандинским. Зур чак-чак нарисовать не вышло, но в целом получается очень прикольно.
👉 Можно попробовать тут.
👉 Можно попробовать тут.
👍14❤6🎉5😁3👾2
• Такси от аэропорта до гостиницы стоит примерно столько же, сколько перелет из Еревана в Рим.
• Есть крутые скоростные поезда, курсирующие с севера страны на юг. Можно за час с небольшим доехать до Неаполя, погулять там и вернуться, что мы и сделали.
• Очень люблю посещать местные книжные магазины, поэтому в Риме зашел в la Feltrinelli. Не удержался и прикупил пару книжек.
• Отстояв очередь за билетами на Римский форум, оказалось, что оплата там только по карточкам, а у нас их не было. Помог сосед по очереди.
• Сам форум потрясающий, можно гулять часами. По Колизею растекались толпы народу, туда не пошли.
• Погода была замечательная, солнечно и +10-15. Мог быть и дождь, но повезло.
• Сходили на выставку Эшера. Очень классно, много интерактива, особенно понравилась комната, создающая иллюзию, что один человек больше другого. Еще узнали, что Эшер много лет жил в Риме и итальянские пейзажи присутствуют на некоторых его работах.
• Такси от гостиницы до аэропорта было ночью и стоило еще дороже чем первое 😁
• На последней фотке гостеприимный Ереван. Город, который старше Рима на 29 лет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48❤20👍10🍾5 5🥰1
Пришла мысль сделать простого бота (без запросов к LLM), который бы отвечал мудрыми афоризмами на твои вопросы. Типа такого:
Пока подготовил сет из афоризмов и подумал, что можно заранее объяснить их большой моделью (как на картинке) и погенерировать к ним вопросы. Затем для вопроса пользователя искать ближайший по смыслу сгенерированный вопрос и выходить так на исходный афоризм. Может еще какие-то идеи есть?
— Как вкатиться в ML?
— Любую истину понять легко, если ее уже открыли; главное как раз в том, чтобы ее открыть.
Галилео Галилей
Пока подготовил сет из афоризмов и подумал, что можно заранее объяснить их большой моделью (как на картинке) и погенерировать к ним вопросы. Затем для вопроса пользователя искать ближайший по смыслу сгенерированный вопрос и выходить так на исходный афоризм. Может еще какие-то идеи есть?
🤓19🔥15👍9 1
Дорогие подписчики и люди, которым также будет сопутствовать удача в следующем году,
Желаю вам не теряться в потоке событий, заниматься любимым делом, проводить больше времени с приятными людьми и осуществить задуманное!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉44❤12🔥5😁1🤓1
Вдохновился выставкой Эшера и попробовал замостить плоскость котиками, благо модель была рядом.
👍34 12❤8🔥5
🔺 Малый принц
Выложил параллельный корпус на малых языках на основе «Маленького принца».
📚 Балкарский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, башкирский и татарский, чувашский, якутский и русский языки.
👉 HuggingFace | Книга-трансформер
Выложил параллельный корпус на малых языках на основе «Маленького принца».
📚 Балкарский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, башкирский и татарский, чувашский, якутский и русский языки.
{'ru': '– А для чего быть богатым?',
'ba': '— Ә ни өсөн бай булырға?',
'cv': '— Мӗн тума кирлӗ сана пуянлӑх?',
'di': '— Ӕма дин гъӕздугдзийнадӕ ба ци пайда ӕй?',
'krc': '– Байлыкъ неге керекди?',
'kv': '— А мыйла колӧ лоны озырӧн?',
'mdf': '– А мезенди эряви улемс козякс?',
'mrh': '— А молан поян лийнет?',
'mrj': '— А малын тӹлӓт паян лиӓш?',
'myv': '– Мезекс эряви улемс сюпавокс?',
'sah': '– Ол тоҕо баай буола сатыыгыный?',
'tt': '— Ә бай булу нигә кирәк?'}👉 HuggingFace | Книга-трансформер
huggingface.co
lingtrain/minor-prince · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥45❤8👍4 2❤🔥1
Удалил из подписчиков 300 Евгенов и полсотни Нуриков (!).
Уважаемые спамеры, верните генеративных ботов с красивыми аватарками, они поинтересней были.
Уважаемые спамеры, верните генеративных ботов с красивыми аватарками, они поинтересней были.
😁48💯28 6✍4🔥3
Недавно у стартапа Mistral появилась доступная по API модель mistral-medium. И на лидерборде чат-арены она аж вторая после GPT-4, т.е. выше Claude и Gemini.
По деталям пока не понятно, пишут, что это внутренний прототип. Также есть модели small и tiny.
Потыкал в medium, на английском отвечает вообще отлично, на русском тоже порадовала. Изредка сбивается в грамматике и ставит английские слова, но по смыслу прям очень круто. По цене что-то около рубля за 1000 токенов.
Для тех кто кочет попробовать, вот API ключ( ————— убрал —————) .
Выставил там месячный лимит на пару евро, надеюсь, что он у них правильно работает)
UPD. Ключ убрал, нагенерили 525k токенов за 2.18 евро.
UPD 2. Limit не сработал (!) :)
По деталям пока не понятно, пишут, что это внутренний прототип. Также есть модели small и tiny.
Потыкал в medium, на английском отвечает вообще отлично, на русском тоже порадовала. Изредка сбивается в грамматике и ставит английские слова, но по смыслу прям очень круто. По цене что-то около рубля за 1000 токенов.
Для тех кто кочет попробовать, вот API ключ
Выставил там месячный лимит на пару евро, надеюсь, что он у них правильно работает)
UPD. Ключ убрал, нагенерили 525k токенов за 2.18 евро.
UPD 2. Limit не сработал (!) :)
🔥37❤12👍6💯6😁5 4
В последнее время вспомнил старое и прочитал/перечитал пару НФ книг — «Неукротимую планету» Гаррисона, «Астровитянку» Горькавого, «Спектр» Лукьяненко, рассказы Лема и Шекли. Посоветуйте, что-нибудь ещё, можно не фантастику. И поделитесь, что читаете сами, это интересно.
👉 Upd. Книги по популярной лингвистике
📚 Что советуют подписчики
🔸 Sci-fi & Fantasy
• «Диктатор» Сергея Снегова ✔️
• «Разбитая сфера» Роджера Аллена
• «Софт. Тело» Руди Рюкера
• «Контракт на Фараоне» Рэя Олдриджа
• «Основание» Айзека Азимова ✔️
• «Убик» Филиппа Дика
• «Ложная слепота» и «Морские звезды» Питера Уоттса ✔️
• «Поселок» Кира Булычева
• «Схизматрица» Брюса Стерлинга
• «Задача трёх тел» Лю Ци Синя ✔️
• «Лунная радуга» Сергея Павлова
• «Алмазный век» Нила Стивенсона
• «Час Быка» Ивана Ефремова ✔️
• «Соглашение» Сергея Лукьяненко
• «Мы — Легион. Мы — Боб» Денниса Тейлора ✔️
• «Axiom's End» Линдси Эллис
• «Криптономикон» Нила Стивенсона
• «Я, Хобо: Времена смерти» Сергея Жарковского
• «Создатель звезд» Олаф Степлдон
• «Конец радуг» и «Пламя над бездной» Вернора Винджа
• «Бесконечная война» Джо Холдемана
• «Хроника убийцы короля» Патрика Ротфусса
• «Дети Времени» Адриана Чайковского
• Проект «Аве Мария» Энди Вейера ✔️
• «Свидание с Рамой» Артура Кларка ✔️
• «ГПиМРМ» Элиезера Юдковского ✔️
• «Дюна» Френка Герберта
• «Гиперион» Дэна Симмонса ✔️
• «Заводная» Паоло Бачигалупи
• «Игрок» Иена Бэнкса
Стругацкие, Лем, Лавкрафт, Аберкромби, Бредбери
🔸 Non-fiction
• «К северу от 38 параллели» Андрея Ланькова
• «Why Nations Fail: The Origins of Power, Prosperity, and Poverty» Daron Acemoglu and James A. Robinson
• «История западной философии» Рассела
• «Все лгут. Поисковики, Big Data и Интернет знают о вас все» Сета Стивенса-Давидовица
• «Не навреди» Генри Марша
• «Потерянный и возвращенный мир». А. Р. Лурия
🔸 Fiction
• «Путешествие в Элефсин» Пелевина
• «Между двух стульев» Евгения Клюева
👉 Upd. Книги по популярной лингвистике
📚 Что советуют подписчики
🔸 Sci-fi & Fantasy
• «Диктатор» Сергея Снегова ✔️
• «Разбитая сфера» Роджера Аллена
• «Софт. Тело» Руди Рюкера
• «Контракт на Фараоне» Рэя Олдриджа
• «Основание» Айзека Азимова ✔️
• «Убик» Филиппа Дика
• «Ложная слепота» и «Морские звезды» Питера Уоттса ✔️
• «Поселок» Кира Булычева
• «Схизматрица» Брюса Стерлинга
• «Задача трёх тел» Лю Ци Синя ✔️
• «Лунная радуга» Сергея Павлова
• «Алмазный век» Нила Стивенсона
• «Час Быка» Ивана Ефремова ✔️
• «Соглашение» Сергея Лукьяненко
• «Мы — Легион. Мы — Боб» Денниса Тейлора ✔️
• «Axiom's End» Линдси Эллис
• «Криптономикон» Нила Стивенсона
• «Я, Хобо: Времена смерти» Сергея Жарковского
• «Создатель звезд» Олаф Степлдон
• «Конец радуг» и «Пламя над бездной» Вернора Винджа
• «Бесконечная война» Джо Холдемана
• «Хроника убийцы короля» Патрика Ротфусса
• «Дети Времени» Адриана Чайковского
• Проект «Аве Мария» Энди Вейера ✔️
• «Свидание с Рамой» Артура Кларка ✔️
• «ГПиМРМ» Элиезера Юдковского ✔️
• «Дюна» Френка Герберта
• «Гиперион» Дэна Симмонса ✔️
• «Заводная» Паоло Бачигалупи
• «Игрок» Иена Бэнкса
Стругацкие, Лем, Лавкрафт, Аберкромби, Бредбери
🔸 Non-fiction
• «К северу от 38 параллели» Андрея Ланькова
• «Why Nations Fail: The Origins of Power, Prosperity, and Poverty» Daron Acemoglu and James A. Robinson
• «История западной философии» Рассела
• «Все лгут. Поисковики, Big Data и Интернет знают о вас все» Сета Стивенса-Давидовица
• «Не навреди» Генри Марша
• «Потерянный и возвращенный мир». А. Р. Лурия
🔸 Fiction
• «Путешествие в Элефсин» Пелевина
• «Между двух стульев» Евгения Клюева
Хабр
Популярная лингвистика. Книги про языки, которые мне нравятся
Наш телеграм канал 14.11.2021 — Upd 7. В японский язык добавил Путь бесхвостой птички Адиля Талышханова (Shinrin), в английский — The Mother Tongue — English And How It Got That Way Билла Брайсона (...
43👍25🔥11 8 4❤1
Градиент обреченный pinned «В последнее время вспомнил старое и прочитал/перечитал пару НФ книг — «Неукротимую планету» Гаррисона, «Астровитянку» Горькавого, «Спектр» Лукьяненко, рассказы Лема и Шекли. Посоветуйте, что-нибудь ещё, можно не фантастику. И поделитесь, что читаете сами,…»
🔺 InstantID. Клонируем себя (и друзей) по одному фото.
Около года назад писал про DreamBooth, способе дообучения модели на своих фотографиях, чтобы генерировать новые. Тогда нужно было собрать 15-20 фоток и обучить это дело в Colab'е.
Сейчас потестировал новый подход от исследователей из Пекинского университета. Прелесть здесь в том, что дообучать существующую text2image модель типа SD вовсе не нужно, а информация о входном фото подается через небольшой адаптер, который авторы назвали IdentityNet.
Таким образом, мы получаем zero-shot генерацию, то есть на вход нужно подать одну фотографию и текстовый промпт. Пришлось повозиться с параметрами (вот тут есть советы для демо), но в итоге получилось. Фото подавать лучше большого размера.
Кроме того, подход позволяет генерировать несколько разных людей на общей картинке в заданных позах. Код для такого обещают тоже скоро выложить.
Было круто сделать такое для Kandinsky (а, может быть, коллеги уже занимаются).
P.S. SD явно училась на красивых людях, даже древнеримские бездомные у нее получаются какие-то довольные. Попробуйте сами, демо довольно быстро работает.
P.P.S. Вот здесь есть шаблоны для промптов разных стилей. Их же можно использовать как плагин, если генерите локально в каком-нибудь AUTOMATIC1111.
👉 Статья | HF | Демо
Около года назад писал про DreamBooth, способе дообучения модели на своих фотографиях, чтобы генерировать новые. Тогда нужно было собрать 15-20 фоток и обучить это дело в Colab'е.
Сейчас потестировал новый подход от исследователей из Пекинского университета. Прелесть здесь в том, что дообучать существующую text2image модель типа SD вовсе не нужно, а информация о входном фото подается через небольшой адаптер, который авторы назвали IdentityNet.
Таким образом, мы получаем zero-shot генерацию, то есть на вход нужно подать одну фотографию и текстовый промпт. Пришлось повозиться с параметрами (вот тут есть советы для демо), но в итоге получилось. Фото подавать лучше большого размера.
Кроме того, подход позволяет генерировать несколько разных людей на общей картинке в заданных позах. Код для такого обещают тоже скоро выложить.
Было круто сделать такое для Kandinsky (а, может быть, коллеги уже занимаются).
P.S. SD явно училась на красивых людях, даже древнеримские бездомные у нее получаются какие-то довольные. Попробуйте сами, демо довольно быстро работает.
P.P.S. Вот здесь есть шаблоны для промптов разных стилей. Их же можно использовать как плагин, если генерите локально в каком-нибудь AUTOMATIC1111.
👉 Статья | HF | Демо
👍23❤9🔥9 2😁1👾1
Новости про то, что вышла очередная нейросеть и как она стала еще лучше, звучат уже довольно буднично и это, наверное, хорошо. Уверен, что скоро мы и вовсе перестанем такому удивляться и будем просто пользоваться ими, сами не замечая этого.
Думаю, что буду больше писать про их практическое применение и делать больше обучающих примеров на эту тему.
Сейчас же хочу поделиться новостями про наш GigaChat. Выпустили с коллегами обновление, в котором увеличились и размер контекста и качество генерации. В 7B модели (которая в API называется GigaChat-Plus) это 32k токенов и 8k токенов у большой модели GigaChat-Pro.
Рассказали об этом в статье. Название у неё довольно претенциозное, но на MMLU Pro модель показала 68,9, так что она действительно неплоха. Попробуйте сами, а за подробностями приглашаю прочитать нашу заметку на Хабре.
👉 Хабр
Думаю, что буду больше писать про их практическое применение и делать больше обучающих примеров на эту тему.
Сейчас же хочу поделиться новостями про наш GigaChat. Выпустили с коллегами обновление, в котором увеличились и размер контекста и качество генерации. В 7B модели (которая в API называется GigaChat-Plus) это 32k токенов и 8k токенов у большой модели GigaChat-Pro.
Рассказали об этом в статье. Название у неё довольно претенциозное, но на MMLU Pro модель показала 68,9, так что она действительно неплоха. Попробуйте сами, а за подробностями приглашаю прочитать нашу заметку на Хабре.
👉 Хабр
🔥34❤8👍7 4🤝2😡2😁1
🔺 Nomic Embed
В открытый доступ выложили encoder модель, которая обходит на MTEB аналогичные модели для получения эмбеддингов (векторных представлений текста), включая Ada-002 от OpenAI. Такие модели можно использовать, например, для семантического поиска или кластеризации ваших данных. Язык у модели английский, но интересно не это.
Помимо весов, авторы решили выложить воспроизводимый пайплайн обучения плюс данные (на картинке можно видеть их структуру), на которых модель обучалась (!). Контекст модели 8k токенов. Все под открытой лицензией Apache-2.
👉 HF | Репорт | Доступ к данным
В открытый доступ выложили encoder модель, которая обходит на MTEB аналогичные модели для получения эмбеддингов (векторных представлений текста), включая Ada-002 от OpenAI. Такие модели можно использовать, например, для семантического поиска или кластеризации ваших данных. Язык у модели английский, но интересно не это.
Помимо весов, авторы решили выложить воспроизводимый пайплайн обучения плюс данные (на картинке можно видеть их структуру), на которых модель обучалась (!). Контекст модели 8k токенов. Все под открытой лицензией Apache-2.
👉 HF | Репорт | Доступ к данным
🔥37❤10👍5⚡2