Градиент обреченный
7.97K subscribers
834 photos
20 videos
8 files
454 links
Download Telegram
🚀 Upd. Всех с Днем космонавтики!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26😁81💯1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 SAM. Сегментируем всё

Поигрался с демо новой модели для сегментации изображений от Meta. Это, конечно, надо попробовать каждому.

🔸 Умеет сегментировать по текстовому описанию ("выдели человека в очках"). В том числе выделение объектов, на которых модель не обучалась.
🔸 Выделение по ключевым точкам и маске.
🔸 Может выдавать границы (bounding box'ы) вокруг всех объектов по запросу.
🔸 Размер 636M параметров. Обучали 3-5 дней на 256 A100.
🔸 Модель открытая (Apache 2.0).

👉 Демо | GitHub | Датасет
🔥43👍9🦄2🤗1
Open Assistant уже хорошо умеет на английском, на русском средненько. Датасет инструкций мультиязычный, русского там сейчас 9.6%. Можно помогать с разметкой.

Демо, веса.

#chatgpt
👍29❤‍🔥5🤗3😱2💯1
🔺 Помощь языкам

〰️ Бурятский

Помогаем сейчас бурятскому языку. Повыравнивал несколько официальных документов на русском и бурятском и с ними неплохо, так как там перевод почти один к одному. А вот хужожественная литература пока не очень, потому что в LaBSE не было бурятского, а родственный монгольский был в слишком малых количествах.

Тут попробуем дообучить LaBSE на монгольском, так как, кажется, что в сети должны быть русско-монгольские корпуса (киньте, если найдете что-то подобное).

Если кто-то хочет помочь, то присоединяйтесь. Ко мне обратился Тимур Батуров, который сможет рассказать как носитель, какая у него мотивация.

👉 Upd. Завел группу для бурятского.

〰️ Санскрит

Также есть целое сообщество людей, которые занимаются санскритом и пользуются для этого Lingtrain'ом. Язык древний, с письменностью деванагари, очень интересно.

Ребята очень активные, даже выкатили целую презентацию с доработками и пожеланиями для Lingtrain. Часть уже сделал, так что скоро обновлю версию.

Для санскрита делал инструкцию по выравниванию, так что, если кто-то интересуется языком и хочет помочь, то тоже не стесняйтесь, пишите.

👉 Инструкция
🔥25❤‍🔥5👍3🤗21
🔺 Это GigaChat

Друзья, несколько месяцев мы экспериментировали с инструктивным обучением и потихоньку начинаем делиться нашими наработками в области ChatGPT-подобных моделей.

🔸 Сегодня мы хотим анонсировать наше творение, которое было решено назвать GigaChat, а модели в его основе — NeONKA.

🔸 Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).

🔸 В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).

🔸 Детали "Неонки" мы будем потихоньку выкладывать в открытый доступ, чтобы сообщество могло самостоятельно тренировать подобные модели.

👉 Хабр
❤‍🔥52🎉14🔥10👍7🥴6🍾3🤷‍♂2😎1👾1
Сейчас в Питере светофор сказал мне: «Заканчивай переход». «Хватит командовать мной, глупый робот», — ответил я ему.

#сингулярность
😁53❤‍🔥2🤓2💯1👻1
Хожу по Эрмитажу и считаю пальцы на руках. Попутно убеждаюсь, что настоящих художников ИИ никогда не заменит.
😁64💯10💅5👍2👾1
Послушал лекцию про андеграундную ленинградскую поэзию в музее Полторы комнаты.

🔸 В советское время было ограниченное число «вакансий» для авторов разных жанров стихов, которых печатали. Например, было по одной «вакансии» верлибриста на Москву и Питер.
🔸 Узнал много новых имен: Сергей Стратановский, Олег Григорьев, Евгения Шварц. Стихи сильные, необычные, а где-то смешные.

Сказал я девушке кротко:
— Простите за нетактичность,
Но бюст ваш, и торс, и походка
Напомнили мне античность.

Она в ответ мне со вздохом:
— Простите, но ваше сложение
Напомнило мне эпоху
Упадка и разложения.

Олег Григорьев
😁41👍9🔥6🤔3❤‍🔥22👀2🤷‍♀1
Поигрался с нашей моделью, поговорил с Джинном, Терминатором и другими персонажами. Из контекста пока иногда выбивается, но в целом диалог работает. Можно будет использовать для каких-нибудь ролевых игр.

#gigachat
🔥36❤‍🔥6👍5😁3🤩1
🔺 StarCoder

Upd. Закрыли Issue с неправильной вставкой

Друзья, новая открытая модель, помогающая писать код.

Поставить в VS Code

🔸 Установить плагин HF Code Autocomplete
🔸 F1 → Hugging Face Code: Set API token. Вставить свой токен отсюда.

Что это?

Это модель от BigCode и ServiceNow, которую натренировали на датасете The Stack (более 80 языков программирования) и тематических данных типа ответов со StackExchange (поэтому ей также можно задавать вопросы типа "что такое лямбда функция?").

Как вы понимаете, проект полностью открытый, так что есть:

🔸 Репозиторий с примерами файнтюна модели, поднятия своего сервиса автодополнений и обычного инференса.
🔸 Модель на 15B параметров. Контекст у модели 8k токенов, тренировалась на 1T токенов.
🔸 NER модель для извлечения пользовательских данных из кода (имена, пароли, явки).
🔸 Ну и куда же без чата с моделью.

При использовании через расширение могут быть ошибки, у меня вставляет генерацию как-то с середины, об этом зарепортил. Также по ощущениям работает похуже чем текущий Copilot, но тоже на уровне. Очень круто для открытой модели, ждём развития.
🔥40👍103🤗2
Forwarded from Lingtrain
🔺 Начал собирать русско-бурятский корпус

🔸
Завел аккаунт Lingtrain на huggingface 🤗, так что там можно будет наблюдать прогресс и там же будет находиться датасет. Там же со временем будут все датасеты.
🔸 Настроил чистку и конвертацию части юридических документов, которые мне передали (из doc в txt). Та еще задачка, так как там много табличек и шаблонных строк.
🔸 Повыравнивал их Lingtrain'ом, тоже скриптами. Лексика там простая, выравание прошло легко. Для книг придется что-то придумывать.
🔸 Написал скрипты сборке и выгрузке датасета.

Дальше выровняю остальные документы, добавлю дедупликацию. Затем перейдем к книгам, для этого попробую дообучить LaBSE на монгольском. Также подниму бота (Айгиз, поделись кодом 😀), для валидации результатов, когда будет побольше данных.

В общем, начало положено. Все фиксирую, чтобы было полезно в будущем, — выложу в отдельный репозиторий.

Корпус
🔥39👍10🤗5❤‍🔥2🙏1👀1
Чистил датасетик с Fidonet чатами, подчерпнул много народной мудрости.

В Pile, кстати, есть адский датасет Ubuntu IRC для улучшения качества болталки. Чатики там, правда, слиты в длиннющие документы на сотни тысяч символов.
😁43🔥831