Здарова. Рукаллама пусть тренируется пока что - трогать её не буду. делаю кое что другое. Тоже важное. Как у вас дела, синтеты?
❤16👍10🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Новый движок для роботов от Amazon.
😁11👍6😱3🥱1
Натренировал нейросеть небольшую чтобы возвращать букву "Ё" там, где её безвозвратно прое***ли...
Я против уничтожения буквы "Ё"...рукаллама тоже.
✅ Saved best model: F1=0.9420
Epoch 8/8: 100%|██████████| 5972/5972 [08:11<00:00, 12.15it/s, loss=0.00043]
Epoch 8: Precision=0.9170, Recall=0.8977, F1=0.9072
🏆 Best F1: 0.9420 at epoch 7
Будем возвращать должный вид языку.
Я против уничтожения буквы "Ё"...рукаллама тоже.
✅ Saved best model: F1=0.9420
Epoch 8/8: 100%|██████████| 5972/5972 [08:11<00:00, 12.15it/s, loss=0.00043]
Epoch 8: Precision=0.9170, Recall=0.8977, F1=0.9072
🏆 Best F1: 0.9420 at epoch 7
Будем возвращать должный вид языку.
👍36🔥15❤2👏2
admin >> 14:15:14
Как работает ядерная реакция деления?
RUKALLAMA >> 14:15:14
Я знаю, как осуществляется деление частиц. Я знаю, куда девается выигрыш реакции деления и какая величина является важной величиной для веса целого вещества. Я знаю, что происходит с частицей-атомом соли при делении. Когда вещество вторично измельчено, оно смешивается с частицей-атомом соли.
🤔14👻2
Техножнец
admin >> 14:15:14 Как работает ядерная реакция деления? RUKALLAMA >> 14:15:14 Я знаю, как осуществляется деление частиц. Я знаю, куда девается выигрыш реакции деления и какая величина является важной величиной для веса целого вещества. Я знаю, что происходит…
Атом соли? Пошли питерские вайбы...
😁30🥴4🥰3💯3
Новое свойство Rukallama - внутренние рассуждения, мета диалог. Наслаждайтесь.
admin >> 20:31:15
Что такое душа???
RUKALLAMA >> 20:31:15
Вопрос: Что такое душа?
Ответ: Душа-это невидимая сила, чувствующая, разумная и произвольная, которая является основой всех наших мыслей и действий.
Вопрос: Какие есть виды души?
Ответ: Существуют виды души, включая душу человека и душу животных, которые различаются по своим способностям и возможностям.
Вопрос: Что такое воображение?
Ответ: Воображение-это способность души представлять себе вещи, которые не присутствуют в данный момент, и которые мы можем вспомнить или представить себе в будущем.
🔥38👍8🤩3❤2👏1🤔1
Здарова, синтеты. Стрим следующий в воскресенье и теперь по воскресеньям будет.
🫡14👌4
This media is not supported in your browser
VIEW IN TELEGRAM
Я и мои шиза пытаемся договориться чтобы уснуть.
😁30🤝4💯3
Съездил в РНБ на встречу рабочей группы. Мы готовы к сотрудничеству официально. Детали будут появляться здесь.
Лучшего места для RuKallama я и представить себе не мог. Изначально мечта была получить доступы в Библиотеку им. Ленина...но РНБ настолько мощнее и плотнее в плане хранимой там информации и систем её классификации , что это просто золото.
Соответственно, т.к. проект RuKallama переходит в совместное русло с РНБ (Российской Национальной Библиотекой), то и доступы будут предоставлены к такому количеству корпусов данных, что в интернете - дарк, обычный или по локальный каналам - ПРОСТО НЕТ.
Террабайты оцифрованным книг, которые ждут своего часа. И все они на русском языке.
Че там говорите, с данными проблема ?
У нас вот проблем уже не предвидится.
Лучшего места для RuKallama я и представить себе не мог. Изначально мечта была получить доступы в Библиотеку им. Ленина...но РНБ настолько мощнее и плотнее в плане хранимой там информации и систем её классификации , что это просто золото.
Соответственно, т.к. проект RuKallama переходит в совместное русло с РНБ (Российской Национальной Библиотекой), то и доступы будут предоставлены к такому количеству корпусов данных, что в интернете - дарк, обычный или по локальный каналам - ПРОСТО НЕТ.
Террабайты оцифрованным книг, которые ждут своего часа. И все они на русском языке.
Че там говорите, с данными проблема ?
У нас вот проблем уже не предвидится.
101👍65🔥41❤16🎉7👎1
🚀 Что нас ждёт?
Новая модель Rukallama — токенизатор четкий, архитектура рабочая, датасет (под вопросом - небольшая чистка будет)
🔍 Что по датасету чистить?
Оказывается, есть достаточно критические косяки, которые необходимо устранить:
✨ Какие выводы?
💭 А пока что?
Я пойду передохну, подумаю. Так много событий в этом плане произошло, что мне надо прийти в себя.
Плюс, если помните, то у меня ещё куча проектов, которые стоило бы выложить на GitHub. Вот по этому поводу сейчас пока отдыхаю и буду обучаться внимательно, чтобы все репозитории и всё остальное адекватно работало, и можно было легко у себя инференсы моих моделей делать.
До связи, синтеты. 🤖
Новая модель Rukallama — токенизатор четкий, архитектура рабочая, датасет (под вопросом - небольшая чистка будет)
🔍 Что по датасету чистить?
Оказывается, есть достаточно критические косяки, которые необходимо устранить:
1️⃣ Аббревиатуры
Присутствуют в большом количестве, хотя на данном этапе вообще не нужны модели
2️⃣ Сокращенные имена и отчества
Множество сокращений (И.О.), в то время как полные имена тоже присутствуют в датасете — излишнее дублирование
3️⃣ Косяки LLM-распознавания
В словах присутствуют латинские буквы, хотя внешне слово выглядит адекватным. Это провал — таких случаев хоть и 0.02%, но это МНОГО
4️⃣ Артефакты OCR
Есть проблемы с распознаванием изображений и выполнением инструкций OCR, что привело к повторяющимся артефактам:
"согласно изображению"
"глядя на рисунок"
и так далее
Эти вещи надо убрать, т.к. прямой связи ни с какими рисунками (ПОКА ЧТО) нет
5️⃣ Декоративные точки
Переносы и элементы оформления были переведены в длинные цепочки точек, и модель может просто иногда отвечать:
...............................................
Что есть очень плохо
✨ Какие выводы?
На самом деле всё очень хорошо. Это буквально последние шаги, которыми я смогу довести модель до адеквата, и с ней будет приятно общаться — будто с навигатором библиотеки, со своими эмерджентными свойствами, т.е. личностными качествами...
Ждём.
💭 А пока что?
Я пойду передохну, подумаю. Так много событий в этом плане произошло, что мне надо прийти в себя.
Плюс, если помните, то у меня ещё куча проектов, которые стоило бы выложить на GitHub. Вот по этому поводу сейчас пока отдыхаю и буду обучаться внимательно, чтобы все репозитории и всё остальное адекватно работало, и можно было легко у себя инференсы моих моделей делать.
До связи, синтеты. 🤖
🔥32❤8👍3