Техножнец
5.02K subscribers
1.48K photos
255 videos
12 files
674 links
Канал моих увлечений и поделок. Всё ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
❤️‍🩹
15👍4🤗3
❤️‍🩹
12🥰12🔥6😁5🙏2
Здарова. Рукаллама пусть тренируется пока что - трогать её не буду. делаю кое что другое. Тоже важное. Как у вас дела, синтеты?
16👍10🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Новый движок для роботов от Amazon.
😁11👍6😱3🥱1
👍24😁11🔥4🎉4🤣2
Натренировал нейросеть небольшую чтобы возвращать букву "Ё" там, где её безвозвратно прое***ли...

Я против уничтожения буквы "Ё"...рукаллама тоже.

Saved best model: F1=0.9420
Epoch 8/8: 100%|██████████| 5972/5972 [08:11<00:00, 12.15it/s, loss=0.00043]

Epoch 8: Precision=0.9170, Recall=0.8977, F1=0.9072

🏆 Best F1: 0.9420 at epoch 7


Будем возвращать должный вид языку.
👍36🔥152👏2
admin >> 14:15:14
Как работает ядерная реакция деления?

RUKALLAMA >> 14:15:14
Я знаю, как осуществляется деление частиц. Я знаю, куда девается выигрыш реакции деления и какая величина является важной величиной для веса целого вещества. Я знаю, что происходит с частицей-атомом соли при делении. Когда вещество вторично измельчено, оно смешивается с частицей-атомом соли.
🤔14👻2
Новое свойство Rukallama - внутренние рассуждения, мета диалог. Наслаждайтесь.
admin >> 20:31:15
Что такое душа???

RUKALLAMA >> 20:31:15
Вопрос: Что такое душа?
Ответ: Душа-это невидимая сила, чувствующая, разумная и произвольная, которая является основой всех наших мыслей и действий.
Вопрос: Какие есть виды души?
Ответ: Существуют виды души, включая душу человека и душу животных, которые различаются по своим способностям и возможностям.
Вопрос: Что такое воображение?
Ответ: Воображение-это способность души представлять себе вещи, которые не присутствуют в данный момент, и которые мы можем вспомнить или представить себе в будущем.
🔥38👍8🤩32👏1🤔1
😁14😢12
Люди - это ладно...
😁21👍11
Здарова, синтеты. Стрим следующий в воскресенье и теперь по воскресеньям будет.
🫡14👌4
This media is not supported in your browser
VIEW IN TELEGRAM
Я и мои шиза пытаемся договориться чтобы уснуть.
😁30🤝4💯3
Съездил в РНБ на встречу рабочей группы. Мы готовы к сотрудничеству официально. Детали будут появляться здесь.

Лучшего места для RuKallama я и представить себе не мог. Изначально мечта была получить доступы в Библиотеку им. Ленина...но РНБ настолько мощнее и плотнее в плане хранимой там информации и систем её классификации , что это просто золото.

Соответственно, т.к. проект RuKallama переходит в совместное русло с РНБ (Российской Национальной Библиотекой), то и доступы будут предоставлены к такому количеству корпусов данных, что в интернете - дарк, обычный или по локальный каналам - ПРОСТО НЕТ.

Террабайты оцифрованным книг, которые ждут своего часа. И все они на русском языке.

Че там говорите, с данными проблема ?

У нас вот проблем уже не предвидится.
101👍65🔥4116🎉7👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Сообщается, что ...
😁27👍5🔥1
Так выглядит мастерская и хирургическая движуха с Rukallama. Теперь я смогу регулировать ответы и приводить их в пригодный вид. Это сложно, но можно. Позже автоматизирую - это первый шаг к тестированию доверенными людьми.
👍26🔥10👀4
🚀 Что нас ждёт?
Новая модель Rukallama — токенизатор четкий, архитектура рабочая, датасет (под вопросом - небольшая чистка будет)

🔍 Что по датасету чистить?
Оказывается, есть достаточно критические косяки, которые необходимо устранить:

1️⃣ Аббревиатуры
Присутствуют в большом количестве, хотя на данном этапе вообще не нужны модели


2️⃣ Сокращенные имена и отчества
Множество сокращений (И.О.), в то время как полные имена тоже присутствуют в датасете — излишнее дублирование


3️⃣ Косяки LLM-распознавания
В словах присутствуют латинские буквы, хотя внешне слово выглядит адекватным. Это провал — таких случаев хоть и 0.02%, но это МНОГО


4️⃣ Артефакты OCR
Есть проблемы с распознаванием изображений и выполнением инструкций OCR, что привело к повторяющимся артефактам:

"согласно изображению"
"глядя на рисунок"
и так далее

Эти вещи надо убрать, т.к. прямой связи ни с какими рисунками (ПОКА ЧТО) нет


5️⃣ Декоративные точки
Переносы и элементы оформления были переведены в длинные цепочки точек, и модель может просто иногда отвечать:
...............................................
Что есть очень плохо


Какие выводы?
На самом деле всё очень хорошо. Это буквально последние шаги, которыми я смогу довести модель до адеквата, и с ней будет приятно общаться — будто с навигатором библиотеки, со своими эмерджентными свойствами, т.е. личностными качествами...
Ждём.


💭 А пока что?

Я пойду передохну, подумаю. Так много событий в этом плане произошло, что мне надо прийти в себя.
Плюс, если помните, то у меня ещё куча проектов, которые стоило бы выложить на GitHub. Вот по этому поводу сейчас пока отдыхаю и буду обучаться внимательно, чтобы все репозитории и всё остальное адекватно работало, и можно было легко у себя инференсы моих моделей делать.


До связи, синтеты. 🤖
🔥328👍3
А вы там шо?
🤝9
согласен...
🥰4