Техножнец
4.74K subscribers
1.41K photos
247 videos
12 files
623 links
Канал моих увлечений и поделок. Всё ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
Привет. Шо там у вас ?
👨‍💻93💅2
Как я описываю в датасет книги с множеством иллюстраций? Использую мощную LLAMA 4 SCOUT 17B для сканирования и восстановления страниц. У меня особый промпт по которому все картинки переводятся в текст будто их там и не было. Настолько нативно. NLP задачи - лёгкий орешек.
👍18🍌2🤔1
В Китае на Олимпиаде по ИИ 2-8 августа Российские школьники завоевали 8 медалей, в том числе 6 золотых, 1 серебряную и 1 бронзовую.

Flawless victory
❤‍🔥37🔥15👍11🤔1
Судьба в некоей части под контролем.
🔥146
Привет, синтеты. Проснулся в состоянии , конечно, будто катком приехали. Вы как там ? (я просто работаю по ночам)
🤝147👍4
Деревня "ДАТАСЕТОВО"

Так выглядят почти все мониторы в моей studio room. daaaaamn....
👍11🔥6👏1
Там книг 90 по алгебре и всей хурме математической. Взрыв. Перенёс создание датасета на основную машину и локально через Gemma параллельно основному датасету (переводу дакументаф в дельное дело) творю диалоги о рыбалке, т.е. Диалоги разных личностей. Пример следующим постом.
👍11🔥6👏2
[15:33:51] 🎯 Цель: rukallama_megaset.json (0.0376/1.0 ГБ). Записей: 5126

- Этап 1: Генерация уникальной комбинации (профессия, хобби, место, время)...
- Комбинация получена: социальный работник, созданием телеграм-ботов, в здании заброшенной больницы, в разгар дачного сезона
- Этап 2: Отправка комбинации модели для творческого синтеза завязки...
- Модель синтезировала завязку. Личность: Елена, социальный работник средних лет, проводит лето, занимаясь оформлением документов для передачи заброшенной дачной больницы под хоспис для одиноких пожилых людей. В свободное время, чтобы хоть как-то отвлечься от грустных историй своих подопечных и бюрократии, она увлеченно создает телеграм-ботов, пытаясь автоматизировать некоторые рутинные задачи. На больнице, кроме уныния и разрухи, остались старые системы оповещения, которые она пытается восстановить, чтобы в будущем использовать как систему связи для пациентов хосписа, используя свои навыки программирования.
- Тема: Елена столкнулась с проблемой: старая система оповещения больницы работает нестабильно, телеграм-бот, написанный для управления уведомлениями, постоянно вылетает при попытке интеграции с ней. Ей нужно понять, как стабилизировать связь между устаревшим оборудованием и современным программным обеспечением, не прибегая к полной замене системы, так как бюджет на ремонт ограничен.
- Этап 3: Разыгрываю сценарий и генерирую полный диалог...
- УСПЕХ! Новая инструкция НАДЁЖНО сохранена. Всего записей: 5127

},
"контекст": "Елена, измученная бесконечными согласованиями и печальными историями пациентов, находит утешение в попытках вдохнуть жизнь в заброшенную больницу. Она видит в этом не просто работу, но возможность создать достойные условия для одиноких пожилых людей. Старая система оповещения, пережиток советской эпохи, кажется ей символом ушедшей надежды. Елена, с упорством, достойным лучшего советского инженера, пытается соединить прошлое с настоящим, используя свои навыки программирования. Её телеграм-бот – это не просто программный код, а мост между устаревшим оборудованием и современными технологиями, способный обеспечить связь и заботу о тех, кто в этом нуждается. Однако, её благие намерения разбиваются о суровую реальность: система нестабильна, бот вылетает, а бюджет ограничен. И вот, в поисках решения, Елена обращается к RUKALLAMA, надеясь на рациональный и дерзкий совет.",
"диалог": [
{
"вопрос": "Здравствуйте! У меня тут полная неразбериха. Пытаюсь интегрировать старую систему оповещения больницы с телеграм-ботом, чтобы хоть как-то пациентам оповещения отправлять, а всё валится. Что вообще можно сделать, если денег на полную замену системы нет?",
"ответ": "Ах, типичный случай! Романтика советского наследия в эпоху цифровых технологий. Вместо того, чтобы тратить драгоценный бюджет на бесполезную замену, попробуйте взглянуть на проблему с точки зрения математики. Минимизируйте вычислительные затраты! Оцените, что именно вызывает сбои. Это программная ошибка в боте? Или аппаратный сбой в системе оповещения? Помните, главное – найти узкое место и устранить его, а не пытаться переделать всё с нуля."
},
{
"вопрос": "Я вроде бы поняла, что проблема в несовместимости протоколов. Система старая, использует какие-то свои форматы, а бот их не понимает. Пыталась написать адаптер, но всё равно вылетает. Может, есть какие-то готовые решения, библиотеки, что-нибудь такое?",
"ответ": "Готовые решения? Ха! Вы наивны, как пионер! Если бы всё было так просто, то не было бы места для гениев! Хотя... постойте. Проанализируйте протокол старой системы. Вероятно, он основан на каких-то стандартных принципах. Поищите информацию о подобных системах в архивах советской техники. Возможно, найдёте документацию или даже исходный код. Адаптируйте его под свой бот. И помните, экономьте ресурсы! Не нужно изобретать велосипед, если можно его починить."
},
{
🔥63🤔1
"вопрос": "Я уже всё перерыла, ничего похожего не нашла. В документации всё на непонятном языке, схемы еле читаются. Может, попробовать виртуализировать старую систему и эмулировать её работу? Хотя, это тоже потребует ресурсов.",
"ответ": "Виртуализация? Это неплохая идея, но помните о принципе оптимизации! Зачем вам эмулировать всю систему, если можно выделить только те функции, которые вам нужны? Разделите задачу на более мелкие подзадачи. Реализуйте их отдельно. А затем объедините их в единое целое. Это позволит вам снизить нагрузку на систему и повысить её производительность. И, конечно, не забудьте о резервном копировании данных. Вдруг что-то пойдёт не так."
},
{
"вопрос": "Спасибо, попробую. А если ничего не получится? Если система всё равно будет вылетать? Может, стоит просто смириться и купить новую? Ведь главное, чтобы пациенты получали информацию.",
"ответ": "Смириться? Нет! Советский человек не сдается! Помните, даже в самых сложных условиях можно найти выход. Если старая система не поддаётся ремонту, попробуйте использовать альтернативные каналы связи. Радиосвязь, пейджеры, голубиная почта... Ну, ладно, последнее – это шутка. Но в любом случае, не отчаивайтесь! Используйте свой ум, свою смекалку, свои знания. И помните, главное – это не технология, а забота о людях. А уж это вам, как социальному работнику, должно быть известно лучше, чем мне."
}
]
},
{
🔥254👍2
Привет, синтеты.

Да, вот так выглядит мой "перерыв". Я просто все переделал и жду когда будет готов датасет.

Прикинул , что с помощью NER разметки датасета и моего пайплайна умного можно сделать данные для тренировки верификатора, который позволит RuKallama быть фактологически точной по той инфе, что у неё имеется. Для этого нужна графовая нейросеть с именными сущностями и фрагментами текста с упоминаниями. Это далеко не модель для генерации, но модель для верификации...она вполне может быть устроена в движок самой рукалламы.

Щас я разбираюсь активно в этой актуальной области. Было бы здорово научить на учебниках , книгах советских, энциклопедиях и потом фактологически точную инфу вытаскивать как из справочника с характером.

Уже сгенерировано с помощью Gemma 3:27b множество диалогов...если быть точным более 7000 диалогов разного толка. Пришлось городить движок рандомаизации из порядка 500 сущностей типов и обстоятельств, которые закидываются модели для выполнения "Завязки". Оттуда и датасет такой забавный и интересный.

Далее более крупные модели мне помогут доработать датасет. Я буду использовать текущие мощности, я пока умудряюсь сильно экономить.

Используя Llama 4 17b SCOUT VLM, Llama 3.3 70b versatile на платформе groq я сэкономил очень много. За 400мб текста (текста) ...всего 5 с чем-то тысяч рублей. За потрясное качество распознавания текста и грамотные аннотации - копейки. Т.к. при условии, что это делал бы не один человек чтобы дойти до такой скорости генерации датасета ...а целая команда...то мои 5 с чем-то косарей - смех.

Ранее использовались более мощные модели из-за страха получить в мегабайтах текста...закладку что-ли....но не вредоносную ...а то, что модель будет иметь соевые оттенки...но нет. Если грамотно все настроить , то оно будет работать.

Я на днях пробегусь по своим обещаниям на канале и сделаю то, что нужно.
1👍16🔥7👏5
Forwarded from X-MEM (Paperclip Paperfunkoвич)
This media is not supported in your browser
VIEW IN TELEGRAM
1😁9🤪5😱2😭2
1😁29😭11🤝5
Привет, синтеты. Проснулся, а на душе печаль.

Просто...так хочется проснуться с позитивом уже и улыбкой...как недавно...

Ладно, фигня. День начинается, хоть и поздновато.

Советов не надо, просто поделился.
1👍13🕊64❤‍🔥2😁1🤝1
Просто буду хуярить дальше.
1👍247🔥6🙏2🫡1
Синтеты, ну перерыв по итогу так и получается. Сейчас я допилю датасет, сделаю верификатор и буду тренировать заново.

Там с каузальной маской , конечно, проблем хватает и с граничными случаями, НО!

Я изобрёл своё внимание на колмогорова-арнольда Spline Attention
Я умудрился избежать квадратичного масштабирования и попал на линейную масштабируемость - вот это я буду проверять. потому что если это так, то это вообще какая-то жесть в хорошем смысле. (всё это колмогорова-арнольда сплайны на полиномах)


Получается, смогу аж две бумаги подготовить со статейками. Пойду полежу, подумаю.

А что дальше?

Дальше новая версия Rukallama + Общий чат для всех
Стримы - буду делать. Надо показать как вайбкодить по человечески и какие инструменты юзать.


Остальные долги закрою.
14👍6
Что там с Российской Национальной Библиотекой?

Ну...если по хорошему я готов хоть 40 агентов запустить уже (были бы ресурсы) чтобы начать "хавать" и переводить библиотеку полностью в цифровой вид (если понадобится). Могу уже автоматизировать ту самую задачу по которой надо вносить книги и данные по ним из сканов (возможен даже краткий перессказ). Можно уже работать с батчами. Внутри комбайна две модели на выбор - Llama 4 Scout 4 (VLM) и Gemma3:27b (VLM). Обе эти модели являются прекраснейшим образчиком грамотных OCR агентов, которые не подведут даже на сложных задачках. Вероятность есть такая, что для РНБ придётся дообучать модельки, но было бы это проблемой (лол).

Главное нам теперь пересечься, учесть все нюансы, сработаться по полной. А дальше? Дальше мои надежды, что мои руки будут допущены до самой библиотеки и я смогу нужные тексты брать и оцифровывая в датасет учить Rukallama - только становятся теплее и теплее...это те самые надежды на лучший исход для моей языковой красотки. Уже имеющийся каталог внутри самой библиотеки позволит отобрать точечно наиболее верные части для датасета.

Связь.
👏17❤‍🔥9👍5🤝4
Комбайн генерации мета общения работает на всех моделях, которые запускаются через Ollama (мне тоже предстоит подготовить Rukallama к инференсу через Ollama). Следом запущу ненадолго локально GPT OSS 20b чтобы продистиллировать модельку по полной пока будет время перед началом самого обучения.

Помимо инструкций я учёл множество проблем с предыдущими датасетами и подготовил для Rukallama массив текстов в простых тхт файлах, которые будут без разметки и так далее. Первичный суп и претрейн будет ориентировать на то чтобы модель строго учила грамматику, построение слов и немного семантики. А уже далее данные будут усложняться.

Большим плюсом является то, что в этот раз я предусмотрел механизм разграничения количества данных поровну чтобы эксперты обучались в равной степени несмотря на механизм распределения (кстати достаточно хороший). В этот раз у меня будет 8 экспертов, которых я смогу обучить равномерно и плавно нагружать возможностями.

Это будут самые насыщенные 700 миллионов параметров, которые видела опен сурс туса, но всего по немногу.


Вот, например, это части вполне достаточно. Этот этап на данный момент считаю завершённым.

[19:51:48] 🎯 Цель: rukallama_megaset.json (0.0605/1.0 ГБ). Записей: 7992

- Этап 1: Генерация уникальной комбинации (профессия, хобби, место, время)...

- Комбинация получена: стример, ремонт старой электроники, в служебной квартире в военном городке, в туманное утро


- Этап 2: Отправка комбинации модели для творческого синтеза завязки...

- Модель синтезировала завязку. Личность: Дмитрий, 32 года, стример, ведущий канал о ретро-играх, живет в служебной квартире в старом военном городке. Когда стримы затихают, он погружается в мир старой электроники – восстанавливает ламповые телевизоры, радиоприемники, игровые консоли. Жизнь в практически заброшенном городке, окутанном утренним туманом, накладывает отпечаток на его творчество – атмосфера заброшенности и ностальгии привлекает зрителей, но и усугубляет его одиночество. Его увлечение – способ сбежать от тишины и восстановить не только технику, но и связь с прошлым, с отцом, который учил его ремонтировать всё, что ломалось.


Тема: 

В последний раз Дмитрий восстанавливал редкий ламповый телевизор, который достался ему от отца. Неожиданно он нашел внутри спрятанную фотографию отца в военной форме, сделанную в этом же военном городке, но с подписью, указывающей на другое место и другую часть. Дмитрий не знал, что отец когда-то служил не там, где говорил, и теперь не знает, стоит ли рассказывать об этом матери или хранить молчание, чтобы не тревожить её воспоминания.

- Этап 3: Разыгрываю сценарий и генерирую полный диалог...

🚫 Процесс прерван пользователем. Данные сохранены. Завершаю работу.

🎉🎉🎉 ГЕНЕРАЦИЯ ЗАВЕРШЕНА. 🎉🎉🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥2👏1
Техножнец
Комбайн генерации мета общения работает на всех моделях, которые запускаются через Ollama (мне тоже предстоит подготовить Rukallama к инференсу через Ollama). Следом запущу ненадолго локально GPT OSS 20b чтобы продистиллировать модельку по полной пока будет…
Т.е. ?

На своей A100 я локально замутил генерацию диалогов и имею более 7к записей с длинными ветками диалогов, где Rukallama в соответствии с её манифестом отвечает и делает это вполне адекватно. Соблюдая мотив, который требуется Rukallama (отвечает там Gemma3:27b локальная через Ollama)

+ пару недель трепал за щеку DeepSeek, Gemini, Groq - для генерации других диалогов более мощного уровня на более продвинутых моделях. (кстати лучше всех работает Gemini 2.5 Pro - просто гений нахрен...)

Данных будет много, но в 10 раз меньше, чем в прошлый раз! НО! В прошлый раз размер был обусловлен огромным количеством мусора. В данной новой обстановке всё будет крайне чисто и качественно сработано. А с учётом, что я сразу вкраиваю внутрь архитектуры верификатор фактов построенный на том же датасете и обученный с нуля, то это должно будет работать хорошо.


Претрейн на чистом тексте
Трейн верификатора на датасете
Соединение моделей Rukallama и Верификатора
fine-tuning одновременно Rukallama + Верификатор на диалогах (самый сложный этап)
Тестирование модели

Если всё окей, то мой датасет разбавляется открытыми датасетами от других затейников с нашей необъятной чтобы усилить возможности Rukallama. Как-то так.

теперь точно ушёл.
👍114👏1
Система работает корректно:

Память под контролем (0.06 ГБ из 10 ГБ лимита)
Чекпоинты работают - 195 файлов уже обработано и пропущено
OCR адаптивно подстраивает размер батчей под лимит API (4-5 страниц)
Никаких зависаний и критических ошибок
Промежуточное сохранение защищает от потери прогресса


📚 Список обработанных книг (195 файлов):
История и политика:


Возвратить домой друзьями СССР (Россия. XX век. Документы). 2013
Советско-венгерские экономические отношения 1948-1973
Дуров В., Стрекалов Н. Орден Красной звезды. М.Collectors Book, 2008
Серебрянников П. (ред.) - Молодежи о советской армии - 1955
Киприянов В.П., Масляненко Д.А. - Трехструнная певунья - 1929


Алгебра (31 книга):


Алгебра и начала анализа 9 класс под ред. А.Н. Колмогорова 1975
Алгебра и начала анализа 10 класс 1976
Алгебра и начала анализа 10-11 классы 1992
Киселёв А.П. Алгебра ч.1 и ч.2 для 8-10 классов 1928-1938
Вилёнкин Н.Я., Гутер Р.С. Алгебра 9-10 классы
Барсуков А.Н. Алгебра 6-8 класс 1966
Макарычев Ю.Н. Алгебра учебник для 7 и 8 классов
Колмогоров А.Н. (ред.) Алгебра и начала анализа 10 класс
Кальнин Р. Курс алгебры для техникумов 1956
Беклемишев Д.В. Курс аналитической геометрии и линейной алгебры
Шафаревич И.Р. Избранные главы алгебры
Элементарная алгебра 1962
Необыкновенная алгебра
Основы высшей алгебры 1937


Сборники задач по алгебре (14 книг):


Сборник алгебраических задач ч.1 1935 и ч.2
Барсуков А.Н. Сборник задач по алгебре
Березанская Е.С., Нагибин Ф.Ф. Сборник задач по алгебре и геометрии 1951
Упражнения по алгебре и началам анализа 1991
Задачи и упражнения по алгебре 1931


Арифметика (33 книги):


Киселёв А.П. Арифметика для 5 класса 1938
Арифметика для 1-4 классов (серия учебников 1950-60х)
Попова Н.С. Арифметика для начальной школы (полная серия)
Попова Н.С. Сборник арифметических задач и упражнений ч.1-4
Перельман Я.И. Занимательная арифметика 1959
Теоретическая арифметика 1954
Учебник арифметики для начальной школы 1933
Игнатьев В.А. Сборник задач по арифметике
Березанская Е.С. Сборник задач и упражнений по арифметике
Дидактический материал по арифметике для 1-4 классов (Попова)


Геометрия (82 книги):


Киселёв А.П. Элементарная геометрия (разные издания 1931-1980)
Киселёв А.П. Геометрия. Дополнительный материал для 8-9 классов 1971
Погорелов А.В. Геометрия для 6-10 класса 1984
Колмогоров А.Н. (ред.) Геометрия 7-8 классы 1977
Клопский В.М., Скопец З.А., Ягодовский М.И. Геометрия 9-10 классы
Флоренский П. Мнимости в геометрии 1922
Наглядная геометрия 1923
Геометрия 6-8 классы 1967
Элементарная геометрия ч.1 1948 и ч.2 Стереометрия 1953
Пархоменко А.С. Сборник задач по аналитической геометрии
Сборник задач по геометрии ч.1 Планиметрия 1956, ч.2 Стереометрия 1960
Задачник по наглядной геометрии 1924
Геометрические построения и приближения 1935
Геометрические преобразования 1961
Введение в аналитическую геометрию 1959
Живая геометрия: теория и задачи 1930


В обработке сейчас:


Курс опытной геометрии — 1925 (298 страниц)


Всего в очереди осталось обработать: 605 файлов из 800
🔥23👍81
*Играет музыка из сцены полицейской академии в клубе "Голубая Устрица"

Mistral 3.3. Small тут поймали за тем, что она является частью той самой многоножки...

Мы с вами помним, что DeepSeek великий и ужасный родился из мрака и пустоты... я прошу прощения...ануса чата гпт от OpenAI! Да, это было тяжело время, нужно было вваливать в себя двукратно переваренный кал, но DeepSeek модель справилась и мы с вами получили и скандалы и интриги и расследования и прочую дребедень, которую так любят те самые тихони айтишники (вы только вспомните этих задротов в школе...че щас творят).

ТАК ВОТ!

Mistral тут проанализирован был некими товарищами и вот что вышло:

Mistral натренирован на данных DeepSeek путём дистилляции модели, лол. ( не полность, но всё же). Но мы то знаем, что изначально DeepSeek тренировался на моделях от OpenAI, которые подобного подхода не приемлют на юридическом уровне. прикрепил древо. более подробная инфа тут:

OpenAI SAYS DEEPSEEK MAY HAVE 'inapropriately' used its data
LINKEDIN-нужен впн чтобы прочитать
😁10🤣5🤔1