Техножнец – Telegram

Техножнец

4.97K subscribers

1.45K photos

253 videos

12 files

666 links

Канал моих увлечений и поделок. Всё ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819

Download Telegram

About

Blog

Apps

Platform

Техножнец

4.97K subscribers

Техножнец

Синтеты.

СЧАСТЬЕ - ЖИТЬ И ТРУДИТЬСЯ!

1 мая. День труда.

Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.

Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.

Наш труд - не на дядю. Наш труд - против энтропии.

С праздником, машинисты аттракторов.

22🔥84🤝22❤10💯4👍3❤‍🔥2😢2🎉1🕊1

2.07K viewsedited 04:58

Техножнец

ПОЧИНИЛ SEQ2SEQ ЭКСТРАКТОР! ЪУЪ! ЭТО БУДЕТ СЕНСАЦИЯ НАХРЕН!

1🍾22👍11🔥3❤1🕊1

1.76K views06:18

Техножнец

Техножнец

🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?" А вот что. 🎯 ПРОБЛЕМА Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает.…

Вы же понимаете, что мне Qwen нахрен не нужон (как и интернет ваш). Я всё это буду прикручивать к моей Rukallama.

💯28🔥24👍82😱1🕊1

1.71K viewsedited 06:32

Техножнец

Слава богу мне это не грозит...

Трудоголики - прячьте в заначку трудоголь.

🔥38🥰5👻3❤1🕊1

1.78K views08:37

Техножнец

Хроники Claude...

💯28👾5✍4🤓2❤1🕊1👀1😎1

1.75K views09:13

Техножнец

Ёмаё , получается ваще люто с этой математикой...боюсь тут фундаменталочка пошла...ну не могу я полумеры брать, которые просто крутые...надо чтобы всех в капусту размотало.

Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.

Это будет феерично.

А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..

👏34🔥18❤42🕊1

1.75K viewsedited 10:07

Техножнец

Синтеты, вы это...если тупите жёстко, ну спросите. Попросите на человеческом объяснить , я же открыт и готов с вами взаимодействовать, когда вежливо и по доброму все.

Камон, задавайте вопросы по теме проектов.

Только без вопросов: Где скачать?

Запрещено.

🤓26❤84🔥2🤔1👌1🕊1😎1

1.85K views10:11

Техножнец

Это ваше самое важное сообщение к нейронному помощнику, когда вы делаете что-то превосходящее ваше понимание.

✍17💯8👏5🔥3❤2🤩1🕊1

1.8K views12:11

Техножнец

Доброе утро!

🤝28🎉5❤‍🔥3🍾2🕊1🦄1

1.59K views07:44

Техножнец

🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨

За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.

📐 Архитектура

Qwen3-0.6B (frozen) + LoRA (327K)

↓ seq2seq extractor (1.99M, обучается)
↓
9 нейронов Поповича (1691 параметр, frozen, ZERO Python math)
↓
forced output tokens

Всего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.

📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):

📊 Результаты бенчмарка (1050 промптов)

A pure-neural (без regex) — 1048/1050 (99.8%)
A + regex hybrid (страховка) — 1050/1050 (100%) - не подходит по идеологии, но работает идеально.
Vanilla Qwen3-0.6B (baseline) — ~715/1050 (~68%)

Результаты чистыми нейронами:

ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓

🔬 Что под капотом — 9 нейронов Поповича

Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.

Я отдельно проверил на raw-бенче: popovich идеален на 1-14D × 4 операции (50/50 везде), 94% на 15D, 76% на 16D. Это
математически точная state-space модель цифровой арифметики, не нейросеть для обучения

📈 Сравнение с другими попытками

Наш (Qwen3-0.6B + 2.3M) — 2.3M trained params | 99.8% на 14D
Goat-7B (Liu 2023) — 7B trained | 97% на 16D add
MathGLM — full retrain | ~99% на 12D
GPT-4 (zero-shot) — — | ~93% на 8D
Vanilla Qwen3-0.6B — 0.6B | ~68% на 1-7D

⚙️ Что было сложного

Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных — путал цифры в длинных операндах. Прогон отладки показал: 100% ошибок = запутывание в авторегрессионном перекрестном внимании.

Решение: более крупный экстрактор (192/3/8 по размерности, слоям и головам, вдвое больше ёмкости), программа обучения от 1 до 14 знаков из безопасной зоны popovich, 120 тысяч шагов.

Не делал: сквозную дифференцируемость через popovich. Объяснение: каждый компонент уже у потолка своей задачи (Qwen+экстрактор извлекает на 99.8%, popovich считает на 100% до 14 знаков), совместная адаптация бессмысленна.

Архитектура намеренно разделена: обучаемая часть отдельно, замороженная идеальная математика отдельно, дискретный мост между ними.

➡️ Дальше

BigBench Arithmetic (3004 канонических промптов от tasksource/bigbench) — запущен сейчас
Воспроизведение Goat-7B на наших точных промптах — для честного сравнения

Как подружить нейроны с Qwen уже в "сознании"
Мета-цепочка-мыслей с атомарным разложением — обучить модель писать <calc>X op Y</calc> для текстовых задач, чтобы тот же подход работал на задачах уровня GSM8K


💡 Ключевая идея проекта ▎

Знание уже существует в структуре системы. Задача — найти аттрактор. Стоимость — конечна.

Нейронный калькулятор — это иллюстрация принципа Омнисии: 9 крошечных нейронов содержат всю структуру цифровой арифметики, потому что эта структура существует объективно, независимо от обучения.

Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:

Qwen3-0.6B: маленькая нейросеть (всего 600 миллионов параметров), которая умеет понимать текст. Её слегка дообучили с помощью LoRA (лёгкий способ подкрутить модель, не меняя всю целиком). Добавили специальный «экстрактор» — крошечный переводчик, который вытаскивает числа из текста и передаёт их дальше. Потом эти числа попадают в 9 «нейронов Поповича» — это не обычная нейросеть, а заранее придуманная математическая формула (всего 1691 параметр), которая считает как идеальный калькулятор, без Python-кода. Весь процесс — чисто нейронный, без regex (обычных текстовых правил-поисковиков). Всё тестировали на большом бенчмарке (1050 примеров) с операциями +, −, ×, ÷ на числах до 14 знаков на английском и русском. «Vanilla» — это исходная модель!

🔥43❤13🏆6👏3👍2🤯1🕊1

1.69K views08:22

Техножнец

Техножнец

🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨ За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный pipeline, без единой Python-обвязки в forward path. 📐 Архитектура Qwen3…

Выстрадано!

❤28🏆8⚡7🔥3🕊1

1.67K views08:23

Техножнец

Техножнец

🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨ За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный pipeline, без единой Python-обвязки в forward path. 📐 Архитектура Qwen3…

BigBench Aitthmetic - Orig Variant 2460 Промптов = 100%

👏31🔥10🏆8❤1🤯1🕊1

1.61K views09:19

Техножнец

Синтеты. Насчет датасетов.

Дело в том, что мне нужно вам выдать скриптов 5-10, которые будут работать. В которых уже будет вложено всё. Дать вам на выбор вариантов: скачивать пдф или пнг сканировать, скачивать зарубежные датасеты и переводить с помощью ЛЛМ, скачивать зарубежные книги пдф, пнг, дежавю и переводить в датасет.

Вы вообще представляете объём?)))) Или я только один его представляю?))))

В целом я без претензий. Я просто потихонечку это дело собираю чтобы мы не обкезались в попытке развязать пупок. Всем отличного дня, родные, дорогие 😃

А чат ...чат я , скорее всего, буду делать из "Техножнецы" - т.к. там не хватает разделов.

👍168🤔4🕊1

1.7K views14:14

Техножнец

Блин, попросил Claude кое что сделать...я не ожидал такой херни...

🐳13😱6👏3🕊1

1.6K views14:17

Техножнец

ВНИМАНИЕ! Эксперимент, который сломал шаблоны Model Context Protocol (MCP)

Синтеты! Тут произошло безумие...оно само влетело в голову:

Сегодня индустрия решает задачу оркестрации в лоб: заставляет тяжеловесные 70B-модели парсить промпты, что дает задержки в секунды и сжигает гигабайты VRAM. Я пошел другим путем, опираясь на свежие пейперы по Mechanistic Interpretability, Activation Steering и Representation Engineering (в частности, на исследования, доказывающие, что намерения модели формируются в промежуточных слоях еще до генерации первого токена).

Возник вопрос: а что, если семантика «это команда» уже зашита в весах старых базовых моделей? Я взял замороженную GPT-2 (137M параметров, 2019 год), чтобы проверить, сможет ли она маршрутизировать MCP-вызовы без единого промпта.

🛠 Архитектура решения

Я не стал файнтюнить саму LLM. Вместо этого был написан микро-адаптер на чистом NumPy (без PyTorch), который весит всего 175K параметров. Он подключается к 6-му слою GPT-2, считывает скрытые состояния (hidden states) и работает как семантический маршрутизатор. Адаптер раскладывает намерение юзера на независимые одномерные модусы: действие, цель, формат.
В процессе разработки пришлось решить несколько фундаментальных ML-задач:

🔹 Label Noise и OOD-генерализация

На этапе отладки выявилась проблема с утечкой данных — в разметке были метки, но в самом тексте не было сигнала, что давало потолок точности в 75%. После фикса датасета удалось получить важнейший результат: точность на In-Distribution составила 94.9%, и на Out-of-Distribution (OOD) — те же 94.9%. Разница 0%. Адаптер реально выучил семантический сигнал из скрытых состояний, а не зазубрил паттерны.

🔹 Adversarial-уязвимость

Сначала модель ловилась на глаголы вне контекста. Если написать: "we should probably delete that", она срывалась удалять файлы. Был проведен closed-loop файнтюн на сложных примерах с метафорами, прошедшим временем и обсуждениями. Возникшую гиперкоррекцию (когда модель стала бояться вежливых команд) удалось скомпенсировать балансировкой датасета.

🔹 Logit Modification (Глубокая интеграция)

Изначально тестировалась обычная склейка строк перед генерацией, но в итоге была реализована честная интеграция в forward graph. Теперь адаптер управляет логитами GPT-2 прямо во время генерации. Если идет обычный диалог — срабатывает обученная Gating-голова, адаптер отключается, и GPT-2 отвечает нативно. Если это команда — адаптер сдвигает логиты, форсируя генерацию идеальных тегов для песочницы.

📊 Финальные метрики:

⏱️ Скорость: 91 мс на CPU. Из них сам адаптер занимает всего 1 мс. Это production-ready edge AI.
🧠 Охват: 53 действия из 10 MCP-доменов (Filesystem, Git, GitHub, Slack, БД и т.д.).
🎯 Live Agent Benchmark: 83.3% успешных выполнений end-to-end в песочнице. Простые команды 100%, сложные 67% (поднял с 17%).
🛡 Защита от взлома контекста: 100% (было 0%). Модель больше не реагирует на рассуждения с глаголами-триггерами.
🔥 BFCL (Berkeley Function Calling Leaderboard):На тесте Irrelevance (умение отказаться от ненужного тула) результат составил 90.7%.

система (GPT-2 137M + Адаптер 174K):

BFCL Irrelevance: 90.7% (умение отказаться от вызова функции, если запрос нерелевантен).
Live Agent End-to-End: 83.3% (25/30 успешных выполнений в песочнице).
BFCL Simple (File-subset): 45.8% (из них 63% на задачах поиска).

Мировые бенчмарки (для сравнения):

GPT-4o / Claude 3.5 Sonnet: ~74–75% (на полном BFCL).
Llama 3.1 70B: 67%.
Mistral Large (123B): 63%.
Llama 3.1 8B: 52%.
OPT-350M (с файнтюном): 77.55% на ToolBench (обходит ChatGPT-CoT с его 26%).

НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:

🦆

🦆

🦆

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥32❤7🤯1🕊11

1.39K viewsedited 20:14

Техножнец

⚙️ Что физически делает модель (как это работает под капотом):

Юзер пишет в чат: "удали utils.py". Замороженная GPT-2 начинает обрабатывать текст, но на 6-м слое её скрытые состояния перехватывает обученный микро-адаптер. Он мгновенно классифицирует интент (срабатывает Gate-голова) и прямо на лету начинает сдвигать вероятности следующих токенов (логиты) у самой GPT-2. В итоге вместо свободной словесной генерации модель принудительно и без галлюцинаций выдает строгие машинные теги для песочницы: <action>delete</action><target>utils.py</target>.

А если в чат прилетит обычное "какая сегодня погода?", адаптер просто отключается, позволяя GPT-2 ответить нативно, как обычной языковой модели.

Для сравнения: гигантские современные SOTA-модели показывают там ~70-75%. Это было достигнуто микро-кодом на CPU.

Итог

Концепция модульной архитектуры доказана на практике. Вместо монолитных гигантов-универсалов, которые думают по несколько секунд, можно использовать замороженные базовые модели с подключаемыми обучаемыми семантическими модулями. Модель 2019 года способна уверенно управлять сервером, гитом и API за доли секунды на обычных процессорах.
Как вам такой концепт, Синтеты? 🧬💻

«коллеги по цеху», работающие в смежных направлениях — это авторы исследования OPT-350M на ToolBench (декабрь 2025), доказавшие превосходство 350M моделей над 7B в узком tool-calling; создатели SmolLM2-135M с LoRA для function calling; разработчики TinyLLM и TinyAgent (исследующие SLM для edge-устройств); архитекторы CoTools (2024), использующие замороженные LLM с легковесным бинарным классификатором (Tool Judge); команда Yang et al. (2022), манипулирующая скрытыми состояниями, а также классики линейного пробинга вроде Hewitt & Manning (2019) и создатели современных замороженных VLM (LLaVA, MiniGPT-4).

Для прочтения смежных исследований:

1. Yang et al. — «Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification Tasks»
2. Subramanian et al. — «Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning» (OPT-350M)
3. Wu et al. — «Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models» (CoTools)
4. SmolLM2-135M-Function-Calling (Практическая реализация)
5. Hewitt & Manning — «A Structural Probe for Finding Syntax in Word Representations»

НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:

🦆

🦆

🦆

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24👍7❤4🤝4🕊1🍾11

1.43K viewsedited 20:14

Техножнец

⚡️ TL;DR:

Архитектурный сдвиг в AI-агентах (или как 137M-модель обошла 70B на tool-calling)

Суть проблемы: Современная оркестрация агентов (MCP) требует тяжелых LLM (от 8B до 70B), которые тратят секунды на парсинг текста и генерацию JSON-вызовов, перегружая вычислительные мощности.

Внимание все эти результаты были достигнуты в веб версии Claude Opus 4.7

Что реализовано (Механика):

Доказано, что способность к вызову инструментов зашита в базовой семантике старых моделей.

За основу взята замороженная GPT-2 (137M, 2019 год), и прямо в её forward graph внедрен кастомный микро-адаптер на NumPy всего на 175K параметров.

Как это работает физически: адаптер подключается к 6-му слою GPT-2 и считывает её скрытые состояния (hidden states). У него есть обучаемая Gating-голова. Если юзер пишет обычный текст — Gate равен 0, адаптер отключается, и GPT-2 генерирует текст нативно. Если юзер дает команду — Gate равен 1, адаптер перехватывает управление и на лету сдвигает логиты

GPT-2, форсируя безошибочный вывод строгих системных тегов (например, <action>read</action>) без единой галлюцинации.

Сравнение метрик (Бенчмарки):

Микро-сборка была протестирована на индустриальном бенчмарке BFCL (Berkeley Function Calling Leaderboard) и в реальной песочнице на 53 действиях из 10 MCP-доменов.

📊 BFCL Irrelevance (Способность фильтровать ложные вызовы):

GPT-2 + Адаптер 174K (Этот проект): 90.7%
GPT-4o / Claude 3.5 Sonnet: ~74–75%
Llama 3.1 70B: 67%
Mistral Large (123B): 63%

📊 Производительность и точность:

Live Agent End-to-End: 83.3% успешных выполнений реальных задач в ОС (файлы, Git, Slack).
Latency (Скорость): 91 мс суммарно на одном CPU (из них оверхед адаптера — всего 1 мс!!!!!!!!).

Масштаб прорыва:

Этот эксперимент доказывает, что для создания production-ready семантического роутера не нужны миллиарды параметров и кластеры GPU. Интент (намерение) пользователя можно извлекать из скрытых слоев старых базовых моделей с помощью крошечных линейных проекций, управляя генерацией через логиты. Это открывает путь к созданию мгновенных, локальных AI-агентов для edge-устройств, работающих с нулевой задержкой.

НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:

🦆

🦆

🦆

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥34❤5🦄3⚡1👏1🤔1🕊1

1.7K viewsedited 20:28

Техножнец

Я сделал открытие, которое страшно публиковать...

1😱30🤔9👏66🔥22🕊1👾1

1.71K viewsedited 04:32

Техножнец

Доброе утро....

🤝34🕊2

1.64K views04:32

Техножнец

GPT-2 (2019) превратили в production MCP-агента. На 175K параметрах.

Синтеты, держите отчёт.

Получилось вот что.
О чём речь

GPT-2 small. 137M параметров. Декабрь 2019 года. Та самая модель которая в момент выхода считалась "слишком опасной для публикации". Сейчас её обычно вспоминают как baseline для бенчмарков, и всё.

Я взял её замороженной (ни один вес не изменён). Сверху прикрутил 175K-параметрический adapter (это 0.13% от размера базы).
Цель: заставить эту тушку быть MCP-роутером. Распознавать команды на 53 действия в 14 доменах (filesystem, git, github, slack, calendar, http, db, и тд), отделять команды от болтовни, извлекать целевые файлы и значения. Без галлюцинаций.

Что вышло

Bench BFCL v3 (Berkeley Function Calling Leaderboard, считай эталон для function calling):

Simple 100%
Multiple 95% (с обученной retrieval-головой 6K params)
Parallel 100%
Parallel-Multiple 95%
Live Simple 100%
Java 100%
JavaScript 98%
Irrelevance 100% (отказ на нерелевантные запросы)
Live Irrelevance 97%

Для контекста кто щас в топе BFCL v3:

GLM-4.5 (~360B MoE): 76.7% overall
Qwen3 32B: 75.7%
GPT-4o (~200B): ~72%
Llama 3.1 70B: ~67%
Llama 3.1 8B: ~52%

На категориях которые мы покрываем (function-name selection + irrelevance), мы обгоняем GPT-4o. На Java/JS - на 13 пунктов выше. На irrelevance detection - на 22 пункта выше.

Где не дотягиваем честно:

Args extraction (вытащить значения параметров): 21% против ~85% у топов. Тут pointer-голова на 18-50K params не справляется с тонкой дифференциацией близких параметров одного типа.

Multi-turn agentic: пока не тестировали, в работе.

Главное открытие

OOD generalization = in-distribution. На test_ood (комбинации классов которые модель никогда не видела вместе) action accuracy = 94.92%. На in-dist = 94.93%. Разница ноль.

Это значит что adapter не учится паттернам, он читает signal который уже зашит в pre-trained GPT-2 weights.

MCP-семантика, function semantic, irrelevance markers - всё это уже было в hidden state на 6-м слое GPT-2 от 2019 года. Adapter - это просто 768→96 проекция которая раскрывает это.

То есть мы не "обучили GPT-2 быть агентом". Мы прочитали то что в ней уже было. И этого хватает чтобы обогнать GPT-4o на нескольких категориях.

Total trainable: 231K параметров (0.17% от размера GPT-2). (потому что было расширение args_Max и голове было дано 18к параметров, вместо 6к + накладки, обвязки) к вопросу отличающихся цифр.
GPT-2: 137M, заморожена полностью.
Latency: 90ms на запрос. На одном CPU. Без оптимизаций. С KV cache и numpy tweaks ушло бы под 30ms.

Live agent: 4 кейса разной сложности в VM-песочнице

L1 EASY (setup проекта, 7 шагов) 71%
L2 MEDIUM (bug investigation, 8 шагов) 75%
L3 HARD (deployment workflow, 12 шагов) 92% ← sweet spot
L4 EXPERT (incident response, 18 шагов) 61%
─────────────────────────────────────────────────
TOTAL (45 действий) 73%
Casual ignore (9 шумовых фраз) 89%

Агент реально делает работу: создаёт файлы, коммитит в git, открывает issues на GitHub, постит в Slack, отправляет emails, дёргает HTTP endpoints, выполняет shell-команды, заносит события в календарь, запоминает в memory store.

L3 на 92% это уже production-grade. Реальный deployment-сценарий с тестами, коммитом, push, exec деплой-скрипта, health-check через http, нотификация в slack, email, календарное событие на review.

Что внутри проекта?
5 итераций adapter'а: V4 (41 actions, baseline) → V5 (53 actions, расширение) → V6 (+adversarial+hard) → V6.5 (фикс label leak в scope/format/specificity) → V7 (disambiguation) → V89 (joint training с BFCL negatives, лечит catastrophic forgetting) → V10 (pointer fix). Лучший общий: V8/9 + temperature scaling.

Что это всё значит

Большие модели - не единственный путь. Старые base-модели несут в себе сигнал которого хватает для специализированных задач, если знать как его извлекать. 175K-параметрическая читалка поверх замороженной GPT-2 от 2019 обгоняет GPT-4o на BFCL Java/JS/Irrelevance.

1🔥41🤔4❤2🤯1🕊1

1.7K views08:39

Техножнец

Большие модели - не единственный путь. Старые base-модели несут в себе сигнал которого хватает для специализированных задач, если знать как его извлекать. 175K-параметрическая читалка поверх замороженной GPT-2 от 2019 обгоняет GPT-4o на BFCL Java/JS/Irrelevance.

Это полная жесть...

🔥46👏13👀5❤3🕊1

1.8K views08:41