lucebox-hub
Потребительские видеокарты на самом деле обладают достаточным аппаратным потенциалом; проблема в том, что универсальные фреймворки теряют значительную часть производительности на неэффективных накладных расходах. Lucebox раскрывает этот потенциал за счёт точечной оптимизации через ручную реализацию вычислительных ядер, позволяя даже RTX 3090 образца 2020 года достигать энергоэффективности на уровне последних чипов Apple.
Lucebox — проект по ручной оптимизации инференса больших языковых моделей на потребительских GPU, в котором на данный момент открыты два ключевых результата. Megakernel нацелен на гибридную модель DeltaNet/Attention Qwen3.5-0.8B, объединяя вычисления, ранее разбросанные по ~100 вызовам CUDA-ядер, в один запуск. На RTX 3090 скорость prefill достигает 37 800 токенов/с, decode — 413 токенов/с, энергоэффективность — 1.87 токена/Дж, сопоставимо с Apple M5 Max; при снижении энергопотребления с 350W до 220W падение скорости всего 5%, при этом энергоэффективность почти удваивается.
DFlash впервые реализует спекулятивное декодирование в подходе GGUF на одной видеокарте. Для Qwen3.5-27B при квантизации Q4_K_M и использовании BF16 для draft-модели достигается 129.5 токенов/с по HumanEval на RTX 3090 — это в 3.43 раза быстрее чистого авторегрессионного декодирования, при этом для контекста 128K требуется не более 24 ГБ памяти.
Основная сложность — ограничения по памяти: целевая модель, draft-модель и промежуточные состояния дерева верификации DDTree должны одновременно помещаться в 24 ГБ, что потребовало переписать загрузчик GGUF и три CUDA-ядра для операций над деревом поверх ggml. Весь код проекта распространяется по лицензии MIT, есть подробная документация, позволяющая воспроизвести бенчмарки напрямую.
https://github.com/Luce-Org/lucebox-hub
👉 @DataSciencegx
Потребительские видеокарты на самом деле обладают достаточным аппаратным потенциалом; проблема в том, что универсальные фреймворки теряют значительную часть производительности на неэффективных накладных расходах. Lucebox раскрывает этот потенциал за счёт точечной оптимизации через ручную реализацию вычислительных ядер, позволяя даже RTX 3090 образца 2020 года достигать энергоэффективности на уровне последних чипов Apple.
Lucebox — проект по ручной оптимизации инференса больших языковых моделей на потребительских GPU, в котором на данный момент открыты два ключевых результата. Megakernel нацелен на гибридную модель DeltaNet/Attention Qwen3.5-0.8B, объединяя вычисления, ранее разбросанные по ~100 вызовам CUDA-ядер, в один запуск. На RTX 3090 скорость prefill достигает 37 800 токенов/с, decode — 413 токенов/с, энергоэффективность — 1.87 токена/Дж, сопоставимо с Apple M5 Max; при снижении энергопотребления с 350W до 220W падение скорости всего 5%, при этом энергоэффективность почти удваивается.
DFlash впервые реализует спекулятивное декодирование в подходе GGUF на одной видеокарте. Для Qwen3.5-27B при квантизации Q4_K_M и использовании BF16 для draft-модели достигается 129.5 токенов/с по HumanEval на RTX 3090 — это в 3.43 раза быстрее чистого авторегрессионного декодирования, при этом для контекста 128K требуется не более 24 ГБ памяти.
Основная сложность — ограничения по памяти: целевая модель, draft-модель и промежуточные состояния дерева верификации DDTree должны одновременно помещаться в 24 ГБ, что потребовало переписать загрузчик GGUF и три CUDA-ядра для операций над деревом поверх ggml. Весь код проекта распространяется по лицензии MIT, есть подробная документация, позволяющая воспроизвести бенчмарки напрямую.
https://github.com/Luce-Org/lucebox-hub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Универсальный инструмент для управления датасетами YOLO под сценарии с персональными камерами — полностью автоматизирует весь воркфлоу: от разметки изображений и дедупликации до обучения и развёртывания.
ALICE — это инструмент с открытым исходным кодом для работы с датасетами YOLO. Покрывает просмотр разметки, дедупликацию через pHash, импорт скриншотов из Frigate NVR, анализ кадров из видео и пятишаговый пайплайн обучения (экспорт, дедупликация, авторазметка, обучение, экспорт в ONNX).
Есть встроенный веб-интерфейс, поддержка развёртывания через Docker и ускорение на GPU. Подходит для обучения моделей детекции на собственных данных с камер.
https://github.com/simoncirstoiu/alice
👉 @DataSciencegx
ALICE — это инструмент с открытым исходным кодом для работы с датасетами YOLO. Покрывает просмотр разметки, дедупликацию через pHash, импорт скриншотов из Frigate NVR, анализ кадров из видео и пятишаговый пайплайн обучения (экспорт, дедупликация, авторазметка, обучение, экспорт в ONNX).
Есть встроенный веб-интерфейс, поддержка развёртывания через Docker и ускорение на GPU. Подходит для обучения моделей детекции на собственных данных с камер.
https://github.com/simoncirstoiu/alice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Чем больше агент «помнит», тем меньше он «знает».
Звучит контринтуитивно, но это прямое следствие того, как сегодня устроена память агентов. Память наследует свойства хранилища, на котором она построена.
* Векторная база данных даёт ассоциативную память — распознавание знакомых паттернов.
* Граф даёт реляционную память — понимание связей между сущностями.
Большинство агентов используют первое и игнорируют второе.
Пример:
Ассистент для учёбы хранит три факта в векторной базе данных:
* Марк учится в 10 классе.
* У 10 класса выпускные экзамены в марте.
* Библиотека закрывается за 2 недели до экзаменов.
Марк спрашивает: «Библиотека будет открыта на следующей неделе?»
Векторная база вернёт первый и третий факт, потому что в запросе есть Марк и библиотека. Средний факт пропускается, так как в нём нет ни Марка, ни библиотеки.
Он находится слишком далеко в пространстве эмбеддингов, чтобы попасть в извлечённый контекст. В итоге агент отвечает с неполной информацией или достраивает ответ правдоподобным предположением.
Это типичный случай. Любой запрос с несколькими шагами рассуждения выходит за пределы поиска по сходству.
Увеличение контекста и извлечение большего объёма данных — частичное решение. Но точность падает более чем на 30%, если релевантный факт находится в середине длинного контекста — классическая проблема «потерян в середине».
Большое окно контекста не равно лучшей памяти. Это просто больше места, чтобы упустить важное.
Решение — перестать рассматривать память как одно хранилище и перейти к трём слоям:
* Реляционный слой: хранит источник факта, время записи и доступ. Слой происхождения данных.
* Векторный слой: хранит семантику и похожесть. Слой извлечения.
* Графовый слой: хранит связи и зависимости. Слой рассуждения.
Каждый слой закрывает свою задачу:
* Векторная база без графа — сходство без связей.
* Граф без векторного слоя — связи без семантического поиска.
* Реляционное хранилище — учёт источника без возможности рассуждения.
В open-source проекте Cognee этот подход реализован на практике.
Он использует конвейер ECL (Extract, Cognify, Load), который за один проход записывает данные во все три хранилища и синхронизирует их при поступлении новых данных. Векторы и рёбра графа строятся сразу на этапе индексации.
Дополнительно:
1. Разрешение сущностей: можно задать доменный словарь, и система объединяет дубли.
Например, «производитель автомобилей», «автопроизводитель» и «автоконцерн» сводятся к одной канонической сущности.
2. Локальный режим по умолчанию: установка через pip, всё работает локально. Для продакшена можно перейти на Postgres и Neo4j без изменения API.
Сооснователь проекта описал этот подход с нуля и собрал полноценного агента на базе Cognee.
👉 @DataSciencegx
Звучит контринтуитивно, но это прямое следствие того, как сегодня устроена память агентов. Память наследует свойства хранилища, на котором она построена.
* Векторная база данных даёт ассоциативную память — распознавание знакомых паттернов.
* Граф даёт реляционную память — понимание связей между сущностями.
Большинство агентов используют первое и игнорируют второе.
Пример:
Ассистент для учёбы хранит три факта в векторной базе данных:
* Марк учится в 10 классе.
* У 10 класса выпускные экзамены в марте.
* Библиотека закрывается за 2 недели до экзаменов.
Марк спрашивает: «Библиотека будет открыта на следующей неделе?»
Векторная база вернёт первый и третий факт, потому что в запросе есть Марк и библиотека. Средний факт пропускается, так как в нём нет ни Марка, ни библиотеки.
Он находится слишком далеко в пространстве эмбеддингов, чтобы попасть в извлечённый контекст. В итоге агент отвечает с неполной информацией или достраивает ответ правдоподобным предположением.
Это типичный случай. Любой запрос с несколькими шагами рассуждения выходит за пределы поиска по сходству.
Увеличение контекста и извлечение большего объёма данных — частичное решение. Но точность падает более чем на 30%, если релевантный факт находится в середине длинного контекста — классическая проблема «потерян в середине».
Большое окно контекста не равно лучшей памяти. Это просто больше места, чтобы упустить важное.
Решение — перестать рассматривать память как одно хранилище и перейти к трём слоям:
* Реляционный слой: хранит источник факта, время записи и доступ. Слой происхождения данных.
* Векторный слой: хранит семантику и похожесть. Слой извлечения.
* Графовый слой: хранит связи и зависимости. Слой рассуждения.
Каждый слой закрывает свою задачу:
* Векторная база без графа — сходство без связей.
* Граф без векторного слоя — связи без семантического поиска.
* Реляционное хранилище — учёт источника без возможности рассуждения.
В open-source проекте Cognee этот подход реализован на практике.
Он использует конвейер ECL (Extract, Cognify, Load), который за один проход записывает данные во все три хранилища и синхронизирует их при поступлении новых данных. Векторы и рёбра графа строятся сразу на этапе индексации.
Дополнительно:
1. Разрешение сущностей: можно задать доменный словарь, и система объединяет дубли.
Например, «производитель автомобилей», «автопроизводитель» и «автоконцерн» сводятся к одной канонической сущности.
2. Локальный режим по умолчанию: установка через pip, всё работает локально. Для продакшена можно перейти на Postgres и Neo4j без изменения API.
Сооснователь проекта описал этот подход с нуля и собрал полноценного агента на базе Cognee.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Единственный читлист по большим языковым моделям, который тебе понадобится : https://drive.google.com/file/d/1RFDR_mbDJyi07ThJm1yOKv23LkHXY-U6/view
Покрывает концепции, архитектуры и прикладные сценарии.
Основы
> Токены (токенизатор, BPE)
> Эмбеддинги (косинусное сходство)
> Внимание (формула, многоголовое внимание)
Архитектура трансформеров и вариации
> BERT (модели только с энкодером)
> GPT (модели только с декодером)
> T5 (энкодер-декодер модели)
Большие языковые модели
> Промптинг (длина контекста, цепочка рассуждений)
> Дообучение (SFT, PEFT/LoRA)
> Настройка по предпочтениям (модель вознаграждения, обучение с подкреплением)
> Оптимизации (смесь экспертов, дистилляция, квантизация)
Применение
> LLM как судья (LaaJ)
> RAG (генерация с извлечением)
> Агенты (ReAct)
> Модели рассуждения (масштабирование)
👉 @DataSciencegx
Покрывает концепции, архитектуры и прикладные сценарии.
Основы
> Токены (токенизатор, BPE)
> Эмбеддинги (косинусное сходство)
> Внимание (формула, многоголовое внимание)
Архитектура трансформеров и вариации
> BERT (модели только с энкодером)
> GPT (модели только с декодером)
> T5 (энкодер-декодер модели)
Большие языковые модели
> Промптинг (длина контекста, цепочка рассуждений)
> Дообучение (SFT, PEFT/LoRA)
> Настройка по предпочтениям (модель вознаграждения, обучение с подкреплением)
> Оптимизации (смесь экспертов, дистилляция, квантизация)
Применение
> LLM как судья (LaaJ)
> RAG (генерация с извлечением)
> Агенты (ReAct)
> Модели рассуждения (масштабирование)
Please open Telegram to view this post
VIEW IN TELEGRAM
Топ-10 курсов Стэнфорда по ИИ и машинному обучению — сразу с официальными страницами и материалами.
CS221: Искусственный интеллект
https://www.youtube.com/playlist?list=PLoROMvodv4rOca_Ovz1DvdtWuz8BfSWL2
CS229: Машинное обучение
https://www.youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU
CS229M: Теория машинного обучения
https://www.youtube.com/playlist?list=PLoROMvodv4rP8nAmISxFINlGKSK4rbLKh
CS230: Глубокое обучение
https://www.youtube.com/playlist?list=PLoROMvodv4rNRRGdS0rBbXOUGA0wjdh1X
CS234: Обучение с подкреплением
https://www.youtube.com/playlist?list=PLoROMvodv4rN4wG6Nk6sNpTEbuOSosZdX
CS224N: Обработка естественного языка
https://www.youtube.com/playlist?list=PLoROMvodv4rOaMFbaqxPDoLWjDaRAdP9D
CS231N: Глубокое обучение для компьютерного зрения
https://www.youtube.com/playlist?list=PLoROMvodv4rOmsNzYBMe0gJY2XS8AQg16
CME295: Большие языковые модели
https://www.youtube.com/playlist?list=PLoROMvodv4rObv1FMizXqumgVVdzX4_05
CS236: Глубокие генеративные модели
https://www.youtube.com/playlist?list=PLoROMvodv4rPOWA-omMM6STXaWW4FvJT8
CS336: Моделирование языка с нуля
https://www.youtube.com/playlist?list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_
Эти курсы покрывают базу: от классического машинного обучения до современных LLM и генеративных моделей, включая практику и теорию.
👉 @DataSciencegx
CS221: Искусственный интеллект
https://www.youtube.com/playlist?list=PLoROMvodv4rOca_Ovz1DvdtWuz8BfSWL2
CS229: Машинное обучение
https://www.youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU
CS229M: Теория машинного обучения
https://www.youtube.com/playlist?list=PLoROMvodv4rP8nAmISxFINlGKSK4rbLKh
CS230: Глубокое обучение
https://www.youtube.com/playlist?list=PLoROMvodv4rNRRGdS0rBbXOUGA0wjdh1X
CS234: Обучение с подкреплением
https://www.youtube.com/playlist?list=PLoROMvodv4rN4wG6Nk6sNpTEbuOSosZdX
CS224N: Обработка естественного языка
https://www.youtube.com/playlist?list=PLoROMvodv4rOaMFbaqxPDoLWjDaRAdP9D
CS231N: Глубокое обучение для компьютерного зрения
https://www.youtube.com/playlist?list=PLoROMvodv4rOmsNzYBMe0gJY2XS8AQg16
CME295: Большие языковые модели
https://www.youtube.com/playlist?list=PLoROMvodv4rObv1FMizXqumgVVdzX4_05
CS236: Глубокие генеративные модели
https://www.youtube.com/playlist?list=PLoROMvodv4rPOWA-omMM6STXaWW4FvJT8
CS336: Моделирование языка с нуля
https://www.youtube.com/playlist?list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_
Эти курсы покрывают базу: от классического машинного обучения до современных LLM и генеративных моделей, включая практику и теорию.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
This media is not supported in your browser
VIEW IN TELEGRAM
Self Attention vs Cross Attention вручную
Измени размеры матриц сам - https://byhand.ai/aMisxP
Два механизма внимания рядом. Оба проецируют X в запросы; оба считают внимание через S = Kᵀ × Q и F = V × A. Разница только в источнике K и V.
Self-attention использует X для всего. Q, K и V получаются проекцией X. Каждый токен X «смотрит» на все остальные токены X. Матрица скорингов S квадратная — 128 × 128.
Cross-attention использует X для запросов и вторую последовательность E для ключей и значений. Каждый токен X «смотрит» на каждый токен из E. Матрица скорингов S прямоугольная — 64 × 128.
Что совпадает и что отличается:
X одинаковый в обоих случаях — один и тот же вход 36 × 128.
Q и K имеют общую размерность 16 — это обеспечивает корректность скалярного произведения Kᵀ × Q.
Размерность V независима: в self-attention — 12, в cross-attention — 12. Выбор не зависит от механизма, а определяется требуемой размерностью выхода следующего слоя.
👉 @DataSciencegx
Измени размеры матриц сам - https://byhand.ai/aMisxP
Два механизма внимания рядом. Оба проецируют X в запросы; оба считают внимание через S = Kᵀ × Q и F = V × A. Разница только в источнике K и V.
Self-attention использует X для всего. Q, K и V получаются проекцией X. Каждый токен X «смотрит» на все остальные токены X. Матрица скорингов S квадратная — 128 × 128.
Cross-attention использует X для запросов и вторую последовательность E для ключей и значений. Каждый токен X «смотрит» на каждый токен из E. Матрица скорингов S прямоугольная — 64 × 128.
Что совпадает и что отличается:
X одинаковый в обоих случаях — один и тот же вход 36 × 128.
Q и K имеют общую размерность 16 — это обеспечивает корректность скалярного произведения Kᵀ × Q.
Размерность V независима: в self-attention — 12, в cross-attention — 12. Выбор не зависит от механизма, а определяется требуемой размерностью выхода следующего слоя.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
CPU vs GPU vs TPU vs NPU vs LPU — разбор архитектур.
5 типов железа сегодня тянут ИИ-нагрузки. Каждый делает свой компромисс между гибкостью, параллелизмом и доступом к памяти.
> CPU
> Универсальные вычисления. Несколько мощных ядер обрабатывают сложную логику, ветвления и системные задачи.
> Глубокая иерархия кэшей + внешняя оперативная память. Хорошо подходит для ОС, баз данных и кода с ветвлениями, но уступает в массовых матричных операциях.
> GPU
> Тысячи мелких ядер вместо нескольких крупных, исполняют одну инструкцию над разными данными.
> Именно поэтому GPU доминируют в обучении нейросетей — параллелизм совпадает с математикой моделей.
> TPU
> Дальше — специализация.
> Базовый блок — решётка MAC-юнитов (умножение-суммирование), данные проходят «волной»: веса с одной стороны, активации с другой, промежуточные результаты распространяются без постоянных обращений к памяти.
> Выполнение полностью управляется компилятором, а не планировщиком железа. Спроектированы под нейросетевые нагрузки.
> NPU
> Вариант для устройств на краю.
> Архитектура вокруг Neural Compute Engine с массивами MAC и встроенной SRAM, но без дорогой высокоскоростной памяти — используется энергоэффективная системная память.
> Цель — инференс при потреблении в единицы ватт: смартфоны, носимые устройства, IoT. Примеры — Apple Neural Engine, NPU от Intel.
> LPU (Language Processing Unit)
> Новый класс от Groq.
> Убирает внешнюю память из критического пути — все веса хранятся в SRAM на чипе.
> Выполнение полностью детерминировано и управляется компилятором: нет промахов кэша и накладных расходов планировщика.
> Минус — ограниченная память на чип, поэтому для больших моделей нужно объединять множество чипов. Зато выигрывает по задержке.
Эволюция идёт от универсальности CPU к узкой специализации LPU. На каждом шаге часть гибкости меняется на эффективность.
👉 @DataSciencegx
5 типов железа сегодня тянут ИИ-нагрузки. Каждый делает свой компромисс между гибкостью, параллелизмом и доступом к памяти.
> CPU
> Универсальные вычисления. Несколько мощных ядер обрабатывают сложную логику, ветвления и системные задачи.
> Глубокая иерархия кэшей + внешняя оперативная память. Хорошо подходит для ОС, баз данных и кода с ветвлениями, но уступает в массовых матричных операциях.
> GPU
> Тысячи мелких ядер вместо нескольких крупных, исполняют одну инструкцию над разными данными.
> Именно поэтому GPU доминируют в обучении нейросетей — параллелизм совпадает с математикой моделей.
> TPU
> Дальше — специализация.
> Базовый блок — решётка MAC-юнитов (умножение-суммирование), данные проходят «волной»: веса с одной стороны, активации с другой, промежуточные результаты распространяются без постоянных обращений к памяти.
> Выполнение полностью управляется компилятором, а не планировщиком железа. Спроектированы под нейросетевые нагрузки.
> NPU
> Вариант для устройств на краю.
> Архитектура вокруг Neural Compute Engine с массивами MAC и встроенной SRAM, но без дорогой высокоскоростной памяти — используется энергоэффективная системная память.
> Цель — инференс при потреблении в единицы ватт: смартфоны, носимые устройства, IoT. Примеры — Apple Neural Engine, NPU от Intel.
> LPU (Language Processing Unit)
> Новый класс от Groq.
> Убирает внешнюю память из критического пути — все веса хранятся в SRAM на чипе.
> Выполнение полностью детерминировано и управляется компилятором: нет промахов кэша и накладных расходов планировщика.
> Минус — ограниченная память на чип, поэтому для больших моделей нужно объединять множество чипов. Зато выигрывает по задержке.
Эволюция идёт от универсальности CPU к узкой специализации LPU. На каждом шаге часть гибкости меняется на эффективность.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Традиционный инференс не рассчитан на агентный кодинг.
Агентные инструменты делают сотни API-вызовов за одну сессию, часто с пересобранным контекстом, что создаёт узкие места и увеличивает стоимость за токен.
NVIDIA Dynamo перестраивает стек под агентов:
→ роутинг с учётом KV-кэша
→ планирование с учётом агентов
→ многоуровневое кэширование
→ единая оркестрация
Результат: выше доля попаданий в кэш, ниже задержка и до 7× больше пропускной способности: подробнее🤓
👉 @DataSciencegx
Агентные инструменты делают сотни API-вызовов за одну сессию, часто с пересобранным контекстом, что создаёт узкие места и увеличивает стоимость за токен.
NVIDIA Dynamo перестраивает стек под агентов:
→ роутинг с учётом KV-кэша
→ планирование с учётом агентов
→ многоуровневое кэширование
→ единая оркестрация
Результат: выше доля попаданий в кэш, ниже задержка и до 7× больше пропускной способности: подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
8 техник для получения лучших ответов от LLM 👉
Большинство взаимодействует с LLM одинаково: задаёт вопрос, отправляет и работает с результатом.
Это zero-shot промптинг, базовый уровень. Если ответы не устраивают, сначала улучшают промпт, а не меняют модель.
8 техник промпт-инжиниринга:
1. Few-shot промптинг: показать несколько примеров вход-выход. Модель улавливает паттерн и применяет к новым данным.
2. Chain-of-thought (CoT): запрос пошагового рассуждения. Разбивает сложные задачи на проверяемые шаги.
3. Иерархия промптов: системный, девелоперский и пользовательский уровни с разным приоритетом. Верхние уровни переопределяют нижние.
4. Ролевой промптинг: задать роль, например «ты исследователь безопасности». Модель смещает распределение на соответствующие данные обучения.
5. Негативный промптинг: явно указать, что нельзя делать. Например, «не использовать маркетинговый стиль».
6. JSON-промптинг: задать JSON-схему прямо в промпте. Модель возвращает структурированный ответ по этой схеме.
7.Attentive reasoning queries (ARQ): вместо свободного CoT — структурированные доменные вопросы. В тестах: 90.2% соблюдения инструкций против 81.5% у прямого промпта.
8. Verbalized sampling: попросить модель сгенерировать несколько вариантов с оценками вероятности. Возвращает разнообразие, подавленное RLHF.
Техники хорошо комбинируются: few-shot + CoT, JSON + негативный промптинг. ARQ — по сути структурированный CoT для агентных сценариев.
Дополнительно качество растёт от контекста, инструментов и ретривала.
Но эти 8 техник полностью лежат в промпте — без изменений модели, инфраструктуры или сетапа. Меняется только структура запроса.
Вот ещё статья на эту тему
👉 @DataSciencegx
Большинство взаимодействует с LLM одинаково: задаёт вопрос, отправляет и работает с результатом.
Это zero-shot промптинг, базовый уровень. Если ответы не устраивают, сначала улучшают промпт, а не меняют модель.
8 техник промпт-инжиниринга:
1. Few-shot промптинг: показать несколько примеров вход-выход. Модель улавливает паттерн и применяет к новым данным.
2. Chain-of-thought (CoT): запрос пошагового рассуждения. Разбивает сложные задачи на проверяемые шаги.
3. Иерархия промптов: системный, девелоперский и пользовательский уровни с разным приоритетом. Верхние уровни переопределяют нижние.
4. Ролевой промптинг: задать роль, например «ты исследователь безопасности». Модель смещает распределение на соответствующие данные обучения.
5. Негативный промптинг: явно указать, что нельзя делать. Например, «не использовать маркетинговый стиль».
6. JSON-промптинг: задать JSON-схему прямо в промпте. Модель возвращает структурированный ответ по этой схеме.
7.Attentive reasoning queries (ARQ): вместо свободного CoT — структурированные доменные вопросы. В тестах: 90.2% соблюдения инструкций против 81.5% у прямого промпта.
8. Verbalized sampling: попросить модель сгенерировать несколько вариантов с оценками вероятности. Возвращает разнообразие, подавленное RLHF.
Техники хорошо комбинируются: few-shot + CoT, JSON + негативный промптинг. ARQ — по сути структурированный CoT для агентных сценариев.
Дополнительно качество растёт от контекста, инструментов и ретривала.
Но эти 8 техник полностью лежат в промпте — без изменений модели, инфраструктуры или сетапа. Меняется только структура запроса.
Вот ещё статья на эту тему
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Дообучение DeepSeek-OCR под свой язык (100% локально)
Большинство визуальных моделей обрабатывают документы как длинные последовательности токенов, из-за чего работа с большим контекстом становится дорогой и медленной.
DeepSeek-OCR использует оптическое сжатие контекста, чтобы преобразовать 2D-разметку в визуальные токены, что позволяет эффективно обрабатывать сложные документы.
Это визуальная модель на 3 млрд параметров, которая достигает точности 97% при использовании в 10 раз меньшего числа визуальных токенов по сравнению с текстовыми языковыми моделями.
Причём её можно без проблем дообучить под конкретный сценарий использования на одной видеокарте.
Акшай использовал Unsloth для эксперимента на персидском тексте и получил улучшение по метрике CER на 88.26%.
↳ Базовая модель: 149% CER
↳ Дообученная модель: 60% CER (на 57% точнее)
↳ Время обучения: 60 шагов на одной видеокарте
Персидский — просто тестовый кейс. Можно подставить свой датасет для любого языка, типа документов или предметной области.
Полный гайд со всем кодом, ноутбуками и настройкой окружения можно найти тут.🔮
Всё полностью с открытым исходным кодом.
👉 @DataSciencegx
Большинство визуальных моделей обрабатывают документы как длинные последовательности токенов, из-за чего работа с большим контекстом становится дорогой и медленной.
DeepSeek-OCR использует оптическое сжатие контекста, чтобы преобразовать 2D-разметку в визуальные токены, что позволяет эффективно обрабатывать сложные документы.
Это визуальная модель на 3 млрд параметров, которая достигает точности 97% при использовании в 10 раз меньшего числа визуальных токенов по сравнению с текстовыми языковыми моделями.
Причём её можно без проблем дообучить под конкретный сценарий использования на одной видеокарте.
Акшай использовал Unsloth для эксперимента на персидском тексте и получил улучшение по метрике CER на 88.26%.
↳ Базовая модель: 149% CER
↳ Дообученная модель: 60% CER (на 57% точнее)
↳ Время обучения: 60 шагов на одной видеокарте
Персидский — просто тестовый кейс. Можно подставить свой датасет для любого языка, типа документов или предметной области.
Полный гайд со всем кодом, ноутбуками и настройкой окружения можно найти тут.
Всё полностью с открытым исходным кодом.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Стэнфорд показал, что Claude, GPT и Gemini задействуют только долю доступного креативного потенциала.
Всего один промпт позволяет разблокировать более сильную версию ЛЛМки.
Когда ты задаёшь вопрос, модель просчитывает множество вариантов ответа.
Среди них есть сильные, странные и прорывные.
Но почти никогда их не отдаёт. Из-за обучения через человеческую обратную связь возникает эффект «схлопывания мод».
Модель по умолчанию уходит в безопасные, типичные и предсказуемые ответы. Она знает более сильный вариант, но приоритизирует безопасный.
Исследователи описали способ обойти этот фильтр. Метод называется Verbalized Sampling.
Если просить один ответ — модель выбирает самый вероятный. Если попросить сгенерировать 5 вариантов и указать вероятность для каждого, поведение меняется.
Модель начинает исследовать «хвосты распределения». Вместо 99% предсказуемых ответов появляются менее вероятные, но более сильные варианты.
В тестах этот приём увеличивал разнообразие и креативность до 2.1 раза на топовых моделях.
При этом без потери точности и безопасности.🤖
👉 @DataSciencegx
Всего один промпт позволяет разблокировать более сильную версию ЛЛМки.
Когда ты задаёшь вопрос, модель просчитывает множество вариантов ответа.
Среди них есть сильные, странные и прорывные.
Но почти никогда их не отдаёт. Из-за обучения через человеческую обратную связь возникает эффект «схлопывания мод».
Модель по умолчанию уходит в безопасные, типичные и предсказуемые ответы. Она знает более сильный вариант, но приоритизирует безопасный.
Исследователи описали способ обойти этот фильтр. Метод называется Verbalized Sampling.
Если просить один ответ — модель выбирает самый вероятный. Если попросить сгенерировать 5 вариантов и указать вероятность для каждого, поведение меняется.
Модель начинает исследовать «хвосты распределения». Вместо 99% предсказуемых ответов появляются менее вероятные, но более сильные варианты.
В тестах этот приём увеличивал разнообразие и креативность до 2.1 раза на топовых моделях.
При этом без потери точности и безопасности.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9
Теперь можно искать по PDF на 500 страниц без чанкинга и без векторизации.
Андрей Карпати недавно озвучил идею:
что если база знаний работает как вики, а не как векторная база?
OpenKB — open-source CLI, построенный вокруг этой концепции.
Он компилирует сырые документы в структурированную связанную вики-систему с помощью LLM.
Знания накапливаются, а не пересобираются при каждом запросе.
В классическом RAG контекст каждый раз восстанавливается заново. Здесь модель опирается на уже построенную структуру.
Длинные PDF разбираются через PageIndex — древовидный индекс без векторов, который позволяет рассуждать по структуре документа.
Что получается на выходе:
> авто-суммаризация и страницы концептов
> кросс-ссылки между документами
> детект противоречий и пробелов
> режим наблюдения за изменениями
> markdown, совместимый с Obsidian
Поддерживаются PDF, Word, PowerPoint, Excel, HTML и изображения.
Таблицы и фигуры извлекаются нативно.
Один новый файл может автоматически обновить до 15 страниц в вики.
База знаний начинает сохранять то, что уже было выучено.
https://github.com/VectifyAI/OpenKB
👉 @DataSciencegx
Андрей Карпати недавно озвучил идею:
что если база знаний работает как вики, а не как векторная база?
OpenKB — open-source CLI, построенный вокруг этой концепции.
Он компилирует сырые документы в структурированную связанную вики-систему с помощью LLM.
Знания накапливаются, а не пересобираются при каждом запросе.
В классическом RAG контекст каждый раз восстанавливается заново. Здесь модель опирается на уже построенную структуру.
Длинные PDF разбираются через PageIndex — древовидный индекс без векторов, который позволяет рассуждать по структуре документа.
Что получается на выходе:
> авто-суммаризация и страницы концептов
> кросс-ссылки между документами
> детект противоречий и пробелов
> режим наблюдения за изменениями
> markdown, совместимый с Obsidian
Поддерживаются PDF, Word, PowerPoint, Excel, HTML и изображения.
Таблицы и фигуры извлекаются нативно.
Один новый файл может автоматически обновить до 15 страниц в вики.
База знаний начинает сохранять то, что уже было выучено.
https://github.com/VectifyAI/OpenKB
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Эта книга на 115 страниц раскрывает секреты дообучения больших языковых моделей.
Подробное руководство, которое покрывает:
> процесс дообучения больших языковых моделей
> сочетание теории и практики
👉 @DataSciencegx
Подробное руководство, которое покрывает:
> процесс дообучения больших языковых моделей
> сочетание теории и практики
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
MIT собрал 7 часов материала, где есть всё, что нужно знать про генеративный ИИ бесплатно.
Стабильная диффузия и ДАЛЛ·Е
Нейросети
Обучение с учителем
Представление и обучение без учителя
Обучение с подкреплением
Генеративный ИИ
Самоконтролируемое обучение
Фундаментальные модели
Состязательные сети (GAN)
Контрастивное обучение
Автоэнкодеры
Удаление шума и диффузионные модели
👉 @DataSciencegx
Стабильная диффузия и ДАЛЛ·Е
Нейросети
Обучение с учителем
Представление и обучение без учителя
Обучение с подкреплением
Генеративный ИИ
Самоконтролируемое обучение
Фундаментальные модели
Состязательные сети (GAN)
Контрастивное обучение
Автоэнкодеры
Удаление шума и диффузионные модели
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Эта книга на 185 страниц раскрывает основы глубокого обучения.
Основы
> базовые принципы машинного обучения
> вычислительная эффективность
> методики обучения
Глубокие модели
> функции активации
> пулинг
> дропаут
> нормализация
> внимание
Архитектуры
> многослойные перцептроны (MLP)
> сверточные нейросети (CNN)
> механизм внимания
Применения
> классификация изображений
> детекция объектов
> распознавание речи
> обучение с подкреплением
Разрыв в вычислениях
> промпт-инжиниринг
> квантизация
> адаптеры
> слияние моделей
👉 @DataSciencegx
Основы
> базовые принципы машинного обучения
> вычислительная эффективность
> методики обучения
Глубокие модели
> функции активации
> пулинг
> дропаут
> нормализация
> внимание
Архитектуры
> многослойные перцептроны (MLP)
> сверточные нейросети (CNN)
> механизм внимания
Применения
> классификация изображений
> детекция объектов
> распознавание речи
> обучение с подкреплением
Разрыв в вычислениях
> промпт-инжиниринг
> квантизация
> адаптеры
> слияние моделей
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Что если можно было бы гарантировать, что выход LLM всегда совпадает с ожидаемым форматом?
Задачи классификации с LLM часто становятся грязными. Вместо чистой метки можно получить «Option A», «Ответ: A» или полноценное объяснение.
Приведение этого к нормальному виду требует дополнительного парсинга, ретраев и валидации, что делает систему хрупкой.
С Guidance функция select() ограничивает модель так, чтобы она возвращала ровно один вариант из заданного списка.
Ключевые преимущества:
• гарантирует, что выход соответствует одному из предопределённых вариантов
• убирает необходимость в коде парсинга и регулярных выражениях
• работает с любым списком допустимых значений
Статья-сравнение 5 Python-инструментов для структурированных выходов LLM: https://bit.ly/3OQMv8i
👉 @DataSciencegx
Задачи классификации с LLM часто становятся грязными. Вместо чистой метки можно получить «Option A», «Ответ: A» или полноценное объяснение.
Приведение этого к нормальному виду требует дополнительного парсинга, ретраев и валидации, что делает систему хрупкой.
С Guidance функция select() ограничивает модель так, чтобы она возвращала ровно один вариант из заданного списка.
Ключевые преимущества:
• гарантирует, что выход соответствует одному из предопределённых вариантов
• убирает необходимость в коде парсинга и регулярных выражениях
• работает с любым списком допустимых значений
Статья-сравнение 5 Python-инструментов для структурированных выходов LLM: https://bit.ly/3OQMv8i
Please open Telegram to view this post
VIEW IN TELEGRAM
Одно выражение на Python, 22+ SQL-диалектов, без переписывания 🐍
При работе с несколькими базами данных часто приходится переписывать одну и ту же логику под синтаксис каждого диалекта SQL.
Запрос, который работает в DuckDB, может требовать изменений в PostgreSQL и ещё одного переписывания для BigQuery.
Ibis убирает эту проблему, компилируя Python-выражения в нативный SQL каждой бэкенд-базы. Достаточно заменить подключение, и тот же код начинает работать с 22+ базами данных.
Ключевые возможности:
• пишешь один раз — запускается на DuckDB, PostgreSQL, BigQuery, Snowflake и ещё 18+ системах
• ленивое выполнение: сначала строится и оптимизируется план запроса, затем он отправляется в базу
• цепочечный синтаксис, похожий на Polars
Статья-сравнение Ibis с другими библиотеками: https://bit.ly/4kUfKCW
#Python #DataScience #SQL
👉 @DataSciencegx
При работе с несколькими базами данных часто приходится переписывать одну и ту же логику под синтаксис каждого диалекта SQL.
Запрос, который работает в DuckDB, может требовать изменений в PostgreSQL и ещё одного переписывания для BigQuery.
Ibis убирает эту проблему, компилируя Python-выражения в нативный SQL каждой бэкенд-базы. Достаточно заменить подключение, и тот же код начинает работать с 22+ базами данных.
Ключевые возможности:
• пишешь один раз — запускается на DuckDB, PostgreSQL, BigQuery, Snowflake и ещё 18+ системах
• ленивое выполнение: сначала строится и оптимизируется план запроса, затем он отправляется в базу
• цепочечный синтаксис, похожий на Polars
Статья-сравнение Ibis с другими библиотеками: https://bit.ly/4kUfKCW
#Python #DataScience #SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
Пошаговое изучение внутреннего устройства LLM — от токенизации до механизма внимания и оптимизации инференса: https://github.com/amitshekhariitbhu/llm-internals
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Hugging Face буквально собрали у себя все ключевые «секреты».
Важно разобраться в оценке больших языковых моделей.
> Пока ты работаешь с языковыми моделями:
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,
почти неизбежно возникает вопрос:
как понять, что модель хорошая?
> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.
Но что такое оценка на самом деле?
И что она реально показывает?
Этот гайд помогает во всём разобраться.
👉 @DataSciencegx
Важно разобраться в оценке больших языковых моделей.
> Пока ты работаешь с языковыми моделями:
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,
почти неизбежно возникает вопрос:
как понять, что модель хорошая?
> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.
Но что такое оценка на самом деле?
И что она реально показывает?
Этот гайд помогает во всём разобраться.
О чём вообще оценка моделей
Базовые понятия больших языковых моделей для понимания оценки
Оценка через готовые бенчмарки
Создание своей системы оценки
Главная проблема оценки
Оценка свободного текста
Статистическая корректность оценки
Стоимость и эффективность оценки
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Data Portal | DS & ML
Всё самое интересное из мира Data Science и машинного обучения
Связь: @devmangx
Связь: @devmangx
Безумцы реализовали MicroGPT от Andrej Karpathy полностью на ПЛИС-логике.
Без графического процессора. Без PyTorch. Без циклов инференса на центральном процессоре.
Только трансформер, зашитый в железо, генерирующий 50 000+ токенов в секунду.
Модель небольшая, но идея не в этом, а в том, что инференс не обязан существовать только в программной среде.
Целью было не сделать максимально большую модель.
Целью было представить весь путь инференса трансформера в виде, читаемом для железа: память, счётчики, состояния конечных автоматов, аккумуляторы, таблицы поиска и многотактные арифметические блоки.
Базовая схема использует фиксированную арифметику Q4.12 и веса, хранящиеся в ПЗУ.
Большая часть модели сводится к одной повторяющейся операции: матрично-векторному умножению. Поэтому был реализован переиспользуемый 16-канальный потоковый блок матрично-векторных вычислений и затем он временно мультиплексируется на Q/K/V, MLP и выходной слой языковой модели.
Самым интересным оказался механизм внимания.
В Python это одно аккуратное уравнение.
В RTL это превращается в расписание: генерация Q/K/V, проход по скалярным произведениям, отслеживание максимума, приближённое вычисление экспоненты, накопление, деление, смешивание V, затем обратная проекция.
исходники🙂
👉 @DataSciencegx
Без графического процессора. Без PyTorch. Без циклов инференса на центральном процессоре.
Только трансформер, зашитый в железо, генерирующий 50 000+ токенов в секунду.
Модель небольшая, но идея не в этом, а в том, что инференс не обязан существовать только в программной среде.
Целью было не сделать максимально большую модель.
Целью было представить весь путь инференса трансформера в виде, читаемом для железа: память, счётчики, состояния конечных автоматов, аккумуляторы, таблицы поиска и многотактные арифметические блоки.
Базовая схема использует фиксированную арифметику Q4.12 и веса, хранящиеся в ПЗУ.
Большая часть модели сводится к одной повторяющейся операции: матрично-векторному умножению. Поэтому был реализован переиспользуемый 16-канальный потоковый блок матрично-векторных вычислений и затем он временно мультиплексируется на Q/K/V, MLP и выходной слой языковой модели.
Самым интересным оказался механизм внимания.
В Python это одно аккуратное уравнение.
В RTL это превращается в расписание: генерация Q/K/V, проход по скалярным произведениям, отслеживание максимума, приближённое вычисление экспоненты, накопление, деление, смешивание V, затем обратная проекция.
исходники
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5