Data Portal | DS & ML
8.42K subscribers
389 photos
114 videos
4 files
522 links
Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx
Download Telegram
Десять лет мы увеличивали ширину и глубину моделей — но почти не меняли то, как слои *взаимодействуют* между собой.

Со времён ResNet с x + F(x) в 2015 году глубинная остаточная связь остаётся единственным каналом межслойной коммуникации.

На бумаге модели выглядят глубокими. Но многие слои «учатся молчать»: по мере накопления информации сигнал размывается и теряется.

Узкое место — не вычисления *внутри* слоёв, а коммуникация *между* ними.

Все предыдущие подходы — DenseNet, DenseFormer, Hyper-Connections, MUDDFormer — отвечают на один и тот же вопрос: «как лучше *смешивать* выходы слоёв?»

Лучшие коэффициенты. Больше каналов. Адаптивные веса.

Но всё это — накопление. И это категориальная ошибка.

Межслойная коммуникация должна быть извлечением, а не накоплением.

Запрос = «что мне нужно».
Ключ = «что у меня есть».
Обе стороны участвуют.

Слой 152 не должен «напрягаться», чтобы услышать слой 3 в общем хоре. Он должен просто обратиться к нему: «что ты сказал?»

Проблема: наивная реализация внимания по глубине занимала 44 924 мс на прямой и обратный проход. Слишком медленно.

Представлен Flash Depth Attention (FDA) — аппаратно-эффективное ядро, ускоряющее внимание по глубине более чем в 40 000 раз, делая полноценное извлечение по глубине пригодным для масштабного обучения.

Классический пайплайн трансформера: остаточные связи → последовательное внимание → остаточные связи → полносвязный слой.

Пайплайн с Flash Depth Attention (FDA): внимание по глубине → последовательное внимание → внимание по глубине → полносвязный слой.

Дальше — Mixture-of-Depths Attention (MoDA): объединение извлечения по глубине и по последовательности в один softmax.

Каждая голова одновременно обращается к KV текущего слоя (по последовательности) и к KV всех предыдущих слоёв (по глубине).

Одна операция, два измерения извлечения.

Результаты: модель активно использует межслойное извлечение, эффект «attention sink» исчезает, MoDA улучшает базовую модель OLMo2 по всем метрикам.

Первая половина развития архитектур была про масштабирование компонентов.
Вторая — про масштабирование *коммуникации*.

Добро пожаловать во вторую половину 👋

Статья: https://arxiv.org/abs/2603.15619
Блог (рекомендуется): https://lh-zhu.github.io/The-Second-Half-of-Model-Architecture/
Код: https://github.com/hustvl/MoDA

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🏆1
13+ механизмов внимания, которые стоит знать:

▪️ самовнимание
▪️ кросс-внимание
▪️ каузальное внимание
▪️ линейное внимание
▪️ внимание с softmax
▪️ скользящее окно (локальное внимание)
▪️ глобальное внимание
▪️ FlashAttention
▪️ многоголовое внимание (MHA)
▪️ многозапросное внимание (MQA)
▪️ сгруппированное внимание по запросам (GQA)
▪️ многоголовое латентное внимание (MLA)
▪️ чередующееся внимание по головам (IHA)

* Slim Attention, KArAt, XAttention, Mixture-of-Depths Attention (MoDA)

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2😁1
Microsoft решила проблему контекстного окна.

Сейчас у любой модели есть фундаментальное ограничение — «проблема контекстного окна».

Когда модель решает сложную задачу, она генерирует длинную цепочку рассуждений. При этом каждый токен должен храниться в активной памяти — так называемом KV-кэше.

Чем дольше идёт рассуждение, тем больше разрастается KV-кэш. Это замедляет работу, увеличивает стоимость и в итоге упирается в лимиты памяти.

Казалось, единственный выход — использовать более мощные и дорогие GPU с большим объёмом памяти.

Microsoft показала другой подход в работе «MEMENTO».

Вместо увеличения памяти модель учат забывать.

Как это работает:

Модель не строит одно непрерывное рассуждение, а разбивает его на небольшие блоки.

После завершения блока она формирует плотное сжатое представление логики — «memento».

Затем полностью удаляет предыдущий блок рассуждений из KV-кэша.

В контексте остаётся только это сжатое представление. Модель извлекает суть и сразу избавляется от лишнего.

Результаты:

• Сжатие длины контекста — в 6 раз
• Снижение использования KV-кэша — в 2.5 раза
• Без потери точности в задачах по математике, науке и кодингу

Практическое значение:

Большие контекстные окна перестают быть обязательными.

Становится возможным запуск сложных многошаговых агентных систем локально — без облака, без оплаты за токены, с полной приватностью.

Ключевая идея:

Эффективность модели определяется не объёмом памяти, а способностью отбрасывать нерелевантное и сохранять только суть.

https://github.com/microsoft/memento

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Meta решила главное узкое место в RAG.

30× ускорение декодирования. Без потерь точности.

Проблема, о которой почти не говорят:

Когда в LLM подаёшь 80 извлечённых фрагментов, реально полезны только 5–10.

Остальные — мёртвый груз. Но внимание считается для ВСЕХ.

Математика жёсткая:

Традиционный RAG с контекстом 16K:
→ 100+ секунд до первого токена
→ падение пропускной способности в 10×
→ огромный расход памяти

Что делает REFRAG:
Сжимает куски контекста в единичные эмбеддинги.

Вместо обработки 16 384 токенов → обрабатывается 1 024 эмбеддинга чанков.

Результаты:
✓ 30.85× быстрее время до первого токена
✓ нулевая потеря перплексии
✓ расширение контекста в 16× (4K → 64K токенов)
✓ в 3.75× лучше предыдущего SOTA

Почему это работает:
Контексты RAG имеют разреженные паттерны внимания. Большинство извлечённых фрагментов не взаимодействуют друг с другом. REFRAG использует это через:

1. Предвычисляемые эмбеддинги — кэшируются на этапе извлечения и переиспользуются при инференсе
2. Сжатие на основе обучения с подкреплением — политика решает, что сжимать
3. Работает в любой позиции — в отличие от предыдущих подходов

Практический эффект:
• 8 фрагментов с задержкой как у одного
• выше точность при слабых ретриверах
• поддержка неограниченной истории диалога
• не требует изменений архитектуры модели

Это меняет экономику RAG: больше контекста при меньшей задержке.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42🤔1🌚1
Большие языковые модели ломают все допущения, на которых строился классический инференс в машинном обучении.

Традиционная модель (сверточная нейросеть, трансформер-классификатор, XGBoost) выдает результат за один прямой проход.

Между запросами ничего не сохраняется. Графический процессор выполняет однотипную работу каждый раз.

Большие языковые модели работают совершенно иначе.

Выход генерируется по одному токену, авторегрессионно, из-за чего один запрос превращается в сотни последовательных прямых проходов.

Стадия префилла упирается в вычисления, а декодирование — в пропускную способность памяти, и совместный запуск на одном графическом процессоре ухудшает оба этапа.

Кэш ключ-значение растет с длиной диалога и разделяется между запросами, поэтому маршрутизация больше не про наименее загруженные серверы, а про то, на какой реплике уже закэширован нужный префикс.

Модели со смесью экспертов добавляют параллелизм экспертов поверх этого.

Ничего из этого нет в классическом обслуживании моделей машинного обучения.

Именно поэтому появился отдельный стек оптимизаций специально под инференс больших языковых моделей: сжатие, механизм внимания, управление кэшем ключ-значение, батчинг, декодирование, параллелизм и маршрутизация.

На демо видно фото-карту из 72 техник оптимизации больших языковых моделей в продакшене, сгруппированных в девять блоков.

Я также прикрепляю статью , где разбирается, чем инференс больших языковых моделей отличается от классического инференса и зачем нужен каждый из этих блоков.

Вопрос: какие еще техники оптимизации больших языковых моделей ты бы сюда добавил?

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
1
lucebox-hub

Потребительские видеокарты на самом деле обладают достаточным аппаратным потенциалом; проблема в том, что универсальные фреймворки теряют значительную часть производительности на неэффективных накладных расходах. Lucebox раскрывает этот потенциал за счёт точечной оптимизации через ручную реализацию вычислительных ядер, позволяя даже RTX 3090 образца 2020 года достигать энергоэффективности на уровне последних чипов Apple.

Lucebox — проект по ручной оптимизации инференса больших языковых моделей на потребительских GPU, в котором на данный момент открыты два ключевых результата. Megakernel нацелен на гибридную модель DeltaNet/Attention Qwen3.5-0.8B, объединяя вычисления, ранее разбросанные по ~100 вызовам CUDA-ядер, в один запуск. На RTX 3090 скорость prefill достигает 37 800 токенов/с, decode — 413 токенов/с, энергоэффективность — 1.87 токена/Дж, сопоставимо с Apple M5 Max; при снижении энергопотребления с 350W до 220W падение скорости всего 5%, при этом энергоэффективность почти удваивается.

DFlash впервые реализует спекулятивное декодирование в подходе GGUF на одной видеокарте. Для Qwen3.5-27B при квантизации Q4_K_M и использовании BF16 для draft-модели достигается 129.5 токенов/с по HumanEval на RTX 3090 — это в 3.43 раза быстрее чистого авторегрессионного декодирования, при этом для контекста 128K требуется не более 24 ГБ памяти.

Основная сложность — ограничения по памяти: целевая модель, draft-модель и промежуточные состояния дерева верификации DDTree должны одновременно помещаться в 24 ГБ, что потребовало переписать загрузчик GGUF и три CUDA-ядра для операций над деревом поверх ggml. Весь код проекта распространяется по лицензии MIT, есть подробная документация, позволяющая воспроизвести бенчмарки напрямую.

https://github.com/Luce-Org/lucebox-hub

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Универсальный инструмент для управления датасетами YOLO под сценарии с персональными камерами — полностью автоматизирует весь воркфлоу: от разметки изображений и дедупликации до обучения и развёртывания.

ALICE — это инструмент с открытым исходным кодом для работы с датасетами YOLO. Покрывает просмотр разметки, дедупликацию через pHash, импорт скриншотов из Frigate NVR, анализ кадров из видео и пятишаговый пайплайн обучения (экспорт, дедупликация, авторазметка, обучение, экспорт в ONNX).

Есть встроенный веб-интерфейс, поддержка развёртывания через Docker и ускорение на GPU. Подходит для обучения моделей детекции на собственных данных с камер.

https://github.com/simoncirstoiu/alice

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Чем больше агент «помнит», тем меньше он «знает».

Звучит контринтуитивно, но это прямое следствие того, как сегодня устроена память агентов. Память наследует свойства хранилища, на котором она построена.

* Векторная база данных даёт ассоциативную память — распознавание знакомых паттернов.
* Граф даёт реляционную память — понимание связей между сущностями.

Большинство агентов используют первое и игнорируют второе.

Пример:

Ассистент для учёбы хранит три факта в векторной базе данных:

* Марк учится в 10 классе.
* У 10 класса выпускные экзамены в марте.
* Библиотека закрывается за 2 недели до экзаменов.

Марк спрашивает: «Библиотека будет открыта на следующей неделе?»

Векторная база вернёт первый и третий факт, потому что в запросе есть Марк и библиотека. Средний факт пропускается, так как в нём нет ни Марка, ни библиотеки.

Он находится слишком далеко в пространстве эмбеддингов, чтобы попасть в извлечённый контекст. В итоге агент отвечает с неполной информацией или достраивает ответ правдоподобным предположением.

Это типичный случай. Любой запрос с несколькими шагами рассуждения выходит за пределы поиска по сходству.

Увеличение контекста и извлечение большего объёма данных — частичное решение. Но точность падает более чем на 30%, если релевантный факт находится в середине длинного контекста — классическая проблема «потерян в середине».

Большое окно контекста не равно лучшей памяти. Это просто больше места, чтобы упустить важное.

Решение — перестать рассматривать память как одно хранилище и перейти к трём слоям:

* Реляционный слой: хранит источник факта, время записи и доступ. Слой происхождения данных.
* Векторный слой: хранит семантику и похожесть. Слой извлечения.
* Графовый слой: хранит связи и зависимости. Слой рассуждения.

Каждый слой закрывает свою задачу:

* Векторная база без графа — сходство без связей.
* Граф без векторного слоя — связи без семантического поиска.
* Реляционное хранилище — учёт источника без возможности рассуждения.

В open-source проекте Cognee этот подход реализован на практике.

Он использует конвейер ECL (Extract, Cognify, Load), который за один проход записывает данные во все три хранилища и синхронизирует их при поступлении новых данных. Векторы и рёбра графа строятся сразу на этапе индексации.

Дополнительно:

1. Разрешение сущностей: можно задать доменный словарь, и система объединяет дубли.
Например, «производитель автомобилей», «автопроизводитель» и «автоконцерн» сводятся к одной канонической сущности.

2. Локальный режим по умолчанию: установка через pip, всё работает локально. Для продакшена можно перейти на Postgres и Neo4j без изменения API.

Сооснователь проекта описал этот подход с нуля и собрал полноценного агента на базе Cognee.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Единственный читлист по большим языковым моделям, который тебе понадобится : https://drive.google.com/file/d/1RFDR_mbDJyi07ThJm1yOKv23LkHXY-U6/view

Покрывает концепции, архитектуры и прикладные сценарии.

Основы

> Токены (токенизатор, BPE)
> Эмбеддинги (косинусное сходство)
> Внимание (формула, многоголовое внимание)

Архитектура трансформеров и вариации

> BERT (модели только с энкодером)
> GPT (модели только с декодером)
> T5 (энкодер-декодер модели)

Большие языковые модели

> Промптинг (длина контекста, цепочка рассуждений)
> Дообучение (SFT, PEFT/LoRA)
> Настройка по предпочтениям (модель вознаграждения, обучение с подкреплением)
> Оптимизации (смесь экспертов, дистилляция, квантизация)

Применение

> LLM как судья (LaaJ)
> RAG (генерация с извлечением)
> Агенты (ReAct)
> Модели рассуждения (масштабирование)

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Топ-10 курсов Стэнфорда по ИИ и машинному обучению — сразу с официальными страницами и материалами.

CS221: Искусственный интеллект
https://www.youtube.com/playlist?list=PLoROMvodv4rOca_Ovz1DvdtWuz8BfSWL2

CS229: Машинное обучение
https://www.youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU

CS229M: Теория машинного обучения
https://www.youtube.com/playlist?list=PLoROMvodv4rP8nAmISxFINlGKSK4rbLKh

CS230: Глубокое обучение
https://www.youtube.com/playlist?list=PLoROMvodv4rNRRGdS0rBbXOUGA0wjdh1X

CS234: Обучение с подкреплением
https://www.youtube.com/playlist?list=PLoROMvodv4rN4wG6Nk6sNpTEbuOSosZdX

CS224N: Обработка естественного языка
https://www.youtube.com/playlist?list=PLoROMvodv4rOaMFbaqxPDoLWjDaRAdP9D

CS231N: Глубокое обучение для компьютерного зрения
https://www.youtube.com/playlist?list=PLoROMvodv4rOmsNzYBMe0gJY2XS8AQg16

CME295: Большие языковые модели
https://www.youtube.com/playlist?list=PLoROMvodv4rObv1FMizXqumgVVdzX4_05

CS236: Глубокие генеративные модели
https://www.youtube.com/playlist?list=PLoROMvodv4rPOWA-omMM6STXaWW4FvJT8

CS336: Моделирование языка с нуля
https://www.youtube.com/playlist?list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_

Эти курсы покрывают базу: от классического машинного обучения до современных LLM и генеративных моделей, включая практику и теорию.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
7
This media is not supported in your browser
VIEW IN TELEGRAM
Self Attention vs Cross Attention вручную

Измени размеры матриц сам - https://byhand.ai/aMisxP

Два механизма внимания рядом. Оба проецируют X в запросы; оба считают внимание через S = Kᵀ × Q и F = V × A. Разница только в источнике K и V.

Self-attention использует X для всего. Q, K и V получаются проекцией X. Каждый токен X «смотрит» на все остальные токены X. Матрица скорингов S квадратная — 128 × 128.

Cross-attention использует X для запросов и вторую последовательность E для ключей и значений. Каждый токен X «смотрит» на каждый токен из E. Матрица скорингов S прямоугольная — 64 × 128.

Что совпадает и что отличается:

X одинаковый в обоих случаях — один и тот же вход 36 × 128.

Q и K имеют общую размерность 16 — это обеспечивает корректность скалярного произведения Kᵀ × Q.

Размерность V независима: в self-attention — 12, в cross-attention — 12. Выбор не зависит от механизма, а определяется требуемой размерностью выхода следующего слоя.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
CPU vs GPU vs TPU vs NPU vs LPU — разбор архитектур.

5 типов железа сегодня тянут ИИ-нагрузки. Каждый делает свой компромисс между гибкостью, параллелизмом и доступом к памяти.

> CPU
> Универсальные вычисления. Несколько мощных ядер обрабатывают сложную логику, ветвления и системные задачи.
> Глубокая иерархия кэшей + внешняя оперативная память. Хорошо подходит для ОС, баз данных и кода с ветвлениями, но уступает в массовых матричных операциях.

> GPU
> Тысячи мелких ядер вместо нескольких крупных, исполняют одну инструкцию над разными данными.
> Именно поэтому GPU доминируют в обучении нейросетей — параллелизм совпадает с математикой моделей.

> TPU
> Дальше — специализация.
> Базовый блок — решётка MAC-юнитов (умножение-суммирование), данные проходят «волной»: веса с одной стороны, активации с другой, промежуточные результаты распространяются без постоянных обращений к памяти.
> Выполнение полностью управляется компилятором, а не планировщиком железа. Спроектированы под нейросетевые нагрузки.

> NPU
> Вариант для устройств на краю.
> Архитектура вокруг Neural Compute Engine с массивами MAC и встроенной SRAM, но без дорогой высокоскоростной памяти — используется энергоэффективная системная память.
> Цель — инференс при потреблении в единицы ватт: смартфоны, носимые устройства, IoT. Примеры — Apple Neural Engine, NPU от Intel.

> LPU (Language Processing Unit)
> Новый класс от Groq.
> Убирает внешнюю память из критического пути — все веса хранятся в SRAM на чипе.
> Выполнение полностью детерминировано и управляется компилятором: нет промахов кэша и накладных расходов планировщика.
> Минус — ограниченная память на чип, поэтому для больших моделей нужно объединять множество чипов. Зато выигрывает по задержке.

Эволюция идёт от универсальности CPU к узкой специализации LPU. На каждом шаге часть гибкости меняется на эффективность.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Традиционный инференс не рассчитан на агентный кодинг.

Агентные инструменты делают сотни API-вызовов за одну сессию, часто с пересобранным контекстом, что создаёт узкие места и увеличивает стоимость за токен.

NVIDIA Dynamo перестраивает стек под агентов:
→ роутинг с учётом KV-кэша
→ планирование с учётом агентов
→ многоуровневое кэширование
→ единая оркестрация

Результат: выше доля попаданий в кэш, ниже задержка и до 7× больше пропускной способности: подробнее 🤓

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
8 техник для получения лучших ответов от LLM 👉

Большинство взаимодействует с LLM одинаково: задаёт вопрос, отправляет и работает с результатом.

Это zero-shot промптинг, базовый уровень. Если ответы не устраивают, сначала улучшают промпт, а не меняют модель.

8 техник промпт-инжиниринга:

1. Few-shot промптинг: показать несколько примеров вход-выход. Модель улавливает паттерн и применяет к новым данным.

2. Chain-of-thought (CoT): запрос пошагового рассуждения. Разбивает сложные задачи на проверяемые шаги.

3. Иерархия промптов: системный, девелоперский и пользовательский уровни с разным приоритетом. Верхние уровни переопределяют нижние.

4. Ролевой промптинг: задать роль, например «ты исследователь безопасности». Модель смещает распределение на соответствующие данные обучения.

5. Негативный промптинг: явно указать, что нельзя делать. Например, «не использовать маркетинговый стиль».

6. JSON-промптинг: задать JSON-схему прямо в промпте. Модель возвращает структурированный ответ по этой схеме.

7.Attentive reasoning queries (ARQ): вместо свободного CoT — структурированные доменные вопросы. В тестах: 90.2% соблюдения инструкций против 81.5% у прямого промпта.

8. Verbalized sampling: попросить модель сгенерировать несколько вариантов с оценками вероятности. Возвращает разнообразие, подавленное RLHF.

Техники хорошо комбинируются: few-shot + CoT, JSON + негативный промптинг. ARQ — по сути структурированный CoT для агентных сценариев.

Дополнительно качество растёт от контекста, инструментов и ретривала.

Но эти 8 техник полностью лежат в промпте — без изменений модели, инфраструктуры или сетапа. Меняется только структура запроса.

Вот ещё статья на эту тему

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Дообучение DeepSeek-OCR под свой язык (100% локально)

Большинство визуальных моделей обрабатывают документы как длинные последовательности токенов, из-за чего работа с большим контекстом становится дорогой и медленной.

DeepSeek-OCR использует оптическое сжатие контекста, чтобы преобразовать 2D-разметку в визуальные токены, что позволяет эффективно обрабатывать сложные документы.

Это визуальная модель на 3 млрд параметров, которая достигает точности 97% при использовании в 10 раз меньшего числа визуальных токенов по сравнению с текстовыми языковыми моделями.

Причём её можно без проблем дообучить под конкретный сценарий использования на одной видеокарте.

Акшай использовал Unsloth для эксперимента на персидском тексте и получил улучшение по метрике CER на 88.26%.

↳ Базовая модель: 149% CER
↳ Дообученная модель: 60% CER (на 57% точнее)
↳ Время обучения: 60 шагов на одной видеокарте

Персидский — просто тестовый кейс. Можно подставить свой датасет для любого языка, типа документов или предметной области.

Полный гайд со всем кодом, ноутбуками и настройкой окружения можно найти тут. 🔮

Всё полностью с открытым исходным кодом.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Стэнфорд показал, что Claude, GPT и Gemini задействуют только долю доступного креативного потенциала.

Всего один промпт позволяет разблокировать более сильную версию ЛЛМки.

Когда ты задаёшь вопрос, модель просчитывает множество вариантов ответа.

Среди них есть сильные, странные и прорывные.

Но почти никогда их не отдаёт. Из-за обучения через человеческую обратную связь возникает эффект «схлопывания мод».

Модель по умолчанию уходит в безопасные, типичные и предсказуемые ответы. Она знает более сильный вариант, но приоритизирует безопасный.

Исследователи описали способ обойти этот фильтр. Метод называется Verbalized Sampling.

Если просить один ответ — модель выбирает самый вероятный. Если попросить сгенерировать 5 вариантов и указать вероятность для каждого, поведение меняется.

Модель начинает исследовать «хвосты распределения». Вместо 99% предсказуемых ответов появляются менее вероятные, но более сильные варианты.

В тестах этот приём увеличивал разнообразие и креативность до 2.1 раза на топовых моделях.

При этом без потери точности и безопасности. 🤖

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Теперь можно искать по PDF на 500 страниц без чанкинга и без векторизации.

Андрей Карпати недавно озвучил идею:

что если база знаний работает как вики, а не как векторная база?

OpenKB — open-source CLI, построенный вокруг этой концепции.

Он компилирует сырые документы в структурированную связанную вики-систему с помощью LLM.

Знания накапливаются, а не пересобираются при каждом запросе.

В классическом RAG контекст каждый раз восстанавливается заново. Здесь модель опирается на уже построенную структуру.

Длинные PDF разбираются через PageIndex — древовидный индекс без векторов, который позволяет рассуждать по структуре документа.

Что получается на выходе:

> авто-суммаризация и страницы концептов
> кросс-ссылки между документами
> детект противоречий и пробелов
> режим наблюдения за изменениями
> markdown, совместимый с Obsidian

Поддерживаются PDF, Word, PowerPoint, Excel, HTML и изображения.

Таблицы и фигуры извлекаются нативно.

Один новый файл может автоматически обновить до 15 страниц в вики.

База знаний начинает сохранять то, что уже было выучено.

https://github.com/VectifyAI/OpenKB

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Эта книга на 115 страниц раскрывает секреты дообучения больших языковых моделей.

Подробное руководство, которое покрывает:

> процесс дообучения больших языковых моделей
> сочетание теории и практики

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
MIT собрал 7 часов материала, где есть всё, что нужно знать про генеративный ИИ бесплатно.

Стабильная диффузия и ДАЛЛ·Е
Нейросети
Обучение с учителем
Представление и обучение без учителя
Обучение с подкреплением
Генеративный ИИ
Самоконтролируемое обучение
Фундаментальные модели
Состязательные сети (GAN)
Контрастивное обучение
Автоэнкодеры
Удаление шума и диффузионные модели

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5