Хабр / ML & AI
501 subscribers
5.84K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
[Перевод] Улучшение RAG с помощью графов знаний

Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и системы рекомендаций.

Базовый RAG обычно объединяет векторную базу данных и LLM, где векторная база данных хранит и извлекает контекстную информацию для пользовательских запросов, а LLM генерирует ответы на основе извлеченного контекста. Этот подход хорошо работает во многих случаях, однако он испытывает трудности со сложными задачами, такими как многоадресное рассуждение или ответы на вопросы, требующие соединения разрозненных фрагментов информации.

Например, вопрос «Какое имя было дано сыну человека, который победил узурпатора Аллектуса?»

Читать далее

#graphrag #rag #llm #milvus #knowledge_graph | @habr_ai
Мама, у меня RAG: пути к улучшению, когда он «наивный»

В последние пару лет RAG (retrieval-augmented generation) стал одной из самых обсуждаемых технологий в области обработки текстов и поисковых систем. Его идея проста: объединить поиск (retrieval) и генерацию (generation), чтобы быстрее находить нужную информацию и создавать более точные тексты.

Рост объёмов данных и информационного шума привёл к тому, что классические методы поиска и генерации уже не всегда справляются с новыми задачами. Например, большие языковые модели без доступа к актуальной информации могут искажать факты, а традиционные поисковики при запросах на естественном языке дают слишком общий результат. RAG решает эти проблемы, добавляя дополнительный "слой знаний" за счёт внешних баз данных, что особенно полезно для чат-ботов, систем вопрос-ответ, рекомендательных сервисов и многих других приложений.

Целью данной статьи является погружение читателя в технологию RAG, а также ознакомление с основными критериями и методами его улучшения. В этой статье мы обсудим, как именно устроен RAG, как правильно оценивать его эффективность и какие существуют техники улучшения – от уже известных методов до совершенно новых решений.

Читать далее

#graph_rag #rag #retrival_augumented_generation #llm_модели #knowledge_graph #graphrag #semantic_search #genai #ии_и_машинное_обучение | @habr_ai
😁2
Topical Authority на практике: как стать экспертом в глазах Google (и почему одна статья никогда не ранжируется)

Ко мне пришел клиент с блогом о кофе. Он показал статью на 4500 слов про методы заваривания эспрессо. Текст написан бариста с двенадцатилетним стажем. Фотографии профессиональные. Техническая оптимизация безупречна.

Позиция в Google? 47-е место.

Я открыл топ-3 по тому же запросу и увидел картину, которая повторяется в моей практике. Статьи слабее по глубине, без экспертного авторства, с посредственными иллюстрациями. Но эти материалы были частью сайтов, где про кофе написано всё — от истории напитка до химии экстракции кофеина, от обзоров профессиональных кофемашин до детальных гайдов по выбору зёрен из разных регионов произрастания. Google воспринимает эти ресурсы как экспертные источники по всей теме "кофе". А блог моего клиента остаётся точечным игроком. Одна статья. Пусть даже гениальная.

Вот в чём суть проблемы, которую я наблюдаю последние три года работы с клиентами из разных ниш. Алгоритмы больше не ранжируют отдельные страницы в изоляции. Они оценивают сайты как целостные источники знаний по топику. Согласно обновленным Google Search Quality Rater Guidelines от декабря 2024 года, раздел 3.3 явно указывает на важность демонстрации expertise через "объём и глубину контента по теме, созданного квалифицированными авторами".

Цифры это подтверждают жестко. Исследование Ahrefs, проанализировавшее 1.8 миллиарда страниц в 2024 году, показало шокирующую закономерность — сайты с высоким топикальным авторитетом получают на 53% больше органического трафика, чем ресурсы с разрозненным контентом при одинаковом профиле обратных ссылок. Вдумайтесь. Одинаковые ссылки, но в полтора раза больше трафика только за счёт комплексного покрытия темы. Читать далее

#topical_authority #seo #сущности #hub_and_spoke #pillar_page #перелинковка #e_e_a_t #knowledge_graph #контент_кластеры | @habr_ai