Заметки LLM-энтузиаста
390 subscribers
125 photos
14 videos
1 file
150 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и LLM-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
🔍 Два новых инструмента для веб-поиска и исследований: Firesearch и GPT Researcher

Разработчики получили два интересных решения для автоматизации веб-исследований, которые решают разные задачи при работе с данными.

Firesearch: поиск и скрапинг в одном запросе

Firecrawl запустили эндпоинт /search, который объединяет поиск в интернете и извлечение контента в одном API-вызове. Теперь не нужно делать отдельные запросы для поиска и последующего скрапинга страниц. Что очень круто. Например, yandex search api в режиме нейро-поиска пока работает только по определенному спектру url (см. здесь).

Основные возможности:
• Поиск и извлечение контента одним запросом
• Настройка по языку, стране и временному диапазону
• Вывод в разных форматах: markdown, HTML, ссылки, скриншоты
• Интеграция с Zapier, n8n, MCP для Claude и OpenAI

Как устроен:
Firesearch использует Langgraph и Firecrawl и построен на основе одного основного компонента - LangGraphSearchEngine, который управляет всем процессом поиска через граф состояний LangGraph.
Система содержит 6 основных узлов обработки в графе состояний:
understand - анализ запроса пользователяplan - планирование стратегии поиска
search - выполнение поисковых запросов
scrape - извлечение дополнительного контента
analyze - анализ найденных источников
synthesize - синтез финального ответа
Подробнее в репозитории (где, кстати, есть возможность сразу сделать деплой на vercel со своими ключами Firecrawl и Openai) и на deepwiki (где можно не только подробно ознакомиться с архитектурой решения, но и позадавать интересующие вопросы, только не включайте опцию deep research - она почему-то работает бесконечно медленно)


GPT Researcher: opensource альтернатива дорогим deep research решениям

Пока крупные компании предлагают свои "Deep Research" функции за $200/месяц (OpenAI) или с ограничениями (Perplexity - 5 запросов в день), GPT Researcher предоставляет открытое решение.

Ключевые особенности:
1️⃣ Мультиагентная архитектура с планировщиком и исполнителем
2️⃣ Рекурсивные исследования с древовидной структурой анализа
3️⃣ Обработка 20+ источников за 3 минуты ($0.1 за отчет)
4️⃣ Глубокий анализ за 5 минут ($0.4 за расширенный отчет)
5️⃣ Отчеты свыше 2000 слов с цитированием источников

Как устроен
GPT Researcher использует Tavily для поиска и LangGraph для построения мультиагентной архитектуры.
Система состоит из 8 агентов:
Chief Editor - главный агент-координатор, который управляет командой через LangGraph
Researcher (gpt-researcher) - специализированный автономный агент для исследований
Editor - планирует структуру исследования
Reviewer - проверяет корректность результатов
Revisor - пересматривает результаты на основе обратной связи
Writer - составляет финальный отчет
Publisher - публикует отчет в различных форматах
Human - человек в цикле для обратной связи
Подобнее в репозитории и на deepwiki
Также у GPT Researcher есть отдельный репозиторий для MCP-сервера

Практическое применение 📊

Firesearch подходит для быстрого получения актуального контента с веб-страниц, а GPT Researcher - для комплексного анализа и создания детальных отчетов по исследуемым темам.

Оба инструмента можно интегрировать в существующие рабочие процессы и настроить под конкретные задачи.

@llm_notes

#webscraping #deepresearch #opensource #firecrawl #langgraph