Extract page content tool

ExtractPageContentTool

Тип: Вспомогательный тул Исходный код: sgr_agent_core/tools/extract_page_content_tool.py

Извлекает полное детальное содержимое с конкретных веб-страниц с использованием Tavily Extract API.

Параметры

reasoning (str) - почему нужно извлечь эти конкретные страницы
urls (list[str], 1-5 элементов) - список URL для извлечения полного содержимого

Поведение

Извлекает полное содержимое с указанных URL через TavilySearchService
Обновляет существующие источники в context.sources полным содержимым
Для новых URL добавляет их с последовательной нумерацией
Возвращает форматированную строку с превью извлеченного содержания (ограничено content_limit)

Использование

Вызывается после web_search_tool для получения детальной информации с перспективных URL, найденных в результатах поиска.

Важные предупреждения

Извлеченные страницы могут показывать данные за другие годы или периоды времени, чем запрошено
Всегда проверяйте, что извлеченное содержимое соответствует временному контексту вопроса
Если извлеченное содержимое противоречит поисковому сниппету, для фактических вопросов предпочтителен сниппет
Для вопросов о датах или числах перепроверяйте извлеченные значения по поисковым сниппетам

Конфигурация

search:
  tavily_api_key: "your-tavily-api-key"  # Обязательно: API-ключ Tavily
  tavily_api_base_url: "https://api.tavily.com"  # URL API Tavily
  content_limit: 1500  # Лимит символов содержимого на источник (обрезает извлеченное содержимое)

Пример

agents:
  research_agent:
    search:
      content_limit: 2000  # Увеличить лимит содержимого для более детального извлечения
    tools:
      - "web_search_tool"
      - "extract_page_content_tool"