Перейти к содержанию

Extract page content tool

ExtractPageContentTool

Тип: Вспомогательный тул Исходный код: sgr_agent_core/tools/extract_page_content_tool.py

Извлекает полное детальное содержимое с конкретных веб-страниц с использованием Tavily Extract API.

Параметры

  • reasoning (str) - почему нужно извлечь эти конкретные страницы
  • urls (list[str], 1-5 элементов) - список URL для извлечения полного содержимого

Поведение

  • Извлекает полное содержимое с указанных URL через TavilySearchService
  • Обновляет существующие источники в context.sources полным содержимым
  • Для новых URL добавляет их с последовательной нумерацией
  • Возвращает форматированную строку с превью извлеченного содержания (ограничено content_limit)

Использование

Вызывается после web_search_tool для получения детальной информации с перспективных URL, найденных в результатах поиска.

Важные предупреждения

  • Извлеченные страницы могут показывать данные за другие годы или периоды времени, чем запрошено
  • Всегда проверяйте, что извлеченное содержимое соответствует временному контексту вопроса
  • Если извлеченное содержимое противоречит поисковому сниппету, для фактических вопросов предпочтителен сниппет
  • Для вопросов о датах или числах перепроверяйте извлеченные значения по поисковым сниппетам

Конфигурация

search:
  tavily_api_key: "your-tavily-api-key"  # Обязательно: API-ключ Tavily
  tavily_api_base_url: "https://api.tavily.com"  # URL API Tavily
  content_limit: 1500  # Лимит символов содержимого на источник (обрезает извлеченное содержимое)

Пример

agents:
  research_agent:
    search:
      content_limit: 2000  # Увеличить лимит содержимого для более детального извлечения
    tools:
      - "web_search_tool"
      - "extract_page_content_tool"