SeleniumScrapingTool¶
实验性
此工具目前正在开发中。在我们完善其功能的过程中,用户可能会遇到意外行为。您的反馈对我们改进非常重要。
描述¶
SeleniumScrapingTool 是为高效网页抓取任务而设计的。它通过使用 CSS 选择器来精确提取网页内容,针对特定元素。其设计满足广泛的抓取需求,提供灵活性以处理任何提供的网站 URL。
安装¶
要开始使用 SeleniumScrapingTool,请使用 pip 安装 crewai_tools 包:
使用示例¶
以下是一些可以使用 SeleniumScrapingTool 的场景:
from crewai_tools import SeleniumScrapingTool
# 示例 1:初始化工具,无需任何参数以抓取它导航到的当前页面
tool = SeleniumScrapingTool()
# 示例 2:抓取给定 URL 的整个网页
tool = SeleniumScrapingTool(website_url='https://example.com')
# 示例 3:从网页中定位并抓取特定的 CSS 元素
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content')
# 示例 4:使用附加参数执行抓取以获得自定义体验
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content', cookie={'name': 'user', 'value': 'John Doe'}, wait_time=10)
参数¶
以下参数可用于自定义 SeleniumScrapingTool 的抓取过程:
website_url
: 必填。指定要抓取内容的网站的 URL。css_element
: 必填。用于定位网站上特定元素的 CSS 选择器。这使得能够集中抓取网页的特定部分。cookie
: 可选。包含 cookie 信息的字典。用于模拟登录会话,从而访问可能对未登录用户限制的内容。wait_time
: 可选。指定抓取内容之前的延迟(以秒为单位)。此延迟允许网站及任何动态内容完全加载,确保成功抓取。
注意
因为 SeleniumScrapingTool 正在积极开发中,参数和功能可能会随时间演变。鼓励用户保持工具更新,并报告任何问题或改进建议。