知识库-网站整站抓取
功能介绍
网站整站抓取功能允许您从指定的网站根域名开始,按照设定的抓取深度和规则,批量抓取整个网站或网站特定部分的内容到知识库中。该功能特别适用于:
- 官网文档批量导入:一次性抓取整个产品文档站点
- 知识库迁移:从旧的文档系统批量迁移到新的知识库
- 竞品分析:系统性地抓取竞争对手的公开信息
- 内容同步:定期同步外部知识库或文档站点的最新内容
核心特性
- 多层级抓取:支持1-5层的网站深度抓取,可控制抓取范围
- 智能链接发现:自动发现和跟踪网站内部链接
- 批量内容处理:高效处理大量页面,支持并发抓取
- 去重机制:自动识别和过滤重复内容
- 断点续传:支持大型抓取任务的中断恢复
- 站点地图支持:可基于sitemap.xml进行更精准的抓取