Scrapy 2.4文档¶
Scrapy是一个快速的高级网络爬行 and 网络爬取框架,用于抓取网站并从其页面中提取结构化数据。它可用于广泛的用途,从数据挖掘到监控和自动化测试。
获取帮助¶
有麻烦吗?我们愿意帮忙!
试试常见问题解答-有一些常见问题的答案.
中提出或搜索问题StackOverflow使用scrapy标签.
Ask或搜索问题Scrapy subreddit.
搜索有关档案的问题Scrapy-users邮件列表.
Ask一个问题# Scrapy IRC通道,
在我们的Scrapy报告错误问题跟踪.
第一步¶
基本概念¶
内置服务¶
解决具体问题¶
- 常见问题解答
获取最常见问题的答案。
- 调试爬虫
了解如何调试你的Scrapy爬虫的常见问题。
- 爬虫合同
了解如何使用合同来测试你的爬虫。
- 常用做法
熟悉一些Scrapy的常见做法。
- 项目自动填充内容
调整Scrapy,用于并行抓取很多域。
- 使用浏览器的开发者工具进行爬取
了解如何使用浏览器的开发人员工具进行爬取。
- 选择动态加载的内容
读取动态加载的网页数据。
- 调试内存泄漏
了解如何在爬虫中找到并摆脱内存泄漏。
- 下载和处理文件和图像
下载与您的刮过的物品相关的文件和/或图像。
- 部署爬虫
部署你的Scrapy爬虫并在远程服务器中运行它们。
- 自动节流扩展
根据负载动态调整爬网速率。
- 基准测试
检查Scrapy在您的硬件上的表现。
- 作业: 暂停和恢复抓取
了解如何为大型爬虫暂停和恢复爬行。
- 协程
使用协调语法.
- asyncio