Scrapy 2.4文档

Scrapy是一个快速的高级网络爬行 and 网络爬取框架,用于抓取网站并从其页面中提取结构化数据。它可用于广泛的用途,从数据挖掘到监控和自动化测试。

获取帮助

有麻烦吗?我们愿意帮忙!

第一步

Scrapy一瞥

了解什么是Scrapy,以及它如何帮助你。

安装指南

获取安装在您的计算机上的Scrapy。

Scrapy教程

写你的第一个Scrapy项目。

示例

通过玩预先制作的Scrapy项目来了解更多信息。

基本概念

命令行工具

了解用于管理Scrapy项目的命令行工具。

爬虫

编写规则来抓取你的网站。

选择器

使用XPath从网页中提取数据。

Scrapy shell

在交互式环境中测试您的提取代码。

Items

定义您要刮的数据。

Item 加载器

使用提取的数据填充您的项目。

Item 管道

后处理和存储您的抓取数据。

Feed 导出

使用不同的格式和存储输出您的抓取数据。

请求和响应

了解用于表示HTTP请求和响应的类。

链接提取器

方便类从页面中提取要关注的链接。

设置

了解如何配置Scrapy并查看所有可用设置.

异常

查看所有可用的例外及其含义。

内置服务

日志

了解如何使用Python在Scrapy上的内置日志记录。

统计数据收集

收集有关您的刮爬虫的统计数据。

发送电子邮件

在某些事件发生时发送电子邮件通知。

Telnet控制台

使用内置的Python控制台检查正在运行的爬虫

Web服务

使用web服务监视和控制爬虫。

解决具体问题

常见问题解答

获取最常见问题的答案。

调试爬虫

了解如何调试你的Scrapy爬虫的常见问题。

爬虫合同

了解如何使用合同来测试你的爬虫。

常用做法

熟悉一些Scrapy的常见做法。

项目自动填充内容

调整Scrapy,用于并行抓取很多域。

使用浏览器的开发者工具进行爬取

了解如何使用浏览器的开发人员工具进行爬取。

选择动态加载的内容

读取动态加载的网页数据。

调试内存泄漏

了解如何在爬虫中找到并摆脱内存泄漏。

下载和处理文件和图像

下载与您的刮过的物品相关的文件和/或图像。

部署爬虫

部署你的Scrapy爬虫并在远程服务器中运行它们。

自动节流扩展

根据负载动态调整爬网速率。

基准测试

检查Scrapy在您的硬件上的表现。

作业: 暂停和恢复抓取

了解如何为大型爬虫暂停和恢复爬行。

协程

使用协调语法.

asyncio

使用asyncio and asyncio-动力库。

扩展Scrapy

架构概述

了解Scrapy架构。

下载器中间件

自定义页面如何获得请求和下载。

爬虫中间件

自定义您的爬虫的输入和输出。

扩展

使用自定义功能扩展Scrapy

核心API

在扩展和中间件上使用它来扩展Scrapy功能

信号

查看所有可用的信号以及如何使用它们。

Item 导出器

快速将您的爬取的项目导出到文件 (XML,CSV等)。

剩下的全部

发行说明

看看最近的Scrapy版本有什么变化。

为Scrapy做出贡献

了解如何为Scrapy项目做出贡献。

版本控制和API稳定性

了解Scrapy版本控制和API稳定性。