📝 Scrapy教程

29篇技术文档
  Scrapy教程

📅  最后修改于: 2020-10-31 14:30:18        🧑  作者: Mango

Scrapy是一个用Python编写的快速,开放源代码的Web爬网框架,用于在基于XPath的选择器的帮助下从网页中提取数据。本教程是为需要从头学习Scrapy Web搜寻器的软件程序员设计的。先决条件您应该对计算机编程术语和Python有基本的了解。对XPath有基本的了解是一个加号。...

  Scrapy-概述

📅  最后修改于: 2020-10-31 14:30:34        🧑  作者: Mango

Scrapy是一个用Python编写的快速,开放源代码的Web爬网框架,用于在基于XPath的选择器的帮助下从网页中提取数据。Scrapy于2008年6月26日首次发布,获得了BSD的许可,并在2015年6月发布了里程碑1.0。为什么要使用Scrapy?构建和扩展大型爬网项目更容易。它具有称为选择器的内置机制,用于从网站提取数据。它异步处理请求,而且速度很快。它使用自动节流机制自动调整爬行速度。确...

  Scrapy-环境

📅  最后修改于: 2020-10-31 14:30:58        🧑  作者: Mango

在本章中,我们将讨论如何安装和设置Scrapy。 Scrapy必须使用Python安装。可以使用pip安装Scrapy。要安装,请运行以下命令-视窗注– Windows OS不支持Python 3。第1步-从Python安装Python 2.7通过将以下路径添加到PATH来设置环境变量-您可以使用以下命令检查Python版本-步骤2-安装OpenSSL。在您的环境变量中添加C:\ OpenSSL-...

  Scrapy-命令行工具

📅  最后修改于: 2020-10-31 14:31:25        🧑  作者: Mango

描述Scrapy命令行工具用于控制Scrapy,通常将其称为“ Scrapy工具”。它包括带有一组参数和选项的各种对象的命令。配置设定Scrapy将在scrapy.cfg文件中找到配置设置。以下是一些位置-系统中的C:\ scrapy(项目文件夹)\ scrapy.cfg〜/ .config / scrapy.cfg($ XDG_CONFIG_HOME)和〜/ .scrapy.cfg($ HOME...

  Scrapy-蜘蛛

📅  最后修改于: 2020-10-31 14:32:13        🧑  作者: Mango

描述Spider是负责定义如何通过网站链接并从页面提取信息的类。Scrapy的默认蜘蛛如下所示-爬虫它是所有其他蜘蛛都必须继承的蜘蛛。它具有以下类别-下表显示了scrapy.Spider类的字段-Sr.NoField & Description1nameIt is the name of your spider.2allowed_domainsIt is a list of domains on ...

  Scrapy-物品

📅  最后修改于: 2020-10-31 14:32:32        🧑  作者: Mango

描述爬虫程序可用于使用爬虫从诸如网页之类的源中提取数据。 Scrapy使用Item类来生成输出,其对象用于收集被抓取的数据。申报项目您可以使用类定义语法以及如下所示的字段对象来声明项目:项目字段项目字段用于显示每个字段的元数据。由于字段对象上的值没有限制,因此可访问的元数据键不会保留任何元数据引用列表。字段对象用于指定所有字段元数据,并且您可以根据项目中的要求指定任何其他字段键。可以使用Item....

  Scrapy-物品装载器

📅  最后修改于: 2020-10-31 14:33:45        🧑  作者: Mango

描述项目加载器提供了一种便捷的方法来填充从网站上抓取的项目。声明项目加载器项加载器的声明类似于项。例如-在上面的代码,你可以看到,输入处理器使用_in后缀和输出处理器使用_out后缀声明声明。ItemLoader.default_input_processor和ItemLoader.default_output_processor属性用于声明默认输入/输出处理器。使用项目加载器填充项目要使用Ite...

  Scrapy-Shell

📅  最后修改于: 2020-10-31 14:34:15        🧑  作者: Mango

描述Scrapy Shell可以使用无错误代码来擦除数据,而无需使用Spider。 Scrapy shell的主要目的是测试提取的代码,XPath或CSS表达式。它还有助于指定要从中抓取数据的网页。配置外壳可通过安装IPython控制台(用于交互式计算)控制台来配置该外壳,该控制台是功能强大的交互式外壳,可提供自动完成功能,彩色输出等。如果您正在Unix平台上工作,则最好安装IPython。如果无...

  Scrapy-项目管道

📅  最后修改于: 2020-10-31 14:34:41        🧑  作者: Mango

描述物料管道是一种处理报废物料的方法。将项目发送到项目管道时,它会被蜘蛛抓取并使用多个组件进行处理,这些组件将按顺序执行。每当收到项目时,它都会决定以下任一操作-继续处理该项目。从管道中删除它。停止处理该项目。物料管道通常用于以下目的-在数据库中存储报废的项目。如果收到的项目重复,则它将丢弃重复的项目。它将检查项目是否具有目标字段。清除HTML数据。句法您可以使用以下方法编写项目管道-上面的方法包...

  Scrapy-饲料出口

📅  最后修改于: 2020-10-31 14:35:02        🧑  作者: Mango

描述Feed导出是一种存储从站点抓取的数据的方法,该方法会生成“导出文件”。序列化格式Feed Exports使用多种序列化格式和存储后端,使用Item导出程序并生成包含刮擦项的feed。下表显示了受支持的格式-Sr.NoFormat & Description1JSONFEED_FORMAT isjsonExporter used isclass scrapy.exporters.JsonIte...

  Scrapy-请求和响应

📅  最后修改于: 2020-10-31 14:35:59        🧑  作者: Mango

描述Scrapy可以使用Request和Response对象对网站进行爬网。请求对象经过系统,使用蜘蛛程序执行请求,并在返回响应对象时返回到请求。请求对象该请求对象是一个生成响应的HTTP请求。它具有以下类别-下表显示了Request对象的参数-Sr.NoParameter & Description1urlIt is a string that specifies the URL request...

  Scrapy-链接提取器

📅  最后修改于: 2020-10-31 14:36:21        🧑  作者: Mango

描述顾名思义,链接提取器是用于使用scrapy.http.Response对象从网页提取链接的对象。在Scrapy中,有内置的提取器,例如scrapy.linkextractorsimportLinkExtractor。您可以通过实现简单的界面根据需要自定义自己的链接提取器。每个链接提取器都有一个名为extract_links的公共方法,该方法包含一个Response对象,并返回scrapy.li...

  Scrapy-设置

📅  最后修改于: 2020-10-31 14:37:17        🧑  作者: Mango

描述可以使用Scrapy设置修改Scrapy组件的行为。如果您有多个Scrapy项目,这些设置还可以选择当前处于活动状态的Scrapy项目。指定设置抓取网站时,您必须通知Scrapy您正在使用哪个设置。为此,应使用环境变量SCRAPY_SETTINGS_MODULE,其值应采用Python路径语法。填充设置下表显示了一些可用于填充设置的机制-Sr.NoMechanism & Description...

  Scrapy-异常

📅  最后修改于: 2020-10-31 14:37:33        🧑  作者: Mango

描述不规则事件称为异常。在Scrapy中,由于缺少配置,从项目管道中删除项目等原因而引发了异常。以下是Scrapy及其应用中提到的异常列表。DropItem物料管道使用此异常在任何阶段停止处理物料。它可以写成-关闭蜘蛛此异常用于使用回调请求停止蜘蛛。它可以写成-它包含称为原因(str)的参数,该参数指定关闭的原因。例如,以下代码显示了此异常的用法-忽略请求调度程序或下载程序中间件使用此异常来忽略请...

  Scrapy-创建项目

📅  最后修改于: 2020-10-31 14:37:46        🧑  作者: Mango

描述要从网页上抓取数据,首先您需要创建Scrapy项目,您将在其中存储代码。要创建新目录,请运行以下命令-上面的代码将创建一个名为first_scrapy的目录,并将包含以下结构-...