📝 Scrapy教程

29篇技术文档
  Scrapy-定义项目

📅  最后修改于: 2020-10-31 14:38:00        🧑  作者: Mango

描述项目是用于收集从网站抓取的数据的容器。您必须通过定义商品来启动蜘蛛。要定义项目,编辑items.py文件目录下first_scrapy(自定义目录)中。items.py如下所示-MyItem类从Item继承,该Item包含Scrapy已经为我们构建的许多预定义对象。例如,如果要从站点提取名称,URL和描述,则需要为这三个属性中的每一个定义字段。因此,让我们添加我们要收集的项目-...

  Scrapy-第一蜘蛛

📅  最后修改于: 2020-10-31 14:38:14        🧑  作者: Mango

描述Spider是一个类,用于定义要从中提取数据的初始URL,如何遵循分页链接以及如何提取和解析items.py中定义的字段。 Scrapy提供了不同类型的蜘蛛,每种蜘蛛都有特定的用途。在first_scrapy / spiders目录下创建一个名为“ first_spider.py”的文件,在这里我们可以告诉Scrapy如何找到所需的确切数据。为此,您必须定义一些属性-名称-它定义了蜘蛛的唯一名...

  Scrapy-爬行

📅  最后修改于: 2020-10-31 14:38:29        🧑  作者: Mango

描述要执行蜘蛛,请在first_scrapy目录中运行以下命令-其中,第一个是创建蜘蛛时指定的蜘蛛名称。蜘蛛爬行后,您将看到以下输出-从输出中可以看到,每个URL都有一个日志行(参考:无),指出URL是起始URL,没有参考。接下来,您应该看到在first_scrapy目录中创建了两个名为Books.html和Resources.html的新文件。...

  Scrapy-提取项目

📅  最后修改于: 2020-10-31 14:38:53        🧑  作者: Mango

描述为了从网页提取数据,Scrapy使用了一种称为选择器的技术,该技术基于XPath和CSS表达式。以下是XPath表达式的一些示例-/ html / head / title-这将在HTML文档的<head>元素内选择<title>元素。/ html / head / title / text()-这将选择同一<title>元素内的文本。// td-这将从<td>中选择所有元素。// div [...

  Scrapy-使用项目

📅  最后修改于: 2020-10-31 14:39:07        🧑  作者: Mango

描述Item对象是Python的常规命令。我们可以使用以下语法访问类的属性-将上面的代码添加到以下示例中-上面的蜘蛛的输出将是-...

  Scrapy-后续链接

📅  最后修改于: 2020-10-31 14:39:25        🧑  作者: Mango

描述在本章中,我们将研究如何提取我们感兴趣的页面的链接,跟踪它们并从该页面提取数据。为此,我们需要在之前的代码中进行以下更改,如下所示:上面的代码包含以下方法-parse()-它将提取我们感兴趣的链接。response.urljoin-parse()方法将使用此方法构建新的URL并提供新的请求,该请求稍后将发送至回调。parse_dir_contents()-这是一个实际上将抓取感兴趣数据的回调。...

  Scrapy-爬取数据

📅  最后修改于: 2020-10-31 14:39:38        🧑  作者: Mango

描述存储抓取数据的最佳方法是使用Feed导出,以确保使用多种序列化格式正确存储了数据。 JSON,JSON行,CSV,XML是序列化格式中容易支持的格式。数据可以使用以下命令存储-此命令将创建一个data.json文件,其中包含JSON中的抓取数据。该技术适用于少量数据。如果必须处理大量数据,则可以使用项目管道。就像data.json文件一样,在tutorial / pipelines.py中创建...

  Scrapy-日志记录

📅  最后修改于: 2020-10-31 14:40:10        🧑  作者: Mango

描述日志记录意味着跟踪事件,该事件使用内置的日志记录系统并定义函数和类以实现应用程序和库。日志记录是一种现成的资料,可以与“日志记录”设置中列出的Scrapy设置一起使用。Scrapy将设置一些默认设置,并在运行命令时借助scrapy.utils.log.configure_logging()处理这些设置。日志级别在Python,日志消息有五种不同的严重性级别。以下列表按升序显示标准日志消息-lo...

  Scrapy-统计收集

📅  最后修改于: 2020-10-31 14:40:30        🧑  作者: Mango

描述Stats Collector是Scrapy提供的一种用于收集键/值形式的统计信息的工具,可使用Crawler API进行访问(Crawler提供对所有Scrapy核心组件的访问)。统计信息收集器为每个蜘蛛网提供一个统计信息表,其中,当蜘蛛网打开时,统计信息收集器自动打开,而当蜘蛛网关闭时,统计信息收集器关闭。常用统计收集器用途以下代码使用stats属性访问stats收集器。下表显示了可与统计...

  Scrapy-发送电子邮件

📅  最后修改于: 2020-10-31 14:40:55        🧑  作者: Mango

描述Scrapy可以使用自己的称为Twisted non-blocking IO的工具发送电子邮件,该工具与爬网程序的non-blocking IO保持距离。您可以配置一些发送电子邮件的设置,并提供用于发送附件的简单API。实例化MailSender的方法有两种,如下表所示-Sr.NoParametersMethod1from scrapy.mail import MailSender maile...

  Scrapy-Telnet控制台

📅  最后修改于: 2020-10-31 14:41:18        🧑  作者: Mango

描述Telnet控制台是在Scrapy进程中运行的Python shell,用于检查和控制Scrapy运行的进程。访问Telnet控制台可以使用以下命令访问telnet控制台-基本上,telnet控制台在TCP端口中列出,这在TELNETCONSOLE_PORT设置中进行了描述。变数下表中提供的一些默认变量用作快捷方式-Sr.NoShortcut & Description1crawlerThis...

  Scrapy-Web服务

📅  最后修改于: 2020-10-31 14:41:32        🧑  作者: Mango

描述可以通过JSON-RPC来控制正在运行的Scrapy Web搜寻器。通过JSONRPC_ENABLED设置启用它。该服务通过JSON-RPC 2.0协议提供对主搜寻器对象的访问。用于访问搜寻器对象的端点为-下表包含一些显示Web服务行为的设置-Sr.NoSetting & DescriptionDefault Value1JSONRPC_ENABLEDThis refers to the bo...

  Scrapy-有用的资源

📅  最后修改于: 2020-10-31 14:41:47        🧑  作者: Mango

以下资源包含有关Scrapy的其他信息。请使用它们来获得有关此方面的更深入的知识。Scrapy上的有用链接Scrapy Wiki–Scrapy的维基百科参考Scrapy–Scrapy的官方网站关于Scrapy的有用书籍要在此页面上注册您的网站,请发送电子邮件至contact@tutorialspoint.com...

  讨论Scrapy

📅  最后修改于: 2020-10-31 14:41:59        🧑  作者: Mango

Scrapy是一个用Python编写的快速,开放源代码的Web爬网框架,用于在基于XPath的选择器的帮助下从网页中提取数据。...