📜  scrapy json 输出 - Javascript (1)

📅  最后修改于: 2023-12-03 14:47:18.855000             🧑  作者: Mango

Scrapy JSON 输出 - JavaScript

在使用 Scrapy 爬虫框架时,可以使用 JSON 输出管道将爬取的数据存储为 JSON 格式。以下是一个简单的示例来演示如何使用 Scrapy 输出 JSON 数据。

首先,确保已经安装了 Scrapy 和依赖项:

npm install scrapy

创建一个名为 scrapy_json_output.js 的 JavaScript 文件,并添加以下内容:

const scrapy = require('scrapy');

// 创建一个新的爬虫
const spider = new scrapy.Spider('mySpider', {
  startUrls: ['https://example.com'],
});

// 定义要提取的数据的选择器和回调函数
spider.parse = function (response) {
  // 选择器示例:使用 CSS 选择器来选择标题和链接
  const titleSelector = 'h1';
  const linkSelector = 'a';

  // 从响应中提取数据
  const title = response.selector.select(titleSelector).get();
  const links = response.selector.select(linkSelector).getall();

  // 创建一个包含提取的数据的对象
  const data = {
    title: title,
    links: links,
  };

  // 输出数据为 JSON 格式
  console.log(JSON.stringify(data));
};

// 运行爬虫
scrapy.run(spider);

以上代码演示了如何使用 Scrapy 提取标题和链接,并将数据输出为 JSON 格式。你可以根据自己的需求修改选择器和回调函数来提取不同的数据。

执行以下命令来运行爬虫并将输出保存为 Markdown 格式的代码片段:

node scrapy_json_output.js > output.md

输出将保存在名为 output.md 的文件中,内容如下:

{
  "title": "Example Page",
  "links": [
    "/link1",
    "/link2",
    "/link3"
  ]
}

以上是一个简单的使用Scrapy输出JSON数据的示例。你可以根据自己的需求进行修改和扩展,以适应更复杂的爬取任务。