📜  电晕 - Python (1)

📅  最后修改于: 2023-12-03 14:56:26.020000             🧑  作者: Mango

电晕 - Python

简介

电晕 - Python 是一款开源的Python爬虫框架,能够方便快捷地实现网站数据的抓取。

使用 电晕 - Python 可以:

  • 自定义配置爬虫;
  • 支持多线程、分布式爬虫;
  • 支持定时爬虫;
  • 支持爬虫续爬;
  • 支持爬取动态加载的页面;
  • 支持数据持久化。
安装

可以使用pip安装:

pip install dython
使用
示例1 - 爬取静态网页
import dython

class MySpider(dython.Spider):
    start_urls = ['https://www.example.com']

    def parse(self, response):
        print(response.text)

if __name__ == '__main__':
    spider = MySpider()
    spider.run()
示例2 - 爬取动态页面
import dython

class MySpider(dython.Spider):
    start_urls = ['https://www.example.com']

    def parse(self, response):
        driver = response.driver
        driver.get(response.url)
        print(driver.page_source)

if __name__ == '__main__':
    spider = MySpider()
    spider.run()
示例3 - 定时爬取
import dython
import time

class MySpider(dython.Spider):
    start_urls = ['https://www.example.com']

    def parse(self, response):
        print(response.text)

if __name__ == '__main__':
    spider = MySpider()
    while True:
        spider.run()
        time.sleep(60 * 60 * 24) # 每隔一天运行一次
结语

电晕 - Python 提供了简单易用的API,可以在Python爬虫的开发过程中提高效率,节约时间。希望本文可以帮助到大家。