七、Scrapy框架-案例1

2024-09-21 12:21 由溪奇的数据发表于 #后端开发

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

安装Scrapy库
```
pip install scrapy
```
创建Scrapy项目

通过cmd进入命令窗口，执行命令scrapy startproject xxxx (xxxx为scrapy项目名)，创建scrapy项目。
```
scrapy startproject douban_spider2024
```
创建爬虫项目

执行scrapy genspider xxx（爬虫名称） xxx（网址）创建爬虫项目。
```
scrapy genspider douban www.bouban.com
```

1.2 虚拟环境构建

使用Pycharm打开创建好的douban_spider2024文件夹，进入项目。
构建虚拟环境(venv)
利用requirement.txt文件安装依赖库，也可以自己一个个pip安装。
- 查看依赖库：pip freeze > requirements.txt
- 安装依赖库：pip install -r requirements.txt

1.3 主程序编写

主程序（douban.py）用于编写解析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

通过start_requests函数获取urls列表，并用Request封装（需要配合在settings.py中启用下载中间件）。
通过parse函数进行网页解析。

1.4 items.py设置

继承scrapy.Item的自定义类SongItem，导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数，例如USER_AGENT、COOKIES、代理、中间件启停等。

修改USER_AGENT，模拟浏览器登录。
关闭Obey robots.txt rules，将True设置为False。
设置下载延迟
打开下载中间件（downloader_middlewares），实现拦截并修改Request的请求内容。

1.6 middlewares.py设置

cookies设置

进入middlewares.py程序中设置，新增一个处理cookies的函数，执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。
scrapy 利用sock代理？？

1.7 多层url解析

利用回调函数解析多层url：在parse函数最后解析获取新的url，并提交新的Request，并传递item到回调函数parse_detail中解析。
在items.py中添加新的item信息。

1.8 pipelines.py设置

通过pipelines.py构建Excel存储管道，用于将爬取的数据存储到excel中。

相关文章

manim边学边做--空心多边形

空心的多边形Cutout是一种比较特殊的多边形，主要用于解决与形状、大小、位置等相关的数学问题。 Cutout多边形可以定义物体表面的空洞或凹陷部分，从而更准确地模拟现实世界中的复杂形状。比如，在PCB（印制电路板）设计中，通过放置Cutout空心的多边形，设计师可以精确地控制铜的覆盖区域，从而优 ...阅读全文

快速高效率学习一项新技术或者语法并且保持长期记忆的方法

技术概述：介绍xxx是什么，例如“Stream是Java 8引入的用于处理集合的API”。应用场景：说明xxx可以用来做什么，例如“Stream可用于数据过滤、映射、排序和聚合”。优缺点分析：列出xxx的优点和缺点，例如“Stream的优点是简化代码、支持并行处理；缺点是可能对性能有影响，尤其在 ...阅读全文

辜老师的C++课堂笔记

不代表全部内容目录第二章类型、常量及变量2.1 C++的单词2.2 预定义类型（内置数据类型）及值域和常量2.2.1 常见预定义类型2.2.2预定义类型的数值输出格式化2.3 变量及其类型解析2.3.1 变量的声明和定义（C++11标准3.1节）2.3.2 变量的初始化（C++11标准8.5节） ...阅读全文

Scala编程语言基本常识

本文参考来源： Scala编程语言基本常识 – 萌面人博客一基本常识 Scala被称为大数据的黄金语言，它的发明人是马丁奥德斯基（Martin Odersky） 2001年诞生，融合了Java和JS中很多特性。 Hadoop生态圈以java语言为主，而Spark以scala为主要语言 2 ...阅读全文

IDEA 换了电脑，如何导入和导出配置？

前言我们在使用IDEA开发时，经常会设置各种各样的配置，时间一长，就会有很多个性化的东西。用起来也越来越顺手。不过这里可能会有个问题，那就是哪一天我们要换个电脑了，或者想安装新版本的IDEA时，又得重新配置下来。这复杂度堪比重装系统后的各种安装软件。那么，我们有没有办法把原来的IDEA配置一键 ...阅读全文

反射相关API

反射的作用在不修改源码的情况下，扩展功能。程序在运行的时期，通过反射机制，获取类的所有内部信息，并且操作类的对象。 Class类一个类在堆中只有一个Class对象，这个Class对象包含了类的完整结构信息反射技术是针对Class对象进行操作，在程序运行的时候，动态获取类中的所有成员 [1] ...阅读全文

【python爬虫案例】利用python爬取豆瓣读书评分TOP250排行数据

一、爬取案例-豆瓣读书TOP250 上一期给大家分享了个python爬虫案例：豆瓣电影TOP250的排行榜数据爬取【python爬虫案例】利用python爬虫爬取豆瓣电影评分TOP250排行数据！今天再给大家分享一下：豆瓣读书排行榜TOP250的python爬虫案例！因为是同一个网站，所以流程 ...阅读全文

双非一本，非科班，人生逆袭之路，怒拿两个互联网顶级大厂 offer！

大家好，我是R哥。今天分享一个激动人心的面试辅导案例，一个双非一本、非科班的兄弟，通过在职辅导，拿到两个一线互联网顶级大厂 offer，年薪 50 万+，涨幅 40% 左右。先介绍下这个兄弟的背景：这兄弟基本面还不错，30+ 了，虽说是一本，但并非科班出身，优势是在一家互联网中厂上班，具备互联 ...阅读全文

QT硬件异构计算

QT硬件异构计算使用AI技术辅助生成 1 QT硬件异构计算概述 1.1 硬件异构计算概念 1.1.1 硬件异构计算概念硬件异构计算概念《QT硬件异构计算》正文硬件异构计算概念在进入具体的硬件异构计算概念之前，我们首先需要理解什么是硬件异构。硬件异构是指在一个计算系统中，存在着不同类型或不同 ...阅读全文

linux 基础知识什么是僵尸进程？有什么影响？如何解决？

linux 系统僵尸进程在Linux系统中，僵尸进程（Zombie Process）是一种特殊的进程状态，它指的是一个已经完成执行的进程，其父进程尚未通过wait()或waitpid()系统调用来回收其资源和状态信息。僵尸进程本身并不占用CPU和其他资源，但它的进程描述符（PCB）仍然保留在系统 ...阅读全文