当前位置： > 平面设计 > Fireworks教程 > 文章内容

python爬虫scrapy框架安装教程(python爬虫框架scrapy 教程)

http://www.itjxue.com 2023-04-08 02:06 来源:未知 点击次数:

如何在linux ubuntu 下安装scapy pyx

最近在学习爬虫，早就听说Python写爬虫极爽（貌似pythoner说python都爽，不过也确实，python的类库非常丰富，不用重复造轮子），还有一个强大的框架Scrapy，于是决定尝试一下。

要想使用Scrapy第一件事，当然是安装Scrapy，尝试了Windows和Ubuntu的安装，本文先讲一下 Ubuntu的安装，比Windows的安装简单太多了。抽时间也会详细介绍一下怎么在Windows下进行安装。

官方介绍，在安装Scrapy前需要安装一系列的依赖.

* Python 2.7： Scrapy是Python框架，当然要先安装Python ，不过由于Scrapy暂时只支持 Python2.7，因此首先确保你安装的是Python 2.7

* lxml：大多数Linux发行版自带了lxml

* OpenSSL：除了windows之外的系统都已经提供

* Python Package: pip and setuptools. 由于现在pip依赖setuptools,所以安装pip会自动安装setuptools

有上面的依赖可知，在非windows的环境下安装 Scrapy的相关依赖是比较简单的，只用安装pip即可。Scrapy使用pip完成安装。

检查Scrapy依赖是否安装

你可能会不放心自己的电脑是否已经安装了，上面说的已经存在的依赖，那么你可以使用下面的方法检查一下，本文使用的是Ubuntu 14.04。

检查Python的版本

$ python --version

如果看到下面的输出，说明Python的环境已经安装，我这里显示的是Python 2.7.6，版本也是2.7的满足要求。如果没有出现下面的信息，那么请读者自行百度安装Python，本文不介绍Python的安装（网上一搜一堆）。

检查lxml和OpenSSL是否安装

假设已经安装了Python，在控制台输入python，进入Python的交互环境。

然后分别输入import lxml和import OpenSSL如果没有报错，说明两个依赖都已经安装。

安装python-dev和libevent

python-dev是linux上开发python比较重要的工具，以下的情况你需要安装

* 你需要自己安装一个源外的python类库, 而这个类库内含需要编译的调用python api的c/c++文件

* 你自己写的一个程序编译需要链接libpythonXX.(a|so)

libevent是一个时间出发的高性能的网络库，很多框架的底层都使用了libevent

上面两个库是需要安装的，不然后面后报错。使用下面的指令安装

$sudo apt-get install python-dev

$sudo apt-get install libevent-dev

安装pip

因为Scrapy可以使用pip方便的安装，因此我们需要先安装pip，可以使用下面的指令安装pip

$ sudo apt-get install python-pip

使用pip安装Scrapy

使用下面的指令安装Scrapy。

$ sudo pip install scrapy

记住一定要获得root权限，否则会出现下面的错误。

至此scrapy安装完成，使用下面的命令检查Scrapy是否安装成功。

$ scrapy version

显示如下结果说明安装成功，此处的安装版本是1.02

python爬虫scrapy框架安装教程(python爬虫框架scrapy 教程)

Python编程基础之（五）Scrapy爬虫框架

经过前面四章的学习，我们已经可以使用Requests库、Beautiful Soup库和Re库，编写基本的Python爬虫程序了。那么这一章就来学习一个专业的网络爬虫框架--Scrapy。没错，是框架，而不是像前面介绍的函数功能库。

Scrapy是一个快速、功能强大的网络爬虫框架。

可能大家还不太了解什么是框架，爬虫框架其实是实现爬虫功能的一个软件结构和功能组件的集合。

简而言之， Scrapy就是一个爬虫程序的半成品，可以帮助用户实现专业的网络爬虫。

使用Scrapy框架，不需要你编写大量的代码，Scrapy已经把大部分工作都做好了，允许你调用几句代码便自动生成爬虫程序，可以节省大量的时间。

当然，框架所生成的代码基本是一致的，如果遇到一些特定的爬虫任务时，就不如自己使用Requests库搭建来的方便了。

PyCharm安装

测试安装：

出现框架版本说明安装成功。

掌握Scrapy爬虫框架的结构是使用好Scrapy的重中之重！

先上图：

整个结构可以简单地概括为： “5+2”结构和3条数据流

5个主要模块（及功能）：

（1）控制所有模块之间的数据流。

（2）可以根据条件触发事件。

（1）根据请求下载网页。

（1）对所有爬取请求进行调度管理。

（1）解析DOWNLOADER返回的响应--response。

（2）产生爬取项--scraped item。

（3）产生额外的爬取请求--request。

（1）以流水线方式处理SPIDER产生的爬取项。

（2）由一组操作顺序组成，类似流水线，每个操作是一个ITEM PIPELINES类型。

（3）清理、检查和查重爬取项中的HTML数据并将数据存储到数据库中。

2个中间键：

（1）对Engine、Scheduler、Downloader之间进行用户可配置的控制。

（2）修改、丢弃、新增请求或响应。

（1）对请求和爬取项进行再处理。

（2）修改、丢弃、新增请求或爬取项。

3条数据流：

（1）：图中数字 1-2

1：Engine从Spider处获得爬取请求--request。

2：Engine将爬取请求转发给Scheduler，用于调度。

（2）：图中数字 3-4-5-6

3：Engine从Scheduler处获得下一个要爬取的请求。

4：Engine将爬取请求通过中间件发送给Downloader。

5：爬取网页后，Downloader形成响应--response，通过中间件发送给Engine。

6：Engine将收到的响应通过中间件发送给Spider处理。

（3）：图中数字 7-8-9

7：Spider处理响应后产生爬取项--scraped item。

8：Engine将爬取项发送给Item Pipelines。

9：Engine将爬取请求发送给Scheduler。

任务处理流程：从Spider的初始爬取请求开始爬取，Engine控制各模块数据流，不间断从Scheduler处获得爬取请求，直至请求为空，最后到Item Pipelines存储数据结束。

作为用户，只需配置好Scrapy框架的Spider和Item Pipelines，也就是数据流的入口与出口，便可完成一个爬虫程序的搭建。Scrapy提供了简单的爬虫命令语句，帮助用户一键配置剩余文件，那我们便来看看有哪些好用的命令吧。

Scrapy采用命令行创建和运行爬虫

PyCharm打开Terminal，启动Scrapy：

Scrapy基本命令行格式：

具体常用命令如下：

下面用一个例子来学习一下命令的使用：

1.建立一个Scrapy爬虫工程，在已启动的Scrapy中继续输入：

执行该命令，系统会在PyCharm的工程文件中自动创建一个工程，命名为pythonDemo。

2.产生一个Scrapy爬虫，以教育部网站为例：

命令生成了一个名为demo的spider，并在Spiders目录下生成文件demo.py。

命令仅用于生成demo.py文件，该文件也可以手动生成。

观察一下demo.py文件：

3.配置产生的spider爬虫，也就是demo.py文件：

4.运行爬虫，爬取网页：

如果爬取成功，会发现在pythonDemo下多了一个t20210816_551472.html的文件，我们所爬取的网页内容都已经写入该文件了。

以上就是Scrapy框架的简单使用了。

Request对象表示一个HTTP请求，由Spider生成，由Downloader执行。

Response对象表示一个HTTP响应，由Downloader生成，有Spider处理。

Item对象表示一个从HTML页面中提取的信息内容，由Spider生成，由Item Pipelines处理。Item类似于字典类型，可以按照字典类型来操作。

Python爬虫与mac下Scrapy配置

用Python开发爬虫很方便。

本质：抓取---分析---存储

要点：

（1）get请求：最基本抓取。用到 urllib ?urllib2 ?requests ?httplib2 。

（2）表单登陆：向服务器发送post请求，服务器再将返回的cookie存入本地

（3）使用cookie登陆：

（4）对于反爬虫机制的处理：

(5)对于断线重连：使用multi_session和multi_open对爬虫抓取的session或opener进行保持

（6）多线程抓取

（7）对于Ajax请求

（8）自动化测试工具Selenium

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ，可以分别输入

出现下面的提示这证明已经安装成功

如果想验证 open ssl，则直接输入openssl 即可，如果跳转到 OPENSSL 命令行，则安装成功。

接下来直接安装 Scrapy 即可

安装完毕之后，输入 scrapy

注意，这里linux下不要输入Scrapy，linux依然严格区分大小写的，感谢kamen童鞋提醒。

如果出现如下提示，这证明安装成功

下面是stackoverflow上的高票解决办法：

I've just fixed this issue on my OS X.

Please backup your files first.

Scrapy 1.0.0 is ready to go.

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：新手怎么开始做电商客服(电商客服怎么做的更出色)

下一篇：小学计算机编程语言(小学计算机编程是干什么的)

python爬虫scrapy框架安装教程(python爬虫框架scrapy 教程)

如何在linux ubuntu 下安装scapy pyx

Python编程基础之（五）Scrapy爬虫框架

Python爬虫与mac下Scrapy配置

(责任编辑：IT教学网)

相关Fireworks教程文章

阅读排行

专题教程

推荐Fireworks教程文章

最新更新Fireworks教程