当前位置： > 网络安全 > 安全基础 > 新手入门 > 文章内容

python获取网页数据的库(python爬取网页数据)

http://www.itjxue.com 2023-03-25 03:59 来源:未知 点击次数:

如何用python抓取网页数据库

最简单可以用urllib，python2.x和python3.x的用法不同，以python2.x为例：

import urllib

html = urllib.open(url)

text = html.read()

复杂些可以用requests库，支持各种请求类型，支持cookies，header等

再复杂些的可以用selenium，支持抓取javascript产生的文本

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('')

print(res)

print(type(res))

Response [200]

class 'requests.models.Response'

python获取网页数据的库(python爬取网页数据)

很多，最简单常见的是urllib2+BeautifulSoup，网上百度python爬虫教程很多。