当前位置： > 平面设计 > Freehand教程 > 文章内容

python爬取网页标题(python获取网页标题)

http://www.itjxue.com 2023-03-26 10:59 来源:未知 点击次数:

python如何正确抓取网页标题

首先利用urllib抓取网页的html，然后再利用beautifulsoup工具解析html，获取其中的title标签中的值即可。

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('')

print(res)

print(type(res))

Response [200]

class 'requests.models.Response'

产品id索引爬取标签内的产品各项标题链接价格 python可以使用网页请求方式:最常见的方式，一般用于获取或者查询资源信息，也是大多数网站使用的方式，响应速度快，或者多以表单形式上传参数，因此除了查询信息外，还可以修改信息。

另外可以以开发者的身份进入网站进行价格查询，打开网页，用开发者模式，任意复制一条首条新闻标题，粘贴到搜索框里。开发者模式，依次点击‘network’,‘XHR’找到翻译数据，点击Headers，请求为get方式，使用Beautiful soup解析网页，然后再安装bs。

Beautiful soup 指定xlml解析器进行解析，soup=BeautifulSoup(strhtml.text,'lxml'使用select（选择器）定位数据，使用浏览器的开发者模式，将鼠标停留在对应数据位置并右击。

开发者界面会有被选中部分，右击 ?copy ?--- copy selector; ? 将路径粘贴在文档中，代码如下#main div div.mtop.firstMod.clearfix div.centerBox ul.newsList li:nth-child(1) a。

这是选中的第一条路径，但我们要获取所有的新闻头条，因此将：li:nth-child(1)中冒号（包含冒号）后面的删掉。如下：#main div div.mtop.firstMod.clearfix div.centerBox ul.newsList li a，然后就可以直接查询了。