python访问网页用什么库(python调用浏览器打开网页)

http://www.itjxue.com  2023-04-01 08:22  来源:未知  点击次数: 

python用于web开发的第三方库有哪些

1. wxPython

wxPython 是一个跨平台的 GUI 工具集,是 Python 语言的一套优秀的 GUI 图形库,允许程序员创建完整的、功能键全的 GUI 用户界面。它以wxWidgets为基础,可以分别在Windows、Mac OS、Linux上调用它们的本地组件,让 GUI 程序在不同的平台上显示对应的风格。

2. Kivy

Kivy 是一个开源库,能够让使用相同源代码创建的程序实现跨平台运行,而且它还可以做创新型用户界面开发,如果有做创新型用户界面的可以关注一下。

3. Dabo

Dabo是一个跨平台的应用程序开发框架,它使用Python语言开发,基于wxpython的再封装库。作为一个跨平台应用开发框架,它可以用来建立以数据为中心的应用程序,而且还提供数据库访问,商业逻辑以及用户界面。

4. Flexx

Flexx 是一个Python工具包,可以用来创建图形化界面程序,还支持使用 Web 技术进行界面的渲染,只要有 Python 和浏览器就可以运行。

5. Tkinter

这是一个跨平台图形用户界面GUI开发工具,是Tk图形用户界面工具包标准的Python接口,它很轻量,而且可以运行于绝大多数的Unix平台、Windows和Macintosh系统。

6. PyQt

PyQt 是一个非常全面的库,是Python编程语言和Qt库的成功融合。Qt本身是一个扩展的C++ GUI应用开发框架,可以在UNIX、Windows和Mac OS X上运行,而且能跨平台使用,被广泛应用于许多行业。

7. PyGTK

PyGTK 主要适用于 Linux/UNIX 系统,基于老版本的 GTK+2 的库提供绑定,借助于底层 GTK+2 所提供的各种可视化元素和组件,能开发出在 GNOME 桌面系统上运行的软件。值得一提的是,PyGTK 对 GTK+2 的C语言进行了简单封装,提供了面向对象的编程接口。

8. Pywin32

Windows Pywin32 库允许我们像 VC 一样的形式使用 Python 开发 win32 应用。Pywin32提供了很多访问windows的API。较重要的三个模块就是win32api、win32gui和win32con。

全方面的掌握Requests库的使用【python爬虫入门进阶】(02)

上一篇文章简单的介绍了 爬虫相关的基础知识点,介绍了一个标准爬虫程序的三个步骤 。这篇文章就让我们接着来学习。

本文重点介绍requests库的使用以及爬虫协议。之前也写了一篇 Requests库使用的博客 ,有兴趣的小伙伴可以去看看。

前面介绍了Requests库是用来抓取网页源码,请求接口的利器,整体上是要比urllib库的request更加好用的库。官网上将其称之为唯一一个非转基因的Python HTTP库,人类可以安全享用。

Requests库有7个主要方法。

不过我们平常最常用的方法还是GET方法和POST方法。

get请求方法是爬虫中最常用到的方法,因为爬虫主要就是爬取网页的信息。最基础的使用是

这里需要通过 res.encoding='utf-8' 设置响应结果的编码格式是utf-8。不然可能会出现中文乱码

如果响应结果是二进制数据的话则需要通过 res.content 方法来提取响应结果。

设置编码的方式也可以是 res.content.decode('utf-8') 。

有时候get请求也需要传入参数,这里可以直接将参数拼接到URL上或者通过params参数传入一个字典。

运行结果是:

get请求只能传入简单的参数,如果参数比较复杂或者传入的参数比较多的话则GET请求就不再适用了,这时候就需要适用post请求方法了。

Post请求的请求类型有三种:

以表单的方式提交数据是POST请求的默认的请求格式,只需要将参数放在一个字典中进行传入即可。

这里将请求头的数据放在一个名为header的字典中,然后在请求时通过headers参数传入。在请求中设置了内容类型是 application/json ,编码格式是 charset=utf-8

传入的是一个json字符串,通过data参数进行传入。json字符串可以直接写也可以通过 json.dumps(dict) 方法将一个字典序列化,就像下面这样。

文件上传与本节爬虫的内容无关,在此就不过多介绍了。有兴趣的小伙伴可以看看 Python中如何编写接口,以及如何请求外部接口 这篇文章。

在网络请求中,我们常常会遇到状态码是3开头的重定向问题,在Requests中是默认开启允许重定向的,即遇到重定向时,会自动继续访问。通过将allow_redirects 属性设置为False不允许重定向。

通过timeout属性可以设置超时时间,单位是秒。get方法和post方法均可设置。

通过status_code属性可以获取接口的响应码。

有时候我们使用了抓包工具,这时候由于抓包证书提供的证书并不是受信任的数字证书颁发机构颁发的,所以证书的验证会失败,所以我们就需要关闭证书验证。在请求的时候把verify参数设置为False就可以关闭证书验证了。

爬虫协议也叫做robots协议,告诉网络蜘蛛哪些页面可以爬取,哪些页面不能爬取

爬虫文件的规范是:

允许所有的机器人

本文详细介绍了Request库的使用

python用来通过网络连接获取网页内容的外库是

题主你好,

现在比较常用的是: requests

-----

希望可以帮到题主, 欢迎追问.

(责任编辑:IT教学网)

更多