当前位置： > 服务器 > DNS服务器 > 文章内容

pythonselenium菜鸟教程(python selenium3)

http://www.itjxue.com 2023-04-04 03:34 来源:未知 点击次数:

如何在python中使用selenium

1、下载Python2.7版本，默认运行安装即可；

2、安装完成之后，设置Python环境变量C:\Python27（操作步骤：电脑-属性-高级-环境变量-系统变量中的PATH为:变量值： ;C:\Python27 ）

3、在python的官方网站上可以找到SetupTools的下载,解压安装安装即可；

4、当安装SetupTools之后，就可以在python安装目录下看到Script目录，

5、同样在变量中加入 path：C:\Python27\Scripts，

6、打开cmd命令行，将目录切换到C:\Python27\Scripts下，输入命令“easy_install pip“安装pip；

7、安装成功pip之后，执行pip install -U selenium 进行下载安装最新selenium的版本。

pythonselenium菜鸟教程(python selenium3)

关于Python的Selenium框架全解，一篇完整的说明书

安装 selenium 第三方库

下载浏览器驱动：

需要把这些浏览器驱动放入 Python 应用目录里面的 Script 文件夹里面

① 200 多本 Python 电子书（和经典的书籍）应该有

② Python标准库资料（最全中文版）

③ 项目源码（四五十个有趣且可靠的练手项目及源码）

④ Python基础入门、爬虫、网络开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

私信我01即可获取大量Python学习资源

每次当selenium启动chrome浏览器的时候，chrome浏览器很干净，没有插件、没有收藏、没有历史记录，这是因为selenium在启动chrome时为了保证最快的运行效率，启动了一个裸浏览器，这就是为什么需要配置参数的原因，但是有些时候我们需要的不仅是一个裸浏览器

selenium启动配置参数接收是ChromeOptions类，创建方式如下：

创建了ChromeOptions类之后就是添加参数，添加参数有几个特定的方法，分别对应添加不同类型的配置项目

常用配置参数：

其他配置项目参数

制作无头浏览器

规避检测

门户网站检测如果是selenium请求的，有可能会拒绝访问。这也是一种反爬机制

实现规避检测

注意：这里只能使用 options 添加

如果有其他的模块要添加，注意要分开添加

元素定位语法

常用语法：

在 element 变成 elements 时，返回符合条件的所有元素组成的数组

控制浏览器大小

浏览器后退，前进

刷新

在搜索框模拟回车操作

在 WebDriver 中，将这些关于鼠标操作的方法封装在 ActionChains 类提供

ActionChains 类提供了鼠标操作的常用方法：

语法：

想使用selenium中的键盘事件，首先我们必须导入Keys包，需要注意的是包名称Keys首字母需要大写。Keys类中提供了几乎所有的键盘事件包括组合按键如 Ctrl+A、 Ctrl+C 等

使用语法：

其他事件可以通过查看源码获取

显式等待使WebdDriver等待某个条件成立时继续执行，否则在达到最大时长时抛出超时异常

实例：

WebDriverWait类是由WebDirver 提供的等待方法。在设置时间内，默认每隔一段时间检测一次当前页面元素是否存在，如果超过设置时间检测不到则抛出异常

语法：

参数：

如果某些元素不是立即可用的，隐式等待是告诉WebDriver去等待一定的时间后去查找元素。默认等待时间是0秒，一旦设置该值，隐式等待是设置该WebDriver的实例的生命周期

案例

语法：

alert 里面的方法

WebDriver操作cookie的方法：

参考链接：

与普通的在headers里添加 {'Cookies':' '} 不一样的是，此方法需要按照cookie的name,value,path,domain格式逐个cookie添加

通过execute_script()方法执行JavaScripts代码来移动滚动条的位置

从零开始学Python-使用Selenium抓取动态网页数据

AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键-查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

使用python简单封装selenium常用函数

年前走查脚本代码时，发现大家对selenium功能都在重复造轮子，而且容易出现一些常见低级bug。于是在闲暇之余，封装一些常用的selenium功能。

在某些网页中，存在多个frame嵌套。而selenium提供的find_element函数只能在当前frame中查找，不能切换到其他frame中，需要从最上级frame中逐步切换（当然也可以指定xpath的绝对路径，但是一般没人这么做）。在我们写代码过程中，需要明确知道当前frame位置和需要寻找元素的frame位置。在frame切换过程中，容易因为疏忽导致frame切换错误导致元素无法找到的bug。

页面中分布的frame，可以理解为树状结构。因此我们可以采用递归的方式，沿着某条搜索路线frame节点，依次对树中每个节点均做一次访问。

我们以163网址上的登录框为例：点击登录按钮，弹出登录iframe页面。输入框位置在iframe中，因此我们不能使用xpath获取元素位置，需要进入iframe中，然后获取元素。

手动切换ifame可能会产生bug，因此需要一套自动切换和检索frame的机制。具体代码如下：

需要注意的是：如果页面中多个frame中，存在相同的xpath元素。还是需要指定frame的路径，否则会返回搜索到的第一个元素。

强制等待

直接调用系统time.sleep函数，不管页面加载情况一定会等待指定的时间，即使元素已被加载。

1.如果设置的时间较长，会浪费时间

2.如果设置的时间较短，元素可能没有加载。

页面中某元素如果未能立即加载，隐式等待告诉WebDriver需等待一定的时间，然后去查找元素。默认不等待，隐式等待作用于整个WebDriver周期，只需设置一次即可。

1.在上文的find_element函数中，采用递归方式在所有frame寻找元素。若采用隐式等待，则在每个frame中都需要等待设定的时间，耗时非常长。

2.某些页面我们想要的元素已经加载完毕，但是部分其他资源未加载。隐式等待必须等待所有元素加载完毕，增加额外等待时间。

显示等待一般作用于某一个元素，在设定的时间范围内，默认每间隔0.5秒查找元素。返回被加载的元素，若超过设定的时间范围未能查找则报错。显示等待作为selenium常用的等待机制，我们来看下他的源码和机制。

driver 注释中解释为WebDriver实例，但是代码中并未有相关检测，因此可以传入任何对象

但是__repr__函数中使用到session_id属性，如果需要显示属性或者转为str对象，最好在driver对象中添加session_id属性

在until函数中，我们可以看到driver对象传入method函数。在计时结束前，在不断循环执行method函数，如果method函数有正常返回值则退出循环，否则报TimeoutException错误。

可以采用装饰器对隐式等待进行封装，这样代码更加精简

同样的，采用装饰器对其他常用的函数进行封装,例如强制等待、点击、输入文本等。

装饰器虽然很方便，但也会产生一些麻烦。例如在find_element函数递归调用过程中，理应只要执行一次装饰器函数。但因为装饰器已经装饰完毕，导致每次递归都会执行。例如强制等待的sleep函数，如果递归次数越多等待时间越长。

解除装饰器一般有两种做法：一是约定参数，当递归第二次调用时则不生效。例如

这种方式实现简单，容易理解。但是增加了参数限制，在fun函数中就不能使用first_sleep参数。

二是采用装饰器采用wrapped实现，通过访问wrapped属性获得原始函数。例如

但是某一个函数被多个装饰器装饰时，需要递归解除装饰器。例如

最后整体代码如下

这次的封装其实还存在很多问题

1.find_element函数不仅仅只是提供查找元素功能，还提供一些其他功能，因此叫element_operation更为合适。

2.find_element函数的参数过多，并且很多参数的使用并不在函数本身中，对代码阅读很不友好。

3.得小心避免参数重复问题，假设装饰器sleep和装饰器wait_time都使用time这个参数，将无法区分具体是哪个函数使用。

4.不利于扩展和维护，当功能过多时find_element的参数过于庞大。

如果只是简单地封装和使用，上面这种方式也能达到较好的效果。如果想进一步封装，建议采用链式调用方式，装饰器辅助封装。例如

这样函数的扩展性和可阅读性有较大的提升

从零开始学python爬虫（八）：selenium提取数据和其他使用方法

知识点：

知识点：了解 driver对象的常用属性和方法

注意：最新版本的selenium已经取消了这种格式，取而代之的是：

你要先导入：

然后再：

知识点：掌握 driver对象定位标签元素获取标签对象的方法

代码实现，如下，获取腾讯新闻首页的新闻标签的内容。

知识点：掌握元素对象的操作方法

参考代码示例：

知识点：掌握 selenium控制标签页的切换

知识点：掌握 selenium控制frame标签的切换

知识点：掌握利用selenium获取cookie的方法

知识点：掌握 selenium控制浏览器执行js代码的方法

知识点：掌握手动实现页面等待

知识点：掌握 selenium开启无界面模式

知识点：了解 selenium使用代理ip

知识点：了解 selenium替换user-agent

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：抖音视频剪辑教程自学(抖音视频剪辑教程自学事情是这样的)

下一篇：新手开直播怎么介绍自己的产品(直播怎么开始介绍产品)

pythonselenium菜鸟教程(python selenium3)

如何在python中使用selenium

关于Python的Selenium框架全解，一篇完整的说明书

从零开始学Python-使用Selenium抓取动态网页数据

使用python简单封装selenium常用函数

从零开始学python爬虫（八）：selenium提取数据和其他使用方法

(责任编辑：IT教学网)

相关DNS服务器文章

阅读排行

专题教程

推荐DNS服务器文章

最新更新DNS服务器