python等待页面元素全部加载完(python爬虫等待网页加载)

http://www.itjxue.com 2023-04-02 01:29 来源:未知 点击次数:

selenium+python，如何判断一个页面已经加载完成？

用浏览器打开你那个连接（完整加载），通过

查看源

找到你要的数据(记住标记，比如某个元素)，selenium+python获取到页面代码再去判断查找你的标记就知道是否加载完了。

使用python简单封装selenium常用函数

年前走查脚本代码时，发现大家对selenium功能都在重复造轮子，而且容易出现一些常见低级bug。于是在闲暇之余，封装一些常用的selenium功能。

在某些网页中，存在多个frame嵌套。而selenium提供的find_element函数只能在当前frame中查找，不能切换到其他frame中，需要从最上级frame中逐步切换（当然也可以指定xpath的绝对路径，但是一般没人这么做）。在我们写代码过程中，需要明确知道当前frame位置和需要寻找元素的frame位置。在frame切换过程中，容易因为疏忽导致frame切换错误导致元素无法找到的bug。

页面中分布的frame，可以理解为树状结构。因此我们可以采用递归的方式，沿着某条搜索路线frame节点，依次对树中每个节点均做一次访问。

我们以163网址上的登录框为例：点击登录按钮，弹出登录iframe页面。输入框位置在iframe中，因此我们不能使用xpath获取元素位置，需要进入iframe中，然后获取元素。

手动切换ifame可能会产生bug，因此需要一套自动切换和检索frame的机制。具体代码如下：

需要注意的是：如果页面中多个frame中，存在相同的xpath元素。还是需要指定frame的路径，否则会返回搜索到的第一个元素。

强制等待

直接调用系统time.sleep函数，不管页面加载情况一定会等待指定的时间，即使元素已被加载。

1.如果设置的时间较长，会浪费时间

2.如果设置的时间较短，元素可能没有加载。

页面中某元素如果未能立即加载，隐式等待告诉WebDriver需等待一定的时间，然后去查找元素。默认不等待，隐式等待作用于整个WebDriver周期，只需设置一次即可。

1.在上文的find_element函数中，采用递归方式在所有frame寻找元素。若采用隐式等待，则在每个frame中都需要等待设定的时间，耗时非常长。

2.某些页面我们想要的元素已经加载完毕，但是部分其他资源未加载。隐式等待必须等待所有元素加载完毕，增加额外等待时间。

显示等待一般作用于某一个元素，在设定的时间范围内，默认每间隔0.5秒查找元素。返回被加载的元素，若超过设定的时间范围未能查找则报错。显示等待作为selenium常用的等待机制，我们来看下他的源码和机制。

driver 注释中解释为WebDriver实例，但是代码中并未有相关检测，因此可以传入任何对象

但是__repr__函数中使用到session_id属性，如果需要显示属性或者转为str对象，最好在driver对象中添加session_id属性

在until函数中，我们可以看到driver对象传入method函数。在计时结束前，在不断循环执行method函数，如果method函数有正常返回值则退出循环，否则报TimeoutException错误。

可以采用装饰器对隐式等待进行封装，这样代码更加精简

同样的，采用装饰器对其他常用的函数进行封装,例如强制等待、点击、输入文本等。

装饰器虽然很方便，但也会产生一些麻烦。例如在find_element函数递归调用过程中，理应只要执行一次装饰器函数。但因为装饰器已经装饰完毕，导致每次递归都会执行。例如强制等待的sleep函数，如果递归次数越多等待时间越长。

解除装饰器一般有两种做法：一是约定参数，当递归第二次调用时则不生效。例如

这种方式实现简单，容易理解。但是增加了参数限制，在fun函数中就不能使用first_sleep参数。

二是采用装饰器采用wrapped实现，通过访问wrapped属性获得原始函数。例如

但是某一个函数被多个装饰器装饰时，需要递归解除装饰器。例如

最后整体代码如下

这次的封装其实还存在很多问题

1.find_element函数不仅仅只是提供查找元素功能，还提供一些其他功能，因此叫element_operation更为合适。

2.find_element函数的参数过多，并且很多参数的使用并不在函数本身中，对代码阅读很不友好。

3.得小心避免参数重复问题，假设装饰器sleep和装饰器wait_time都使用time这个参数，将无法区分具体是哪个函数使用。

4.不利于扩展和维护，当功能过多时find_element的参数过于庞大。

如果只是简单地封装和使用，上面这种方式也能达到较好的效果。如果想进一步封装，建议采用链式调用方式，装饰器辅助封装。例如

这样函数的扩展性和可阅读性有较大的提升

python爬虫怎么不等页面全加载完

最关键是先要区分：静态网页还是动态网页

如果是静态html，get到的内容就是全部内容了，而且下一页会对应另外一个网址，接下来get它就行了。

绝大多数网页会有一些动态特性，比如，下一页网址不是一个独立的网址，简单点的可能是用onclick实现的，那么就不能利用网址直接get了，在python环境下，有很多driver，可以很好地模拟浏览器的行为

如果网页内容也是动态加载的，而且随着用户行为不同而不断变化，那么光get一个html document是不行的，此时就需要一个判断机制，什么时候网页上的内容显示全了？可以执行提取动作了？简单的实现就是等一个确定的时间；复杂一点的可以监控窗口事件，定一个判断标准，到时候就启动提取。要防止漏采，又要尽可能避免无谓的等待

怎么等待页面元素加载完成

在selenium-webdriver中我们用两种方式进行等待：明确的等待和隐性的等待。

明确的等待

明确的等待是指在代码进行下一步操作之前等待某一个条件的发生。最不好的情况是使用Thread.sleep()去设置一段确认的时间去等待。但为什么说最不好呢？因为一个元素的加载时间有长有短，你在设置sleep的时间之前要自己把握长短，太短容易超时，太长浪费时间。selenium webdriver提供了一些方法帮助我们等待正好需要等待的时间。利用WebDriverWait类和ExpectedCondition接口就能实现这一点。

下面的html代码实现了这样的一种效果：点击click按钮5秒钟后，页面上会出现一个红色的div块。我们需要写一段自动化脚本去捕获这个出现的div，然后高亮之。

Wait.html

html

head

titleSet Timeout/title

style

.red_box {background-color: red; width = 20%; height: 100px; border: none;}

/style

script

function show_div(){

setTimeout("create_div()", 5000);

}

function create_div(){

d = document.createElement('div');

d.className = "red_box";

document.body.appendChild(d);

}

/script

/head

body

button id = "b" nclick = "show_div()"click/button

/body

/html

下面的代码实现了高亮动态生成的div块的功能：

import org.openqa.selenium.By;

import org.openqa.selenium.JavascriptExecutor;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.WebElement;

import org.openqa.selenium.firefox.FirefoxDriver;

import org.openqa.selenium.support.ui.ExpectedCondition;

import org.openqa.selenium.support.ui.WebDriverWait;

public class WaitForSomthing {

/**

* @author gongjf

public static void main(String[] args) {

// TODO Auto-generated method stub

System.setProperty("webdriver.firefox.bin","D:\\Program Files\\Mozilla Firefox\\firefox.exe");

WebDriver dr = new FirefoxDriver();

String url = " and Settings/gongjf/桌面/selenium_test/Wait.html";// "/Your/Path/to/Wait.html"

dr.get(url);

WebDriverWait wait = new WebDriverWait(dr,10);

wait.until(new ExpectedConditionWebElement(){

@Override

public WebElement apply(WebDriver d) {

return d.findElement(By.id("b"));

}}).click();

WebElement element = dr.findElement(By.cssSelector(".red_box"));

((JavascriptExecutor)dr).executeScript("arguments[0].style.border = \"5px solid yellow\"",element);

}

上面的代码WebDriverWait类的构造方法接受了一个WebDriver对象和一个等待最长时间（10秒）。然后调用until方法，其中重写了ExpectedCondition接口中的apply方法，让其返回一个WebElement,即加载完成的元素，然后点击。默认情况下，WebDriverWait每500毫秒调用一次ExpectedCondition，直到有成功的返回，当然如果超过设定的值还没有成功的返回，将抛出异常。

隐性等待

隐性等待是指当要查找元素，而这个元素没有马上出现时，告诉WebDriver查询Dom一定时间。默认值是0,但是设置之后，这个时间将在WebDriver对象实例整个生命周期都起作用。上面的代码就变成了这样：

import java.util.concurrent.TimeUnit;

import org.openqa.selenium.By;

import org.openqa.selenium.JavascriptExecutor;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.WebElement;

import org.openqa.selenium.firefox.FirefoxDriver;

import org.openqa.selenium.support.ui.ExpectedCondition;

import org.openqa.selenium.support.ui.WebDriverWait;

public class WaitForSomthing {

/**

* @author gongjf

public static void main(String[] args) {

// TODO Auto-generated method stub

System.setProperty("webdriver.firefox.bin","D:\\Program Files\\Mozilla Firefox\\firefox.exe");

WebDriver dr = new FirefoxDriver();

//设置10秒

dr.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS);

String url = " and Settings/gongjf/桌面/selenium_test/Wait.html";// "/Your/Path/to/Wait.html"

dr.get(url);

//注释掉原来的

/*WebDriverWait wait = new WebDriverWait(dr,10);

wait.until(new ExpectedConditionWebElement(){

@Override

public WebElement apply(WebDriver d) {

return d.findElement(By.id("b"));

}}).click();*/

dr.findElement(By.id("b")).click();

WebElement element = dr.findElement(By.cssSelector(".red_box"));

((JavascriptExecutor)dr).executeScript("arguments[0].style.border = \"5px solid yellow\"",element);

}

两者选其一，第二种看起来一劳永逸呀。哈哈

python等待页面元素全部加载完(python爬虫等待网页加载)

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：c语言++什么意思(gcdc语言什么意思)

下一篇：想自学中医看什么书入门(自学中医看什么书顺序5步)

python等待页面元素全部加载完(python爬虫等待网页加载)

selenium+python，如何判断一个页面已经加载完成？

使用python简单封装selenium常用函数

python爬虫怎么不等页面全加载完

怎么等待页面元素加载完成

(责任编辑：IT教学网)

相关安全技术文章

阅读排行

专题教程

推荐安全技术文章

最新更新安全技术