当前位置： > 网页特效 > 综合特效 > 文章内容

python爬虫获取源码不全(爬取的数据不在源代码里)

http://www.itjxue.com 2023-03-27 03:02 来源:未知 点击次数:

Python的requests包在抓取页面的时候页面源代码抓取不完全，页面数据不是动态加载的。

您好，首先，sys.setdefaultencoding is evil。

其次，不会用 Requests 就去看文档，不要乱来。

如果 Requests 检测不到正确的编码，那么你告诉它正确的是什么：

response.encoding = 'gbk'

print response.text

原始内容在 response.content 里，bytes，自己想怎么处理就怎么处理。

单个请求完全没必要用 Session。直接 requests.get(xxx) 就可以了。

最后，弄不明白怎么处理编码错误的字符串就仔细想想，或者用 Python 3.x，不要散弹枪编程。

以下是 Python 3。Python 2 在那个字符串前加个 u 告诉它是 unicode 也一样。

python爬虫源代码没有但检查可以通过5个步骤进行解决。

1、提取列车Code和No信息。

2、找到url规律，根据Code和No变化实现多个网页数据爬取。

3、使用PhantomJS模拟浏览器爬取源代码。

4、用bs4解析源代码，获取所需的途径站数据。

5、用csv库存储获得的数据。

python爬虫获取源码不全(爬取的数据不在源代码里)

我认为是xpath默认提取xpath第一个tr属性了，xpath 表达式改成'//div[@class="row"]//table//tr[@height="38px" or @height=""]'

用python提取html不全的原因：

现在的网站上面有很多的反爬措施，最常见的就是json异步加载，网页上面的数据是json代码加载出来的，所以爬取的html信息不全

具体示例如下：

浏览器显示的内容

实际上爬虫访问链接得到的内容：

更多Python知识，请关注：Python自学网！！

不是不全，而是这些内容是使用插件显示的，只抓原网页不行的，在抓下包，应该有单独的请求返回