当前位置： > 服务器 > DNS服务器 > 文章内容

python爬取网页信息代码正确爬取不到(python爬取网页的代码)

http://www.itjxue.com 2023-04-08 11:33 来源:未知 点击次数:

帮忙分析一下用python爬取一个网站一直不成功的原因

人家内容是通过js生成就这样,而且就算不是js生成的你写的代码也有一堆问题,人家没有对请求头的返爬你加不加毫无意义,text = response.content.decode('utf-8')你这写法是什么鬼,人家网站charset默认utf8没有必要定义,直接text = response.text就可以了,这个网站你应该爬不下来,还是看看基础吧骚年

python爬虫爬取不出信息

Python爬虫程序本身没有问题，但是却爬取不了数据主要原因如下：

1.对方有反爬程序

几乎所网站为了防止一些恶意抓取，会设置反爬程序，你会发现明明很多数据显示在浏览器上，但是却抓取不出来。

2.伪装方式没有绕过目标网站反爬

网站都有反爬虫机制，防止爬取数据，爬虫想要爬取数据，就需要隐藏自身的身份，伪装成用户的身份进行访问，如果没有伪装好，被检测到爬虫，也是被会限制的。比如请求头没有设置好，Cookie问题等等。

3.IP被限制

爬虫除了IP所有数据都可以伪装，当你的IP访问次数过多之后，就会被限制住，再也无法访问了。这个时候就需要带入ip代理池了。

python 爬虫，爬不到数据

那数据是动态的，是通过js动态添加上去的，所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的，然后再解密，最后张渲染到页面上。

python用通用代码爬取，没有反应，该如何处理？

目前大概的看，有两处问题。

第一处，你的try语句里的except语句后面没有跟上异常类（比如TypeError），所以根本没起到捕获异常的作用。

第二处，这是在Python的交互式界面，不需要使用if __name__语句判断当前是否作为主模块调用，这种语法是在编译器里有的。

所以你定义完getHTMLtext函数后，按回车键，另起一行，从【】开始，直接使用命令getHTMLtext('')就调用函数就行

你试试看还行不行，如果还有问题再调整

使用python抓取百度搜索结果时不成功，怎么回事？

百度搜索有专门的接口，使用相应的API接口调用吧。你这直接调用它的主页，需要解决很多问题的。

这段代码访问的是百度主页,这里头不仅仅只是表面上的这些参数在起作用，还有cookie,session等在起作用，百度会通过这些信息对搜索信息进行整理，用于生成大数据集（比如哪个区域的人偏爱查询哪些词之类的），你的机子没有这些信息，调用百度主页进行搜索就会有问题。

请参照以下代码

起调百度地图API

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：云顶之弈云游戏(云顶之弈手游下载官网)

下一篇：黑客代码编程教学手机版(黑客代码编程软件)

python爬取网页信息代码正确爬取不到(python爬取网页的代码)

帮忙分析一下用python爬取一个网站一直不成功的原因

python爬虫爬取不出信息

python 爬虫，爬不到数据

python用通用代码爬取，没有反应，该如何处理？

使用python抓取百度搜索结果时不成功，怎么回事？

(责任编辑：IT教学网)

相关DNS服务器文章

阅读排行

专题教程

推荐DNS服务器文章

最新更新DNS服务器