python爬取网页信息代码正确爬取不到(python爬取网页的代码)
帮忙分析一下用python爬取一个网站一直不成功的原因
人家内容是通过js生成就这样,而且就算不是js生成的你写的代码也有一堆问题,人家没有对请求头的返爬你加不加毫无意义,text = response.content.decode('utf-8')你这写法是什么鬼,人家网站charset默认utf8没有必要定义,直接text = response.text就可以了,这个网站你应该爬不下来,还是看看基础吧骚年
python爬虫爬取不出信息
Python爬虫程序本身没有问题,但是却爬取不了数据主要原因如下:
1.对方有反爬程序
几乎所网站为了防止一些恶意抓取,会设置反爬程序,你会发现明明很多数据显示在浏览器上,但是却抓取不出来。
2.伪装方式没有绕过目标网站反爬
网站都有反爬虫机制,防止爬取数据,爬虫想要爬取数据,就需要隐藏自身的身份,伪装成用户的身份进行访问,如果没有伪装好,被检测到爬虫,也是被会限制的。比如请求头没有设置好,Cookie问题等等。
3.IP被限制
爬虫除了IP所有数据都可以伪装,当你的IP访问次数过多之后,就会被限制住,再也无法访问了。这个时候就需要带入ip代理池了。
python 爬虫,爬不到数据
那数据是动态的,是通过js动态添加上去的,所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的,然后再解密,最后张渲染到页面上。
python用通用代码爬取,没有反应,该如何处理?
目前大概的看,有两处问题。
第一处,你的try语句里的except语句后面没有跟上异常类(比如TypeError),所以根本没起到捕获异常的作用。
第二处,这是在Python的交互式界面,不需要使用if __name__语句判断当前是否作为主模块调用,这种语法是在编译器里有的。
所以你定义完getHTMLtext函数后,按回车键,另起一行,从【】开始,直接使用命令getHTMLtext('')就调用函数就行
你试试看还行不行,如果还有问题再调整
使用python抓取百度搜索结果时不成功,怎么回事?
百度搜索有专门的接口,使用相应的API接口调用吧。你这直接调用它的主页,需要解决很多问题的。
这段代码访问的是百度主页,这里头不仅仅只是表面上的这些参数在起作用,还有cookie,session等在起作用,百度会通过这些信息对搜索信息进行整理,用于生成大数据集(比如哪个区域的人偏爱查询哪些词之类的),你的机子没有这些信息,调用百度主页进行搜索就会有问题。
请参照以下代码