当前位置： > 网页特效 > 图片特效 > 文章内容

python爬取网页数据存在json(python 爬取网页内容并保存到数据库

http://www.itjxue.com 2023-04-05 06:12 来源:未知 点击次数:

网页内容是用 json 动态生成的，需要怎么爬取

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

python爬取网页数据存在json(python 爬取网页内容并保存到数据库)

Python爬虫（七）数据处理方法之JSON

JSON 指的是 JavaScript 对象表示法（JavaScript Object Notation），是轻量级的文本数据交换格式，且具有自我描述性，更易理解。

JSON看起来像python类型（列表，字典）的字符串。

在之前的文章中，我们说到了怎么用response的方法，获取到网页正确解码后的字符串。如果还有不懂的，可以先阅读 Python爬虫（三）Requests库。接下来以有道翻译为例子，说说怎么通过网页解码后的字符串，提取到翻译结果。

再结合上述有道翻译的例子，得到字典类型的返回结果，并提取出来翻译结果。

将上述例子的dict_json换成str字符串，再写入文本中。

执行完上述的程序，会得到一个fanyi.txt的文件，其结果如下：{"type": "ZH_CN2EN", "errorCode": 0, "elapsedTime": 1, "translateResult": [[{"src": "\u4eba\u751f\u82e6\u77ed\uff0c\u6211\u7528python", "tgt": "Life is too short, I use python"}]]}。这样子的一份文档，中文部分显示的是二进制，且格式非常不利于阅读，这并不是我们想要的结果。好在json.dumps()为我们提供的两个方法，以帮助我们更好阅读文档。

1.ensure_ascii，能够让中文显示成中文；

2.indent，能够让下一行在第一行的基础上空格。

其用法如下：

如何在scrapy框架下用python爬取json文件

import json

str = str[(str.find('(')+1):str.rfind(')')] #去掉首尾的圆括号前后部分

dict = json.loads(str)

comments = dict['comments']

#然后for一下就行了

如果是scrapy 看下面代码。

def parse(self, response):

jsonresponse = json.loads(response.body_as_unicode())

item = MyItem()

item["firstName"] = jsonresponse["firstName"]

return item

求助，python 解析爬取的网页源码中的json部分

我用re把json的部分截取出来了，也用json.loads()解析成了字典，现在的问题是里面需要的信息那部分是有一些是unicode 编码的，求解。。。。

{"pageName":"mainsrp","mods":{"shopcombotip":{"status":"hide","export":false},"shopstar":{"status":"hide","export":false},"navtablink":{"status":"hide","export":false},"personalbar":{"status":"show","data":{"metisData":{"nickname":"","query":"秋季打底衫","shopItems":[{"text":"黄钻爱买店铺","count":"500+","url":"/search?q\u003d秋季打底衫\u0026tab\u003dmysearch\u0026filter_rectype\u003d44\u0026stats_click\u003dms_from:44","trace":"metis44"},{"text":"回头客爱买店铺","count":"500+","url":"/search?q\u003d秋季打底衫\u0026tab\u003dmysearch\

如何使用 Python 得到网页返回正确的 Json 数据

直接把 json 放到 urllib.request.urlopen 的 data 属性里，然后 post 过去

Python网络请求和解析json数据

Python 的 json 模块提供了两个函数 json.dumps() 和 json.loads() 来编码和解码JSON数据。

如果要处理的是文件而不是字符串，可以使用 json.dump() 和 json.load() 来编码和解码JSON数据。例如：

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：原神萌新小知识(原神萌新必知)

下一篇：上海it行业好找工作吗(上海找it工作一般在哪)

python爬取网页数据存在json(python 爬取网页内容并保存到数据库

网页内容是用 json 动态生成的，需要怎么爬取

Python爬虫（七）数据处理方法之JSON

如何在scrapy框架下用python爬取json文件

求助，python 解析爬取的网页源码中的json部分

如何使用 Python 得到网页返回正确的 Json 数据

Python网络请求和解析json数据

(责任编辑：IT教学网)

相关图片特效文章

阅读排行

专题教程

推荐图片特效文章

最新更新图片特效