Python爬取手机APP数据(python爬取手机app内容)
4种Python爬虫(4. 手机APP,如,乐刻运动)
目录:
1. PC网页爬虫
2. H5网页爬虫
3. 微信小程序爬虫
4. 手机APP爬虫
爬取乐刻运动手机APP的课表数据。Android和iOS都可以。
要制定具体方案,还是要从抓包分析开始。
如果你在前一章《三、微信小程序爬虫》中已经搭建好了Charles+iPhone的抓包环境,可以直接启动“乐刻APP”再来抓一波。
LefitAppium.py
LefitMitmAddon.py
接下来就是见证奇迹的时刻了!
可以看到左侧的手机已经自动跑起来了!
所有流过的数据都尽在掌握!
这个方案的适应能力非常强,不怕各种反爬虫机制。
但是如果要去爬取淘宝、携程等海量数据时,肯定也是力不从心。
4种Python爬虫(3. 微信小程序,如,超级猩猩)
目录:
1. PC网页爬虫
2. H5网页爬虫
3. 微信小程序爬虫
4. 手机APP爬虫
爬取超级猩猩的课表,该平台仅提供了微信小程序这一个途径,前面两种针对html网页的爬取方式都不再适用。
采用抓包分析是我们制定方案的第一步。
我用的Mac电脑,fiddler只有一个简化版,所以另找了Charles这个类似的软件。启动Charles的代理,在手机WIFI中设置好对应的代理就可以开抓了。但是,抓到的https包的内容都是乱码,咋办?
Charles中提供了ssl证书,在手机端安装证书即可。推荐使用iPhone,直接安装描述文件即可。Android手机必须使用系统版本在7.0以下的才行,7.0以上还需要反编译什么的,太麻烦了。
很容易的定位到了超级猩猩微信小程序载入课表的后台接口。拿这个URL在浏览器里访问试试,直接返回了json结果!超级猩猩很友好!
提取对应的URL,放到浏览器中验证,也可以支持返回json包,剩下就是分析一下这个json的数据结构,按照需要的方式导出了。
直接通过接口的爬取效率非常高,几秒钟就拉取了全国各个门店的排课,相当舒心。(下图的录屏没有进行加速)
最后一个挑战就是对只有Android/iOS的APP端应用数据的爬取。请看下一章
请点击: 下一页
python 怎么爬取app端数据
可以,但是不提倡这种行为 1,在手机上设置代理,代理到你的电脑上 2,再在电脑上用tcpdump或者其他图形化的抓包工具获得数据包,分析这些数据包找到你要的数据 3,根据前两步的结果,写代码模拟app的操作获得你需要的数据
Python爬虫实战:应用宝APP数据信息采集
数据来源: 应用宝
开发环境:win10、python3.7
开发工具:pycharm、Chrome
明确需要采集的数据:
提取到页面的分类标签
获取到a标签的href属性
用于之后拼接动态地址
找到动态加载的app数据加载地址
url的值是每个分类标签的值
;categoryId=-10pageSize=20pageContext=undefined
拼接新的url值发送请求