python爬虫下载漫画(python 爬虫 下载)

http://www.itjxue.com  2023-03-29 04:30  来源:未知  点击次数: 

python爬虫100例--斗破苍穹漫画(0)

爬虫是一门技术,漫画是一种爱好,当两者结合起来,那么就是你白嫖的开始了。

斗破苍穹无疑是当今中国最火的小说,国漫之一了,小说版的斗破相信大家都已经看完了,但是漫画版的你肯定不敢说你把它看完了,因为官网都没更新完呢。哈哈,是吧,我也是一位漫画爱好者,但又是一位较为节俭人,所以,能动手,千万不动钱。

毫无疑问,不想花钱每周一买,那就官网每周一更吧。

上链接:?

??提取码:7rjl

想来我只是热爱这技术,热爱这漫画。无奈为了自己的热爱,大部分人需要付出财物,那都是小问题,但我们也尊重版权,也尊重技术。

如有疑问,请私聊我。

Python漫画爬虫两弹

其实从接触python到现在已经快大半年了,中间看过不少的视频,也跟着别人的教程写过不少东西,但是到现在还感觉没有入门。其实中间也明白是为什么,就好比小学生上课一样,上课认真听,认真做笔记,可是下了课之后就从来不看笔记,也从来不写作业。上课一听就懂,自己一写啥都不会,我相信很多人跟我现在是一样的感觉,所以现在创建这个作业集,一来是想鞭策自己真真正正的写点东西,二来也是希望广大的读者老师能够给我批改批改作业,大家相互学习共同进步。

好了,现在开始进入正题。

但是我在这里还是遇到了一个小问题。比如说

上一步呢我们获取了所有漫画的url保存在了一个list当中,现在我们挨个请求comic_list中的url。

通过观察网页我们发现我们可以从网页上直接看到漫画一共有多少页(page_num),也就是多少张图片。

(上一章下一章点开之后会发现跳到了另外一部漫画,所有我们不用在意,这里的一部漫画很短)

正则是用来提取数字。

然后我们一页一页的点击观察url的变化会发现除了第一页的url就是漫画的url外,其他从第二页一直到最后的url都是有规律的

找到规律这就简单了,跟先前构造漫画url差不多。我们构造构造除了第一页外的其他页数的url

保存漫画分两步,首先是创建文件夹,其次是保存。

打开风之动漫拉到最下面我们可以看到在网站的最下面有一个 网站地图

获取漫画每一话的标题和对应的url,保存到字典 comic_chapter_url_dict 中

最难的部分来了。

首先 通过F12 我们可以看到图片的链接在一个 id="mhpic" 的img标签中

最后希望能够帮助那些比我还小白的小白,也希望各位大神看过之后能够指点一二,不胜感激。

两个爬虫的 GitHub地址

python基础 爬虫项目有哪些?

我们上篇才讲了面试中需要准备的内容,关于最后一点可能讲的不是很详细,小伙伴们很有对项目这块很感兴趣。毕竟所有的理论知识最后都是通过实践检验的,如果能有拿得出手的项目,面试中会大大的加分。下面小编就来跟大讲讲python的爬虫项目有哪些以及该学点什么内容。

wesome-spider

这一项目收集了100多个爬虫,默认使用了Python作为爬虫语言。你既可以在这个项目中,找到爬取Bilibili视频的爬虫,也可以使用爬虫,通过豆瓣评分和评价人数等各项数据,来挖掘那些隐藏的好书,甚至还可以用来爬取京东、链家、网盘等生活所需的数据。此外,这个项目还提供了一些很有意思的爬虫,比如爬取神评论、妹子图片、心灵毒鸡汤等等,既有实用爬虫,也有恶搞自嗨,满足了大部分人实用爬虫的需求。

Nyspider

Nyspider也非常厉害,如果你想获得“信息”,它是一个不错的选择。在这个项目里,你既能获取链家的房产信息,也可以批量爬取A股的股东信息,猫眼电影的票房数据、还可以爬取猎聘网的招聘信息、获取融资数据等等,可谓是爬取数据,获取信息的好手。

python-spider

这个项目是ID为Jack-Cherish的东北大学学生整理的python爬虫资料,涵盖了很多爬虫实战项目,如下载漫画、答题辅助系统、抢票小助手等等等等。如果你已经学会了爬虫,急切得像找一些项目练手,这里就可以满足你的这一需求。当然,W3Cschool上也有很多爬虫实战项目,有需要的同学,也可以拿来作为练习使用。

以上的3个模块基于GitHub中的部分内容,感兴趣的小伙伴也可以了解下其他的模块,毕竟GitHub使用也比较广泛。更多Python学习推荐:PyThon学习网教学中心。

怎么样编写Python爬虫抓取暴走漫画上gif图片

#?-*-?coding:?utf-8?-*-

?

import?urllib.request

import?bs4,os

?

page_sum?=?1?#设置下载页数

?

path?=?os.getcwd()

path?=?os.path.join(path,'GIF')

if?not?os.path.exists(path):

??os.mkdir(path)?????????????????#创建文件夹

?

url?=?""???#url地址

headers?=?{?????????????????????#伪装浏览器

??'User-Agent':'Mozilla/5.0?(Windows?NT?6.1;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)'

?????????'?Chrome/32.0.1700.76?Safari/537.36'

}

?

for?count?in?range(page_sum):

??req?=?urllib.request.Request(

????url?=?url+str(count+1),

????headers?=?headers

??)

??print(req.full_url)

??content?=?urllib.request.urlopen(req).read()

?

??soup?=?bs4.BeautifulSoup(content)??????????#?BeautifulSoup

??img_content?=?soup.findAll('img',attrs={'style':'width:460px'})

?

??url_list?=?[img['src']?for?img?in?img_content]???#列表推导?url

??title_list?=?[img['alt']?for?img?in?img_content]??#图片名称

?

??for?i?in?range(url_list.__len__())?:

????imgurl?=?url_list[i]

????filename?=?path?+?os.sep?+title_list[i]?+?".gif"

????print(filename+":"+imgurl)?????????????#打印下载信息

????urllib.request.urlretrieve(imgurl,filename)????#下载图片

(责任编辑:IT教学网)

更多

推荐其他源码文章