当前位置： > 网页制作 > Javascript/Ajax > 文章内容

Python爬虫爬取网站图片代码(python网络爬虫爬取图片)

http://www.itjxue.com 2023-04-11 12:56 来源:未知 点击次数:

Python如何爬取百度图片？

几乎所有的网站都会有反爬机制，这就需要在爬取网页时携带一些特殊参数，比如：user-agent、Cookie等等，可以在写代码的时候用工具将所有参数都带上。

如何用python爬取网站数据？

这里简单介绍一下吧，以抓取网站静态、动态2种数据为例，实验环境win10+python3.6+pycharm5.0，主要内容如下：

抓取网站静态数据（数据在网页源码中）：以糗事百科网站数据为例

1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、好笑数和评论数这4个字段，如下：

对应的网页源码如下，包含我们所需要的数据：

2.对应网页结构，主要代码如下，很简单，主要用到requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

程序运行截图如下，已经成功爬取到数据：

抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例

1.这里假设我们爬取的是债券数据，主要包括年利率、借款标题、期限、金额和进度这5个字段信息，截图如下：

打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：

2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：

程序运行截图如下，已经成功抓取到数据：

至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫，网页结构也比较简单，最重要的还是要会进行抓包分析，对页面进行分析提取，后期熟悉后，可以借助scrapy这个框架进行数据的爬取，可以更方便一些，效率更高，当然，如果爬取的页面比较复杂，像验证码、加密等，这时候就需要认真分析了，网上也有一些教程可供参考，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

Python爬虫爬取网站图片代码(python网络爬虫爬取图片)

linux下python怎么写爬虫获取图片

跟linux有什么关系，python是跨平台的，爬取图片的代码如下：

import urllib.requestimport osimport randomdef url_open(url):

req=urllib.request.Request(url) ? ?#为请求设置user-agent,使得程序看起来更像一个人类

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') ? ?#代理IP，使用户能以不同IP访问，从而防止被服务器发现

'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']

proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})

opener=urllib.request.build_opener(proxy_support)

opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)

html=response.read() ? ?return htmldef get_page(url):

html=url_open(url).decode('utf-8')

a=html.find('current-comment-page')+23

b=html.find(']',a) ? ?#print(html[a:b])

return html[a:b]def find_imgs(url):

html=url_open(url).decode('utf-8')

img_addrs=[]

a=html.find('img src=') ? ?while a!=-1:

b=html.find('.jpg',a,a+140) ? ? ? ?if b!=-1: ? ? ? ? ? ?if html[a+9]!='h':

img_addrs.append('http:'+html[a+9:b+4]) ? ? ? ? ? ?else:

img_addrs.append(html[a+9:b+4]) ? ? ? ?else:

b=a+9

a=html.find('img src=',b) ? ?for each in img_addrs:

print(each+'我的打印') ? ?return img_addrsdef save_imgs(folder,img_addrs):

for each in img_addrs: ? ? ? ?#print('one was saved')

filename=each.split('/')[-1] ? ? ? ?with open(filename,'wb') as f:

img=url_open(each)

f.write(img)def download_mm(folder='ooxx',pages=10):

os.mkdir(folder)

os.chdir(folder)

url=""

page_num=int(get_page(url)) ? ?for i in range(pages):

page_num=page_num-1

page_url=url+'page-'+str(page_num)+'#comments'

img_addrs=find_imgs(page_url)

save_imgs(folder,img_addrs)if __name__=='__main__':

download_mm()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374

完成

运行结果

如何入门 Python 爬虫

入门的话，我的经历：

1.先用python写一个爬取网页源代码的爬虫（最先是爬取个人博客，会遇到乱码问题当时困扰了很久）

2.后来写了爬取百度图片的程序，自动下载小说（我爱看小说-_-）（接触正则表达式）

3.然后百度图片他那种分页模式，一般一页只有20张左右的图片，分析源代码，完善爬取程序，不受到限制，一次可以下几千张（图片有的是原图，有的是缩略图）

4.后来发现程序卡顿，就添加了多线程。

5.然后模拟登陆一些不用验证码的网页（我学校的oj），cookie登陆B站（本来想写一个抢楼的脚本的，后来发现抢楼的被封号了-_-，就放弃了）

对于使用的库，python2 与 python3 有点不同，我学的是python3

先用的是urllib.request，后来用requests（第三方库），在后来接触Scrapy(也是第三方库)

现在因为事情多了，就把python放下了，准备寒假写一些脚本，毕竟python不会有期末考试...

我的个人经历，希望可以帮到你。

python爬虫怎么做？

大到各类搜索引擎，小到日常数据采集，都离不开网络爬虫。爬虫的基本原理很简单，遍历网络中网页，抓取感兴趣的数据内容。这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据，然后会一步步逐渐完善爬虫的抓取功能。

工具安装

我们需要安装python，python的requests和BeautifulSoup库。我们用Requests库用抓取网页的内容，使用BeautifulSoup库来从网页中提取数据。

安装python

运行pipinstallrequests

运行pipinstallBeautifulSoup

抓取网页

完成必要工具安装后，我们正式开始编写我们的爬虫。我们的第一个任务是要抓取所有豆瓣上的图书信息。我们以/subject/26986954/为例，首先看看开如何抓取网页的内容。

使用python的requests提供的get()方法我们可以非常简单的获取的指定网页的内容,代码如下：

提取内容

抓取到网页的内容后，我们要做的就是提取出我们想要的内容。在我们的第一个例子中，我们只需要提取书名。首先我们导入BeautifulSoup库，使用BeautifulSoup我们可以非常简单的提取网页的特定内容。

连续抓取网页

到目前为止，我们已经可以抓取单个网页的内容了，现在让我们看看如何抓取整个网站的内容。我们知道网页之间是通过超链接互相连接在一起的，通过链接我们可以访问整个网络。所以我们可以从每个页面提取出包含指向其它网页的链接，然后重复的对新链接进行抓取。

通过以上几步我们就可以写出一个最原始的爬虫。在理解了爬虫原理的基础上，我们可以进一步对爬虫进行完善。

写过一个系列关于爬虫的文章：/i6567289381185389064/。感兴趣的可以前往查看。

Python基本环境的搭建，爬虫的基本原理以及爬虫的原型

Python爬虫入门(第1部分)

如何使用BeautifulSoup对网页内容进行提取

Python爬虫入门(第2部分)

爬虫运行时数据的存储数据，以SQLite和MySQL作为示例

Python爬虫入门(第3部分)

使用seleniumwebdriver对动态网页进行抓取

Python爬虫入门(第4部分)

讨论了如何处理网站的反爬虫策略

Python爬虫入门(第5部分)

对Python的Scrapy爬虫框架做了介绍，并简单的演示了如何在Scrapy下进行开发

Python爬虫入门(第6部分)

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：内向自卑有社交恐惧症怎么办怎么上班(内向自卑有社交恐惧症的人,

下一篇：代码编程入门软件(代码编程教程)

Python爬虫爬取网站图片代码(python网络爬虫爬取图片)

Python如何爬取百度图片？

如何用python爬取网站数据？

linux下python怎么写爬虫获取图片

如何入门 Python 爬虫

python爬虫怎么做？

(责任编辑：IT教学网)

相关Javascript/Ajax文章

阅读排行

专题教程

推荐Javascript/Ajax文章

最新更新Javascript/Ajax