python爬虫豆瓣读书论文(python爬取豆瓣书评)

http://www.itjxue.com  2023-04-14 12:40  来源:未知  点击次数: 

如何用python爬取豆瓣读书的数据

这两天爬了豆瓣读书的十万条左右的书目信息,用时将近一天,现在趁着这个空闲把代码总结一下,还是菜鸟,都是用的最简单最笨的方法,还请路过的大神不吝赐教。

第一步,先看一下我们需要的库:

import requests ? ? ? ? ? ? ? ? ? ? ? #用来请求网页

from bs4 import BeautifulSoup ? ? ? ? #解析网页

import time ? ? ? ? ?#设置延时时间,防止爬取过于频繁被封IP号

import re ? ? ? ? ? ?#正则表达式库

import pymysql ? ?庆罩 ? #由于爬取的数据太多,我们要把他存入MySQL数据库中,这个库用于亩差羡连接数据库

import random ? ? ? ?#这个库里用到了产生随机数的randint函数,和上面的time搭配,使爬取间隔时间随机

这个是豆瓣的网址:x-sorttags-all

我们要从这里获取所有分类的标签链接,进一步去爬取里面的信息,代码先贴上来:

import requests

from bs4 import BeautifulSoup ? ? ? #导入库

url="httom/tag/?icn=index-nav"

wb_data=requests.get(url) ? ? ? ? ? ? ? ?#请求网址

soup=BeautifulSoup(wb_data.text,"lxml") ?#解析网页信息

tags=soup.select("#content div div.article div div table tbody tr td a")

#根据CSS路径查找标签信息,CSS路径获取方法,右键-检查-copy selector,tags返回的是一个列表

for tag in tags:

tag=tag.get_text() ? ?#将列表中的每一个标签信息提取出来

helf="hom/tag/"

#观察一下豆瓣的网址,基本都是这部分加上标签信息,所以我们要组装网址,用于爬取标签详情页

url=helf+str(tag)

print(url) ? ?#网址组装完毕,输出

以上我们便爬取了所有标签下的网址,我们将这个文件命名为channel,并在channel中创建一个channel字符串,放上我们所有爬取的网址信息,等下爬取详情页的时候直接从这里提取链接就好了,如下:

channel='''

tag/程序

'''

现在,我们开始第二个程序。

QQ图片20160915233329.png

标签页下每一个迅拍图片的信息基本都是这样的,我们可以直接从这里提取到标题,作者,出版社,出版时间,价格,评价人数,以及评分等信息(有些外国作品还会有译者信息),提取方法与提取标签类似,也是根据CSS路径提取。

我们先用一个网址来实验爬取:

url="htt/tag/科技"

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")

tag=url.split("?")[0].split("/")[-1] ? ?#从链接里面提取标签信息,方便存储

detils=soup.select("#subject_list ul li div.info div.pub") ?#抓取作者,出版社信息,稍后我们用spite()函数再将他们分离出来

scors=soup.select("#subject_list ul li div.info div.star.clearfix span.rating_nums") ? #抓取评分信息

persons=soup.select("#subject_list ul li div.info div.star.clearfix span.pl") ? ?#评价人数

titles=soup.select("#subject_list ul li div.info h2 a") ? #书名

#以上抓取的都是我们需要的html语言标签信息,我们还需要将他们一一分离出来

for detil,scor,person,title in zip(detils,scors,persons,titles):

#用一个zip()函数实现一次遍历

#因为一些标签中有译者信息,一些标签中没有,为避免错误,所以我们要用一个try来把他们分开执行

try:

author=detil.get_text().split("/",4)[0].split()[0] ? ? #这是含有译者信息的提取办法,根据“/” ?把标签分为五部分,然后依次提取出来

yizhe= detil.get_text().split("/", 4)[1]

publish=detil.get_text().split("/", 4)[2]

time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0] ? #时间我们只提取了出版年份

price=ceshi_priceone(detil) ? ? ? ?#因为价格的单位不统一,我们用一个函数把他们换算为“元”

scoe=scor.get_text() if True else "" ? ?#有些书目是没有评分的,为避免错误,我们把没有评分的信息设置为空

person=ceshi_person(person) ? ? ?#有些书目的评价人数显示少于十人,爬取过程中会出现错误,用一个函数来处理

title=title.get_text().split()[0] ?

#当没有译者信息时,会显示IndexError,我们分开处理

except IndexError:

try:

author=detil.get_text().split("/", 3)[0].split()[0]

yizhe="" ? ? ? ? #将detil信息划分为4部分提取,译者信息直接设置为空,其他与上面一样

publish=detil.get_text().split("/", 3)[1]

time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]

price=ceshi_pricetwo(detil)

scoe=scor.get_text() if True else ""

person=ceshi_person(person)

title=title.get_text().split()[0]

except (IndexError,TypeError):

continue ?

#出现其他错误信息,忽略,继续执行(有些书目信息下会没有出版社或者出版年份,但是数量很少,不影响我们大规模爬取,所以直接忽略)

except TypeError:

continue

#提取评价人数的函数,如果评价人数少于十人,按十人处理

def ceshi_person(person):

try:

person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])

except ValueError:

person = int(10)

return person

#分情况提取价格的函数,用正则表达式找到含有特殊字符的信息,并换算为“元”

def ceshi_priceone(price):

price = detil.get_text().split("/", 4)[4].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

def ceshi_pricetwo(price):

price = detil.get_text().split("/", 3)[3].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

实验成功后,我们就可以爬取数据并导入到数据库中了,以下为全部源码,特殊情况会用注释一一说明。

import requests

from bs4 import BeautifulSoup

import time

import re

import pymysql

from channel import channel ? #这是我们第一个程序爬取的链接信息

import random

def ceshi_person(person):

try:

person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])

except ValueError:

person = int(10)

return person

def ceshi_priceone(price):

price = detil.get_text().split("/", 4)[4].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

def ceshi_pricetwo(price):

price = detil.get_text().split("/", 3)[3].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

#这是上面的那个测试函数,我们把它放在主函数中

def mains(url):

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")

tag=url.split("?")[0].split("/")[-1]

detils=soup.select("#subject_list ul li div.info div.pub")

scors=soup.select("#subject_list ul li div.info div.star.clearfix span.rating_nums")

persons=soup.select("#subject_list ul li div.info div.star.clearfix span.pl")

titles=soup.select("#subject_list ul li div.info h2 a")

for detil,scor,person,title in zip(detils,scors,persons,titles):

l = [] ?#建一个列表,用于存放数据

try:

author=detil.get_text().split("/",4)[0].split()[0]

yizhe= detil.get_text().split("/", 4)[1]

publish=detil.get_text().split("/", 4)[2]

time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0]

price=ceshi_priceone(detil)

scoe=scor.get_text() if True else ""

person=ceshi_person(person)

title=title.get_text().split()[0]

except IndexError:

try:

author=detil.get_text().split("/", 3)[0].split()[0]

yizhe=""

publish=detil.get_text().split("/", 3)[1]

time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]

price=ceshi_pricetwo(detil)

scoe=scor.get_text() if True else ""

person=ceshi_person(person)

title=title.get_text().split()[0]

except (IndexError,TypeError):

continue ?

except TypeError:

continue

l.append([title,scoe,author,price,time,publish,person,yizhe,tag])

#将爬取的数据依次填入列表中

sql="INSERT INTO allbooks values(%s,%s,%s,%s,%s,%s,%s,%s,%s)" ?#这是一条sql插入语句

cur.executemany(sql,l) ? #执行sql语句,并用executemary()函数批量插入数据库中

conn.commit()

#主函数到此结束

# 将Python连接到MySQL中的python数据库中

conn = pymysql.connect( user="root",password="123123",database="python",charset='utf8')

cur = conn.cursor()

cur.execute('DROP TABLE IF EXISTS allbooks') ? #如果数据库中有allbooks的数据库则删除

sql = """CREATE TABLE allbooks(

title CHAR(255) NOT NULL,

scor CHAR(255),

author CHAR(255),

price CHAR(255),

time CHAR(255),

publish CHAR(255),

person CHAR(255),

yizhe CHAR(255),

tag CHAR(255)

)"""

cur.execute(sql) ?#执行sql语句,新建一个allbooks的数据库

start = time.clock() ? #设置一个时钟,这样我们就能知道我们爬取了多长时间了

for urls in channel.split():

urlss=[urls+"?start={}type=T".format(str(i)) for i in range(0,980,20)] ? #从channel中提取url信息,并组装成每一页的链接

for url in urlss:

mains(url) ? ? ? #执行主函数,开始爬取

print(url) ? ? ? ?#输出要爬取的链接,这样我们就能知道爬到哪了,发生错误也好处理

time.sleep(int(format(random.randint(0,9)))) ? #设置一个随机数时间,每爬一个网页可以随机的停一段时间,防止IP被封

end = time.clock()

print('Time Usage:', end - start) ? ?#爬取结束,输出爬取时间

count = cur.execute('select * from allbooks')

print('has %s record' % count) ? ? ? #输出爬取的总数目条数

# 释放数据连接

if cur:

cur.close()

if conn:

conn.close()

这样,一个程序就算完成了,豆瓣的书目信息就一条条地写进了我们的数据库中,当然,在爬取的过程中,也遇到了很多问题,比如标题返回的信息拆分后中会有空格,写入数据库中会出现错误,所以只截取了标题的第一部分,因而导致数据库中的一些书名不完整,过往的大神如果有什么办法,还请指教一二。

等待爬取的过程是漫长而又欣喜的,看着电脑上一条条信息被刷出来,成就感就不知不觉涌上心头;然而如果你吃饭时它在爬,你上厕所时它在爬,你都已经爬了个山回来了它还在爬时,便会有点崩溃了,担心电脑随时都会坏掉(还是穷学生换不起啊啊啊啊~)

所以,还是要好好学学设置断点,多线程,以及正则,路漫漫其修远兮,吾将上下而求索~共勉~

【python爬虫实战】爬取豆瓣影评数据

爬取豆瓣影评数据步骤:

1、获取网页请求销谨册

2、解亏宏析获取的网页

3、提速数据晌备

4、保存文件

python爬虫怎么做?

大到各类搜索引擎,小到日常数据采集,都离不开网络爬虫。爬虫的基本原理很简单,遍历网络中网页,抓取感兴趣的数据内容。这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据做告宏,然后会一步步逐渐完善爬虫的抓取功能。

工具安装

我们需要安装python,python的requests和BeautifulSoup库。我们用Requests库用抓取网页的内容,使用BeautifulSoup库来从网页中提取数据。

安装python

运行pipinstallrequests

运行pipinstallBeautifulSoup

抓取网页

完成必要工具安装后,我们正式开始编写我们的爬虫。我们的第一个任务是要抓取所有豆瓣上的图书信息。我们以/subject/26986954/为例,首先看看开如何抓取网页的内容。

使用python的requests提供的get()方法我们可以非常简单的获取的指定网页的内纯册容,代码如下:

提取内容

抓取到网页的内容后,我们要做的就是提取出我们想要的内容。在我们的第一个例子中,我们只需要提取书名。首先我们导入BeautifulSoup库,使用BeautifulSoup我们可以非常简单的提取网页的特定内容。

连续抓取网页

到目前为止,我们已经可以抓取单个网页的内容了,现在让我们看看如何抓取整个网站的内容。我们知道网页之间是通过超链接互相连接在一起的,通过链接我们可以访问整个网络。所以我们可以从每个页面提取出包含指向其它网页的链接,然后重复的对新链接进行抓取。

通过以上几步我们就可以写出一个最原始的爬虫。在理解了爬虫原理的基础上,我们可以进一步对爬虫进行完善。

写过一个系列关于爬虫的文章:/i6567289381185389064/。感兴趣的可以前往查看。

Python基本环境的搭建,爬虫的基本原理以及爬虫的原型

Python爬虫入门(第1部分)

如何使用BeautifulSoup对网页内容进行提取

Python爬虫入门(第2部分)

爬虫运行时数据的存储数据,以SQLite和MySQL作为示例

Python爬虫入门(第3部分)

使用seleniumwebdriver对动态网页进行抓取

Python爬虫入门(第4部分)

讨论了如何处理网站的反爬虫策略

Python爬友如虫入门(第5部分)

对Python的Scrapy爬虫框架做了介绍,并简单的演示了如何在Scrapy下进行开发

Python爬虫入门(第6部分)

python爬虫小白求帮助:爬取豆瓣网的内容 不知道哪里出问题了 只能print一行?

只获取到一个movie_name 和 一个movies_score,然扮肆后遍历这两个值,循环一定是只走两纳薯遍。不知道你这个是不是洞缺者豆瓣top250 我看页面元素好像不对了

豆瓣读书数据分析-python

豆瓣读书数据分析轿粗-python

(思路来自课程老师绿树)刚刚学完python数据分析的课程,决定做一个有关python数据分析的小项目,思来想去,还是决定分析豆瓣的数据,因为豆瓣是python写成的。用python爬虫抓取数据较为方便,比一般网站少很多页面bug问题,而且豆瓣上的数据量大概在million这个量级,算是算太大的,但也不小。正好手里有一份跑出的大概300多万的数据,直接开始分析。

首先导入数据,将数据赋给一个dataframe,取名为douban

douban=pd.read_table("douban.dat",sep="::",names=["user","book","rate"])

看一下这个数据的描述?

总共3648104行,其他的诸如平均数,中位数的值,是豆瓣书籍的链接后缀,并无实际意义。

然后关于豆瓣读书用户

user_count=douban.groupby('user').count()

user_count=user_count.sort('book',ascending=False)

、我们发现共有38万多读者,计数最多的一位eastwolf东狼,真的很厉害,一共写了4000多的书评。不过我们不排除这是个机器人或者公众号,因为4000度书评,就算一天看一本书,也要写11年,而豆瓣创建才不过11年。有点假,不过这备帆雹个问题我们暂且不谈,仅从数据来看,第一名最爱读书的书霸,就是eastwolf了,大家鼓掌。

然后我们再来看一下书籍的信息

看一下描述

最受欢迎的书有2071个书评,平均每本书大概有45个书评。

看一下具体情况

我们挑出书评最多的10本,找到图片,就是以下这10本书

可以发现由于不同出版社不同翻译的问题,10本书实际是4本,豆瓣果然是文艺青年聚集地,《小王子》《追风筝的人》《活着》几乎就是文艺青年必备了。?

? 豆瓣做为文艺青年聚集地,本身用户属于素质较高的群体。里面分很多小组,读书,电影,音乐,算是给大家找志同道合之友的好地方。关于读书这个方面,在大家都很爱读书的基础上,我们可以用户进行聚类分析。依靠的根据是对书籍的打分,这样来计算不同用户之间的距离。因为读的书目越相似,对同一本书打分结果越接近,说明价值观越相同,找出这样的相似者,就能给用户推荐一下潜在的‘同志’,算是给豆瓣增加一个社交功能了。

? 首先我们仿帆把用户信息和书本信息结合,因为考虑到大部分书籍用户之间交集为空,而且我的电脑的处理能力有限,所以截取了用户和书籍的前100进行分析,这样得到一个新的dataframe

然后我们建立邻近性矩阵

ubrcore=doubancore.pivot('user','book','rate')?

即使在取前100的条件下,依然大部分是空白,为了能够计算,我们把空白处替换成0.

ubrcore1=ubrcore.fillna(value=0)

然后对要进行距离计算,由于本身对书本的打分在1到5之间,纯粹的大小差距并不大,所以我们更多的考虑在方向上的差异,所以用余弦距离来反应不同用户之间的差异性。

?构建公式,并将计算结果给userdistdf这个dataframe

Userdistdf结果如下

最像用户的就是他自己,余弦距离都是1。其他人只能是部分相像,果然人生得一知己难啊。不过知己找不到,我们可以给用户找10个部分相像的‘同志’

构建函数

试一下

Bingo,成功!!!!

这样,我们可以为用户qdmimi19810920找到了10个志同道合的‘同志’了。

(责任编辑:IT教学网)

更多

推荐ASP.NET教程文章