基于python的豆瓣电影推荐系统(基于python的豆瓣电影推荐系统有

http://www.itjxue.com 2023-03-28 01:11 来源:未知 点击次数:

豆瓣为什么用python？

1.从语言排行榜上看

Python虽然是25岁的大叔级编程语言，但是近年来Python反而变得越来越流行，在TIOBE编程语言指数排行榜中，Python的排名从去年的第六名飙升到了第四名:

2.语言本身简洁，优美,功能超级强大

Python的语法非常接近英语,去掉了传统的C++/Java使用大括号来区分一个方法体或者类的形式，而是采用强制缩进来表示一个方法或者类。风格统一，非常优美.而且内置了很多高效的库，打个比方，同样一项工作C语言可能要1000行，java要100行，python可能只要10行. 而且从桌面应用,web开发,自动化测试运维，爬虫，人工智能，大数据处理都能做，以后会详细讲一下.

3.跨平台

类似很多流行编程语言Java、C++、C都能跨平台而且开源，Python也是如此

由于它是开源的，所以也支持可移植性。你可以随处运行Python，换句话说你在window上写的代码，可以很方便的再linux,mac上运行。

4.非常火爆的社区

Python有非常有名的社区，而且人气很火爆，大家可以去python官网经常逛逛，还有github上搜一下python的帖子，很多开源的库，你能想到的基本都已经有人开发了.而且版本还在不断的迭代.

5.很多有名的大公司在用

国外非常有名的有Google,facebook,Yahoo,YueTube,还有美国宇航局NASA,像著名的开源云计算平台openstack也是用python写的,还有国内的豆瓣也是用python写的.

基于python的豆瓣电影推荐系统(基于python的豆瓣电影推荐系统有哪些)

Python爬虫实战（1）requests爬取豆瓣电影TOP250

爬取时间：2020/11/25

系统环境：Windows 10

所用工具：Jupyter Notebook\Python 3.0

涉及的库：requests\lxml\pandas\matplotlib\numpy

蛋肥想法：先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法： print数据列表后发现电影原名、分类信息等存在不需要的字符，需预先处理；同时因为后续想做一个豆瓣电影TOP250的维度分布图，而同一电影存在多个发行国家、类型（如“法国美国 / 剧情动作犯罪”），为了简（偷）便（懒），这里均取第一个作为记入的数据；最后将数据保存为xlsx。

蛋肥想法：蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据，为了练手，使用刚才保存成xlsx的数据，并分别画成雷达图、柱形图、扇形图。

.利用python获得豆瓣电影前30部电影的中文片名,排名,导演,主演,上映时间

热门频道

首页

博客

研修院

VIP

APP

问答

下载

社区

推荐频道

活动

招聘

专题

打开CSDN APP

打开APP

python 网络爬虫 1.2 获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分，将数据存入文档。原创

2021-07-19 01:03:15

2点赞

zynaln

码龄8年

关注

题目：

获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分，将数据存入文档。

代码：

输出结果：

文章知识点与官方知识档案匹配

Python入门技能树网络爬虫urllib

201761 人正在系统学习中

打开CSDN APP，看更多技术内容

最新发布用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)

用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)

继续访问

python

写评论

踩

基于Python的电影推荐系统的设计和实现

《基于Python的电影推荐系统的设计和实现》该项目采用技术Python的django框架、mysql数据库，项目含有源码、论文、PPT、配套开发软件、软件安装教程、项目发布教程、核心代码介绍视频等

软件开发环境及开发工具：

开发语言：python

使用框架：Django

前端技术：JavaScript、VUE.js（2.X）、css3

开发工具：pycharm、Visual Studio Code、HbuildX

数据库：MySQL 5.7.26（版本号）

数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog

python版本：python3.0及以上

管理员用例图如下所示：

用户用例图如下所示：

系统功能完整，适合作为毕业设计、课程设计、数据库大作业。

下面是资料信息截图：

下面是系统运行起来后的一些截图：

Python抓取豆瓣电影排行榜

1.观察url

首先观察一下网址的结构 ;filter=type= ：

可以看到，问号?后有三个参数 start、filter、type，其中start代表页码，每页展示25部电影，0代表第一页，以此类推25代表第二页，50代表第三页...

filter顾名思义，是过滤已经看过的电影，filter和type在这里不重要，可以不管。

2.查看网页源代码

打开上面的网址，查看源代码，可以看到信息的展示结构如下：

1 ol class="grid_view" 2 li 3 div class="item" 4 div class="pic" 5 em class=""1/em 6 a href="" 7 img alt="肖申克的救赎" src="" class="" 8 /a 9 /div10 div class="info"11 div class="hd"12 a href="" class=""13 span class="title"肖申克的救赎/span14 span class="title" / The Shawshank Redemption/span15 span class="other" / 月黑高飞(港) / 刺激1995(台)/span16 /a17 18 19 span class="playable"[可播放]/span20 /div21 div class="bd"22 p class=""23 导演: 弗兰克·德拉邦特 Frank Darabont 主演: 蒂姆·罗宾斯 Tim Robbins /...br24 1994 / 美国 / 犯罪剧情25 /p26 27 28 div class="star"29 span class="rating5-t"em9.6/em/span30 span646374人评价/span31 /div32 33 p class="quote"34 span class="inq"希望让人自由。/span35 /p36 /div37 /div38 /div39 /li

其中em class=""1/em代表排名，span class="title"肖申克的救赎/span代表电影名，其他信息的含义也很容易能看出来。

于是接下来可以写正则表达式：

1 pattern = re.compile(u'div.*?class="item".*?div.*?class="pic".*?' 2 + u'em.*?class=""(.*?)/em.*?' 3 + u'div.*?class="info".*?span.*?class="title"(.*?)' 4 + u'/span.*?span.*?class="title"(.*?)/span.*?' 5 + u'span.*?class="other"(.*?)/span.*?/a.*?' 6 + u'div.*?class="bd".*?p.*?class="".*?' 7 + u'导演: (.*?) ' 8 + u'主演: (.*?)br' 9 + u'(.*?) / (.*?) / '10 + u'(.*?)/p'11 + u'.*?div.*?class="star".*?em(.*?)/em'12 + u'.*?span(.*?)人评价/span.*?p.*?class="quote".*?'13 + u'span.*?class="inq"(.*?)/span.*?/p', re.S)

在此处flag参数re.S代表多行匹配。

3.使用面向对象的设计模式编码

代码如下：

1 # -*- coding:utf-8 -*- 2 __author__ = 'Jz' 3 import urllib2 4 import re 5 import sys 6 7 class MovieTop250: 8 def __init__(self): 9 #设置默认编码格式为utf-810 reload(sys)11 sys.setdefaultencoding('utf-8')12 self.start = 013 self.param = 'filter=type='14 self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64)'}15 self.movieList = []16 self.filePath = 'D:/coding_file/python_file/File/DoubanTop250.txt'17 18 def getPage(self):19 try:20 URL = '' + str(self.start)21 request = urllib2.Request(url = URL, headers = self.headers)22 response = urllib2.urlopen(request)23 page = response.read().decode('utf-8')24 pageNum = (self.start + 25)/2525 print '正在抓取第' + str(pageNum) + '页数据...' 26 self.start += 2527 return page28 except urllib2.URLError, e:29 if hasattr(e, 'reason'):30 print '抓取失败，具体原因：', e.reason31 32 def getMovie(self):33 pattern = re.compile(u'div.*?class="item".*?div.*?class="pic".*?'34 + u'em.*?class=""(.*?)/em.*?'35 + u'div.*?class="info".*?span.*?class="title"(.*?)'36 + u'/span.*?span.*?class="title"(.*?)/span.*?'37 + u'span.*?class="other"(.*?)/span.*?/a.*?'38 + u'div.*?class="bd".*?p.*?class="".*?'39 + u'导演: (.*?) '40 + u'主演: (.*?)br'41 + u'(.*?) / (.*?) / '42 + u'(.*?)/p'43 + u'.*?div.*?class="star".*?em(.*?)/em'44 + u'.*?span(.*?)人评价/span.*?p.*?class="quote".*?'45 + u'span.*?class="inq"(.*?)/span.*?/p', re.S)46 while self.start = 225:47 page = self.getPage()48 movies = re.findall(pattern, page)49 for movie in movies:50 self.movieList.append([movie[0], movie[1], movie[2].lstrip(' / '),

51 movie[3].lstrip(' / '), movie[4],

52 movie[5], movie[6].lstrip(), movie[7], movie[8].rstrip(),53 movie[9], movie[10], movie[11]])54 55 def writeTxt(self):56 fileTop250 = open(self.filePath, 'w')57 try:58 for movie in self.movieList:59 fileTop250.write('电影排名：' + movie[0] + '\r\n')60 fileTop250.write('电影名称：' + movie[1] + '\r\n')61 fileTop250.write('外文名称：' + movie[2] + '\r\n')62 fileTop250.write('电影别名：' + movie[3] + '\r\n')63 fileTop250.write('导演姓名：' + movie[4] + '\r\n')64 fileTop250.write('参与主演：' + movie[5] + '\r\n')65 fileTop250.write('上映年份：' + movie[6] + '\r\n')66 fileTop250.write('制作国家/地区：' + movie[7] + '\r\n')67 fileTop250.write('电影类别：' + movie[8] + '\r\n')68 fileTop250.write('电影评分：' + movie[9] + '\r\n')69 fileTop250.write('参评人数：' + movie[10] + '\r\n')70 fileTop250.write('简短影评：' + movie[11] + '\r\n\r\n')71 print '文件写入成功...'72 finally:73 fileTop250.close()74 75 def main(self):76 print '正在从豆瓣电影Top250抓取数据...'77 self.getMovie()78 self.writeTxt()79 print '抓取完毕...'80 81 DouBanSpider = MovieTop250()82 DouBanSpider.main()

代码比较简单，最后将信息写入一个文件，没有什么需要解释的地方。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：python程序设计考什么(python程序设计难学吗)

下一篇：中医零基础入门看什么书(零基础学中医这本书怎么样)

基于python的豆瓣电影推荐系统(基于python的豆瓣电影推荐系统有

豆瓣为什么用python？

Python爬虫实战（1）requests爬取豆瓣电影TOP250

.利用python获得豆瓣电影前30部电影的中文片名,排名,导演,主演,上映时间

基于Python的电影推荐系统的设计和实现

Python抓取豆瓣电影排行榜

(责任编辑：IT教学网)

相关PHP+MySQL视频文章

阅读排行

专题教程

推荐PHP+MySQL视频文章

最新更新PHP+MySQL视频