python爬虫代码运行结果(python爬虫基本代码)

http://www.itjxue.com  2023-03-28 03:23  来源:未知  点击次数: 

python爬虫报错ValueError: invalid literal for int() with base 10: '下一页?'

这个程序是我写的,写的时候有个地市的列表搞错了,你把第24行的

return

span[10].text,title.text中的10改成9就可以了,列表的第10个才是最后一页

python爬虫,运行后没有反应?求助!

python 爬虫用scrapy好了,简单,使用异步twisted库,性能刚刚的。

仔细检查正则表达,先看content是否有内容,有,估计就是正则表达式不对吧。一步步打印啊

我在用python爬虫,代码没错,却会报错?

这很有可能是ide配置问题,也就是你输出的那个终端的编码需要改成utf8

另外你可以试试response.Text看看会输出什么

python爬虫抓取电影top20排名怎么写

初步接触python爬虫(其实python也是才起步),发现一段代码研究了一下,觉得还比较有用处,Mark下。?

上代码:

#!/usr/bin/python#coding=utf-8#Author: Andrew_liu#mender:cy"""

一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称

Anthor: Andrew_liu

mender:cy

Version: 0.0.2

Date: 2017-03-02

Language: Python2.7.12

Editor: JetBrains PyCharm 4.5.4

"""import stringimport reimport urllib2import timeclass DouBanSpider(object) :

"""类的简要说明

主要用于抓取豆瓣Top100的电影名称

Attributes:

page: 用于表示当前所处的抓取页面

cur_url: 用于表示当前争取抓取页面的url

datas: 存储处理好的抓取到的电影名称

_top_num: 用于记录当前的top号码

"""

def __init__(self):

self.page = 1

self.cur_url = "h0?start={page}filter=type="

self.datas = []

self._top_num = 1

print u"豆瓣电影爬虫准备就绪, 准备爬取数据..."

def get_page(self, cur_page):

"""

根据当前页码爬取网页HTML

Args:

cur_page: 表示当前所抓取的网站页码

Returns:

返回抓取到整个页面的HTML(unicode编码)

Raises:

URLError:url引发的异常

"""

url = self.cur_url ? ? ? ?try:

my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8") ? ? ? ?except urllib2.URLError, e: ? ? ? ? ? ?if hasattr(e, "code"): ? ? ? ? ? ? ? ?print "The server couldn't fulfill the request."

print "Error code: %s" % e.code ? ? ? ? ? ?elif hasattr(e, "reason"): ? ? ? ? ? ? ? ?print "We failed to reach a server. Please check your url and read the Reason"

print "Reason: %s" % e.reason ? ? ? ?return my_page ? ?def find_title(self, my_page):

"""

通过返回的整个网页HTML, 正则匹配前100的电影名称

Args:

my_page: 传入页面的HTML文本用于正则匹配

"""

temp_data = []

movie_items = re.findall(r'span.*?class="title"(.*?)/span', my_page, re.S) ? ? ? ?for index, item in enumerate(movie_items): ? ? ? ? ? ?if item.find("nbsp") == -1:

temp_data.append("Top" + str(self._top_num) + " " + item)

self._top_num += 1

self.datas.extend(temp_data) ? ?def start_spider(self):

"""

爬虫入口, 并控制爬虫抓取页面的范围

"""

while self.page = 4:

my_page = self.get_page(self.page)

self.find_title(my_page)

self.page += 1def main():

print u"""

###############################

一个简单的豆瓣电影前100爬虫

Author: Andrew_liu

mender: cy

Version: 0.0.2

Date: 2017-03-02

###############################

"""

my_spider = DouBanSpider()

my_spider.start_spider()

fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+') ? ?for item in my_spider.datas: ? ? ? ?print item

fobj.write(item.encode("utf-8")+'\n')

time.sleep(0.1) ? ?print u"豆瓣爬虫爬取完成"if __name__ == '__main__':

main()123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

运行结果:?

?

在用python编写网页爬虫脚本时出现 UnicodeEncodeError怎么办,求高人指点,代码及运行结果如下图

requests.get返回的网页编码是utf8

在控制台输出的时候需要转换成gbk

print html.text.encode('gbk')

为什么的我的python爬虫结果会有如下的代码,请前辈们不吝赐教

while (rs.next()) {

Bars bar = new Bars();

bar.setId(rs.getLong("id"));

bar.setName(rs.getString("name"));

bar.setType(rs.getInt("type"));

bar.setCreatorId(rs.getLong("creator_id"));

resultList.add(bar);

}

(责任编辑:IT教学网)

更多

推荐Flash动画文章