python爬取网页内容并保存到数据库(python爬取网页内容并保存到
如何用Python爬虫抓取网页内容?
爬虫流程
其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器,打开目标网站。
获取数据。打开网站之后,就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 Python 库:Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库,使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时,其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get('')
print(res)
print(type(res))
Response [200]
class 'requests.models.Response'
怎么把python 用urllib2爬取的内容 存到数据库中
使用mongodb很简单。
首先安装pymongo:
pip?install?pymongo
代码实现:用urllib2读取数据,打包成JSON格式插入到mongodb中。
from?pymongo?import?MongoClient
try:
????from?urllib2?importurlopen,?Request,?HTTPError,?URLError
except?ImportError:
????from?urllib.request?import?urlopen,?Request,?HTTPError,?URLError
result?=?[]
try:
????f?=?urlopen('',?timeout=3)
????while?1:
????????tmp?=?f.read(10240)
????????if?len(tmp)?==?0:
????????????break
????????else:
????????????result.append(tmp)
????f.close()
except?HTTPError,?URLError:
????print?URLError.code
content?=?''.join(result)
post?=?{"author":?"yushulx",
"content":?content
}
client?=?MongoClient()
db?=?client.test_database
posts?=?db.posts
posts.insert(post)
print?posts.find_one({"author":?"yushulx"})
怎么将python爬取的数据存如数据库中
使用mongodb很简单。
首先安装pymongo:
1
pip install pymongo
代码实现:用urllib2读取数据,打包成JSON格式插入到mongodb中。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
from pymongo import MongoClient
try:
from urllib2 importurlopen, Request, HTTPError, URLError
except ImportError:
from urllib.request import urlopen, Request, HTTPError, URLError
result = []
try:
f = urlopen('', timeout=3)
while 1:
tmp = f.read(10240)
if len(tmp) == 0:
break
如何将python爬虫数据直接存到数据库
直接使用sqlite 这个是python自带的
用起来也很简单百度一下教程就行 ,很容易就把数据写到数据库里了
python爬取数据后储存数据到mysql数据库后如何覆盖旧
python爬取数据后储存数据到mysql数据库后添加新数据覆盖旧。
1、先根据PRIMARY_KEY或UNIQUE字段查询库里是否存在数据(select)。
2、如果存在数据,则更改许要更改的字段(update)。
3、如果不粗在数据,则进行添加新数据(insert)。
python爬虫爬下来的数据怎么导入到MySQL
下载mysql.connector库
然后把爬虫爬到的数据通过mysql里面的insert语句查到数据库,当然也可以建表,一般我没用python建表 是先建好再写数据的
import?mysql.connector
conn?=?mysql.connector.connect(
????user='root',
????password='root',
????host='127.0.0.1',
????port='3306',
????database='test_demo'
)
cursor?=?conn.cursor()
cursor.execute("INSERT?INTO?test_user(`uuid`,`user_name`,`user_level`)?VALUES?(%s,%s,%s)",[id,?user_name,?user_level])
cursor.execute("INSERT?INTO?tieba_user_detail(`user_name`,`user_exp`,`user_sex`,`tieba_age`,`tieba_note`,`user_favorites`,`user_fans`)?VALUES?(%s,%s,%s,%s,%s,%s,%s)",[user_name,user_exp,user_sex,?tieba_age,tieba_note,?user_favorites,?user_fans])
print('**************?%s??%s?数据保存成功?**************'%(user_rank,user_name))
conn.commit()
cursor.close()
插进入就这样的