当前位置： > 工具软件 > 办公软件 > word > 文章内容

python爬虫导入数据库(python爬取数据存入数据库)

http://www.itjxue.com 2023-04-08 22:12 来源:未知 点击次数:

python爬取到的json数据怎么存入到MySQL数据库中

json的数据json.loads进来以后会变成一个json的对象，你需要自己把python对象中的字段值取出来，拼成sql语句

python爬虫将数据导入到mysql数据库时，报错_mysql_exceptions.programmingerror 1146

那肯定是因为你的insert语句里面的values有问题，这些值都为空，所以你返回结果行为None，你可以试着输出一下self.insertSql这个变量，看看输出来的结果是什么就知道了。

或者是你把values的值换成字符串，成功插入后再修改成变量，慢慢调试。

这种数据库操作的问题，最好是要好好检查下自己的sql语句。

python爬虫数据存到非本地mysql

pymysql 基本使用八个步骤以及案例分析

一.导入pymysql模块

导入pymysql之前需要先安装pymysql模块

方法一:直接在pycharm编译器里面输入 pip install pymysql

方法二:win+r -- 输入cmd --在里面输入pip install pymysql

ps:在cmd中输入pip list后回车可以找到安装的pymysql就表示安装成功了

在pycharm编译器中导入

import pymysql

二.获取到database的链接对象

coon = pymysql.connect(host='127.0.0.1', user='root', password='123456', database='pymysql_test')

user:是你的数据库用户名

password:数据库密码

database:你已经创建好的数据库

三.创建数据表的方法

cursor.execute(

'''create table if not exists pets(id int primary key auto_increment,

src varchar(50),

skill varchar(100)''')

四.获取执行sql语句的光标对象

cousor = coon.cousor()

五.定义要执行的sql语句

1.sql的增加数据的方法

sql = '''insert into test_mysql(id,src,skill) values(%d,%s,%s)'''

ps: test_mysql 是你连接到的数据库中的一张表

id,src,skill 这个是你创建表时所定义的字段关键字

%d,%s,%s 这个要根据你创建的字段关键字的类型而定,记住要一一对应

2.sql的删除数据的方法

sql_1 = '''delete from test_mysql where src=%s;'''

3.sql的修改数据方法

sql_2 = '''update test_mysql set src=%s where skill=%s;'

4.sql的查询方法

sql_3 = '''select * from test_mysql where skill = %s'''

六.通过光标对象执行sql语句

1.执行增加数据的sql语句

cousor.execute(sql, [2, '', '000000'])

运行后在mysql的可视化后台就可以直观的添加的数据

2.执行删除数据sql语句

new = ''

cousor.execute(sql_1, [new])

PS:这里就是根据sql语句where后面的条件进行删除对应的数据

要记住传入的数据要与sql的where后面条件匹配

3.执行修改数据的sql语句

url = ''

pwd = '666666'

cousor.execute(sql_2,[pwd,url])

4.执行查询数据的sql语句

result1 = cousor.fetchone()

fetchone() 查询=整个表中的第一条数据,

如果再次使用就会查找到第二条数据,

还可以在括号内输入id值查询到相应的数据

result2 = cousor.fetchmany()

fetchmany()查询到表里的多条数据,

在括号里输入几就会查找到表的前几条数据

result2 = cousor.fetchall()

fetchall()查询到sql查询匹配到的所有数据

print(result)

用print输出语句就能直接打印输出所查询到的数据

**总结: 在执行sql语句要传入参数时,这个参数要以列表或者元组的类型传入**

七.关闭光标对象

cousor.close()

八.关闭数据库的链接对象

coon.cousor()

九.洛克王国宠物数据抓取案例

import requests

import pymysql

from lxml import etree

from time import sleep

# 数据库链接

conn = pymysql.connect(host='127.0.0.1', user='root', password='123456', database='pymysql')

cursor = conn.cursor()

# 执行一条创建表的操作

cursor.execute(

'''create table if not exists pets(id int primary key auto_increment,name varchar(50),src varchar(100),industry text)''')

url = ''

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'

}

response = requests.get(url=url, headers=headers)

response.encoding = 'gbk'

html = response.text

# print(html)

# 宠物名称

# 宠物图片(图片在 lz_src)

# 宠物技能(跳转详细页)

tree = etree.HTML(html)

li_list = tree.xpath('//ul[@id="cwdz_list"]/li') # 所有的宠物

for li in li_list:

name = li.xpath('./@name')[0] # 每一个宠物的名称

src = 'http:' + li.xpath('./a/img/@lz_src')[0] # 图片链接

link = '' + li.xpath('./a/@href')[0] # 宠物的详细链接

industry = [] # 数组里面存放每一个对象,每一个对象就是一个技能

# 对详细链接发起请求,获取技能

try:

detail_resp = requests.get(url=link, headers=headers)

sleep(0.5)

detail_resp.encoding = 'gbk'

detail_tree = etree.HTML(detail_resp.text)

# 技能

skills = detail_tree.xpath('/html/body/div[5]/div[2]/div[2]/div[1]/div[1]/table[4]/tbody/tr')

del skills[0]

for skill in skills:

item = {}

item['name'] = skill.xpath('./td[1]/text()')[0] # 技能

item['grade'] = skill.xpath('./td[2]/text()')[0] # 等级

item['property'] = skill.xpath('./td[3]/text()')[0] # 属性

item['type'] = skill.xpath('./td[4]/text()')[0] # 类型

item['target'] = skill.xpath('./td[5]/text()')[0] # 目标

item['power'] = skill.xpath('./td[6]/text()')[0] # 威力

item['pp'] = skill.xpath('./td[7]/text()')[0] # pp

item['result'] = skill.xpath('./td[8]/text()')[0] # 效果

industry.append(item)

# print(industry)

# 数据保存 (mysql)

sql = '''insert into pets(name,src,industry) values (%s,%s,%s);'''

cursor.execute(sql, [name, src, str(industry)])

conn.commit()

print(f'{name}--保存成功!')

except Exception as e:

pass

cursor.close()

conn.close()

十.总结

本章内容主要是给大家讲解一下在爬虫过程中如何将数据保存mysql数据库中去,

最后面这个案例就是一个示范,希望这篇文章能给大家带来帮助,都看到这里了给

个三连支持一下吧!!!

python爬取数据后储存数据到mysql数据库后如何覆盖旧

python爬取数据后储存数据到mysql数据库后添加新数据覆盖旧。

1、先根据PRIMARY_KEY或UNIQUE字段查询库里是否存在数据（select）。

2、如果存在数据，则更改许要更改的字段（update）。

3、如果不粗在数据，则进行添加新数据（insert）。

python爬虫的工作步骤

当前处于一个大数据的时代，一般网站数据来源有二：网站用户自身产生的数据和网站从其他来源获取的数据，今天要分享的是如何从其他网站获取你想要的数据。

目前最适合用于写爬虫的语言是python，python中最受欢迎的爬虫框架是scrapy,本文围绕scrapy来展开讲解爬虫是怎么工作的。

1.如下图所示，爬虫从编写的spider文件中的start_urls开始，这个列表中的url就是爬虫抓取的第一个网页，它的返回值是该url对应网页的源代码，我们可以用默认的parse(self,response)函数去打印或解析这个源代码

2.我们获取到源代码之后，就可以从网页源代码中找到我们想要的信息或需要进一步访问的url,提取信息这一步，scrapy中集成了xpath,正则(re),功能十分强大，提取到信息之后会通过yield进入到中间件当中。

中间件包括爬虫中间件和下载中间件，爬虫中间件主要用于设置处理爬虫文件中的代码块，下载中间件主要用于判断爬虫进入网页前后的爬取状态，在此中间件中，你可以根据爬虫的返回状态去做进一步判断。

最后我们将yield过来的item，即就是我们想要的数据会在pipeline.py文件中进行处理，存入数据库，写入本地文件，都可以在这里进行，另外，为了减少代码冗余，建议所有与设置参数有关的参数，都写在settings.py中去

python爬虫爬下来的数据怎么导入到MySQL

去装一个 pymsql包

然后

import?pymysql??#导入pymsql模块

#链接数据库，注意port是int型，不是str，所以不要用引号

conn?=?pymysql.connect(

????????????????user='root',

????????????????password='root',

????????????????host='127.0.0.1',

????????????????port=3306,

????????????????database='test_demo',

????????????????use_unicode=True,

????????????????charset="utf8"

????????????)

#获取游标

cursor?=?conn.cursor()

#插入数据，注意看有变量的时候格式

cursor.execute("INSERT?INTO?tieba_user(`uuid`,`user_name`,`user_rank`,`user_level`,`level_status`,`tieba_name`)?VALUES?(%s,%s,%s,%s,%s,%s)",?(user_id,?user_name,?user_rank,?user_level,?level_statu,?tieba_name))

#提交

conn.commit()

#关闭连接

cursor.close()

类似这样

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：微信小程序怎么制作自己的小程序(微信小程序怎么制作自己的小程

下一篇：初中毕业该学什么好入会杭州欧米奇(初中毕业上什么中专学校好连

python爬虫导入数据库(python爬取数据存入数据库)

python爬取到的json数据怎么存入到MySQL数据库中

python爬虫将数据导入到mysql数据库时，报错_mysql_exceptions.programmingerror 1146

python爬虫数据存到非本地mysql

python爬取数据后储存数据到mysql数据库后如何覆盖旧

python爬虫的工作步骤

python爬虫爬下来的数据怎么导入到MySQL

(责任编辑：IT教学网)

相关word文章

阅读排行

专题教程

推荐word文章

最新更新word