当前位置： > 网页资讯 > 网络媒体 > 文章内容

python菜鸟教程官网pandas(python3菜鸟教程下载)

http://www.itjxue.com 2023-03-29 21:55 来源:未知 点击次数:

Python pandas用法

在Python中，pandas是基于NumPy数组构建的，使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的，而NumPy更适合处理统一的数值数组数据。

使用下面格式约定，引入pandas包：

pandas有两个主要数据结构：Series和DataFrame。

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成，即index和values两部分，可以通过索引的方式选取Series中的单个或一组值。

pd.Series(list,index=[ ]) ，第二个参数是Series中数据的索引，可以省略。

Series类型索引、切片、运算的操作类似于ndarray，同样的类似Python字典类型的操作，包括保留字in操作、使用.get()方法。

Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。

DataFrame是一个表格型的数据类型，每列值类型可以不同，是最常用的pandas对象。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。

pd.DataFrame(data,columns = [ ],index = [ ]) ：columns和index为指定的列、行索引，并按照顺序排列。

如果创建时指定了columns和index索引，则按照索引顺序排列，并且如果传入的列在数据中找不到，就会在结果中产生缺失值：

数据索引：Series和DataFrame的索引是Index类型，Index对象是不可修改，可通过索引值或索引标签获取目标数据，也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法：

重新索引：能够改变、重排Series和DataFrame索引，会创建一个新对象，如果某个索引值当前不存在，就引入缺失值。

df.reindex(index, columns ,fill_value, method, limit, copy ) ：index/columns为新的行列自定义索引；fill_value为用于填充缺失位置的值；method为填充方法，ffill当前值向前填充，bfill向后填充；limit为最大填充量；copy 默认True，生成新的对象，False时，新旧相等不复制。

删除指定索引：默认返回的是一个新对象。

.drop() ：能够删除Series和DataFrame指定行或列索引。

删除一行或者一列时，用单引号指定索引，删除多行时用列表指定索引。

如果删除的是列索引，需要增加axis=1或axis='columns'作为参数。

增加inplace=True作为参数，可以就地修改对象，不会返回新的对象。

在pandas中，有多个方法可以选取和重新组合数据。对于DataFrame，表5-4进行了总结

适用于Series和DataFrame的基本统计分析函数：传入axis='columns'或axis=1将会按行进行运算。

.describe() ：针对各列的多个统计汇总，用统计学指标快速描述数据的概要。

.sum() ：计算各列数据的和

.count() ：非NaN值的数量

.mean( )/.median() ：计算数据的算术平均值、算术中位数

.var()/.std() ：计算数据的方差、标准差

.corr()/.cov() ：计算相关系数矩阵、协方差矩阵，是通过参数对计算出来的。Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵。

.corrwith() ：利用DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series（针对各列进行计算），传入一个DataFrame则会计算按列名配对的相关系数。

.min()/.max() ：计算数据的最小值、最大值

.diff() ：计算一阶差分，对时间序列很有效

.mode() ：计算众数，返回频数最高的那（几）个

.mean() ：计算均值

.quantile() ：计算分位数（0到1）

.isin() ：用于判断矢量化集合的成员资格，可用于过滤Series中或DataFrame列中数据的子集

适用于Series的基本统计分析函数，DataFrame[列名]返回的是一个Series类型。

.unique() ：返回一个Series中的唯一值组成的数组。

.value_counts() ：计算一个Series中各值出现的频率。

.argmin()/.argmax() ：计算数据最大值、最小值所在位置的索引位置（自动索引）

.idxmin()/.idxmax() ：计算数据最大值、最小值所在位置的索引（自定义索引）

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结，其中read_csv()、read_table()、to_csv()是用得最多的。

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。

在许多数据分析工作中，缺失数据是经常发生的。对于数值数据，pandas使用浮点值NaN（np.nan）表示缺失数据，也可将缺失值表示为NA（Python内置的None值）。

替换值

.replace(old, new) ：用新的数据替换老的数据，如果希望一次性替换多个值，old和new可以是列表。默认会返回一个新的对象，传入inplace=True可以对现有对象进行就地修改。

删除重复数据

利用函数或字典进行数据转换

df.head()：查询数据的前五行

df.tail()：查询数据的末尾5行

pandas.cut()

pandas.qcut() 基于分位数的离散化函数。基于秩或基于样本分位数将变量离散化为等大小桶。

pandas.date_range() 返回一个时间索引

df.apply() 沿相应轴应用函数

Series.value_counts() 返回不同数据的计数值

df.aggregate()

df.reset_index() 重新设置index，参数drop = True时会丢弃原来的索引，设置新的从0开始的索引。常与groupby()一起用

numpy.zeros()

如何自学 Python

建议先看网上的“python菜鸟教程”，这个突出重点，难度也不大，条理清晰。（高级编程的部分可以先不用看）。

然后再看看网上的“廖雪峰教程”，这个也是讲基础知识的，难度比菜鸟教程大。

之后可以找一本基础的书来看，比如《python基础教程》，纸质书讲解会比网上教程详细，内容丰富。学基础学到一定程度后，可以根据自己的需要来选择一些模块进行学习（学得比较多的是numpy和matplotlib；如果想要处理跟数据有关的工作，至少还要学pandas和scipy）学习模块时可以通过书也可以通过网上教程来学习。

python菜鸟教程官网pandas(python3菜鸟教程下载)

新手关于python中pandas函数的使用

利用Python的pandas数据结构来读取excel表格的数据，部分代码如下：

#-*- coding:utf-8 -*-

import pandas as pd

import matplotlib.pyplot as plt

catering_data="catering_sale.xls"

data=pd.read_excel(catering_data,index_col=u'日期')

#读取数据，指定"日期"列为索引列

大多数书上都是这样写的，但是在Python2.7上运行时出现错误。（没有在Python3.x版本试过）

出现了如下问题：

这里写图片描述

使用help（pd.read_excel）发现参数中有必选参数sheetname,加入到函数中，代码如下：

#-*- coding:utf-8 -*-

import pandas as pd

import matplotlib.pyplot as plt

catering_data="catering_sale.xls"

data=pd.read_excel(catering_data,sheetname=0,index_col=u'日期')

运行成功。

sheetname=0 的意思是：读取xls文件中的第一个表格。（假设文件中有很多个表格）

另外，也可以将文件转换成csv格式，就不需要这个参数了。代码如下：

catering_data="catering_sale.csv"

data=pd.read_csv(catering_data)

python(pandas模块)？

1.什么是pandas? numpy模块和pandas模块都是用于处理数据的模块。 numpy主要用于针对数组进行统计计算,处理数字数据比较方便。 pandas除了可以处理数字数据,还可...

Python其实很简单第十九章 Pandas之Series与DataFrame

19.1安装Anaconda

Anaconda是Python的一个开源发行版本，它预装了丰富的第三方库，而且主要面向科学计算和数据分析，使用起来要比原版的Python更省时省力。

Anaconda官方下载网址为：。下载和安装的方法很简单，若有问题可以在网上搜索相关内容学习解决。

安装Anaconda之后，就会发现在Anaconda目录下同时安装了Jupyter Notebook、Spyder等工具，我们接下来主要使用Spyder进行开发。关于Spyder的使用方法非常简单，大家也可以去网上搜索学习。

虽然Anaconda已经预装了很多常用的包，但有时我们也需要自己安装一些包。可以在开始菜单中选择“Anaconda Anaconda Prompt”命令，在命令行输入conda install （代表包名）即可安装，也可以输入pip install 。

19.2数据分析包Pandas

Pandas是Python的一个数据分析包，Anaconda安装时已经附带安装了Pandas包。

Pandas数据结构有三种：Series（一维数组）、DataFrame（二维数组）和Panel（三维数组），其中最常用的是前两种数据结构。

19.2.1 Series

Series（序列）用于存储一行或一列数据，以及与之相关的索引的集合。

语法格式如下：

Series([数据1，数据2，......], index=[索引1,索引2,......])

例：

from pandas import Series

s=Series(['张三','李四','王五'],index=[1,2,3])

print(s)

输出结果如下：

1 张三

2 李四

3 王五

dtype: object

上面建立序列时指定了索引，若不指定，则默认的索引值从0开始。如下：

s=Series(['张三','李四','王五'])

输出结果为:

0 张三

1 李四

2 王五

dtype: object

索引值也可以为字符串。如下：

from pandas import Series

s=Series(['张三','李四','王五'],index=['A','B','C'])

print(s)

输出结果为：

A 张三

B 李四

C 王五

dtype: object

1、访问序列

（1）可以通过索引访问序列，如：

from pandas import Series

s=Series(['张三','李四','王五'])

print(s)

print(s[0])

print(s[1:])

运行结果如下：

0 张三

1 李四

2 王五

dtype: object #print(s)输出

张三 #print(s[0])输出

1 李四

2 王五

dtype: object #print(s[1:])输出

（2）通过值获取索引值

from pandas import Series

s=Series(['张三','李四','王五'],index=['A','B','C'])

print(s.index[s.values=='李四'])

运行结果：

Index(['B'], dtype='object')

（3）判断值是否存在

from pandas import Series

s=Series(['张三','李四','王五'],index=['A','B','C'])

f='李四' in s.values

print(f)

运行结果：

True

（4）定位获取

from pandas import Series

s=Series(['张三','李四','王五','孙六'],index=['A','B','C','D'])

print(s[[0,2,1]])

运行结果：

A 张三

C 王五

B 李四

dtype: object

2、修改序列

（1）追加序列，如：

from pandas import Series

s=Series(['张三','李四','王五'],index=['A','B','C'])

s1=Series(['孙六'],index=['D'])

s=s.append(s1)

print(s)

运行结果：

A 张三

B 李四

C 王五

D 孙六

dtype: object

（2）修改序列的值

from pandas import Series

s=Series(['张三','李四','王五','孙六'],index=['A','B','C','D'])

s[1]='李飞'

print(s)

运行结果：

A 张三

B 李飞

C 王五

D 孙六

dtype: object

不知道索引，仅知道要修改的值，也可通过值查找到索引后，再修改序列的值。如：

s[s.index[s.values=='李四']]='李飞'

这样也可以将“李四”修改为“李飞。

（3）修改索引

from pandas import Series

s=Series(['张三','李四','王五','孙六'],index=['A','B','C','D'])

s.index=[0,1,2,3]

print(s)

运行结果：

0 张三

1 李四

2 王五

3 孙六

dtype: object

（4）删除元素

from pandas import Series

s=Series(['张三','李四','王五','孙六'],index=['A','B','C','D'])

s=s.drop('A')

print(s)

运行结果：

B 李四

C 王五

D 孙六

dtype: object

（5）重新排序

可以按照索引排序，使用sort_index(ascending=True)方法对index进行排序操作。

from pandas import Series

s=Series(['张三','李四','王五','孙六'],index=['A','B','C','D'])

s=s.sort_index(ascending=False) # ascending=False表示按降序排列

print(s)

运行结果：

D 孙六

C 王五

B 李四

A 张三

dtype: object

（6）重置索引

重置索引可以使用reindex()。如果index列表中的元素多于序列的值，可用fill_value=0这样的语句填充。

s=s.reindex(['D','C','B','A'])

如果index列表中的元素多于序列的值，可用fill_value=0这样的语句填充。

s=s.reindex(['D','C','B','A'], fill_value=0)

19.2.2 DataFrame

DataFrame（数据框架）用于存储多行和多列的数据集合。它是Series的容器，类似于Excel中二维表格。

定义一个DataFrame的语法格式如下：

df=DataFrame({列名1 : 序列1，列名2 : 序列2，.......列名n : 序列n}, index=序列 )

例如，有如下二维表：

姓名

性别

年龄

张三

男

李四

女

王五

男

保存到DataFrame中可以用如下方法：

from pandas import Series

from pandas import DataFrame

name=Series(['张三','李四','王五'])

sex=Series(['男','女','男'])

age=Series([18,19,17])

df=DataFrame({'姓名':name,'性别':sex,'年龄':age})

print(df)

运行结果：

姓名性别年龄

0 张三男 18

1 李四女 19

2 王五男 17

从上例可以看出，虽然我们省缺了索引，但系统自动添加了从0开始的索引值。

19.3 DataFrame的基本操作

1、访问方式

（1）获取行

print(df[1:2]) # 获取第1行的值

输出结果：

姓名性别年龄

1 李四女 19

print(df[1:3]) #获取第1行到第2行的值

输出结果：

姓名性别年龄

1 李四女 19

2 王五男 17

（2）获取列

print(df['姓名']) #获取“姓名”列的值

输出结果：

0 张三

1 李四

2 王五

Name: 姓名, dtype: object

另一种方法：

print(df[df.columns[0:1]]) #先按照索引号获取列名，再按照列名读取

输出结果和上面的方法完全一致。

还有一种情况，是获取唯一值，即将列内的重复值中多余的删除，仅留下互不相同的值。所用的到方法是unique()。

sex1=Series(df['性别'].unique())

print(sex1)

输出结果：

0 男

1 女

dtype: object

（3）获取指定位置的值

print(df.at[1,'姓名']) # 格式为变量名.at[行号，列名]

输出结果：

李四

（4）获取块的值

print(df.iloc[0:2,1:3]) # 格式为变量名.iloc[行号1:行号2, 列号1:列号2]

输出结果：

性别年龄

0 男 18

1 女 19

print(df.iloc[:,1:2]) #获取“性别”列的值

运行结果：

性别

0 男

1 女

2 男

2、修改、删除、增加行和列

（1）修改列名

print(df.columns)

df.columns=['name','sex','age']

print(df.columns)

输出结果：

Index(['姓名', '性别', '年龄'], dtype='object')

Index(['name', 'sex', 'age'], dtype='object')

可见，列名已经由“姓名、性别、年龄”修改为“age、sex、age”了。但这种修改必须把全部列名都一一列举，不能有遗漏，否则就会出错。如：

df.columns=['name','sex']

此时会报错：ValueError: Length mismatch: Expected axis has 3 elements, new values have 2 elements。

（2）修改行索引

df.index=[1,2,3]

（3）删除行

df.drop(1,axis=0) # axis=0表示行轴，也可以省略

（4）删除列

df.drop(‘性别’,axis=1) # axis=0表示列轴

也可以使用另一种方法：

del df['性别']

（5）增加列

df['电话']=['1111111','2222222','3333333']

print(df)

运行结果：

姓名性别年龄电话

0 张三男 18 1111111

1 李四女 19 2222222

2 王五男 17 3333333

（6）增加行

df.loc[len(df)]=['孙六','男','20']

（7）追加

from pandas import Series

from pandas import DataFrame

name=Series(['张三','李四','王五'])

sex=Series(['男','女','男'])

age=Series([18,19,17])

df=DataFrame({'姓名':name,'性别':sex,'年龄':age}) # 建立DataFrame，变量名为df

name1=Series(['孙六','候七'])

sex1=Series(['男','女'])

age1=Series([19,17])

df1=DataFrame({'姓名':name1,'性别':sex1,'年龄':age1})

# 建立DataFrame，变量名为df1

df=df.append(df1,ignore_index=True)

# 将对df1追加到df后面，参数ignore_index=True表示重新索引

print(df)

运行结果：

姓名性别年龄

0 张三男 18

1 李四女 19

2 王五男 17

3 孙六男 19

4 候七女 17

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：14岁孩子学编程到底有没有用(14岁开始学编程)

下一篇：没有了

python菜鸟教程官网pandas(python3菜鸟教程下载)

Python pandas用法

如何自学 Python

新手关于python中pandas函数的使用

python(pandas模块)？

Python其实很简单第十九章 Pandas之Series与DataFrame

(责任编辑：IT教学网)

相关网络媒体文章

阅读排行

专题教程

推荐网络媒体文章

最新更新网络媒体

python菜鸟教程官网pandas(python3菜鸟教程下载)

Python pandas用法

如何自学 Python

新手关于python中pandas函数的使用

python(pandas模块)？

Python其实很简单 第十九章 Pandas之Series与DataFrame

(责任编辑：IT教学网)

相关网络媒体文章

阅读排行

专题教程

推荐网络媒体文章

最新更新网络媒体

Python其实很简单第十九章 Pandas之Series与DataFrame