当前位置： > 网页资讯 > 网站经济 > 文章内容

python数据分析模块有哪些(python 数据分析)

http://www.itjxue.com 2023-04-05 13:58 来源:未知 点击次数:

python数据分析模块：numpy、pandas全解

一维数组情况：

二维数组情况：

3参数情况：

2参数情况：

1参数情况：

一维情况：

二维情况：

一维情况：

二维情况：

一维情况：

二维情况：第三个参数指定维度

只查看行数、或者列数

逗号隔开两个索引

某些行

某些列

可以看出append()函数在二维数组中添加元素，结果转为了一维数组。

那怎么保持二维数组呢？可以设置axis参数按行或者按列添加

可以看出先把二维数组降成了一维数组，再在索引为1的位置添加元素。

那么怎么保持在二维添加元素呢？同样设置axis参数

也分按行和按列删除

标记缺失值： isnan()函数

补充缺失值：

同样axis参数可以指定拼接按行还是按列

2. hstack()函数：以水平堆叠的方式拼接数组

3. vstack()函数：以垂直堆叠的方式拼接数组

第二个参数还可以是数组，指定拆分的位置

hsplit()函数：横向拆成几个数组

vsplit()函数：纵向拆成几个数组

数组与数组之间的运算

数组与数值的运算

可以指定整个数组求和，还是按行或者按列

axis=0：每一列的元素求和

axis=1：每一行的元素求和

axis=0：每一列求均值

axis=1：每一行求均值

axis=0：每一列求最大值

axis=1：每一行求最大值

pandas有两个重要的数据结构对象：Series和DataFrame。

Series是创建一个一维数组对象，会自动生成行标签。

会自动生成行列标签

也可以用字典形式生成数据

在用字典生成数据的基础上，同时指定行标签

例如对下表的数据进行读取

4月是第四个表，我们应把sheet_name参数指定为3；因为索引是从0开始的。

可以看出read_excel()函数自动创建了一个DataFrame对象，同时自动把第一行数据当做列标签。

可以看出不给出header参数时，该参数默认为0。

header=1时结果如下：

header=None时结果如下：

index_col=0时，第0列为列标签

index_col=0时

usecols=[2]：指定第二列

指定多列

数据如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j1SHxY8y-1637655972909)(C:Users14051AppDataRoamingTypora ypora-user-imagesimage-20211114192949607.png)]

nrows=3时

head()函数中参数为空默认前5行

指定head(3)时如下

numpy模块也是shape

查看特定列的书库类型

特定列数据类型转换

先查看一下所有数据

与单行相比，结果显示的格式不一样了

iloc()挑选：

或者给出区间

挑选数据要么标签，要么索引挑选

或者

或者写成区间

标签挑选

或者索引挑选

先查看一下数据

或者用字典一对一修改

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a6QKIoie-1637655972912)(C:Users14051AppDataRoamingTypora ypora-user-imagesimage-20211123110431201.png)]

isin()函数查看表中是否有该值

查看特定列是否有该值

可以看出上述代码并没有替换，那怎么替换呢？

末尾插入一列

指定插入到哪列

axis参数可以指定删除行还是删除列

指定标签删除

指定索引删除

方法三

指定行标签删除

指定索引删除

方法三：

先查看所有数据

info()函数查看数据类型，还可以查看是否有缺失值

isnull()函数查看是否有缺失值

在numpy模块中用isnan()函数

删除有缺失值的行

删除整行都为缺失值的行：需要指定how参数

不同列的缺失值设置不同的填充值

默认保留第一个重复值所在的行，删除其他重复值所在的行

保留第一个重复值所在的行

保留最后一个重复值所在的行

是重复的就删除

降序如下

参数指定first时，表示在数据有重复值时，越先出现的数据排名越靠前

获取产品为单肩包的行数据

获取数量60的行数据

获取产品为单肩包且数量60 的行数据

获取产品为单肩包或数量60 的行数据

stack()函数转换成树形结构

how参数指定外连接

on参数指定按哪一列合并

concat()函数采用全连接的方式，没有的数设置为缺失值

重置行标签

效果与concat()一样

末尾添加行元素

指定列求和

指定列求均值

指定列求最值

获取单列的

corr()函数获取相关系数

获取指定列与其他列的相关系数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-46g9qgQw-1637655972913)(C:Users14051AppDataRoamingTypora ypora-user-imagesimage-20211123135643804.png)]

groupby()函数返回的是一个DataFrameBy对象，该对象包含分组后的数据，但是不能直观地显示出来。

分组后获取指定列的汇总情况

获取多列的汇总情况

获取多列的情况

ta = pd.read_excel(‘相关性分析.xlsx’)

print(data)

corr()函数获取相关系数

获取指定列与其他列的相关系数

[外链图片转存中…(img-46g9qgQw-1637655972913)]

groupby()函数返回的是一个DataFrameBy对象，该对象包含分组后的数据，但是不能直观地显示出来。

分组后获取指定列的汇总情况

获取多列的汇总情况

获取多列的情况

Python中操作Excel最好用的模块是？

Python中的模块也称为库，在Python中操作Excel的模块有很多。

优缺点如下：

**1、Pandas模块**

Pandas是Python的一一个开源数据分析模块，可用于数据挖掘和数据分析，同时也提供数据清洗功能，可以说它是日前Python数据分析的必备工具之一。Pandas能够处理类似电子表格的数据，用于数据快速加载、操作、对齐、合并、数据预处理等。

Pandas通过对Excel文件的读写实现数据输入、输出，Pandas支持.xls和.xlsx格式文件的读写，支持只加载每个表的单一工作页。

import pandas as pd

df=pd.read_excel(r'E:ban.xlsx') #pandas 导入库获取excel表的数据内容

df`

**2、xlwings模块**

xlwings模块可以实现Python中调用Excel，也可以从Excel调用Python，这个模块支持支持.xls和.xlsx格式文件的读写，支持对这类文件的操作，还支持使用VBA，具有强大的转换功能，并且可以处理大部分数据类型。

**3、Xlrd模块**

xlrd模块可以读取Excel文件，其对Excel文件的读取可以实现比较精细的控制。虽然现在使用Pandas模块读取和保存Excel文件往往更加方便快捷，但在某些场景下，依然需要xlrd这种更底层的模块来实现对Excel文件读取的控制。

xlrd模块支持.xls、.xlsx格式文件的读取，但不支持写信息。

**4、xlwt模块**

前面xlrd模块可以读取Excel文件，但不能写。而xlwt模块可以写、可以修改Excel文件，但不能读，且只支持.xls格式文件的写操作。

**5、xlutils模块**

xlutils也是一个处理Excel文件的模块，但它不能对Excel文件进行读和写的操作，但依赖于xlrd模块和xlwt模块。xlutils模块支持.xls格式文件，不支持.xlsx格式文件。

**6、openpyxl模块**

openpyxl模块可以对.xlsx格式的Excel文件进行读写操作，特点是读取快、写入慢，且不能操作.xls格式文件。

**7、xlsxwriter模块**

xlsxwriter模块支持多种Excel功能，可以写.xlsx格式的Excel文件，而且速度快、占用内存空间小，但不支持读或者修改现有的Excel文件。

**8、win32com模块**

win32com模块支持.xls、.xlsx格式的Excel文件的读、写和修改，读写速度快。但win32com模块存在于pywin32的模块中，自身没有完善的文档，使用起来不太方便。

**9、分析总结**

Pandas模块把Excel当作数据读写的容器，为其强大的数据分析服务，因此读写性能的表现中规中矩。xlwings和win32com这两个模块都拥有很好的读写性能，强大的转换器可以处理大部分数据类型，同时，可以在程序运行时，在打开的Excel文件中进行实时操作，实现过程的可视化。另外，xlwings模块的数据结构转换器使其可以快速地为Excel文件添加二维数据结构，而不需要在Excel文件中重定位数据的行和列，因此笔者认为，从读写的便捷性来看，xlwings模块比较好用一些。

梳理数据采集从采集到清洗的过程要用到的Python模块有哪些？

梳理数据采集从采集到清洗的过程中，常用的Python模块包括：

1. Requests：用于发送HTTP请求，从网页中获取数据。

2. Beautiful Soup：用于解析HTML或XML文档，提取所需信息。

3. Scrapy：基于Twisted框架的Web爬虫框架，可用于大规模数据采集，并提供数据处理和存储功能。

4. Selenium：用于模拟浏览器，可以处理一些需要登录或动态加载的网页。

5. Pandas：用于处理数据，对数据进行清洗、转换和汇总等操作。

6. NumPy：用于数值计算和科学计算，支持高效处理多维数组。

7. OpenCV：用于图像处理和计算机视觉，可用于提取图像特征和识别目标。

8. PyPDF2：用于处理PDF文件，包括读取、分割、合并和加密等操作。

9. NLTK：自然语言处理工具包，用于文本分析和处理。

10. Regular expressions（正则表达式）：用于匹配和搜索文本模式。

以上模块都可以在Python环境下通过pip命令安装。在实际应用中，可以根据具体数据采集和清洗的需求选择相应的模块。

python数据分析模块有哪些(python 数据分析)

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：手机剪辑视频教学新手免费下载(手机剪辑入门教学视频)

下一篇：没有了

python数据分析模块有哪些(python 数据分析)

python数据分析模块：numpy、pandas全解

Python中操作Excel最好用的模块是？

梳理数据采集从采集到清洗的过程要用到的Python模块有哪些？

(责任编辑：IT教学网)

相关网站经济文章

阅读排行

专题教程

推荐网站经济文章

最新更新网站经济

python数据分析模块有哪些(python 数据 分析)

python数据分析模块：numpy、pandas全解

Python中操作Excel最好用的模块是？

梳理数据采集从采集到清洗的过程要用到的Python模块有哪些？

(责任编辑：IT教学网)

相关网站经济文章

阅读排行

专题教程

推荐网站经济文章

最新更新网站经济

python数据分析模块有哪些(python 数据分析)