python读取数据并画直方图(python中绘制直方图)
python画hist直方图
简单说下图形选择啦,通常我们最常用的图形是折线图、扇形图、条形图,它们的功能简单概括为:
折线图:表示变化情况;
扇形图:表示各类别的分布占比情况;
条形图:表示具体数值;
接下来要说的直方图是以条形图的形式展现的,在统计学中, 直方图 (英语:Histogram)是一种对数据分布情况的图形表示。
以下展示了python画直方图的几种方式,这里涉及到了3个包:matplotlib、pandas、seanborn。
1、使用 matplotlib.pyplot.hist 函数(本文主要讲解该方法画直方图)
2、使用 pandas.DataFrame.plot.hist 函数
3、使用 pandas.DataFrame.hist 函数
4、使用 seaborn.distplot 函数
以下为 matplotlib.pyplot.hist 函数介绍:
参数:
返回值:
模拟真实场景:我们通过分析打分,给1000个客户进行了排名,排名越靠前,说明客户越优异,为了找到特定的200个客户的排名处于这1000个客户中的位置,使用了直方图对比的方式。以下使用的数据是为模拟场景,随机出来的结果排名比较靠后,所以这些客户质量并不高:
hist:
matplotlib中文乱码:
Python 数据可视化:绘制箱线图、饼图和直方图
上一课介绍了柱形图和条形图,本课将介绍另外几种统计图表。
Box Plot 有多种翻译,盒须图、盒式图、盒状图或箱线图、箱形图等,不管什么名称,它的基本结构是这样的:
这种图是由美国著名统计学家约翰·图基(John Tukey)于 1977 年发明的,它能显示出一组数据的上限、下限、中位数及上下四分位数。
为了更深入理解箱线图的含义,假设有这样一组数据:[1, 3, 5, 8, 10,11, 16, 98 ],共有 8 个数字。
首先要计算箱线图中的“四分位数”,注意不是 4 个数:
对于已经排序的数据 [1, 3, 5, 8, 10,11, 16, 98 ],下四分位数(Q1)的位置是数列中从小到大第 2.25 个数,当然是不存在这个数字的——如果是第 2 个或者第 3 个,则存在。但是,可以用下面的原则,计算出此位置的数值。
四分位数等于与该位置两侧的两个整数的加权平均数,此权重取决于相对两侧整数的距离远近,距离越近,权重越大,距离越远,权重越小,权数之和等于 1。
根据这个原则,可以分别计算本例中数列的 3 个四分位数。
在此计算基础上,还可以进一步计算四分位间距和上限、下限的数值。
先看一个简单示例,了解基本的流程。
输出结果:
这里绘制了两张箱线图,一张没有显示平均值,另外一张显示了平均值,所使用的方法就是 boxplot,其完整参数列表为:
参数很多,不要担心记忆问题,更别担心理解问题。首先很多参数都是可以“望文生义”的,再有,与以前所使用的其他方法(函数)的参数含义也大同小异。
输出结果:
所谓的“凹槽”,不是简单形状的改变,左右折线的上限区间表示了数据分布的置信区间,横线依然是上限和下限。
python绘制直方图怎么设置x轴和y轴的标签
1、设置x轴的标签
matplotlib中可以直接使用pyplot模块的xlabel()函数设置x轴的标签,xlabel()函数的语法格式如下所示:
xlabel(xlabel,fontdict=None,labelpad=None,**kwargs)
该函数各参数含义如下。
·xlabel:表示x轴标签的文本。
·fontdict:表示控制标签文本样式的字典。
·labelpad:表示标签与坐标轴边框(包括刻度和刻度标签)的距离。
此外,Axes对象使用set_xlabel()方法也可以设置x轴的标签。
2、设置y轴的标签
matplotlib中可以直接使用pyplot模块的ylabel()函数设置y轴的标签,ylabel()函数的语法格式如下所示:
ylabel(ylabel,fontdict=None,labelpad=None,**kwargs)
该函数的ylabel参数表示y轴标签的文本,其余参数与xlabel()函数的参数的含义相同。此处不再赘述。此外,Axes对象使用set_ylabel()方法也可以设置y轴的标签。
假设现在有一个包含正弦曲线和余弦曲线的图表,该图表中设置x轴和y轴的标签,具体代码如下。
importnumpyasnpimportmatplotlib.pyplotasplt plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falsex=np.linspace(-np.pi,np.pi,256,endpoint=True)y1,y2=np.sin(x),np.cos(x)plt.plot(x,y1,x,y2)# 设置x轴和y轴的标签plt.xlabel("x轴")plt.ylabel("y轴")plt.show()
运行程序,效果如图3-3所示。
图3-3 正弦和余弦曲线图——设置坐标轴标签
Python Matplotlib画图
主要用于作图、可视化问题
pip install matplotlib
导入模块 pyplot 和 pylab ,可以参考下面链接观察两者区别:
(说白了就是pylay=pyplot+numpy)
输入这三行解决
主要使用 plot() 来展示,里面前两个参数代表 x , y 坐标(注意x,y数量要一样),第三个参数可以用来设置散点图( 'o' )或者颜色、线条形式等各种样式,并且第三个参数可以同时传入多个,比如要红色的散点图就: '0r'
(1)颜色样式:
(2)线条样式:
(3)点的样式:
(4)坐标区间:
或者分别设置x、y的区间:
注:
设置点的样式时默认就是散点图,以及同类样式只能设置一个(比如不能设置两种颜色),并且还可以把多个图集合在一起展示,那就多 plot 几个,plot就相当于一个画布,每plot一个就相当于在上面画一张图,再弄就继续在上面画
主要用 hist() 来显示,实现方式很简单,把一组数据放入括号里就行了,例如随机生成一堆正态分布的数,然后直方图显示:
其中如果要设置直方图格式(宽度、上下限、是否要轮廓)可以这样:
注:
直方图和折线图这些不太一样,折线图是传入两个等长数据,然后每个x、y坐标一一对应展示出来。而直方图是:第一个参数代表你传入的所有数据,第二个参数代表你传入的x轴范围,然后直方图会将第一个参数里传入的数据一个个计算在某个范围内含有的数据量,因此传入的两个参数数据不一定要等长,例如下面的例子:
结果如图:
可以看出数据被自动分配到对应的范围内上了
使用 subplot(row, col, area) :三个参数分别是行数、列数和区域,比如要将原图分成2行2列(切成4份),然后要左下角那个图就:
如果想4个图都显示就4个 subplot ,分别1、2、3、4就行了,然后在各图的subplot之后写的都是每个图的内容,现在我们试试弄一个2行,第一行两列的图片(想象下鼠标的样子),而且分别是不同的内容:
注:
labels 、 sizes 、 colors 和 explode 的长度都要一样
1.导入3D图相关模块:
2.将画图板加到3D模块里,然后加入数据即可:
3D散点图举例:
通过 imread() 读取,举例:
如何用python画直方图
给定一个序列t:
hist = {}
for x in t:
hist[x] = hist.get(x,0)+1
得到的结果是一个将值映射到其频数的字典。将其除以n即可把频数转换成频率,这称为归一化:
n = float(len(t))
pmf = {}
for x, freq in hist.items():
pmf[x] = freq/n