python鸢尾花数据集分析过程(python鸢尾花数据分类)

http://www.itjxue.com  2023-03-27 01:12  来源:未知  点击次数: 

怎么理解鸢尾花的python主成分分析结果

Python 实现主成分分析

主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。

矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。

Python+libsvm-2(实例-使用libsvm对鸢尾花进行分类)

这里使用的是lab课上老师提供的数据集

但是不符合libsvm中要求的数据格式,所以需要将原始数据转换成libsvm中要求的。

复制Excel表格中的数据到一个新的txt文件中

我这里把原来的数据集分成了两个,一个用作train 一个用作test

鸢尾花决策树算法选题的目的和意义

鸢尾花决策树算法选题的目的和意义为:

1、目的:是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。

2、意义:通过对鸢尾花数据集进行决策树分类,并对分类结果与实际结果进行比对,进而分析其分类的准确率,最后基于Python语言,设计与实现了决策树模型在对鸢尾花数据集分类中的应用实例。

数据分析50图(六) —— 鸢尾花特征二元关联

著名计算机科学家、艾伦·凯说过,换一个角度看问题值80点智商。

本期是最后一次介绍关联图了。有时候我们有一堆数据却无从下手,那就来个“jojo” 方法:全部画出来。

此表记录了3中鸢(yuan)尾花的花瓣长宽,萼片长款,和品种。

成对相关,会把表格中的特征两两组合画出并且对角线上表示列不变,其他变量的分布情况。

这是十分有用统计分类方法。许多物体的尺寸,或者尺寸之比会在一定范围内。比如人体四肢比例接近0.6。对于上图重叠区间低于置信度区间的第四列,花瓣宽度就能作为很重要的分类依据。应该让他拥有较高的权重。所以很多难题解决不了只是我们没有发现那些关键的信息。

误差图 —— 让程度看的见

例程来自:

感谢b站UP "菜菜TsaiTsai" 分享这个博客.

抱歉,之前还有一个例8,因为没找到合适的例子,所以跳过了,这里为大家补上。上面画出4x4的图像但是多数时候我们会有十几个变量,这样就画一个20X20的图像显然不太合适。那怎么办?

绘制热力图,用颜色表示程度大小

如果需要计算某一个变量与其他变量的关系,那么选取一列。

我们实际生活中一个产品的参数会有几十个,全部按鸢尾花那样画出来图形就太小了,不容易看。这时热图和相关系数就可以帮我快速找出关心的几个特征。上面图看到深绿色的花瓣长、宽密切相关,这也与例九的图像吻合。仔细观察下这2幅图吧。

3、鸢尾花数据集

鸢尾花数据集是机器学习和统计学中的一个经典数据集,数据包含每朵鸢尾花花瓣的长度和宽度、花萼的长度和宽度(data),以及每朵花对应的种类(target),还有对数据的一些说明(DESCR)、种类名(target_names)、特征名(feature_names)。

我们利用这个数据建立一个最简单的机器学习模型-k近邻算法。

输出

load_iris返回的对象是一个Bunch对象,与字典非常相似,里面包含键和值。其中DESCR键对应的值是数据集的简要说明,target即Y值,target_names即花的种类,feature_names即特征名,data即X值。

可以看到记录了150条数据,有4个特征,花瓣的长度、花瓣的宽度、花萼的长度、花萼的宽度。

模型精度约为97%。

(责任编辑:IT教学网)

更多

推荐服务器空间文章