python鸢尾花数据集(python鸢尾花数据集分析)

http://www.itjxue.com 2023-04-03 03:58 来源:未知 点击次数:

导入鸢尾花数据集OSError: Initializing from file failed

之前是这样导入鸢尾花数据集：data = pd.read_csv('D:\MNIST数据集\iris.data'）

出现这个问题：OSError: Initializing from file failed

可能是由于我的文件命名中有中文，发现调用pandas的read_csv()方法时，默认使用C engine作为parser engine，而当文件名中含有中文的时候，用C engine在部分情况下就会出错。所以在调用read_csv()方法时指定engine为Python就可以解决问题了。

解决办法：data = pd.read_csv('D:\MNIST数据集\iris.data', engine='python' )

参考文章：

鸢尾花数据集是机器学习和统计学中的一个经典数据集，数据包含每朵鸢尾花花瓣的长度和宽度、花萼的长度和宽度（data），以及每朵花对应的种类（target），还有对数据的一些说明（DESCR）、种类名（target_names）、特征名（feature_names）。

我们利用这个数据建立一个最简单的机器学习模型-k近邻算法。

输出

load_iris返回的对象是一个Bunch对象，与字典非常相似，里面包含键和值。其中DESCR键对应的值是数据集的简要说明，target即Y值，target_names即花的种类，feature_names即特征名，data即X值。

可以看到记录了150条数据，有4个特征，花瓣的长度、花瓣的宽度、花萼的长度、花萼的宽度。

模型精度约为97%。

xrange(3)的作用可以简单理解为生成了一个数列：[0, 1, 2]

因此，变量t 的取值依次为0，1，2。

这里使用的是lab课上老师提供的数据集

但是不符合libsvm中要求的数据格式，所以需要将原始数据转换成libsvm中要求的。

复制Excel表格中的数据到一个新的txt文件中

我这里把原来的数据集分成了两个，一个用作train 一个用作test

python鸢尾花数据集(python鸢尾花数据集分析)