数据探索主要包括(数据探索的主要工作)

http://www.itjxue.com  2023-02-21 10:12  来源:未知  点击次数: 

数据挖掘技术主要包括哪些

数据挖掘技术主要有决策树 、神经网络 、回归 、关联规则 、聚类 、贝叶斯分类6中。

1、决策树技术。

决策树是一种非常成熟的、普遍采用的数据挖掘技术。在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论。

2、神经网络技术。

神经网络是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型,数据挖掘中的“神经网络”是由大量并行分布的微处理单元组成的,它有通过调整连接强度从经验知识中进行学习的能力,并可以将这些知识进行应用。

3、回归分析技术。

回归分析包括线性回归,这里主要是指多元线性回归和逻辑斯蒂回归。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。

4、关联规则技术。

关联规则是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式,即多次重复出现的模式和并发关系,即同时出现的关系,频繁和并发关系也称作关联。

5、聚类分析技术。

聚类分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。

6、贝叶斯分类技术。

贝叶斯分类方法是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。

参考资料来源:百度百科-数据挖掘

数据探索的基本问题有哪些?

数据探索是数据科学的一个重要组成部分,是用来了解数据的性质、规律、结构的一种方法。在进行数据探索时,需要解决一些基本的问题,包括:

数据来源:需要确定数据的来源,以便确定数据的可靠性和有效性。

数据清洗:需要对数据进行清洗,去除无用或异常数据,以便进行后续分析。

数据描述:需要对数据进行描述,了解数据的基本特征,包括数据分布、中位数、平均数等。

数据可视化:需要使用可视化工具来展示数据,帮助我们更直观地了解数据的规律。

数据挖掘:需要使用数据挖掘算法来寻找数据中的潜在规律,帮助我们做出决策。

数据科学是一门新兴的学科,是由计算机科学、统计学、数学等学科融合而成的。它的学科特点主要体现在以下几个方面:

应用广泛:数据科学可以应用在各个领域,如金融、市场营销、医学、教育、环境保护、能源管理、交通运输等。

综合性强:数据科学涵盖了计算机科学、统计学、数学等多个学科,需要综合运用这些知识来解决问题。

创新性强:数据科学需要不断创新,开发新的方法和技术来解决问题。

实践性强:数据科学需要将理论知识应用到实践中,帮助我们做出决策和解决问题。

希望这些信息能帮到你!

数据探索性分析

作为数据分析的起点,探索性分析主要是了解数据特征的总体情况

包括分析特征的数据类型、模式趋势、异常值等,便于后续的数据合并、清洗、整理;

其次可采用可视化、定性分析来理解数据自身的特点以及数据间的关系,有助于促进业务的理解。

最近参加数关于房屋租金预测竞赛的学习,借此机会来深入理解关于EDA(数据探索性分析)。

1分钟了解数据分析挖掘体系

总体上来讲,数据分析挖掘体系可分为 数据预处理、分析挖掘、数据探索、数据展现和分析工具 。

数据预处理

数据预处理包含 数据清洗、数据集成、数据变换和数据规约 几种方法。

而数据清洗包括缺失值处理和异常值处理;

数据集成包括同名同义、异名同义、单位不统一的实体识别和冗余性识别。数据变化包括函数变换、规范化、连续属性离散化、属性沟通和小波变换。数据规约包括属性规约和数值规约。

分析挖掘

分析挖掘的内容就多了。包括假设检验、方差分析、回归分析、主成分分析、因子分析、典型相关分析、对应分析、多维尺度分析、信度分析、生存分析、分类预测、聚类分析、关联规则、时间序列分析和著名的灰色理论。后几个应用较多。

分类预测的方法包括决策树、神经网络、支持向量机(SVM)、Logistic回归、判别分析和贝叶斯网络。

聚类分析包括K-Means聚类、kohonen网络聚类、两步聚类和层次聚类。

关联规则的算法有Apriori算法、GRI算法和Carma算法。

时间序列分析包括:简单回归分析法。

趋势外推法、指数平滑法、自回归法、ARIMA模型、季节调整法。

灰色理论可分为灰色关联和灰色预测。

数据探索

数据探索主要分为两大类,数据质量分析和数据特征分析。

数据质量分析包括缺失值分析、异常值分析和一致性分析。

数据特征分析包括分布分析、对比分析、统计量分析、周期性分析、贡献度分析和相关性分析。

分析工具

常用的分析工具有Excel、clementine、Eviews、R语言、Matlab、Stata、SAS、Tableau、报表工具FineReport、商业智能FineBI

数据展现

在数据展现方面要做的内容可分为图表制作和数据分析报告的撰写,这两方面之前都写过详细的

文章图表制作可以用柱形图、条形图、折线图、饼图、面积图、雷达图、散点图等等。展现的方式可以是单图,组合图,多图搭配的dashboard或者深入分析的联动钻取等。

整理的思维导图如下(建议收藏):

第二章 1-数据探索

通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。

数据质量分析的主要任务时检查原始数据中是否存在脏数据,脏数据一般指不符合要求,以及不能直接进行相应分析的数据。脏数据包括以下内容:

□缺失值

□异常值

□不一致的值

□重复数据以及含有特殊符号(%,#)的数据

(1)缺失值的影响

数据建模丢掉大量有用的信息,模型中蕴含的规律更难把握。包含空值得数据会使得建模过程陷入混乱,导致不可靠的输出。

(2)缺失值分析

统计含有缺失值属性的个数,以及每个属性的未缺失数。缺失数与缺失率等。从总体上说,缺失值的处理分为 删除存在的缺失值的记录 、 对可能值进行插补 和 不处理 三种情况。

异常值分析师检验数据是否有录入错误以及含有不合常理的数据。 忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果产生不良影响,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机

异常值指的是样本中的个别值,其数值明显偏离其余的预测值。异常值也称为离群点,异常值分析也称为 离群点分析 。

(1)简单统计量分析

先对变量做一个描述性的统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值。比如年龄属性中的最大值为199,则该变量取值异常。

(2)3σ原则

如果数据服从正太分布,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据不服从正太分布,也可以用远离平均值的多少倍标准差来描述。

(3)箱型图分析

数据不一致,来源不同或者其他方式导致的数据不一致

对数据进行质量分析以后,接下来可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。

分布分析揭示数据的分布特征和分布类型。

定量数据:绘制频率分布图,频率分布直方图来直观分析 分布形式是对称的还是非对称的,发现某些特大或特小的可疑值。

定性数据:可用饼图和条形图显示分布情况

对于定性数据,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。

比如根据时间上来进行对比,对比不同部分在各个月份的销售额

常从集中趋势和离中趋势两个方面进行分析。

平均水平反应个体集中趋势的度量,常用均值和中位数。反映个体离开平均水平的度量,使用较为广泛的是标准差,四分位间距

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程成为相关分析。

衡量线性相关:Pearson相关系数,Spearman秩相关系数和判定系数

(1)协方差就是两个样本分别减去均值,然后取平均===》E((x-E(x))(Y-E(Y)))

衡量了线性相关性,pearson相关系数就是对数据进行标准化之后的相乘

(2)判定系数就是相关系数的平方

(责任编辑:IT教学网)

更多

推荐网页文字特效文章