数据标准(数据标准化处理方法)

http://www.itjxue.com  2023-01-28 19:34  来源:未知  点击次数: 

为什么要对数据进行标准化处理

数据标准化主要功能是消除变量间的量纲关系,从而使数据具有可比性,一个百分制的变量与一个5分值的变量在一起比较是通过数据标准化,把它们标准到同一个标准时才具有可比性,标准化采用的是Z标准化,即均值为0,方差为1,0至1标准化等,也可根据自己的研究目的进行选择。

数据标准化的几种方法

在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。

一、Min-max 标准化

min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为:

新数据=(原数据-极小值)/(极大值-极小值)

二、z-score 标准化

这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。

z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。

新数据=(原数据-均值)/标准差

spss默认的标准化方法就是z-score标准化。

用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。步骤如下:1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;2.进行标准化处理:zij=(xij-xi)/si其中:zij为标准化后的变量值;xij为实际变量值。3.将逆指标前的正负号对调。标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

三、Decimal scaling小数定标标准化

这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimal scaling标准化到x'的计算方法是:

x'=x/(10^j)

其中,j是满足条件的最小整数。

例如 假定A的值由-986到917,A的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,-986被规范化为-0.986。

注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。

除了上面提到的数据标准化外还有对数Logistic模式、模糊量化模式等等:

对数Logistic模式:新数据=1/(1+e^(-原数据))

模糊量化模式:新数据=1/2+1/2sin[派3.1415/(极大值-极小值)*(X-(极大值-极小值)/2) ] X为原数据

什么是数据的标准化?

数据标准化的意义:

1、数据的量纲不同;数量级差别很大。

经过标准化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析。

如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。

2、避免数值问题:太大的数会引发数值问题。

3、平衡各特征的贡献。

一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。

如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

4、一些模型求解的需要:加快了梯度下降求最优解的速度。

数据标准化的方法:

1、Min-Max标准化。

2、标准差标准化,也叫z-score标准化。

3、非线性归一化。

数据建设标准

1.评价数据标准

系统数据库中的数据格式、大小、类型遵从国家及行业标准,参考的具体标准如表3-1所示。

表3-1 数据库设计参考标准

进入本系统的数据格式及量纲参考《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》和《油页岩资源评价实施方案》,以及《数据字典》。

2.图形图件数据标准

各种地质评价图形遵循以下标准,如表3-2所示。

表3-2 系统图形遵循的相关标准

进入本系统(数据库)的图形必须为带有地理坐标意义的、满足上述标准体系要求的矢量图形,且采用统一的地理底图。具体兼容下列图形格式:

(1)MapGIS图形交换格式;

(2)GeoInfo图形格式;

(3)Arclnfo图形交换格式;

(4)Maplnfo图形交换格式;

(5)GeoMap图形交换格式。

汇交图件的比例尺要求:

全国性图件:1∶400万或1:600万

大区图件:1∶200万

盆地图件:1∶40万或1∶50万

评价单元图件:1∶10万或1:20万

具体图件以《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》和《油页岩资源评价实施方案》的规定为准。

3.数据库基本要求及主要指标

数据库要满足新一轮全国油气资源评价的数据管理及评价需求,有效管理在1TB之内的数据,在该容量下操作性能不发生明显的衰减,具有强大网络支持及安全管理功能,能够同时为20个以上的用户提供服务。

数据标准

为确保系统各数据库与各功能模块之间的数据分类、编码及数据文件命名的系统性和唯一性,满足系统正常高效运行以及与其他相关系统协同运作的要求,实现系统之间相互兼容、信息共享,数据库建设时必须遵循有关的标准规范。需参照的标准规范如下:

GB/T2260—98 中华人民共和国行政区划代码

GB/T2808—81 全数字式日期表示法

GB/T9649—88 地质矿产术语分类代码

GB/T13923—92 国土基础信息数据分类代码

DZ/T0001—91 区域地质调查总则(1:50000)

DZ/T0157—95 1:50000地质图地理底图编绘规范

DZ/T0160—95 1:200000地质图地理底图编绘规范及图式

DDB9702 GIS图层描述数据内容标准

地质图空间数据库建设工作指南 中国地质调查局

DDZ9701 资源评价工作中地理信息系统工作细则

DZ/T 0179—1997 地质图用色标准及用色原则

DD2005—01 多目标区域地球化学调查规范(1:25万)中国地质调查局

DD2005—02 区域生态地球化学评价技术要求 中国地质调查局

DD2005—03 生态地球化学评价样品分析技术要求 中国地质调查局

GB/T17296—2000 中国土壤分类与代码

GB/T13989—92 国家基本比例尺地形图分幅编号

DZ/T0167—1995 区域地球化学勘查规范(1:200000)

GB/T18507—2001 城镇土地分等定级规程

GB/T17296—2000 中国土壤分类代码

数据标准与主数据、元数据、数据质量的关系

数据治理项目的根本诉求在于提升数据质量

数据标准与主数据的关系

从范围上看,数据标准包括数据模型标准、主数据标准、参照数据标准、数据指标标准和其他数据元标准,主数据是数据标准的一个子集;从数据梳理和识别、能力成熟度评估、数据标准编制、数据管理和应用、管理体系建设、实施涉及的业务面等方面,数据标准和主数据都是基本相同的。企业在数据治理项目中,有整体建设的,包含了:元数据、主数据、数据标准等领域;也有分开建设的,例如:主数据项目单独立项,数据标准管理和数据仓库放在一起实施;企业应根据自身的实际情况和需求,明确实施范围和内容,制定适合企业发展需要的数据治理路线图。

数据标准与元数据的关系

元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到IT实现之间提供清晰、标准的语义转换,提高业务和IT之间的一致性,保障IT系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。

数据标准与数据质量的关系

没有标准化就没有信息化,那就更谈不上数据质量了。通过对数据标准的统一定义,明确数据的归口部门和责任主体,为企业的数据质量和数据安全提供了一个基础的保障。通过对数据实体、数据关系以及数据处理阶段,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量校验有据可依,有法可循,为企业数据质量的提升和优化提供支持。

企业数据标准工具选型

数据标准建设工作量还是比较大的,完全依靠人工不太现实,所以需要一套完善、易用的数据标准管理工具帮助我们将数据标准建设工作落地。

数据标准管理工具应包括:标准分类管理、标准增删改查、标准导入导出、标准评审、标准发布、标准版本管理、标准落地映射、标准落地评估、标准监控等功能。同时为更好的保障数据标准的落地,最好结合元数据管理工具一起使用。

亿信华辰数据标准管理平台ESDataStandard提供了一套完整的数据标准管理流程及办法,通过统一的数据标准制定和发布等一系列的活动,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理。

想做大数据治理,首先要把数据标准做好,否则匆忙建设各种数据仓库、数据集市,最后发现标准有问题,质量不高,这时候再去建数据标准就会导致投资浪费问题。

(责任编辑:IT教学网)

更多

推荐网页背景文章