教程：SQL Server 2008 数据挖掘的概念(3)

http://www.itjxue.com 2015-07-17 09:23 来源:未知 点击次数:

　准备数据

　　如以下关系图中突出显示的那样，数据挖掘过程的第二步就是合并和清除定义问题步骤中标识的数据。

　　数据可以分散在公司的各个部门并以不同的格式存储，或者可能包含错误项或缺少项之类的不一致性。例如，数据可能显示客户在产品推向市场之前购买该产品，或者客户在距离她家 2,000 英里的商店定期购物。

　　数据清除不仅仅是删除错误数据，还包括查找数据中的隐含相关性、标识最准确的数据源并确定哪些列最适合用于分析。例如，应当使用发货日期还是订购日期?最佳销售影响因素是数量、总价格，还是打折价格?不完整数据、错误数据和输入看似独立，但实际上有很强的关联性，它们可以以意想不到的方式影响模型的结果。因此，在开始生成挖掘模型之前，应确定这些问题及其解决方式。

　　通常，您使用的是一个非常大的数据集，并且无法仔细查看每个事务。因此，必须使用某种自动化的形式(如，在 Integration Services 中)来浏览数据并找到这些不一致。Microsoft SQL Server 2008 Integration Services (SSIS) 包含完成该步骤所需的所有工具，步骤内容包括转换到自动执行数据清除和合并。

　　需要特别注意的是用于数据挖掘的数据不必存储在联机分析处理 (OLAP) 多维数据集中，或者甚至不必存储在关系数据库中，但是您可以将它们作为数据源使用。您可以使用已被定义为 Analysis Services 数据源的任何数据源执行数据挖掘。这些数据源可以包括文本文件、Excel 工作簿或来自其他外部提供程序的数据。

　　浏览数据

　　如以下关系图中突出显示的那样，数据挖掘过程的第三步就是浏览已准备的数据。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：教你配置安全稳定的SQL Server数据库

下一篇：SQL Server查询过程中实际消耗了多大内存？

教程：SQL Server 2008 数据挖掘的概念(3)

(责任编辑：IT教学网)

相关SQL Server文章

阅读排行

专题教程

推荐SQL Server文章

最新更新SQL Server