教程:SQL Server 2008 数据挖掘的概念(2)
尽管关系图中所示的过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后,您可能会发现数据不足,无法创建适当的挖掘模型,因此必须查找更多的数据。或者,您可以生成数个模型,但随后发现这些模型无法充分地回答定义的问题,因此必须重新定义问题。您可能必须在部署模型之后对其进行更新,因为又出现了更多的可用数据。可能需要多次重复过程中的每个步骤才能创建良好的模型。
SQL Server 2008 提供用于创建和使用数据挖掘模型的集成环境,称为 Business Intelligence Development Studio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。
创建数据挖掘解决方案后,您可以使用 SQL Server Management Studio 维护和浏览该解决方案。
定义问题
与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。
该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题:
◆ 您在查找什么?您要尝试找到什么类型的关系?
◆ 您要尝试解决的问题是否反映了业务策略或流程?
◆ 您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联?
◆ 您要尝试预测数据集的哪个属性?
◆ 列如何关联?或者如果有多个表,则表如何关联?
◆ 如何分发数据?数据是否具有季节性性质?数据是否可以准确反映业务流程?
若要回答这些问题,可能必须进行数据可用性研究,必须调查业务用户对可用数据的需求。如果数据不支持用户的需求,则还必须重新定义项目。
此外,还需要考虑如何将模型结果纳入用于度量业务进度的关键绩效指标 (KPI)。