数据挖掘期末考试题目及答案(数据挖掘期末考试计算题及答案)
关于数据挖掘的两道题,希望能详细解释,可以让一个新手听懂,答案并不重要
恩,怎么说呢?最小支持度就是一个元素在若干个集合中出现的次数的最少次数的阀值。
比如你有5个集合,就拿你的第二道题来说:那么A的支持度就是60%,B是80%,C是80%,D是60%。
因为一共取了五次,每次可能有ABCD中的一个或者几个,那么有几个中包含A,这就是支持度。
拿元素A来说,在1,2,3中包含A,但是在4,5中没有。那么3/5=0.6就是他的支持度。
同样再看下B,B在1,2,4,5中存在,3中没有,那么他的支持度就是4/5=0.8=80%。
再说置信度:置信度是说在存在一个元素的集合中另外一个元素存在的概率。
我们还用第二题举例:比如在存在A的集合中存在B的概率是多少?
我们找找:存在A的集合有1,2,3三个。在这三个中1,2,两个包含B。也就是说B的置信度为2/3≈66.7%。
我们再找B到C。存在B的集合有1,2,4,5四个。那么在这里面存在C的有几个?2,4,5三个,所以B到C的置信度就是3/4=75%
其他的也是这么计算。具体的答案我就不算了,你自己再看看。
数据挖掘答案求助,急急急
数据整合是当今数据分析面临的最大挑战。实际上,许多公司只是简单地将数据堆积在一起,并未对不同来源的数据进行整合。就拿身份认定来说,比如一套系统下“路人A”的信息与另一套系统下“路人A”(甚至可能是重名)的信息之间,没有进行关联,这样的话,就无法对“路人A”的身份进行完整性描述。数据整合并不等于将数据集中到一起,对于研究对象,要将不同来源的数据相互关联,以便获取更准确的信息定位。并且数据科学家会通过数据来寻找并分析竞争优势,可能的企业新的突破点等等,因此,数据整合也变得越发重要。
2道关于数据挖掘的题目
在百度文库/数据挖掘理论与技术习题解答 上有你所要的答案。下面是地址:
数据挖掘题目?
这个很基础的题目啊,是不是老师留的作业?
最小支持度0.6,置信度0.8,这些概念都了解吧
哎,算了,把python代码给你贴一下吧
按顺序把代码码起来,存为py文件,python3跑一下,什么频繁项集,什么关联规则就全出来了
数据挖掘题目
1: 孤立点分析: 去掉离群点,噪声点(当然主要靠业务分析)
数据平滑: 使整体数据更加平滑,趋势更明显,减小波动
正态化: 这个是统计学的基础要求,所有数据必须朝这个方向处理
离散数据连续化:某些算法只能处理这种数据,反之既然
其他参考数据挖掘书籍(其实更重要是弄清楚X,Y各是什么)
2:
1) 自己研究excel,很简单
2)3) 变换就那么几种,ln, e, 乘个什么数,除个什么数,自己研究一下
数据挖掘题目,K—均值算法应用
第一轮
A1(2,10)
B1(5,8),A3(8,4), B2(7,5),B3(6,4),C2(4,9)
C1(1,2),A2(2,5)
对应中心分别是(2,10),(6,6),(1.5, 3.5)
最后结果:
{A1(2,10),B1(5,8),C2(4,9)}
{A3(8,4), B2(7,5),B3(6,4)}
{C1(1,2),A2(2,5)}