智慧树知到《大数据工具应用》章节测试答案


C.dbf

D.xls

正确答案:mdb

22、大多数日志文件的后缀名是()。

A.txt

B.csv

C.xml

D.log

正确答案:log

23、本课程重点介绍的weka软件的专有文件格式是()。

A.MongoDB

B.ARFF

C.value

D.key map

正确答案:ARFF

24、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。

A.专业性

B.排他性

C.一致性

D.共享性

正确答案:一致性

25、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。

A.电话号码

B.关键词

C.网页地址

D.用户名

正确答案:网页地址

26、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。

A.otd

B.jpg

C.png

D.gif

正确答案:otd

27、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。

A.正确

B.错误

正确答案:A

28、Excel不能导入txt或csv格式的文件。

A.正确

B.错误

正确答案:B

29、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。

A.正确

B.错误

正确答案:B

30、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。

A.正确

B.错误

正确答案:A

第三章单元测试

1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成()个簇。

A.1

B.2

C.3

D.4

正确答案:3

2、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()是错误的。

A.模型的最大似然估计值是-7.18

B.这组数据用算法迭代15次

C.第四个簇的先验概率是0.14

D.第四个簇的实例数为4

正确答案:第四个簇的实例数为4

3、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。

A.这组数据用算法迭代四次

B.产生了三个中心点

C.聚合为3个簇,分别有7,3,4个实例

D.平方和误差为8.928

正确答案:这组数据用算法迭代四次

4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知()。

A.LinearRegression的标准误差比M5P的标准误差小

B.LinearRegression的平均绝对误差比M5P的平均绝对误差小

C.LinearRegression的相对误差比M5P的相对误差小

D.LinearRegression的平均方根误差比M5P的平均方根误差大

正确答案:LinearRegression的平均方根误差比M5P的平均方根误差大

5、删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有()个。