智慧树知到《大数据工具应用》章节测试答案
C.dbf
D.xls
正确答案:mdb
22、大多数日志文件的后缀名是()。
A.txt
B.csv
C.xml
D.log
正确答案:log
23、本课程重点介绍的weka软件的专有文件格式是()。
A.MongoDB
B.ARFF
C.value
D.key map
正确答案:ARFF
24、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。
A.专业性
B.排他性
C.一致性
D.共享性
正确答案:一致性
25、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。
A.电话号码
B.关键词
C.网页地址
D.用户名
正确答案:网页地址
26、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。
A.otd
B.jpg
C.png
D.gif
正确答案:otd
27、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
A.正确
B.错误
正确答案:A
28、Excel不能导入txt或csv格式的文件。
A.正确
B.错误
正确答案:B
29、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
A.正确
B.错误
正确答案:B
30、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
A.正确
B.错误
正确答案:A
第三章单元测试
1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成()个簇。
A.1
B.2
C.3
D.4
正确答案:3
2、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()是错误的。
A.模型的最大似然估计值是-7.18
B.这组数据用算法迭代15次
C.第四个簇的先验概率是0.14
D.第四个簇的实例数为4
正确答案:第四个簇的实例数为4
3、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。
A.这组数据用算法迭代四次
B.产生了三个中心点
C.聚合为3个簇,分别有7,3,4个实例
D.平方和误差为8.928
正确答案:这组数据用算法迭代四次
4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知()。
A.LinearRegression的标准误差比M5P的标准误差小
B.LinearRegression的平均绝对误差比M5P的平均绝对误差小
C.LinearRegression的相对误差比M5P的相对误差小
D.LinearRegression的平均方根误差比M5P的平均方根误差大
正确答案:LinearRegression的平均方根误差比M5P的平均方根误差大
5、删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有()个。