电大《大数据技术概论》形考题库


电大《大数据技术概论》形考题库

1. 数据科学是通过科学方法探索数据,以获得有价值的发现。()

A. √

B. ×

2. 大数据的一个重要特征是数据的多样性,这包括数据的各种格式和类型。()

A. √

B. ×

3. 根据数据在收集过程中是否有控制因素,可以将数据分为截面数据和时间序列数据。()

A. √

B. ×

4. 相对于结构化数据,非结构化数据的主要特点是没有固定的格式,它可能来自各种源,并且无法直接存入传统的关系型数据库。()

A. √

B. ×

5. 办公文档、图像、声音和文本都是结构化数据。()

A. √

B. ×

6. 大数据科学不仅包括数据采集和数据分析,还涵括数据预处理、数据存储和数据管理等环节。()

A. √

B. ×

7. 网页数据是一种半结构化数据。()

A. √

B. ×

8. 大数据技术主要处理的数据类型是结构化数据,而对于非结构化数据处理能力较弱。()

A. √

B. ×

9. 大数据在教育领域的应用主要包括个性化教学和学生行为分析等。()

A. √

B. ×

10. 在电商行业,通过大数据分析用户行为,可以提升产品销售、优化营销策略并改善用户体验。()

A. √

B. ×

11. 下列各项属于定量变量的是()

A. 性别

B. 婚姻状况

C. 年龄

D. 国籍

12. 在大数据的处理流程中,下列各项中最先进行的是()

A. 存储与管理

B. 可视化

C. 采集与预处理

D. 分析与挖掘

13. 下面哪项不属于大数据预处理步骤()

A. 数据清洗

B. 数据集成

C. 数据转换

D. 数据安全

14. 下列关于数据类型的描述中,哪一项是错误的()?

A. 非结构化数据包括文本、图像和音视频等

B. 结构化数据指的是预定格式的数据如数据库

C. 半结构化数据包括XML文件和电子邮件

D. 非结构化数据易于进行大数据分析

15. 下列关于非结构化数据的描述,哪一项是错误的()

A. 非结构化数据没有固定的数据模型

B. 非结构化数据包括图像、声音、视频等

C. 非结构化数据不可以进行数据分析

D. 非结构化数据数量大

16. 以下哪一项不是结构化数据()

A. 关系数据库中的数据

B. Excel表格中的数据

C. 歌词文本

D. 二维数据表

17. 关于时间序列数据的描述,以下哪一项是错误的?()

A. 是按时间顺序排列的观测值序列

B. 不能使用统计方法进行分析

C. 在时间间隔上接近的观测值通常更相关

D. 两个观测值在时间间隔上越远,它们的相关性就更弱

18. 关于传统数据与大数据的获取与处理,下列描述中错误的是()。

A. 传统的数据获取来源单一

B. 采用关系型数据库和并行数据库可以处理传统数据

C. 获取大数据的数据来源广泛

D. 大数据的数据量相对较小

19. 关于大数据,以下哪个描述是正确的?()

A. 大数据只包括结构化数据

B. 大数据只关乎数据的体量

C. 大数据处理没有安全隐私问题

D. 大数据可以来自各种来源,包括业务交易、社交媒体等

20. 在以二维表形式表示的数据集中,行表示()

A. 特征

B. 样本

C. 属性

D. 字段

21. 下列各项属于结构化数据的是()

A. 图像

B. 二维数据表

C. 声音

D. 文本

22. 下列各项不属于大数据在银行业的应用的是()

A. 客户分析

B. 风险管理

C. 运营优化

D. 疾病预防与治疗

23. 下列哪个应用场景不属于大数据在医疗领域的应用()

A. 疾病诊断

B. 患者管理

C. 电子病历分析

D. 动物饲养管理

24. 下列哪项不是大数据在电商领域的主要应用()

A. 用户行为分析

B. 商品推荐

C. 存货管理

D. 航天探索

25. 下列哪项并非大数据在电商领域的应用?()

A. 客户画像

B. 仓储管理

C. 精准营销

D. 生态保护

1. 大数据预处理阶段不包括数据插补步骤。()

A. √

B. ×

2. 在大数据分析过程中,无论数据采集还是预处理都是不可或缺的环节,它们决定了分析结果的质量。()

A. √

B. ×

3. 缺失值的处理方法只有直接删除,没有其他的处理方法。()

A. √

B. ×

4. 特征选择是指选择对预测结果影响力较大的特征,以改善学习算法的性能和解释性。()

A. √

B. ×

5. 数据的收集过程中,数据采集的工具和方法对数据质量、全面性和后续处理没有影响。()

A. √

B. ×

6. 数据降维是一种能有效减少数据复杂度,简化模型计算的技术。()

A. √

B. ×

7. 在HDFS中,NameNode为主节点,负责元数据管理和块位置的索引。()

A. √

B. ×

8. SQL数据库在定义关系时不需要定义属性的大小,从而避免了存储空间的浪费。()

A. √

B. ×

9. 在分布式文件系统HDFS中,数据丢失的问题可以通过在多个数据节点上复制相同的数据块来解决。()

A. √

B. ×

10. 当数据的结构发生变化时,使用SQL数据库进行相应调整的成本相对较低。()

A. √

B. ×

11. 按照预先设定的搜索规则,编写程序自动浏览并下载目标网页信息的数据采集方法称作()

A. 系统日志信息数据采集方法

B. ETL工具数据采集方法

C. 网络爬虫数据采集方法

D. 传感器数据采集方法

12. 下列关于数据预处理的描述中,错误的是()

A. 数据预处理是数据挖掘过程中很重要的一步

B. 数据预处理可以提高后续数据分析的准确率

C. 数据预处理中,无论何时数据都需要降维处理

D. 数据预处理包括数据清洗、数据集成等步骤

13. 数据的整理是根据分析目的对数据格式、形态和结构进行处理,其中()能够在不损失或损失较少数据本身价值的情况下压缩数据。

A. 数据的聚合

B. 数据的提取

C. 数据的连接

D. 数据的变换

14. 下列关于异常值的描述中,错误的是()。

A. 可以使用箱线图检测异常值

B. 当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除

C. 可以将异常值视为缺失值,按处理缺失值的方法处理异常值

D. 异常值的存在不属于数据质量问题,不会影响模型的预测能力

15. 大数据预处理中,下列哪一项是用来处理噪声数据的?()

A. 数据清洗

B. 数据转化

C. 数据归约

D. 数据抽样

16. 数据预处理的主要目的是()。

A. 确定数据的来源

B. 改变数据

17. 分位数分组的基本思想是将样本(),各组所包含的样本个数相同。

A. 等分成若干份

B. 按属性值大小排序

C. 随机分组

D. 按序分组

18. 下列哪一项不是常用的数据预处理步骤()。

A. 数据清洗

B. 数据集成

C. 数据归约

D. 数据可视化

19. 以下哪种方法不适宜处理大数据中的异常值()。

A. 直接删除异常值

B. 将异常值替换为平均值

C. 将异常值视为缺失值,用插值法处理

D. 直接将异常值赋值为极大值

20. 下列哪一项不属于数据预处理的目标()。

A. 提高数据质量

B. 提高数据安全性

C. 提高数据的可利用性

D. 减少数据处理的复杂性

21. 下列关于缺失值的描述中,错误的是()。

A. 缺失值是指数据集中有些变量的一个或多个取值无法获得

B. 数据缺失的现象大量存在

C. 回归插补的方法不会改变数据分布

D. 当缺失数据的记录所占比例在数据集中少于10%时,可以将缺失值直接删除

22. 下列有关SQL数据库的局限性,描述错误的是()。

A. 结构化数据建模

B. 已有数据结构的变化成本高

C. 空间利用率低

D. 无法保证事务处理的可靠性

23. 数据仓库为什么可以帮助企业保持竞争力()?

A. 提供数据分析功能以及数据可视化和演示功能

B. 数据仓库可以自动清理垃圾数据

C. 使用数据仓库可以节省存储空间

D. 数据仓库提供了大量质量低下的数据供企业使用

24. 下列数据库中,属于文档数据库的是()。

A. Redis

B. Neo4j

C. HBase

D. MongoDB

25. 下列各项属于数据仓库的特点的是()。

A. 数据以主题为导向,提供决策支持

B. 数据源单一

C. 数据质量低

D. 不支持历史数据分析

1. 数据可视化可以帮助用户更快速地理解和掌握数据的含义、结构和重要特性。()

A. √

B. ×

2. 在数据分析中,数据可视化只是一种辅助工具,不具有实际的分析功能。()

A. √

B. ×

3. 散点图是最常用于展示两个数值型变量之间关系的可视化方法。()

A. √

B. ×

4. 雷达图适用于反映多个变量的相对大小与差异,不适合反映变量之间的相互关系。()

A. √

B. ×

5. 在进行数据分析时,数据预处理如数据清洗和数据转换是非必需的步骤。()

A. √

B. ×

6. 决策树是一种简单高效的分类模型。()

A. √

B. ×

7. 聚类分析仅能处理数值型数据,对于非数值型数据无效。()

A. √

B. ×

8. 在聚类的过程中,我们要事先知道数据中的类别信息,然后进行相应的分类。()

A. √

B. ×

9. 关联规则分析常用于购物篮分析,挖掘商品间的购买关系。()

A. √

B. ×

10. Excel是一种常用的电子表格程序,除了数据存储,还提供了丰富的数据分析和可视化功能。()

A. √

B. ×

11. 在数据可视化中,适合表示数据随时间变化的趋势的是()。

A. 散点图

B. 折线图

C. 柱形图

D. 饼图

12. 气泡图中可以用来展示数据信息的属性包括()。

A. 仅横坐标

B. 仅横坐标和纵坐标

C. 仅横坐标、纵坐标和气泡大小

D. 横坐标、纵坐标、气泡大小和气泡颜

13. 关于数据可视化的描述中,哪一项是错误的()。

A. 数据可视化的目的是使数据更易理解

B. 数据可视化只能用于表示定量数据

C. 数据可视化可以帮助我们发现数据中的模式

D. 数据可视化可以帮助我们进行更好的决策

14. 如果要反映某学生在6个学期中每学期平均成绩的变化情况,采用()可视化方法较为合适。

A. 饼图

B. 折线图

C. 散点图

D. 直方图

15. 以下哪种大数据分析方法旨在将相似对象组合在一起?()

A. 聚类分析

B. 关联规则分析

C. 决策树分析

D. 线性回归分析

16. 下列哪项是无监督学习的典型应用?()

A. 聚类分析

B. 回归

C. 分类

D. 以上均是

17. 聚类分析在大数据分析中的主要功能是什么?()

A. 通过数据自动发现潜在的类

B. 分析数据的分布特征

C. 预测未来的数据变化

D. 测量数据的准确性和稳定性

18. 根据已知的类标号建立分类模型的数据集是()。

A. 训练集

B. 检验集

C. 预测集

D. 测试集

19. 以下关于聚类分析的描述中,错误的是()。

A. 聚类分析是一种无监督学习方法

B. K-means是一种常用的聚类分析方法

C. 聚类分析的目的是找出已知类别的数据

D. 聚类分析常用于市场分析和社交网络分析

20. 在大数据的挖掘中,用于解决分类问题的机器学习算法不包括()。

A. 决策树

B. 支持向量机

C. k-近邻

D. 线性回归

21. 下列各项关于分类的描述中,错误的是()。

A. 可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件

B. 在进行建模之前就要有明确的分组预测目标

C. k近邻算法是一种简单但强大的分类算法

D. 用来建立分类模型的输入数据称为测试集

22. 在数据挖掘中,用以预测具有连续值输出的问题,一般选用()方法。

A. 分类

B. 聚类

C. 回归

D. 关联规则

23. 下列哪种语言被广泛应用于大数据分析和机器学习中()。

A. Java

B. Python

C. C++

D. Javascript

24. 以下哪种方法不属于常见的数据挖掘任务()。

A. 分类

B. 聚类

C. 关联规则

D. 数据标记

25. 假设散点图中的观测点恰好落在一条直线上,说明两个变量之间的关系为()。

A. 完全线性相关

B. 线性相关

C. 非线性相关

D. 不相关

1. 批处理系统支持作业执行状态的监控。()

A. √

B. ×

2. 在大数据环境下,数据使用的合规性并不需要考虑,因为大数据的收集和分析主要是为了提供更好的服务和产品。()

A. √

B. ×

3. 对于存储的敏感信息,完全脱敏后的信息仍然可以进行有效的数据分析和挖掘。()

A. √

B. ×

4. 为防止隐私被窃取,企业和个人可以运用隐私保护技术来保护数据的安全。()

A. √

B. ×

5. 适当地使用数据脱敏技术,可以有效地减少敏感数据在采集、传输、使用等环节中的暴露,降低敏感数据泄露的风险。()

A. √

B. ×

6. 匿名化处理是一种处理个人识别信息以防止个人被识别的技术,它是大数据隐私保护的重要手段。()

A. √

B. ×

7. 数据脱敏技术无法降低敏感数据泄露的风险。()

A. √

B. ×

8. 遵守GDPR等数据保护法规,不仅能够保护个人和企业数据的安全,也有助于提升企业的声誉和客户信任。()

A. √

B. ×

9. 数据脱敏技术,数据加密技术等都能有效保护大数据的安全。()

A. √

B. ×

10. 大数据技术中数据的加密是一种有效的保护数据隐私的方法,它可以有效防止数据在传输过程中被截获。()

A. √

B. ×

11. 在Hadoop生态系统中,以下哪个组件是分布式文件系统,主要用于存储大数据()。

A. HDFS

B. MapReduce

C. YARN

D. Storm

12. 下列各项不属于云计算特点的是()。

A. 敏捷

B. 弹性计算

C. 节约成本

D. 过度配置资源

13. 下列各项不属于批处理系统的特点的是()。

A. 为开发者提供了一个简单、快捷的开发框架

B. 支持各种数据格式的处理

C. 支持数据在不同系统之间进行交换

D. 可以实现实时的分析报告或自动响应

14. 在工业网络实时监控系统中,需要连续不断地采集和处理数据。以下()不属于这种计算模式。

A. 在线处理

B. 实时处理

C. 流式计算

D. 批量计算

15. 下列各项不属于批处理系统的特点的是()。

A. 可以实现实时的分析报告或自动响应

B. 可以实现无缝扩展以处理峰值数据量或数据请求

C. 支持数据在不同系统之间进行交换

D. 支持作业执行状态的监控

16. 对于数据垄断问题,一种可能的后果是()。

A. 使得更多小企业有机会获取数据

B. 减少企业在市场上的竞争力

C. 影响其他企业的决策方向并产生依赖

D. 广告商对大数据平台产生反感

17. 在大数据中,以下哪项可能导致个人信息被泄露?()

A. 数据发布的匿名技术

B. 数据脱敏过于彻底

C. 不完善的隐私保护政策

D. 数据线性规划

18. 大数据环境中,用于检测和防止非法用户伪造身份或越权访问的技术是()。

A. 数据脱敏

B. 访问控制

C. 数据水印

D. 数据匿名化

19. 在大数据环境中,哪项技术可以保证数据的完整性和不可篡改性()。

A. 数据分割技术

B. 数据复制技术

C. 数据压缩技术

D. 区块链技术

20. 下列各项属于数据安全风险的是()。

A. 数据的采集风险

B. 数据的传输风险

C. 数据的应用风险

D. 以上均是

21. 通过数据变形的方式对敏感数据进行处理,从而降低数据敏感程度的数据处理技术叫做()。

A. 数据发布的匿名技术

B. 社交网络匿名保护技术

C. 数据水印技术

D. 数据脱敏技术

22. 下列属于数据的应用风险的是()。

A. 个人账号攻击

B. 存储能力不足

C. 基础设施差

D. 访问控制问题

23. 以下哪一项是大数据处理涉及的隐私保护问题()。

A. 数据量大

B. 数据复杂度高

C. 数据的敏感信息泄露

D. 数据分析速度慢

24. 下列关于大数据背景下的数据安全问题,哪一项是错误的()。

A. 大数据架构复杂,数据来源广泛,易引发数据安全问题

B. 在大数据环境,数据的安全性、完整性和私密性都需要保护

C. 大数据背景下的数据安全问题只存在于数据传播过程

D. 大数据带来的挑战是如何在利用数据价值的同时,保证数据的安全、隐私权的保护和合规性

25. 下列各项属于合规数据的是()。

A. 非法收集隐私信息数据

B. 取得使用者同意的个人资料数据

C. 泄露的隐私信息数据

D. 垄断数据


Tag:大数据技术概论 时间:2024-11-04 09:42:02