大数据基础题库及答案
大数据是指规模大、种类多、处理速度快的数据集合,传统数据处理工具难以处理这种数据。
四个特点分别是Volume(数据量大)、Velocity(处理速度快)、Variety(数据种类多)、Veracity(数据真实性)。
三种方式分别是批处理、流式处理和交互式处理。
Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据。

核心组件包括HDFS(Hadoop分布式文件系统)、MapReduce(分布式计算框架)、YARN(资源管理器)。
MapReduce是一种编程模型,用于大规模数据集的并行计算。
Spark是一个快速、通用的集群计算系统,可以用于大规模数据处理。
Spark比Hadoop处理速度更快,适合迭代式计算和交互式查询,而Hadoop适合批处理。
数据挖掘是从大量数据中发现隐藏模式、关系和规律的过程。
数据清洗可以去除数据中的噪音和错误,提高数据质量,从而提高数据分析的准确性。