大数据的主要特征是什么 什么是大数据时代( 二 )


数据是时序的 , 即按照一定时间顺序生成;
数据极少有更新或删除操作;
数据产生频率快、数据信息量大;
数据往往带有位置信息 。
传统的关系型数据库或非关系型数据库对于这类数据 , 在性能提升上极为有限 , 只能依靠集群技术 , 投入更多的计算资源和存储资源来处理 , 造成企业运营成本急剧上升 。而时序数据库可以有效地处理庞大的数据 , 通过创新的列式存储和先进的压缩算法 , 使用的计算资源不到传统方案的1/5 , 存储空间不到通用数据库的1/10 。
常见的时序数据库有InfluxDB等 。
07.什么是分布式存储?分布式存储是相对于集中式存储而言的 。分布式存储是由标准服务器(硬件)和分布式文件系统(软件)组成的 , 可扩展至千台硬件节点 , 支持块存储、对象存储、文件存储等多种类型统一管理 。
常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等 。
举个通俗易懂的例子 , 如果把存储比喻成车厢 , 数据比喻成货物 。集中式存储方案下 , 如果要想拉更多的货物 , 只能更换更大的车厢 。而分布式存储方案 , 直接增加车厢就可以了 。有了分布式存储技术 , 存储EB级别(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量数据库都不成问题 。
08.什么是数据集成?由于开发部门或开发时间的不同 , 企业中往往有多个异构的、运行在不同的软硬件平台上的数据库 , 这些数据库彼此独立、相互封闭 , 使得数据难以在系统之间交流和共享 , 从而形成了"信息孤岛" 。随着信息化应用的不断深入 , 企业内部之间、企业与外部的信息交互的需求日益强烈 , 急切需要对已有的数据进行整合 , 打通"信息孤岛" , 这就是数据集成的意义 。
数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中 , 为企业提供全面的数据共享 。数据集成主要解决的问题是各个数据源的异构性 , 包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等 。
09.什么是数据清洗?数据清洗是一种清除错误数据、去掉重复数据的技术 。数据经过清洗之后 , 可以还保存到原来的数据库中 , 也可以和数据集成联系在一起 , 最终保存到集成后的数据库里 。
举几个数据清洗的实例:
1.在用户信息表中 , 规定有姓名、性别、地址、手机、邮箱五个字段是必填的 。而某些用户缺少某些字段的值 , 因此需要补充这些数据 。
2.英文的姓名之间规定要有空格 , 而某些姓名没有空格 , 比如"JohnSmith" , 就需要修正这类错误 。
3.有些数据表的金额单位是元 , 有些数据表的金额单位是万元 , 数据集成时就需要统一单位 。
4.两条用户记录完全重复 , 需要进行去重处理 。
10.什么是ETL?ETL是Extraction、Transformation、Loading三个单词的首字母缩写 , 指的是数据抽取、转换、加载的过程 。
【大数据的主要特征是什么 什么是大数据时代】数据抽取是从不同的数据源中获取我们需要的数据的过程 , 和数据集成的概念类似 , 这个过程往往会做一些数据清洗和数据转换 。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算 。数据加载通常是指在数据清洗和数据转换完成后 , 写入到目标数据库中去 。

推荐阅读