大数据的主要特征是什么什么是大数据时代( 二 )

数据是时序的，即按照一定时间顺序生成；
数据极少有更新或删除操作；
数据产生频率快、数据信息量大；
数据往往带有位置信息。
传统的关系型数据库或非关系型数据库对于这类数据，在性能提升上极为有限，只能依靠集群技术，投入更多的计算资源和存储资源来处理，造成企业运营成本急剧上升。而时序数据库可以有效地处理庞大的数据，通过创新的列式存储和先进的压缩算法，使用的计算资源不到传统方案的1/5 ，存储空间不到通用数据库的1/10 。
常见的时序数据库有InfluxDB等。
07.什么是分布式存储？分布式存储是相对于集中式存储而言的。分布式存储是由标准服务器（硬件）和分布式文件系统（软件）组成的，可扩展至千台硬件节点，支持块存储、对象存储、文件存储等多种类型统一管理。
常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等。
举个通俗易懂的例子，如果把存储比喻成车厢，数据比喻成货物。集中式存储方案下，如果要想拉更多的货物，只能更换更大的车厢。而分布式存储方案，直接增加车厢就可以了。有了分布式存储技术，存储EB级别（1EB=1024PB=1024*1024TB=1024*1024*1024GB）的海量数据库都不成问题。
08.什么是数据集成？由于开发部门或开发时间的不同，企业中往往有多个异构的、运行在不同的软硬件平台上的数据库，这些数据库彼此独立、相互封闭，使得数据难以在系统之间交流和共享，从而形成了"信息孤岛" 。随着信息化应用的不断深入，企业内部之间、企业与外部的信息交互的需求日益强烈，急切需要对已有的数据进行整合，打通"信息孤岛" ，这就是数据集成的意义。
数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中，为企业提供全面的数据共享。数据集成主要解决的问题是各个数据源的异构性，包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等。
09.什么是数据清洗？数据清洗是一种清除错误数据、去掉重复数据的技术。数据经过清洗之后，可以还保存到原来的数据库中，也可以和数据集成联系在一起，最终保存到集成后的数据库里。
举几个数据清洗的实例：
1.在用户信息表中，规定有姓名、性别、地址、手机、邮箱五个字段是必填的。而某些用户缺少某些字段的值，因此需要补充这些数据。
2.英文的姓名之间规定要有空格，而某些姓名没有空格，比如"JohnSmith" ，就需要修正这类错误。
3.有些数据表的金额单位是元，有些数据表的金额单位是万元，数据集成时就需要统一单位。
4.两条用户记录完全重复，需要进行去重处理。
10.什么是ETL？ETL是Extraction、Transformation、Loading三个单词的首字母缩写，指的是数据抽取、转换、加载的过程。
【大数据的主要特征是什么什么是大数据时代】数据抽取是从不同的数据源中获取我们需要的数据的过程，和数据集成的概念类似，这个过程往往会做一些数据清洗和数据转换。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算。数据加载通常是指在数据清洗和数据转换完成后，写入到目标数据库中去。

大数据的主要特征是什么什么是大数据时代( 二 )

推荐阅读

关于节约粮食的名言诗句关于节约粮食的名言和诗句

奋斗励志朋友圈句子励志短句致自己奋斗朋友圈

想发朋友圈表示心情不好的句子心情不好发朋友圈的句子心情短句

贝拉玻尿酸是合法的吗贝拉玻尿酸是进口的还是国产的

核桃仁做菜的菜谱，您知道桃仁脆溜鸡的做法

浅紫色显皮肤黑还是白

库伦旗景点

居家隔离和集中隔离的区别什么情况下要隔离28天

蝉蛹是什么

怎样能丰胸最安全有效

大数据的主要特征是什么 什么是大数据时代( 二 )

推荐阅读

大数据的主要特征是什么什么是大数据时代( 二 )