附录_数据分析词典 · 数据分析师

**一、互联网常用名词解释** **1、PV（Page View）页面浏览量** 指某段时间内访问网站或某一页面的用户的总数量，通常用来衡量一篇文章或一次活动带来的流量效果，也是评价网站日常流量数据的重要指标。PV可重复累计，以用户访问网站作为统计依据，用户每刷新一次即重新计算一次。 **2、UV（Unique Visitor）独立访客** 指来到网站或页面的用户总数，这个用户是独立的，同一用户不同时段访问网站只算作一个独立访客，不会重复累计，通常以PC端的Cookie数量作为统计依据。 **3、Visit 访问** 指用户通过外部链接来到网站，从用户来到网站到用户在浏览器中关闭页面，这一过程算作一次访问。Visit可重复累计，比如我打开一个网站又关闭，再重新打开，这就算作两次访问。 **4、Home Page 主页** 指一个网站起主目录功能的页面，也是网站起点。通常是网站首页。 **5、Landing Page 着陆页** 指用户从外部链接来到网站，直接跳转到的第一个页面。比如朋友给我发了一个介绍爆款T恤的淘宝链接，我点开会直接跳转到介绍T恤的那个页面，而不是淘宝网众多其他页面之一，这个介绍T恤的页面可以算作是着陆页。 **6、Bounce Rate 跳出率** 指用户通过链接来到网站，在当前页面没有任何交互就离开网站的行为，这就算作此页面增加了一个“跳出”，跳出率一般针对网站的某个页面而言。跳出率=在这个页面跳出的用户数/PV **7、退出率** 一般针对某个页面而言。指用户访问某网站的某个页面之后，从浏览器中将与此网站相关的所有页面全部关闭，就算此页面增加了一个“退出“。退出率=在这个页面退出的用户数/PV **8、Click 点击** 一般针对付费广告而言，指用户点击某个链接、页面、banner的次数，可重复累计。比如我在PC端看到一则新闻链接点进去看了一会就关了，过了一会又点进去看了一遍，这就算我为这篇新闻贡献两次点击。 **9、avr.time 平均停留时长** 指某个页面被用户访问，在页面停留时长的平均值，通常用来衡量一个页面内容的质量。 avr.time=访客数量/用户总停留时长 **10、CTR 点击率** 指某个广告、Banner、URL被点击的次数和被浏览的总次数的比值。一般用来考核广告投放的引流效果。 CTR=点击数（click）/被用户看到的次数 **11、Conversion rate 转化率** 指用户完成设定的转化环节的次数和总会话人数的百分比，通常用来评价一个转化环节的好坏，如果转化率较低则急需优化该转化环节。转化率=转化会话数/总会话数 **12、漏斗** 通常指产生目标转化前的明确流程，比如在淘宝购物，从点击商品链接到查看详情页，再到查看顾客评价、领取商家优惠券，再到填写地址、付款，每个环节都有可能流失用户，这就要求商家必须做好每一个转化环节，漏斗是评价转化环节优劣的指标。 **13、投资回报率（ROI：Return On Investment ）** 反映投入和产出的关系，衡量我这个投资值不值得，能给到我多少价值的东西（非单单的利润），这个是站在投资的角度或长远生意上看的。其计算公式为：投资回报率（ROI）=年利润或年均利润/投资总额×100%，通常用于评估企业对于某项活动的价值，ROI高表示该项目价值高。 **14、重复购买率** 指消费者在网站中的重复购买次数。 **15、Referrer 引荐流量** 通常指将用户引导至目标页面的URL（超链接）。在百度统计中，引荐流量叫做“外部链接”。 **16、流失分析（Churn Analysis/Attrition Analysis）** 描述哪些顾客可能停止使用公司的产品/业务，以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。 **17、顾客细分&画像（Customer Segmentation & Profiling）** 根据现有的顾客数据，将特征、行为相似的顾客归类分组。描述和比较各组。 **18、顾客的生命周期价值 (Lifetime Value, LTV)** 顾客在他/她的一生中为一个公司产生的预期折算利润。 **19、购物篮分析（Market Basket Analysis）** 识别在交易中经常同时出现的商品组合或服务组合，例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品，为陈列商品的决策提供依据等。 **20、实时决策（Real Time Decisioning, RTD）** 帮助企业做出实时（近乎无延迟）的最优销售/营销决策。比如，实时决策系统（打分系统）可以通过多种商业规则或模型，在顾客与公司互动的瞬间，对顾客进行评分和排名。 **21、留存/顾客留存（Retention / Customer Retention)** 指建立后能够长期维持的客户关系的百分比。 **22、社交网络分析（Social Network Analysis, SNA）** 描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点，而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法，既是数学的又是视觉的。 **23、生存分析（Survival Analysis）** 估测一名顾客继续使用某业务的时间，或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存，并引入合适的忠诚度政策。 **二、统计学名词解释** **1、绝对数和相对数** 绝对数：是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标，也是数据分析中常用的指标。比如年GDP，总人口等等。相对数：是指两个有联系的指标计算而得出的数值，它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式：相对数=比较值（比数）/基础值（基数） **2、百分比和百分点** 百分比：是相对数中的一种，他表示一个数是另一个数的百分之几，也成为百分率或百分数。百分比的分母是100，也就是用1%作为度量单位，因此便于比较。百分点：是指不同时期以百分数的形式表示的相对指标的变动幅度，1%等于1个百分点。 **3、频数和频率** 频数：一个数据在整体中出现的次数。频率：某一事件发生的次数与总的事件数之比。频率通常用比例或百分数表示。 **4、比例与比率** 比例：是指在总体中各数据占总体的比重，通常反映总体的构成和比例，即部分与整体之间的关系。比率：是样本(或总体)中各不同类别数据之间的比值，由于比率不是部分与整体之间的对比关系，因而比值可能大于1。 **5、倍数和番数** 倍数：用一个数据除以另一个数据获得，倍数一般用来表示上升、增长幅度，一般不表示减少幅度。番数：指原来数量的2的n次方。 **6、同比和环比** 同比：指的是与历史同时期的数据相比较而获得的比值，反应事物发展的相对性。环比：指与上一个统计时期的值进行对比获得的值，主要反映事物的逐期发展的情况。 **7、变量** 变量来源于数学，是计算机语言中能储存计算结果或能表示值抽象概念。变量可以通过变量名访问。 **8、连续变量** 在统计学中，变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值。如:年龄、体重等变量。 **9、离散变量** 离散变量的各变量值之间都是以整数断开的，如人数、工厂数、机器台数等，都只能按整数计算。离散变量的数值只能用计数的方法取得。 **10、定性变量** 又名分类变量：观测的个体只能归属于几种互不相容类别中的一种时，一般是用非数字来表达其类别，这样的观测数据称为定性变量。可以理解成可以分类别的变量，如学历、性别、婚否等。 **11、均值** 即平均值，平均数是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。 **12、中位数** 对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。 **13、缺失值** 它指的是现有数据集中某个或某些属性的值是不完全的。 **14、缺失率** 某属性的缺失率=数据集中某属性的缺失值个数/数据集总行数。 **15、异常值** 指一组测定值中与平均值的偏差超过两倍标准差的测定值，与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。 **16、方差** 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。 **17、标准差** 中文环境中又常称均方差，是离均差平方的算术平均数的平方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。 **18、皮尔森相关系数** 皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示，其中n为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。 **19、相关系数** 相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标，是研究变量之间线性相关程度的量，一般用字母r表示。由于研究对象的不同，相关系数有多种定义方式，较为常用的是皮尔森相关系数。 **20、特征值** 特征值是线性代数中的一个重要概念。在数学、物理学、化学、计算机等领域有着广泛的应用。设A是向量空间的一个线性变换，如果空间中某一非零向量通过A变换后所得到的向量和X仅差一个常数因子，即AX=kX，则称k为A的特征值，X称为A的属于特征值k的特征向量或特征矢量。 **三、数据分析名词解释** **聚合(Aggregation)：**搜索、合并、显示数据的过程。 **算法(Algorithms)：**可以完成某种数据分析的数学公式。 **分析法(Analytics)：**用于发现数据的内在涵义。 **异常检测(Anomaly detection)：**在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种：outliers,exceptions,surprises,contaminants.他们通常可提供关键的可执行信息。 **匿名化(Anonymization)：**使数据匿名，即移除所有与个人隐私相关的数据。 **分析型客户关系管理（Analytical CRM/aCRM）：**用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。 **行为分析法(Behavioural Analytics)：**这种分析法是根据用户的行为如“怎么做”，“为什么这么做”，以及“做了什么”来得出结论，而不是仅仅针对人物和时间的一门分析学科，它着眼于数据中的人性化模式。 **批量处理（Batch processing）：**尽管从大型计算机时代开始，批量处理就已经出现了。由于处理大型数据集，批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。 **商业智能（Business Intelligence）:**分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。 **分类分析(Classification analysis)：**从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据。 **云计算(Cloud computing)：**构建在网络上的分布式计算系统，数据是存储于机房外的（即云端）。 **集群计算（Cluster computing）：**这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话，就会涉及到节点，集群管理层，负载平衡和并行处理等概念。 **聚类分析(Clustering analysis)：**它是将相似的对象聚合在一起，每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。 **冷数据存储(Cold data storage)：**在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。 **对比分析(Comparative analysis)：**在非常大的数据集中进行模式匹配时，进行一步步的对比和计算过程得到分析结果。 **相关性分析(Correlation analysis)：**是一种数据分析方法，用于分析变量之间是否存在正相关，或者负相关。 **仪表板(Dashboard)：**使用算法分析数据，并将结果用图表方式显示于仪表板中。 **数据聚合工具(Data aggregation tools)：**将分散于众多数据源的数据转化成一个全新数据源的过程。 **数据分析师(Data analyst)：**从事数据分析、建模、清理、处理的专业人员。 **数据库(Database)：**一个以某种特定的技术来存储数据集合的仓库。 **数据湖（Data lake）：**数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库，它在概念上是相似的，也是企业级数据的存储库，但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据（但不是专有的）。数据湖使得访问企业级数据更加容易，你需要明确你要寻找什么，以及如何处理它并明智地试用它。 **暗数据（Dark Data）：**基本上指的是，由企业收集和处理的，但并不用于任何意义性目的的数据，因此它是“暗”的，可能永远不会被分析。它可以是社交网络反馈，呼叫中心日志，会议笔记等等。有很多人估计，所有企业数据中的 60-90％可能是“暗数据”，但谁又真正知道呢？ **数据挖掘（Data mining)：**数据挖掘是通过使用复杂的模式识别技术，从而找到有意义的模式，并得出大量数据的见解。 **数据中心(Data centre)：**一个实体地点，放置了用来存储数据的服务器。 **数据清洗(Data cleansing)：**对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。 **数据质量（Data Quality）：**有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程，并能满足在运营、决策、规划中的预期用途。 **数据订阅(Data feed)：**一种数据流，例如Twitter订阅和RSS。 **数据集市(Data Mart)：**进行数据集买卖的在线交易场所。 **数据建模(Data modelling)：**使用数据建模技术来分析数据对象，以此洞悉数据的内在涵义。 **数据集(Data set)：**大量数据的集合。 **数据虚拟化(Data virtualization)：**数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等。 **判别分析(Discriminant analysis)：**将数据分类，按不同的分类方式，可将数据分配到不同的群组，类别或者目录。是一种统计分析法，可以对数据中某些群组或集群的已知信息进行分析，并从中获取分类规则。 **分布式文件系统(Distributed File System)：**提供简化的，高可用的方式来存储、分析、处理数据的系统。 **文件存贮数据库(Document Store Databases)：**又称为文档数据库，为存储、管理、恢复文档数据而专门设计的数据库，这类文档数据也称为半结构化数据。 **探索性分析(Exploratory analysis)：**在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。 **提取-转换-加载(ETL:Extract,Transform and Load)：**是一种用于数据库或者数据仓库的处理过程，天善学院有国内唯一的最全的ETL学习课程。即从各种不同的数据源提取(E)数据，并转换(T)成能满足业务需要的数据，最后将其加载(L)到数据库。 **游戏化(Gamification)：**在其他非游戏领域中运用游戏的思维和机制，这种方法可以以一种十分友好的方式进行数据的创建和侦测，非常有效。 **图形数据库(Graph Databases)：**运用图形结构(例如，一组有限的有序对，或者某种实体)来存储数据，这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能，也就是说，数据库中每个元素间都与其他相邻元素直接关联。 **网格计算(Grid computing)：**将许多分布在不同地点的计算机连接在一起，用以处理某个特定问题，通常是通过云将计算机相连在一起。 **Hadoop：**一个开源的分布式系统基础框架，可用于开发分布式程序，进行大数据的运算与存储。 **Hadoop数据库(HBase)：**一个开源的、非关系型、分布式数据库，与Hadoop框架共同使用。 **HDFS：**Hadoop分布式文件系统(Hadoop Distributed File System)；是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。 **高性能计算(HPC:High-Performance-Computing)：**使用超级计算机来解决极其复杂的计算问题。 **内存数据库(IMDB:In-memory)：**一种数据库管理系统，与普通数据库管理系统不同之处在于，它用主存来存储数据，而非硬盘。其特点在于能高速地进行数据的处理和存取。 **物联网（IoT）：**最新的流行语是物联网（IOT）。IOT通过互联网将嵌入式对象（传感器，可穿戴设备，汽车，冰箱等）中的计算设备进行互连，并且能够发送以及接收数据。IOT生成大量数据，提供了大量大数据分析的机会。 **键值数据库(Key-Value Databases)：**数据的存储方式是使用一个特定的键，指向一个特定的数据记录，这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。 **负载均衡(Load balancing)：**将工作量分配到多台电脑或服务器上，以获得最优结果和最大的系统利用率。 **位置信息(Location data)：**GPS信息，即地理位置信息。 **日志文件(Log file)：**由计算机系统自动生成的文件，记录系统的运行过程。 **M2M数据(Machine 2 Machine data)：**两台或多台机器间交流与传输的内容。 **机器数据(Machine data)：**由传感器或算法在机器上产生的数据。 **机器学习(Machine learning)：**人工智能的一部分，指的是机器能够从它们所完成的任务中进行自我学习，通过长期的累积实现自我改进。 **Map Reduce：**是处理大规模数据的一种软件框架(Map:映射，Reduce:归纳)。 **大规模并行处理(MPP:Massivel yParallel Processing)：**同时使用多个处理器(或多台计算机)处理同一个计算任务。 **元数据(Meta data)：**被称为描述数据的数据，即描述数据数据属性(数据是什么)的信息。 **多维数据库(Multi-Dimensional Databases)：**用于优化数据联机分析处理(OLAP)程序，优化数据仓库的一种数据库。 **多值数据库(MultiValue Databases)：**是一种非关系型数据库(NoSQL),一种特殊的多维数据库：能处理3个维度的数据。主要针对非常长的字符串，能够完美地处理HTML和XML中的字串。 **自然语言处理(Natural Language Processing)：**是计算机科学的一个分支领域，它研究如何实现计算机与人类语言之间的交互。 **网络分析(Network analysis)：**分析网络或图论中节点间的关系，即分析网络中节点间的连接和强度关系。 **NewSQL：**一个优雅的、定义良好的数据库系统，比SQL更易学习和使用，比NoSQL更晚提出的新型数据库。 **NoSQL：**顾名思义，就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性，能处理超大规模和高并发的数据 **对象数据库(Object Databases)：**(也称为面象对象数据库)以对象的形式存储数据，用于面向对象编程。它不同于关系型数据库和图形数据库，大部分对象数据库都提供一种查询语言，允许使用声明式编程(declarative programming)访问对象。 **基于对象图像分析(Object-based Image Analysis)：**数字图像分析方法是对每一个像素的数据进行分析，而基于对象的图像分析方法则只分析相关像素的数据，这些相关像素被称为对象或图像对象。 **操作型数据库(Operational Databases)：**这类数据库可以完成一个组织机构的常规操作，对商业运营非常重要，一般使用在线事务处理，允许用户访问、收集、检索公司内部的具体信息。 **优化分析(Optimization analysis)：**在产品设计周期依靠算法来实现的优化过程，在这一过程中，公司可以设计各种各样的产品并测试这些产品是否满足预设值。 **本体论(Ontology）：**表示知识本体，用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注:数据被提高到哲学的高度，被赋予了世界本体的意义，成为一个独立的客观数据世界) **异常值检测(Outlier detection)：**异常值是指严重偏离一个数据集或一个数据组合总平均值的对象，该对象与数据集中的其他它相去甚远，因此，异常值的出现意味着系统发生问题，需要对此另加分析。 **联机分析处理（On-Line Analytical Processing，OLAP）：**能让用户轻松制作、浏览报告的工具，这些报告总结相关数据，并从多角度分析。 **模式识别(Pattern Recognition)：**通过算法来识别数据中的模式，并对同一数据源中的新数据作出预测 **平台即服务(PaaS:Platform-as-a-Service)：**为云计算解决方案提供所有必需的基础平台的一种服务。 **预测分析(Predictive analysis)：**大数据分析方法中最有价值的一种分析方法，这种方法有助于预测个人未来(近期)的行为，例如某人很可能会买某些商品，可能会访问某些网站，做某些事情或者产生某种行为。通过使用各种不同的数据集，例如历史数据，事务数据，社交数据，或者客户的个人信息数据，来识别风险和机遇。 **公共数据(Public data)：**由公共基金创建的公共信息或公共数据集。 **数字化自我(Quantified Self)：**使用应用程序跟踪用户一天的一举一动，从而更好地理解其相关的行为。 **R：**是一种编程语言，在统计计算方面很出色。如果你不知道 R，你就称不上是数据科学家。R 是数据科学中最受欢迎的语言之一。 **再识别(Re-identification)：**将多个数据集合并在一起，从匿名化的数据中识别出个人信息。 **回归分析(Regression analysis)：**确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注：自变量，因变量，二者不可互换)。 **实时数据(Real-time data)：**指在几毫秒内被创建、处理、存储、分析并显示的数据。 **推荐引擎(Recommendation engine)：**推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品。 **路径分析(Routing analysis)：**–针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径，以达到降低燃料费用，提高效率的目的。 **半结构化数据(Semi-structured data)：**半结构化数据并不具有结构化数据严格的存储结构，但它可以使用标签或其他形式的标记方式以保证数据的层次结构。 **结构化数据(Structured data)：**可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。 **情感分析(Sentiment Analysis)：**通过算法分析出人们是如何看待某些话题。 **信号分析(Signal analysis)：**指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。 **相似性搜索(Similarity searches)：**在数据库中查询最相似的对象，这里所说的数据对象可以是任意类型的数据。 **仿真分析(Simulation analysis)：**仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量，确保产品性能达到最优。 **软件即服务(SaaS:Software-as-a-Service)：**基于Web的通过浏览器使用的一种应用软件。 **空间分析(Spatial analysis)：**空间分析法分析地理信息或拓扑信息这类空间数据，从中得出分布在地理空间中的数据的模式和规律。 **SQL：**在关系型数据库中，用于检索数据的一种编程语言。 **流处理（Stream processing）：**流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析，即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。 **时序分析(Time series analysis)：**分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的，并且要取自相同时间间隔的连续时间点。 **拓扑数据分析(Topological Data Analysis)：**拓扑数据分析主要关注三点：复合数据模型、集群的识别、以及数据的统计学意义。 **交易数据(Transactional data)：**随时间变化的动态数据 **透明性(Transparency)：**–消费者想要知道他们的数据有什么作用、被作何处理，而组织机构则把这些信息都透明化了。 **文本挖掘（Text Mining）：**对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算，以便用数学术语表达文本结构，之后用传统数据挖掘技术分析文本结构。 **非结构化数据(Un-structured data)：**非结构化数据一般被认为是大量纯文本数据，其中还可能包含日期，数字和实例。 **价值(Value)：**(译者注：大数据4V特点之一)所有可用的数据，能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。 **可变性(Variability)：**也就是说，数据的含义总是在（快速）变化的。例如，一个词在相同的推文中可以有完全不同的意思。 **多样(Variety)：**(译者注：大数据4V特点之一)数据总是以各种不同的形式呈现，如结构化数据，半结构化数据，非结构化数据，甚至还有复杂结构化数据 **高速(Velocity)：**(译者注：大数据4V特点之一)在大数据时代，数据的创建、存储、分析、虚拟化都要求被高速处理。 **真实性(Veracity)：**组织机构需要确保数据的真实性，才能保证数据分析的正确性。因此，真实性(Veracity)是指数据的正确性。 **可视化(Visualization)：**只有正确的可视化，原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图，可视化指是的复杂的图表，图表中包含大量的数据信息，但可以被很容易地理解和阅读。 **大量(Volume)：**(译者注：大数据4V特点之一)指数据量，范围从Megabytes至Brontobytes。 **天气数据(Weather data)：**是一种重要的开放公共数据来源，如果与其他数据来源合成在一起，可以为相关组织机构提供深入分析的依据。 **网络挖掘/网络数据挖掘（Web Mining / Web Data Mining)：**使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。 **XML数据库(XML Databases)：**XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联，开发人员可以对XML数据库的数据进行查询，导出以及按指定的格式序列化。