### **一、对大数据的粗线条理解**
>[info] ***大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多改变正蓄势待发……***
这段话摘自舍恩伯格的名著《大数据时代》的开篇引言。舍恩伯格用著名的Google H1N1甲型流感预测以及Farecast票价预测两个例子讲述了大数据对公共卫生和商业实实在在的变革。而更重要的,则是人们对数据价值开始逐渐重新认知,不再认为数据是静止和陈旧的,而是可以反复挖掘的宝藏,这是一种思维的变革,看下面这段洞察:
>[info] ***如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙的用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。***
>
> ***这仅仅是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需要关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。***
每时每刻,身边的数据都在飞速的增长。**人类存储信息量的增长速度比世界经济增长的速度快4倍,而计算机数据处理速度则比世界经济增长的速度快9倍。如今每隔大约三年,数据都能增长一倍**。量变产生质变,大数据也是一样,这项技术必将改变我们的生活。
一般可以用“4V”原则来定义大数据的特征:
- **Volume**:体量巨大
- **Variaty**:种类繁多
- **Value**:价值密度虽然低,但最终商业价值高
- **Velocity**:数据处理和分析的速度快
“大数据”与“大规模数据”/“海量数据”的最大区别在于,**“大数据”这一概念蕴含着对数据的处理行为,这种行为背后是软件、硬件、算法、方法论等一些列知识的集成与工程实施,绝非数据的简单堆砌**。
***
### **二、数据的生产**
历史发展到今天这个时代,数据的产生已经不再受时间和地点的限制。从开始使用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历如下几个过程:
1. **企业运营数据**:比如超市的销售记录、银行的交易记录、通讯运营商的用户和通信记录、医院的医疗记录等等。这些系统大量应用数据库,数据的产生伴随着运营活动。这个阶段是一种被动的生产方式。
2. **用户原创数据**:这主要就是互联网走进人们的生活时,尤其以UGC(User Generated Content)为代表的Web2.0时代,数据呈爆炸式的增长。博客、微博、微信、短视频等等不断更迭的新型社交方式,加之移动智能的推波助澜,分享更加便捷,成本更低,这不断刺激人们的分享欲望。这个阶段是一种主动的生产方式。
3. **万物感知数据**:这主要对应于物联网时代。目前人们有能力制造出越来越微小的传感器,有的携带了高性能处理芯片甚至具备了一定的人工智能处理能力,如各种穿戴设备和视频监控摄像头,就是典型的例子。这些传感器和设备越来越广泛的分布在社会的各个角落,源源不断生产着新数据。这个阶段是一种自动的生产方式。
数据的产生经过了被动、主动和自动三个阶段,**其中自动产生的数据是未来最根本最重要的来源**。
领域 | 用户量 | 响应 | 数据量 | 可靠性 | 精确度
--- | --- | --- | --- | --- | ---
科学 | 小 | 慢 | TB | 中 | 高++
金融 | 大 | 快++ | GB | 高++ | 高++
社交 | 大++ | 快 | PB | 高 | 高
通信 | 大++ | 快 | TB | 高 | 高
物联网 | 大++ | 快 | TB | 高 | 高
Web | 大++ | 快 | PB | 高 | 高
多媒体 | 大++ | 快 | PB | 高 | 中
Google首席经济学家 Hal Varian说过,**数据是广泛可用的,所缺乏的是从中提取出知识的能力**。
***
### **三、大数据的核心以及带来的转变**
大数据的核心是**预测**,是把数学算法运用到海量的数据上来**预测事情发生的概率**。预测工作和个性化技术相关,包括**个性化排序和个性化推荐**。个性化技术是大数据时代最重要的技术。
大数据在我们进行数据分析时带来了三个改变:
1. 第一个转变是,在大数据时代,**我们不再依赖随机采样,而是有机会分析和某个现象相关的全量数据**。
2. 第二个转变是,在大数据时代,**数据种类如此之多,以至于可以不再追求精确度**。数据分析,一方面是分析结论,另一方面,分析效率也非常关键。精确度的计算是以时间消耗为代价的,在大数据时代,快速获取一个大概的轮廓和发展脉络,比严格的精确度要重要的多。但应注意,这里也并不是说要放弃精确度,或者说精确度不重要,只是不应再沉迷于此。**适当忽略微观层面的精确度能够增强在宏观层面的洞察力**。
3. 第三个转变是,在大数据时代,**我们不在执着于寻找事件的因果关系**。寻找因果关系是人们长久以来的思维习惯,即使有时候搞明白因果也并没有太大用处。而事物的相关性,有时候更具有世俗化的价值。**在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要,专家经验必须与数据表达信息进行博弈**。
在大数据时代,**危险往往不是隐私的泄漏,而是被预知的可能性**。这种可性能可能会导致人们难以获得贷款和购买保险、被权力机构莫须有逮捕等。人们的权利需要新的规章制度来保障。
>[info] ***大数据给社会带来益处是多方面的。因为大数据已经成为解决紧迫世界性问题,如全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。但是大数据时代也向我们提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变。***
***
#### **参考材料**
- 《大数据时代》,维克托·迈尔·舍恩伯格
- 《大数据技术基础》,林子雨