第1章更多：不是随机样本，而是全体数据 · 《大数据时代》笔记

### **一、在小数据时代，需要用最少的数据获得最多的信息** 人类社会绝大部分时间都是在数据匮乏中度过的。在这种情况下，统计学为得到正确的结论做了很大的贡献。而统计学中的重要概念是随机样本。统计学家们已经证明，采样分析的随机性越强，采样分析的精确性就越高，与样本数量的增加关系并不大。当样本数量达到一定程度后，从每个新的个体上得到的信息会越来越少，就好比经济学中的边际效应递减定律一样。 >[info] 在微观经济学中，边际效应指的是每增加（或减少）一个商品或服务，它对收益增加（或减少）的效应。经济学通常认为，随着商品或服务的增加，边际效应将会逐步减少，成为边际效应递减定律。而随机采样能否取得重大成功，依赖于采样的 “**绝对随机性**” 。但实现“绝对随机性”是非常困难的。一旦采样过程存在任何 “**偏见**” ，分析结果可能就相去甚远。随机采样另一个问题是，其主要在宏观领域的分析上更有效果，一旦深入到更深层次，或者细分领域，随机采样就不可取了。比如一份随机采样的调查结果是关于 10000 个人对总统选举的投票意向，如果随机性足够高，可能会有 3% 的误差。但如果细分到“东北部富裕女性”，调查人数可能就远远低于 10000 人，这个调查结果和实际的误差范围可能就远远高于 3% 了。 ### **二、在大数据时代，“样本” = “总体”** 如果我们能够获得全量数据，那随机采样本身就不存在意义了。因为有时候我们也并不能满足正态分布中庸平凡的景象。生活真谛很可能就隐藏在细节之中，采样分析法可能会遗漏这些细节。而全量数据的获取，需要足够的存储和处理能力，需要先进的分析技术，需要廉价的数据收集方法。大数据的本质并不是数据量绝对值的大小，而是指**不用随机采样分析方法，而是采用可获取到的所有数据进行分析的方法**。从这个意义上将，大数据强调的不是数据，而是方法论。《大数据时代》这本书中举了一个日本相扑的例子，我觉得很好。在日本相扑界，消极比赛是一个受到谴责和极力禁止的行为，但似乎又屡禁不止。芝加哥大学经济学家史蒂夫·列维（《魔鬼经济学》的作者）通过对 11 年以来 64000+ 场比赛记录的分析发现，消极比赛现象通常出现在不太重要的比赛之中，而这些比赛其实对相扑赛事实际上倒也没产生多大危害。但为何会出现这种情况呢？进一步分析才发现，这其实是相扑界的一种 “潜规则”。相扑比赛有一个规则，选手需要在15场赛事中大部分场次取得胜利才能保证地位和收入。这种规则会自然的带来利益不对称的问题：一名7胜7负的选手和一名8胜6负的选手对决，究竟谁更需要一场胜利呢？显然是前者，胜负对后者其实影响很小。于是在这样的一场比赛中，后者往往会通过消极比赛的方式输掉。这其实是一个 “礼物” ，在讲究人情，联系紧密的相扑界，与人为善就是与己为善，就是给自己一条后路。这个分析在对数据的进一步挖掘中也得到证实，就是当他们再次相遇时，先前失利的选手拥有比对方更高的胜率，这就是 “回报”。在这个案例中，如果通过随机采样而非全量数据的分析方法，是较难发现这个深层次问题的。同时，数据库中 64000+ 场比赛记录的大小还不如一张普通的数码照片，也说明大数据强调的是用全量数据分析代替随机样本，而非数据量本身的大小。用《大数据时代》原文的一段话结束本章的学习。 >[info] 我们总是习惯把统计抽样看作文明得以建立的牢固基石，就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期，解决当时存在的一些特定问题而产生的，其历史尚不足一百年。如今，技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代起码一样。在某些特定的情况下，我们依然可以使用样本分析发，但这不再是我们分析数据的主要方式。慢慢的，我们会完全抛弃样本分析 > :-: ![](https://box.kancloud.cn/2ecc9a93ae0f38f8dbbfa5277a529c79_1506x1204.png =420x400)