多应用+插件架构,代码干净,支持一键云编译,码云点赞13K star,4.8-4.12 预售价格198元 广告
### **一、在小数据时代,需要用最少的数据获得最多的信息** 人类社会绝大部分时间都是在数据匮乏中度过的。在这种情况下,统计学为得到正确的结论做了很大的贡献。而统计学中的重要概念是随机样本。 统计学家们已经证明,采样分析的随机性越强,采样分析的精确性就越高,与样本数量的增加关系并不大。当样本数量达到一定程度后,从每个新的个体上得到的信息会越来越少,就好比经济学中的边际效应递减定律一样。 >[info] 在微观经济学中,边际效应指的是每增加(或减少)一个商品或服务,它对收益增加(或减少)的效应。经济学通常认为,随着商品或服务的增加,边际效应将会逐步减少,成为边际效应递减定律。 而随机采样能否取得重大成功,依赖于采样的 “**绝对随机性**” 。但实现“绝对随机性”是非常困难的。一旦采样过程存在任何 “**偏见**” ,分析结果可能就相去甚远。 随机采样另一个问题是,其主要在宏观领域的分析上更有效果,一旦深入到更深层次,或者细分领域,随机采样就不可取了。比如一份随机采样的调查结果是关于 10000 个人对总统选举的投票意向,如果随机性足够高,可能会有 3% 的误差。但如果细分到“东北部富裕女性”,调查人数可能就远远低于 10000 人,这个调查结果和实际的误差范围可能就远远高于 3% 了。 ### **二、在大数据时代,“样本” = “总体”** 如果我们能够获得全量数据,那随机采样本身就不存在意义了。因为有时候我们也并不能满足正态分布中庸平凡的景象。生活真谛很可能就隐藏在细节之中,采样分析法可能会遗漏这些细节。 而全量数据的获取,需要足够的存储和处理能力,需要先进的分析技术,需要廉价的数据收集方法。 大数据的本质并不是数据量绝对值的大小,而是指**不用随机采样分析方法,而是采用可获取到的所有数据进行分析的方法**。从这个意义上将,大数据强调的不是数据,而是方法论。 《大数据时代》这本书中举了一个日本相扑的例子,我觉得很好。 在日本相扑界,消极比赛是一个受到谴责和极力禁止的行为,但似乎又屡禁不止。芝加哥大学经济学家史蒂夫·列维(《魔鬼经济学》的作者)通过对 11 年以来 64000+ 场比赛记录的分析发现,消极比赛现象通常出现在不太重要的比赛之中,而这些比赛其实对相扑赛事实际上倒也没产生多大危害。但为何会出现这种情况呢? 进一步分析才发现,这其实是相扑界的一种 “潜规则”。相扑比赛有一个规则,选手需要在15场赛事中大部分场次取得胜利才能保证地位和收入。这种规则会自然的带来利益不对称的问题:一名7胜7负的选手和一名8胜6负的选手对决,究竟谁更需要一场胜利呢?显然是前者,胜负对后者其实影响很小。于是在这样的一场比赛中,后者往往会通过消极比赛的方式输掉。这其实是一个 “礼物” ,在讲究人情,联系紧密的相扑界,与人为善就是与己为善,就是给自己一条后路。 这个分析在对数据的进一步挖掘中也得到证实,就是当他们再次相遇时,先前失利的选手拥有比对方更高的胜率,这就是 “回报”。 在这个案例中,如果通过随机采样而非全量数据的分析方法,是较难发现这个深层次问题的。同时,数据库中 64000+ 场比赛记录的大小还不如一张普通的数码照片,也说明大数据强调的是用全量数据分析代替随机样本,而非数据量本身的大小。 用《大数据时代》原文的一段话结束本章的学习。 >[info] 我们总是习惯把统计抽样看作文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代起码一样。在某些特定的情况下,我们依然可以使用样本分析发,但这不再是我们分析数据的主要方式。慢慢的,我们会完全抛弃样本分析 > :-: ![](https://box.kancloud.cn/2ecc9a93ae0f38f8dbbfa5277a529c79_1506x1204.png =420x400)