电话010-88998848 邮箱admin@transbit.cn

北京市场调查-市场调研公司-满意度调查 华夏经纬北京

行业动态

当前位置:首页 > 新闻中心 > 行业动态 > 正文

我们要怎样在数据的海洋中保持清醒?

时间:2018-07-17 14:06 阅读:1161 整理:市场调研公司

我们每天都要接受大量的数据,这些数据不是都是有用的,那我们应该怎么来正确的解读、分析、处理这些数据呢?

在《数据的真相》一书中MIT数据学专家讲述了如何破译每天接触到的数据,将复杂的问题变得更简单和直观。我们每天都在刷头条、浏览弹窗,每天都会接触海量的数据信息,这些信息背后隐藏着什么真相?如何识别那些一本正经的胡说八道?普通人一天大约要接收30G的数据,但大部分人不知道如何正确地解读这些数据。MIT数据学专家在《数据的真相》中讲述了如何破译每天接触到的数据,将复杂的问题变得更简单和直观。

《数据的真相》涉及商业、零售、广告、育儿等诸多领域的真实案例,以及时常为人们所误解的数据概念。在本书中,你不仅能够找到如何在信息庞杂的世界中识别数据谎言、挖掘有用信息的方法,而且还能找到凭借该答案迅速做出明智决定的智慧。

如果你拥有所有以往数据,也就是我们所谓的数据总体,那么你就有了一个良好的开端。例如,不管以什么方式,若我们能够观测到曾经发生在日本的每一次地震及海啸,我们就掌握了所有这些事件的数据。即使那时我们常常禁不住思考未来还会发生什么别的事情。

但如果我们没有搜集到全部数据,就不得不依赖某一个样本。而在抽样的过程中,我们也不是总能知道样本是否代表了数据总体的真实情况。所以你得出的结论也不确定,也就是抽样误差—我们在第五章讨论过。这是福岛大灾难背后的因素之一,鉴于大地震及海啸发生的频率相对较低,其样本容量(几十年)太小,不具备代表性。

样本的不确定性越大,预测的不确定性就越大。掌握的信息越详尽,预测结果越准确,在统计学中,我们将预测的基础称为“模型”。模型展示了所有掌握的信息—你用来预测未来的因素,你所依赖的基础样本数据,以及你通过数学方法确定的各因素之间的关系。换句话说,该模型体现了你所认为的各因素之间的关系。毕竟,如果你解释不了已经看到的东西,就很难(几乎不可能)解释在未来将要看到的东西。

以往的数据也会受到目前我们讨论过的许多因素的影响—筛选数据、遗漏变量、离群值、显著性差异等。以上任何因素在你的以往数据中出现都会导致影响预测的问题,因为未来通常立足于以往的数据。

任何评估都存在不确定性,然而这并不是有些人所喜闻乐见的—他们只想要数字。

正如布朗所说,“大多数经济学家明白,我们真正在做的是‘规划’而非‘预测’”。换句话说,如果生育率、死亡率或者劳动参与率以特殊的方式演变的话,我们可以非常自在地将社会保障系统内的资金运转方式转化为模型。但若要明确地说明陈述生育率、死亡率或者劳动参与率将以哪种特定的方式发展,我们就没那么自在了。

不过除了在数据统计方面受过训练(或者读过这本书)的人,这类的细微差别可能对他们来说无足轻重。布朗指出:“结果是,我们常常见到这样的情形,当政策没有完全达到预期效果,哪怕结果仍处在初步估算出来的置信区间时,人们就已经表达出意外、失望乃至愤怒之情了。”

数据霸权崛起、无用阶层庞大——这是《今日简史》预言中2050年的世界

算法正在大行其道,我们到底是受益者还是受害者?

关注公众号
获取更多行业资讯

免责声明:
本站文章内容以及所涉数据、图片等资料来源于网络,转载目的在于传递更多信息。版权归作者所有,文章仅代表作者观点,不代表华夏经纬立场。 如涉及侵权,请联系管理员删除。在法律许可的范围内,华夏经纬(广州)数据科技股份有限公司享有最终解释权。

相关新闻

QQ在线咨询
给我们留言

咨询电话

010-88998848

关注公众号

电话回拨