混杂性 vs. 精确性 - MIT与经济危机预测

2022-06-09 14:07:25

上节课提出“大数据”通常用概率说话，当我们试图扩大数据规模的时候，要学会拥抱混乱。今天我们继续分享两个栗子，帮助大家了解大数据带来的混杂性，以及混杂性所带来的更大可能的精准度。

第一个故事：MIT与经济危机预测

(CPI)，这是用来测试通货膨胀率的。这些数据对投资者和商家都非常重要。在决定是否增减银行利率的时候，美联储也会考虑消费指数。一旦发生通货膨胀，工人工资也会增加。联邦政府在支付社会福利和债券利息的款项时，这项指数也是他们参考的依据。联邦政府为了得到这些数据，会雇用很多人向全美90个城市的商店、办公室打电话、发传真甚至登门拜访。他们反馈回来的各种各样的价格信息达80000种，包括土豆的价格、出租车的票价等。政府采集这些数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的，但是这个采集结果的公布会有几周的滞后。而MIT的两位经济学家，Alberto Cavell 和Oberto Rigobon提出了一个大数据方案：接受更混乱的数据，通过一个软件在互联网上收集信息，他们每天可以收集到50万中商品的价格。收集到的数据很混乱，也不是所有数据都能轻易进行比较。但是把大数据和好的分析法相结合，这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势，然而那些依赖官方数据的人直到11月份才知道这个情况。

第二个故事：Flickr图片标签

相片分享网站Flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片非常困难，也非常局限。聪明的人们用更混乱却灵活的机制取代了预设的清楚分类。当我们上传照片到Flickr网站的时候，我们会给照片添加标签。也就是说，我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签，所以它是没有标准、没有预先设定的排列和分类，也没有我们必须遵守的类别的。任何人都可以输入新的标签，标签内容事实上就成为了网络资源的分类标准。标签被广泛地应用于Facebook、博客等社交网络上。因为它们的存在，互联网上的资源变得更加容易找到，特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。当然，有时人们错标的标签会导致资源编组的不准确，这会让习惯了精确性的人们很痛苦。但是，我们用来编组照片集的混乱方法给我们带来了很多好处。比如，我们拥有了更加丰富的标签内容，同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来过滤我们需要寻找的照片，这在以前是无法完成的。

关于混杂性和精确性就谈到这里啦。

今天的小问题：以下哪个省/直辖市的消费者对SKII更感兴趣呢?

A.湖北 B.四川 C.河南 D.山东