北京物流信息联盟

混杂性 vs. 精确性 - MIT与经济危机预测

2022-06-09 14:07:25


上节课提出“大数据”通常用概率说话,当我们试图扩大数据规模的时候,要学会拥抱混乱。今天我们继续分享两个栗子,帮助大家了解大数据带来的混杂性,以及混杂性所带来的更大可能的精准度。


第一个故事:MIT与经济危机预测

(CPI),这是用来测试通货膨胀率的。这些数据对投资者和商家都非常重要。在决定是否增减银行利率的时候,美联储也会考虑消费指数。一旦发生通货膨胀,工人工资也会增加。联邦政府在支付社会福利和债券利息的款项时,这项指数也是他们参考的依据。联邦政府为了得到这些数据,会雇用很多人向全美90个城市的商店、办公室打电话、发传真甚至登门拜访。他们反馈回来的各种各样的价格信息达80000种,包括土豆的价格、出租车的票价等。政府采集这些数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是这个采集结果的公布会有几周的滞后。MIT的两位经济学家,Alberto Cavell Oberto Rigobon提出了一个大数据方案:接受更混乱的数据,通过一个软件在互联网上收集信息,他们每天可以收集到50万中商品的价格。收集到的数据很混乱,也不是所有数据都能轻易进行比较。但是把大数据和好的分析法相结合,这个项目在20089月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。


第二个故事:Flickr图片标签

相片分享网站Flickr2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片非常困难,也非常局限。聪明的人们用更混乱却灵活的机制取代了预设的清楚分类。当我们上传照片到Flickr网站的时候,我们会给照片添加标签。也就是说,我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签,所以它是没有标准、没有预先设定的排列和分类,也没有我们必须遵守的类别的。任何人都可以输入新的标签,标签内容事实上就成为了网络资源的分类标准。标签被广泛地应用于Facebook、博客等社交网络上。因为它们的存在,互联网上的资源变得更加容易找到,特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。当然,有时人们错标的标签会导致资源编组的不准确,这会让习惯了精确性的人们很痛苦。但是,我们用来编组照片集的混乱方法给我们带来了很多好处。比如,我们拥有了更加丰富的标签内容,同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来过滤我们需要寻找的照片,这在以前是无法完成的。


关于混杂性和精确性就谈到这里啦

今天的小问题:以下哪个省/直辖市的消费者对SKII更感兴趣呢?

A.湖北 B.四川 C.河南 D.山东

友情链接

Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟