不是精确性,而是混杂性

2022-05-18 15:08:13

在越来越多的情况下，使用所有可获取的数据变得更为可能，但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确，与此同时，一些错误的数据也会混进数据库。然而，重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的，而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。对“小数据”而言，最基本、最重要的要求就是减少错误，保证质量。因为收集的信息量比较少，所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小，为了使结果更加准确，很多科学家都致力于优化测量的工具。在采样的时候，对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大，甚至有可能影响整个结果的准确性。

谷歌翻译系统为了训练计算机，会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档，。它甚至会吸收速读项目中的书籍翻译。谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样，这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看，它之所以能比IBM的Candide系统多利用成千上万的数据，是因为它接受了有错误的数据。2006年，谷歌发布的上万亿的语料库，就是来自于互联网的一些废弃内容。这就是“训练集”，可以正确地推算出英语词汇搭配在一起的可能性。

传统的样本分析师们很难容忍错误数据的存在，因为他们一生都在研究如何防止和避免错误的出现。在收集样本的时候，统计学家会用一整套的策略来减少错误发生的概率。大数据时代要求我们重新审视精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪，就会错过重要的信息。执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代，任意一个数据点的测量情况都对结果至关重要。所以，我们需要确保每个数据的精确性，才不会导致分析结果的偏差。

现在，我们能够容忍模糊和不确定出现在一些过去依赖于清晰和精确的领域，当然过去可能也只是有清晰的假象和不完全的精确。只要我们能够得到一个事物更完整的概念，我们就能接受模糊和不确定的存在。就像印象派的画风一样，近看画中的每一笔都感觉是混乱的，但是退后一步你就会发现这是一幅伟大的作品，因为你退后一步的时候就能看出画作的整体思路了。

值得注意的是，错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了，不精确的问题也就不复存在了。错误并不是大数据固有的特性，而是一个亟需我们去处理的现实问题，并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性，所以通常我们不会再花大力气去提升数据的精确性。这又是一个关注焦点的转变，正如以前，统计学家们总是把他们的兴
趣放在提高样本的随机性而不是数量上。如今，大数据给我们带来的利益，让我们能够接受不精确的存在了。