北京物流信息联盟

大数据时代对传统统计学变革的思考

2022-06-10 16:41:36

大数据时代对传统统计学变革的思考

    摘要:本文在大数据时代背景下,将统计学与大数据有机地结合,剖析了大数据时代给统计学带来的变革,阐述了大数据为传统统计学带来的发展机遇。在大数据时代,为了保持统计学旺盛的生命力,本文对统计学的发展提出了几点思考。
    关键词: 大数据 大数据时代 统计学 变革
    中图分类号:O213.2     文献标识码:C



The Analysis of Conventional Statistics During the Big Data Era
 
Abstract:Under the background of the era of big data, statistics are organically connected with big data in this article. Also, considering the big data period, we make an analysis on the innovation of statistics, as well as a statement about the opportunity of development for statistics. With the coming of big data age, to ensure the exuberant vitality of statistics, some ideas are also brought up in this paper.
Key words: big data;big data era;statistics;innovation

01

一、 引言
美国百科全书,把统计学界定为“一门在不确定性方面为了做出正确的推断而进行搜集、分析定量数据的科学和艺术”,大英百科全书认为“统计学是一门搜集数据,分析数据,并根据数据进行推断的艺术和科学,最初与政府搜集数据有关,现在包括了范围广泛的方法和理论”,中国百科全书将统计学定义为“一门研究怎样有效地搜集、整理和分析带有随机性的数据,以对所考察的问题做出推断或预测,直至为采取一定的决策和行动提供依据和建议的学科”。由此可见,统计学是一门研究数据的学科。
三年前,奥巴马背后的数据团队通过收集、存储和分析选民数据帮助其获得了总统连任;马云领导的阿里巴巴早在08年已把大数据作为一项公司基本战略。在不知不觉中,我们已经从移动互联网时代进入了大数据时代。大数据时代是建立在互联网、物联网等现代网络渠道中广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示的信息时代。
由统计学的发展过程中可以看出,统计学产生于应用,在应用过程中发展。它的生命力在于应用。在当今社会,统计起着“神经系统”的作用。统计是连接社会再生产各个环节、各个要素的中介,是商品生产和商品交换的先导,对经济活动进行起着灵敏有效的调节作用。例如,市场经济的统计信息是商品的生产和经营活动的依据。市场经济信息主要有两个方面:一是客户对商品的需求,包括商品数量、品种、质量和规格的要求等;二是各类商品生产、供应以及价格的变化。商品生产者生产商品的种类、数量、质量改进等问题都要根据市场需求信息和价格信息等来研究决定;商品经营者所决定的商品购买、库存、定价等问题也需要根据生产、需求信息及其变化趋势来研究决定。在大数据时代,以上这些统计信息的获得不再局限于电话调查、问卷调查等高成本、低收益的方式,而是可以借助网络、移动通信等方式。同时,数据的质量也不再受到主观因素的限制。
由于大数据的产生,使得统计学的定义、思维方式、作用都不同于传统统计。毫无疑问,随着大数据时代的来临,统计学的发展进入了一个新的阶段。

02

二、 大数据时代下传统统计学的变革
大数据时代的到来,对统计学的发展具有划时代的意义,需要统计学解决更多、更复杂的问题,因而对统计学提出了更高的要求。在此,本文将从以下七个方面阐述大数据时代下传统统计学的变革。
1、 样本概念的深化
统计学依赖于样本统计(普查除外),样本是按照一定的概率从总体中抽取并作为总体代表的集合体。大数据时代,样本的概念不再这么简单,由于此时数据大部分为网络数据,因此可以将其分为两种类型:一是静态数据,呈现“总体即样本”的趋势,这一特点弥补了传统样本统计高成本、高误差的劣势;二是动态数据,比如数据是随着时间的推移而变化的,此时,总体表现为历史长河中所有数据的总和,而我们分析的对象为“样本”,这里的“样本”与传统样本的概念不同,因其并非局限于随机抽取的数据,更可以是选定的与分析目的相关的数据。
2、 数据类型的扩大
传统数据基本上是结构型数据,即定量数据加上少量专门设计的定性数据,格式化,有标准,可以用常规的统计指标或统计图表加以表现。大数据则更多的是非结构型数据、半结构型数据或异构数据,包括了一切可记录、可存储的信号,多样化、无标准、难以用传统的统计指标或统计图表加以表现。并且,网络信息系统的不同导致数据识别方式不同,没有统一的数据分类标准。再者,现在有的数据库是非关系型的数据库,不需要预先设定记录结构即可自动包容大量各种各样的数据。
3、 收集概念的扩展
传统统计中,收集统计数据的思维是先确定统计分析研究的目的,然后根据需要收集数据,所以要精心设计调查方案,严格执行每个流程,往往投入大,而得到的数据量有限。在大数据时代,收集数据就是识别、整理、提炼、汲取、分配和存储元数据的过程。我们拥有超大量可选择的数据,同时,在存储能力,分析能力,甄别数据的真伪,选择关联物,提炼和利用数据,确定分析节点等方面,都需要斟酌。然而,并不是任何数据都可以从现有的数据中获得,还存在安全性、成本性、针对性的问题。因此,我们既要继续采用传统的方式方法去收集特定需要的数据,又要善于利用现代网络信息技术和各种数据源去收集一切相关的数据。
4、 数据来源的不同
传统的数据收集因为具有很强的针对性,因此数据的提供者大多是确定的,身份特征是可识别的,有的还可以进行事后核对。而大数据的来源则很难追溯,由于大数据通常来源于物联网,不是为了特定的数据收集目的而产生,而是人们一切可记录的信号(当然,任何信号的产生都有其目的,但它们是发散的),并且身份识别十分困难。在大数据时代,努力打造统计数据来源第二轨,就显得尤为重要。
5、 量化方式的变化
传统数据为结构化数据,其量化处理已经有一整套较为完整的方式与过程,量化的结果可直接用于各种运算与分析。大数据时代面临着大量的非结构化数据,Franks说过:“几乎没有哪种分析过程能够直接对非结构化数据进行分析,也无法直接从非结构化的数据中得出结论”。目前,计算机学界已着手研发处理非结构化数据的技术,从统计角度直接处理非结构化数据,或将其量化成结构化数据,这是一个重要的研究领域。
6、 分析思维的改变
我们从统计分析、实证分析、推断分析三个方面论述大数据时代传统统计学分析思维的改变。
第一,传统的统计分析过程是“定性—定量—再定性”,第一个定性是为了找准定量分析的方向,主要靠经验判断。大数据时代,统计分析过程为“定量-定性”,基础性的工作就是找到“定量的回应”,直接从各种“定量的回应”中找出那些真正的、重要的数量特征和数量关系,得出可以作为判断或决策依据的结论。
第二,传统的统计实证分析,思路是“假设—验证”,即先提出某种假设,然后通过数据的收集与分析去验证该假设是否成立,事实证明,这种实证分析存在很大误差。大数据时代,分析的思路是“发现—总结”,为了更全面、深入的了解研究对象,需要对数据进行整合,从中去寻找关系、发现规律,然后再加以总结、形成结论,这将有助于发现更多意外的“发现”。
第三,传统的统计推断分析过程是“分布理论—概率保证—总体推断”,通常是基于分布理论,根据样本特征去推断总体特征,推断是否正确却取决于样本的好坏。现在,其过程变成了“实际分布—总体特征—概率判断”,在静态的情形下,大数据强调的是全体数据,总体特征不再需要根据分布理论进行推断,只需进行计数或计量处理即可。
7、 统计软件的增多
传统统计学的数据处理和分析以统计模型和统计软件为基础,统计模型构建了不同变量之间的数量关系,而统计软件则是依靠使用者自主导入所收集的相关变量的一系列数据,进行处理和分析的有力工具。常见的统计软件包括 SAS、SPSS、Stata、Minitab、DPS。大数据依赖于以数据中心为基础的非关系数据分析技术,如 Google 公司通过 MapReduce 软件每个月处理超过 400PB 的数据,Yahoo 基于 Hadoop 云计算平台建立了34个集群,储存容量超过 100PB。若大数据能够在统计软件中得到充分运用,则统计分析的数据搜集过程可以简化甚至免去。
综上所述,大数据时代的来临,对传统统计学的变革从样本的定义方法一直到数据分析的思维与技术均有所体现。可以看出,大数据使我们对数据的利用取得了更大的主动权,将促使传统统计学迅速的发展。

03

三、  大数据给统计学带来的发展
统计学的优势在于“以小见大”,大数据的优势在于利用统计方法处理问题时,可以利用更多甚至是全部的数据,数据不再成为统计分析的制约因素。在大数据时代,可以将统计学与大数据有机地结合起来,实现“以小见大”和“由繁入简”的有机结合,在大数据的基础上使得统计效率、拟合度和预测准确性大大提高。本文将从以下五个方面阐述大数据给统计学带来的发展。
1、 统计质量得以提高
针对统计质量而言,国际数据标准SDDS确定了两条规则作为评估统计数据质量的标准,我们可以据此归纳出四个原则来把握统计质量的内涵:适用性、准确性、及时性、平衡性。
适用性,是指收集的统计信息符合用户的需求。使统计信息最大化地满足用户,是保证统计信息适用性的根本。大数据的广泛覆盖性能够很大程度上满足适用性的原则。以 CPI 为例,传统的价格统计包括一篮子商品,通常包含千种商品、涉及几万个调查销售网点,且商品的种类和结构要随着社会经济的发展和人们的消费结构进行调整,较大的误差使得统计工作者不能保证统计数据是否适用于用户的需求。而基于大数据的“在线价格指数”让抽样变得不再重要,统计对象可以是几万种商品、所有的在线销售商和大部分线下的销售网点,甚至可以覆盖全部样本,显著降低了统计误差,进而保证了统计数据的适用性。
及时性,是缩短统计信息从搜集、加工整理到数据传输的整个过程,缩短调查基准期与数据结果发布的间隔时间。另外,应预先公布各项统计数据发布日期,并按时发布数据,建立和规范统计信息发布制度,使用户及时掌握使用统计信息。传统统计数据通常存在滞后性且呈现低频率的缺点,而大数据的及时性能够弥补传统统计数据的这一缺陷,使统计数据的时效性增强。仍以消费者物价指数( CPI) 的统计数据为例,CPI 的发布以月为频率,但一般都存在滞后期,如我国的 CPI 通常在每个月的 9 号才能发布上个月的 CPI; 而“在线价格指数”能够对市场价格进行实时跟踪和汇总,能够提供及时的统计信息,且在线价格指数可以将频率从每月提高到每天甚至更高,能够细致地分析通货膨胀规律。
准确性,主要是指统计估算与目标特征值即“真值”之间的差异程度。实际上所谓“真值”是不可知的,一般通过分析抽样误差、计数误差、人为误差、模型设计误差等影响数据准确性的各个因素,测算统计估算值的变动系数、标准差、曲线吻合度、假设检验偏差等,将统计误差控制在一个可以接受的置信区间内,以保证统计信息的准确性。大数据的全面统计可排除统计过程和统计结果的人为误差,进而保证统计数据的准确性。例如,传统样本搜集方法中,当受调查者意识到自己在接受调查时很有可能会有意地对真实情况进行部分修饰,会使得由这些调查方法所获得的数据无法真实反映现实。大数据可以在受调查者没有意识到的情况下采集数据,如移动通信用户只把手机当成是移动通信工具,但当用户带着手机去上班、去吃饭、去旅行时,移动通信商实际上可以通过跟踪定位手机来获得用户的位置信息。这种方法获得的数据显然比通过电话采访或调查问卷的方式获得的用户位置信息更准确,从而在此基础上的统计分析结果可信度更高。
平衡性,是指数据的协调能力,发布数据者与使用数据者之间对数据理解的差异会造成数据平衡性的缺失。根据SDDS的第二条规则,即提供统计类目核心指标的细项内容及与其相关的统计数据的核对方法以及支持数据交叉复核并保证合理性的统计框架,大数据时代通过网络数据资源,有助于数据平衡性的提高。为了支持和鼓励使用者对数据进行核对和检验,规定在统计框架内公布有关总量数据的分项,公布有关数据的比较和核对。例如,作为国民帐户一部分的进出口和作为国际收支一部分的进出口的交叉核对。
2、 统计成本得以降低
统计成本是进行一项统计调查或开展统计工作所实际付出的代价,就统计成本的要素看:统计工作过程中耗费的人力、财力、物力的总和就构成了统计成本。下面从调查方法与数据利用率两个角度来阐述大数据时代统计成本的降低。
首先,从调查方法来看,传统的调查方法主要有电话采访、调查问卷、统计报表等,开展一次普查,可能就要动用全国之力,这些方法都存在其缺点,准确性得不到保证,并且统计成本相当可观。在大数据时代,数据可以通过网络、移动通信等途径获得,因此无论从时间还是从实际耗费的财力物力来看,大数据相对传统统计调查方法的统计成本会大幅下降,而且得到的数据规模更大,准确性更高。
其次,从所得数据的利用率来看,传统统计中,由于统计部门研究开发力量不足,从而使许多现有的统计资料失效过期,依靠巨大的财政以及社会投入取得的大量的普查资料,也因开发方式单一、向领导提供时的被动应付以及向社会公众发布的手段方式的局限,得不到及时广泛的利用。而在大数据时代,数据可以被重复利用,被收集的数据不再仅限于某一特定用途,它可以为各种不同的目的服务。随着数据被利用次数的增加,数据被实现的潜在价值也逐渐增加,而数据的收集成本确是固定的,并不会随着数据被利用的次数而变化,因此每次用途的平均成本会随再利用次数的增加而大幅下降。例如Google 利用用户的检索词条可以来预测流感的传播,但这只是其庞大的检索数据的用途之一,相同的数据还可以用于某种新产品的市场预测,或大选结果的预测等。显然随着再利用次数的增加,平均到每次用途上的数据收集成本会逐渐降低。
最后,统计成本还体现在公众获取方面。对此,SDDS制定了两项规划:一是成员国要预先公布各项统计的发布日历表。预先公布统计发布日程表既可方便使用者安排利用数据,又可显示统计工作管理完善和表明数据编制的透明度。二是统计发布必须同时发送所有有关各方。官方统计数据的公布是统计数据作为一项公共产品的基本特征之一,及时和机会均等地获得统计数据是公众的基本要求。因此SDDS规定应向所有有关方同时发布统计数据,以体现公平的原则。发布时可先提供概括性数据,然后再提供详细的数据,当局应至少提供一个公众知道并可以进入的地方,数据一经发布,公众就可以公平地获得。SDDS的目的是向成员国提供一套在数据采集和披露方面的指导标准,使各国在向公众提供全面、及时、容易获得和可靠的数据方面有共同的依据。在大数据时代,无论是数据的获取、分析还是发布,皆通过网络进行,SDDS的规划变得更为可行。
3、 统计学科体系得以延伸
大数据时代要求我们用发展、辩证的眼光看待统计学的发展,统计学应当在大数据的思想框架下构建新的学科体系。统计学有必要将大数据总体统计的思想和方法纳入其学科体系,进而,统计学教学的内容有必要从传统的样本统计转向样本统计和总体统计的结合。样本统计通过带有随机性的观测数据对总体做出推断,这就要求总体最大限度均匀,这样才能通过适当的抽样方法确保样本的代表性。样本的产生是随机的,用样本去推断总体会产生代表性误差,而基于大数据的总体统计正好能弥补样本统计的不足。
数据挖掘是处理大数据的重要技术之一,它不仅与统计学息息相关,也应当是统计学的一部分。数据挖掘是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。数据挖掘既然也是数据处理,统计学就应该积极借鉴。在统计学的发展历史上,许多数据处理相关领域发展的新方法被忽略了。比如,模式识别,神经网络,图形模型,数据可视化等等都是在统计科学中出现萌芽,但随后绝大部分又被统计学忽略的方法领域。而这些方法领域是当今世界高尖端科技的领域,统计学对它们的忽略是令人痛心疾首的。因此,既然统计学可以在数据挖掘科学中发挥作用,统计学就应该和数据挖掘合作,而不是将它甩给计算机科学家,从而又失去一次自我增值的机会。当今大数据时代,统计学与计算机应紧密结合,以数据挖掘为契机,进一步延伸和完善统计学科体系,培养具有现代统计技术、计算机技术与数据挖掘技术的复合人才。同时,统计学不仅要注重与其它学科的结合,其在统计原理、统计技术、统计方法等领域也要谋求创新和突破。
4、 统计学作用得以扩大
传统统计由于成本、观念等问题的影响,主要用于行业和部门的统计,为行业和部门制定与完善政策而服务。在大数据时代,统计自身的发展领域不仅更宽广,而且统计学在计算机科学、信息科学、经济学、管理学、金融工程等领域都有广泛的应用并与之有力结合,共同发展。
就数据分析而言,我们应该看到,计算机与数学一样,是统计学的基础工具。计算机的发展使得对于比较复杂的数据的分析与计算变得简便快捷,成为统计计算的重要工具。当今,个人计算机的普及,因特网的使用,使社会产生了很大的变革,信息传递的质和量都发生了飞跃。统计学的发展不能离开计算机。毫无疑问,我们的学生应该学习相关的计算机科学知识。这将包括数据结构、算法设计、程序语言设计、程序设计方法、数据库系统的开发与管理、程序设计等等。我们也应该扩展我们的课程计划,应该包括当前的计算机定向数据分析方法,它们大部分是在统计学科之外发展起来的。如此一来,无疑会大大丰富统计学发展的内涵,更大地发挥统计学的作用。
5、 统计学专业就业需求得以提升
大数据对统计专业学生的就业起到了相当大的改善作用。当今社会,大数据就像一座巨大的金矿吸引着政府、公司以及无数个人去淘金,但要从错综复杂的海量数据中提取出有价值的信息并不是一件容易的事,需要具备数据分析知识的专业人员来进行数据处理,而这正是统计工作者和数据分析师的专长。在大数据时代,统计工作者和数据分析师通过合理利用数据可以在一定程度上起到行业专家的作用,他们的作用延伸到各个领域,为各行各业提供有价值的建议。由于统计工作者和数据分析师可以从大数据中挖掘出大量的信息并将其转化为价值,他们的作用将受到广泛的重视,其地位将得到大幅提升。
众所周知,政府统计、部门统计、民间统计是我国统计工作领域的三大巨头。一直以来,政府统计、部门统计在统计学生的就业中占有较高的比重。然而,随着大数据的观念深入,民间统计越来越热。民间统计是政府统计之外的涉及市场调研、统计分析、预测和决策等内容的一系列统计活动,包括各类统计调查公司、统计信息咨询中心、统计师事务所、统计研究所,以及把统计方法运用于企业决策和管理的企业管理咨询公司等,是介于市场和企业、行业之间的一个桥梁,主要为企业和行业提供市场微观信息。民间统计机构,由于其服务的多样性、形式的灵活性,目前在我国获得了大幅度的发展,已经逐渐为广大统计学生提供了广阔的就业机会。随着民间统计机构的持续发展,民间统计机构必将成为统计专业学生就业的主要渠道之一。

04

四、大数据时代下对统计学的几点思考
现在进入了大数据时代,数据量足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述其因果的关系,它从本质上来说就是一个统计的规律,一切社会现象到最后都是一个统计的规律。因此,大数据时代给统计学带来新的生命力,同时也引发了对统计学的再思考。
1、 改变总体、个体及样本的定义方式
传统的统计分析,是从总体中抽样,然后研究样本的性质等。因此是先有总体,再有数据,即必须先确定总体范围和个体单位,再收集个体数据,分析总体。大数据的产生系统多数是非总体式的,即无事先定义的目标总体,只有与各个时点相对应的事后总体,即大数据是先有数据再有总体。因为个体是不确定的,是变化着的,是无法事先编制名录库的,这与传统的总体与个体有很大的不同。更为复杂的是,事后个体的识别也很困难,因为同一个个体可能有多个不同的网络符号或称谓,而不同网络系统的相同符号(称谓)也未必就是同一个个体,而且还经常存在个体异位的情况(即某一个体利用另一个体的符号完成某种行为),因此我们对于大数据往往是只见“数据”的外形而不见“个体”的真容。但是对于大数据分析来说,仍然有一个总体口径问题,需要识别个体身份。这就需要我们改变总体与个体的定义方式,与此对应,如果要从大数据库中提取样本数据,那么样本的定义方式也需要改变。当然,考虑到大数据的流动变化性,任何时点的总体都可以被理解为一个截面样本。
2、 转变抽样调查的功能以拓展其应用空间
对于传统统计学来说,抽样调查是收集数据最重要的方式。尽管样本只是总体中的很小一部分,但依据科学的抽样理论、科学设计的抽样调查就能够确保数据的精确度和可靠性。然而,抽样调查毕竟属于非全面调查的范畴,它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据代表总体,推断总体,存在着信息量有限、不可连续扩充、前期准备工作要求高等缺点,很难满足日益增长的数据需求。现在进入了大数据时代,我们应该利用一切可以利用的、尽量多的数据来进行分析而不是仅局限于样本数据。但这并不意味着抽样调查就该退出历史舞台了。首先,在信息化、数字化、物联网还不能全覆盖的情况下,仍然还有很多数据信息需要通过抽样调查的方式去获取;其次,尽管我们可以对大数据进行全体分析,但考虑到成本与效率因素,在很多情况下抽样分析仍然是不错的或明智的选择。当然,抽样调查也要适当转变其功能以便进一步拓展其应用空间: 一是可以把抽样调查获得的数据作为大数据分析的对照基础与验证依据,大数据时代互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。统计机构的数据是经过严格抽样设计获取的,将其作为基础与依据对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,这是一个值得关注的研究问题。 二是可以把抽样调查作为数据挖掘、快速进行探测性分析的工具——从混杂的数据中寻找规律或关系的线索。这需要从源源不断的数据流中抽取足以满足统计目的和精度的样本,及时调整已经获得的样本,使得热门数据与感兴趣的数据进入样本。
3、 如何使结构化数据与非结构化数据对接
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。在大数据时代,数据的概念从结构化数据扩展为结构化数据和非结构化数据。而有效实现结构化数据与非结构化数据的对接,是数据概念拓展的必然结果。通过特定的方法,实现结构化数据与非结构化数据的转化与对接是完全可能的。但要实现这种对接,必须要增强对各种类型数据进行测度与描述的能力,否则大数据分析就没有全面牢固的基础。如果说传统的基于样本数据的统计分析侧重于推断,那么基于大数据的统计分析需要更加关注描述,以便更为准确地进行推断。如何既能有针对性地收集所需的结构化数据,又能从大量非结构化数据中挖掘出有价值的信息,使两者相辅相成、有机结合,就成了一个新的课题,非结构化数据如何结构化或结构化数据能否采用非结构化的表现形式等都是值得探讨的问题。
4、 采用新的梳理与分类方法处理大数据
传统的数据梳理与分类是按照预先设定的方案进行的,标志与指标的关系、分类标识与分组规则等都是结构化的,既是对有针对性地收集的数据进行加工,也是统计分析的组成部分。但对于大数据,由于新的网络语言、新的信息内容、新的数据表现形式的不断出现,使得会产生哪些种类的信息、有哪些可以利用的分类标识、不同标识之间是什么关系、类与类之间的识别度有多大、信息与个体之间的对应关系如何等问题,都无法事先加以严格设定或控制,往往需要事后进行补充或完善。面对超大量的数据,我们从何下手? 只能从数据本身入手,从观察数据分布特征入手。这就需要采用不同的数据梳理与分类方法。否则,要想寻找到能有效开展数据分析的路径是不可能的。因此根据大数据的特点,创新与发展数据的梳理与分类方法,是有效开展大数据分析的重要前提。
5、 不确定性的来源和表现产生差异
不确定性就是指事先不能准确知道某个事件或某种决策的结果。或者说,只要事件或决策的可能结果不止一种,就会产生不确定性。在经济学中不确定性是指对于未来的收益和损失等经济状况的分布范围和状态不能确知。不确定性给企业带来的影响有大有小。小而言之,可能影响一次营销活动的成败;从大的方面看,则可能使企业遭受灭顶之灾、破产倒闭。而统计学就是为了研究事物的不确定性而产生的。传统统计学对于不确定性的研究需要收集数据,在抽样观测的情况下进行,其不确定性表现为如何获得样本、如何推断总体、如何构建模型。大数据虽然也存在个体的差异性,但它包括了一定条件下的所有个体,而不是随机获得的一个样本,这样,大数据的不确定性表现为数据的来源、个体的识别、信息的量化、数据的分类、关联物的选择、节点的确定,以及结论的可能性判断等方面。总而言之,由于在大数据时代我们已经掌握了一定条件下的完全信息,此时的不确定性只来自于数据来源的多样性与混杂性,以及由于个体的可变性所引起的总体多变性,而不是同类个体之间的差异性。
6、 相关关系分析与因果关系分析并重
维克多(Vikor Mayer-Schǒnberger )在其《大数据时代》一书中认为:“通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来”以及“建立在相关关系分析法基础上的预测是大数据的核心”。毫无疑问,从超大量数据中发现各种真实存在的相关关系,是人们认识和掌控事物、继而做出预测判断的重要途径,而大数据时代新的分析工具和思路可以让我们发现很多以前难以发现或不曾注意的事物之间的联系,因此大力开展相关分析是大数据时代的重要任务。但是,大数据时代并不是要求我们仅仅停留在“是什么”的阶段,还要知道“为什么”,只有这样,才能更好地理解“是什么”。只有知道原因、背景的数据才是真正的数据。如果我们只知道相关关系而不知道因果关系,那么数据分析的深度只有一半,一旦出现问题或疑问就无从下手。而如果我们知道了因果关系,就可以更好地利用相关关系,就可以更好地掌握预测未来的主动权,就可以帮助我们更科学地进行决策。当然,因果分析是困难的,正因为困难,所以要以相关分析为基础,要更进一步利用好大数据。相关分析与因果分析不是互相对立的,而是互补的,两者必须并重。
7、 结合多种统计方法全面驾驭大数据
所谓归纳推断,就是根据一类事物的部分对象具有的某种性质,推出这类事物的所有对象都具有这种性质的推断,简称归纳。归纳是从特殊到一般的过程,它是合情推理的。在传统统计中,归纳推断法是最主要的研究方法,通过样本数据,在归纳出样本特征的基础上再推断总体。对于大数据,我们依然要从中去发现新的知识,依然要通过具体的个体信息去归纳出一般的总体特征,因此归纳法依然是大数据分析的主要方法。但是大数据的分析方法不仅仅限于此,它是一个信息宝库,只重视一般特征的归纳与概括是不够的,还需要分析研究子类信息乃至个体信息,以及某些特殊的、异常的信息——或许它(们)代表着一种新生事物或未来的发展方向,还需要通过已掌握的分布特征和相关知识与经验去推理分析其他更多、更具体的规律,去发现更深层次的关联关系,去对某些结论做出判断,这就需要运用演绎推理法(简称演绎法)。演绎法可以帮助我们充分利用已有的知识去认识更具体、细小的特征,形成更多有用的结论。只要归纳法与演绎法结合得好,我们就既可以从大数据的偶然性中发现必然性,又可以利用全面数据的必然性去观察偶然性、认识偶然性、甚至利用偶然性,从而提高驾驭偶然性的能力。
8、 统计思维与现代信息技术相结合
尽管用于收集和分析数据的统计技术已相对成熟、自成体系,但其所能处理的数据量是有限的,面对大数据,特别是大量的非结构数据,单凭统计技术恐怕是难以胜任的。首先遇到的问题就是计算能力问题,这就要求我们在不断创新与发展统计技术的同时,还要紧紧依靠现代信息技术,特别是云计算技术。

05

五、结束语
大数据的产生对统计学具有划时代的意义,大数据以其价值性、多样性、大量性、高速性的特征弥补了统计学高成本、高误差的劣势,但这并不意味着统计学的时代结束了,我们对大数据的搜索、聚类、分类等还需要依赖统计学的方法,因此大数据离不开统计学。大数据时代的到来,提高了统计质量、降低了统计成本,使得统计学发挥作用的领域增大,并且使统计学科得以延伸,提高了统计学科在自然科学和社会科学中的地位,这是大数据给传统统计带来的机遇。在大数据时代,传统统计学也面临着挑战,要求其改变对样本的认识、改变对不确定性的认识、建立新的数据梳理与分类的方法、强化结构化数据与非结构化数据的对接、转变抽样调查的功能、结合归纳演绎法与推断演绎法、并重相关分析与因果分析以及结合统计思想与云计算技术。我们应该牢牢抓住大数据带来的机遇,积极应对挑战,将大数据与统计学有机地结合,在未来的科学发展过程中,保持统计学旺盛的生命力。


                  (33卷第220162月《统计研究》

 参考文献:
[1] Lynch C. Big data: How do your data grow? [J] Nature, 2008, 455(7209)
[2] Rifkin J. The third industrial revolution: How lateral power is transforming energy, the Economy, and the World [M]. New York: Palgrave Macmillan, 2012
[3] Bughin J. Chui M, Manyika J. Clouds, big data and smart assets: Ten tech-enabled business trends to watch [J]. McKinsey Quarterly, 2010(8)
[4] Lavalle S, Lesser E, Shockley R, et al. Big data, analytics and the path from insights to value [J]. MIT Sloan Management Review, 2011, 52(2)
[5] MacKinsey Global Institute. 2011. Big data: The next frontier for innovation, competition and productivity. June 2011. Lexington, KY: McKinsey & Company
[6] Dabenport T H, Barth P, Bean R. How big data is different [J]. MIT Sloan Management Review, 2012, 53(5).
[7] 朱建平、章贵军、刘晓葳,大数据时代下数据分析理念的辨析[J]统计研究,2014(2)
[8] 袁卫,机遇与挑战——写在统计学科成为一级学科之际[J]统计研究,2011(11)
[9] 李金昌,大数据与统计新思维[J]统计研究,2014(1)
[10] 朱建平著,世纪之交中国统计学科的回顾与思考[M]. 中国经济出版社,1999, 12.
[11] 曾鸿、丰敏轩,大数据与统计变革[J]中国统计,2013(9)
[12] 肖红叶,中国经济统计学科建设30年回顾与评论——基于三大框架事件的研究[J]. 统计研究. 2010(2)
[13] 朱怀庆,大数据时代对本科经管类统计学教学的影响及策略[J]高等教育研究,2014(3)
[14] 程开明、庄燕杰,大数据背景下的统计[J]统计研究,2014(1)
 


作者简介

朱建平,男,2003年获南开大学理学博士学位。2013年在耶鲁大学公共卫生学院生物统计系访问合作一个学期。现任厦门大学管理学院教授、博士生导师,厦门大学数据挖掘研究中心主任。曾任第八届和第九届中国统计学会副会长、,国家社科基金重大项目首席专家,福建省哲学社会科学领军人才,其负责的厦门大学数据挖掘研究创新团队荣获第五届“中国侨界贡献奖”,获得福建省第十二届“五四青年奖章”集体奖。
主要社会兼职:、中国商业统计学会副会长兼任数据科学与商业智能分会会长,中国统计教育学会高教分会副会长、全国工业统计学教学研究会副会长、厦门市统计学会会长、全国统计教材编审委员会第七届委员会专业委员,《统计研究》、《数理统计与管理》杂志编委。主要研究方向数理统计、数据挖掘、数据科学与商业智能、计量经济学。


张悦涵,女,澳大利亚国立大学公共卫生学院博士研究生,研究方向数据挖掘、生物统计。



长按二维码识别关注我们





友情链接

Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟