“大数据”与统计变革
来源 :国家统计局 2020-09-24
中2013年,“大数据”的概念风靡全球,成为互联网、研究机构、学界乃至政府企业管理人口中的热门词汇。当然,在“大数据”火爆的同时,对“大数据”的争议也从未间断。实际上,对“大数据”的争论仍然只是概念意义上的,展望的成分多于实际操作。作为统计机构,我们关心的是“大数据”到底跟统计数据有什么关系?我们需要做什么?
一、理解“大数据”的起源
今年年初,美国一名男子向他家附近的Target店铺抱怨他17岁的女儿收到了婴儿尿片和童车的优惠券。店铺经理不知道发生了什么,表明那肯定是个误会。然而,经理并不知道这是公司运行大数据系统的结果。一个月后,这个愤怒的父亲来道歉,因为Target发来的婴儿用品促销并不是误发,他的女儿的确怀孕了。
这是“大数据”应用的一个例子,真实性不可查,但我们邮箱里通常收到的推送邮件也预示着例子中的现象离我们并不遥远。我们使用网络进行在线购物,我们使用公交卡、银行卡、电卡等各种卡支付公共服务,我们的电话、机票、信用卡记录把我们日常的行为以数据的形式记录下来。一旦掌握了这些数据,我们每个人都几乎变得“透明”。“大数据”正是在这样的背景下热起来——过去,人类的行为难以用数据进行量化描述,网络技术尤其是社交网络出现后,网络上的交往活动基本上与现实社会交往趋向一致,网上的数据也就更能反映现实世界的情况。
有人认为,所谓“大数据”就是海量数据处理,实际上两者并不等同。研究者认为,海量数据是商业自动化导致海量数据存储(以交易销售数据为代表),“大数据”则是伴随社会化数据(以社交网络为代表)出现的大量的在线文本、图片、流媒体数据等,主要为了应对非结构化和半结构化的数据。简而言之,大数据与海量数据区别就在于前者是以非结构化和半结构化数据为主,后者偏向结构化的交易数据为主。
“大数据”的“大”并不在于数据量的多少,而是一种“以数据为大”的方法论。我们的生活中会产生海量的数据,但海量数据本身并没有太大价值。“大数据”通过对个体行为的数据挖掘,使用关系分析、文本挖掘、社会计算、情感分析、时间线预测以及社会网络分析等方法来寻找有价值的信息,帮助人们更好地认识用户需求,寻找市场,就如同开篇的例子一样。
二、“大数据”对统计的冲击
从大数据产生的背景以及应用上来看,“大数据”似乎偏向于商业与社会分析,而与统计(尤其是政府统计)不大相关。但实际上,“大数据”所带来的价值将超过并会逐渐取代目前的一些统计数据,对于统计工作的理念、生产流程以及价值会产生革命性的冲击。
1、对统计理念的冲击
“大数据”改变了人们对数据的需求层次。过去,由于人类的认知能力有限,受数据获取技术的制约,想要获取大范围的情况比较困难,只能感知身边的个体数据乃至群体(中观)数据。传统统计技术帮助人们通过观察一小部分的样本情况来描述与推测总体情况,帮助人们更好地了解中观和宏观数据。但是,由于统计方法和数据质量的限制,人们对世界的认识仍然不够全面和客观。另一方面,统计数据反映的是总体趋势,往往无法对应到具体的个体情况,难以获得更加有价值的信息。但随着数据采集获取技术的进步,人们可掌握的数据渐渐由全局性的宏观数据,再到中观层面的数据,最后又回到微观层面,即关注个体的行为模式。这不是倒退,而是技术进步所带来数据价值的变化。研究者认为,“大数据”时代的来临使人类第一次有机会和条件在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据。在此基础上形成的数据可以更加偏向个体情况,更加符合个体的感知,产生宏观数据无法实现的价值。
“大数据”改变了统计实证的研究范式。传统的统计遵循自上而下实证研究范式,即先从经济理论或社会经验出发,根据理论设定指标,再去统计利用数据进行实证分析。然而,“大数据”时代采用的是自下而上的数据挖掘范式,以数据为先导,不需要预先设定一个研究目的或方法,而是从大量实际产生数据中通过数据挖掘技术找到数据之间的关系并建立模型,乃至形成理论和新的认知。这种研究范式已经被广泛运用到当前的数据处理中,是对传统统计研究范式的一种颠覆。
2、对统计生产流程的冲击
(1)制度设计多样化
传统的统计设计是根据统计研究的目的和研究对象的特点,设定统计指标、统计报表以及调查、汇总方法等制度,通过调查、访问将生产行为转化为可以量化的数据。“大数据”下的制度设计面对的是已经存在的或通过一定手段可以获取的大量数据,需要解决数据从哪里来的问题。弄清楚已经存在的相关数据是通过什么方式产生的,从哪些领域产生的,会对研究目的产生哪些影响,进而确定采用什么样的数据来反映统计目标。比如,要统计下雨天出租车出勤率,可通过出租车公司的计价器收入、街口的摄像头等数据获知。计价器、摄像头哪个数据更加能反映实际情况,两者之间是什么关系,是否可以相互补充?统计制度设计者要从各种数据来源中甄别出反映出统计对象的指标。
此外,“大数据”客观上为传统的统计提供了更多的方法。以抽样设计为例,传统抽样方法一般基于收入、地址、年龄等自然属性,对个人、家庭或企业单位进行抽样。而在“大数据”下,抽样的对象可能是银行、自来水厂的数据库,抽样的方式更加灵活,抽样的效果更加具有针对性,降低了调查成本,并且可在一定程度上免除调查过程中的人为因素干扰。
(2)数据采集智能化
传统统计是通过结构化的报表和统一的计量方式将被调查对象的行为转化为可用的数据,这其中需要被调查者的参与,包括企业向统计部门填报数据、家庭日记记账等等。此方法始终无法克服的问题是,一旦调查对象不予配合,或者采用撒谎(虚报、瞒报、乱报)的方式消极配合,统计数据的质量是难以控制的,并且矫正这些调查误差的成本将会很高。
但在大数据时代,数据来源于信息技术记录下的原始数据,这些数据的参与仅仅依赖于测量方法(如GPS定位测量、超市收银管理系统、ETC电子收费系统),而不需要调查对象长期、认真的配合。一旦测量技术成熟,大量数据的传输中,想要篡改数据变得非常困难,数据质量将会大大提高。而互联网、物联网、云计算等技术将大大提高数据采集的智能化水平。这种智能化的数据采集方式是传统统计调查难以相比的。
(3)数据分析专业化
传统的统计分析是根据统计制度设计的要求以及对研究对象的认知,对采集上来的结构化统计数据进行计算分析,重点描述过去的这段时间发生的变化,对未来的发展情况进行统计意义上的预测。“大数据”背景下的数据分析,面临的是大量存储于各处(包括“云端”)的非结构化或半结构化数据环境,首先要将这些无法识别和运算的信息转化为结构化的数据,还需要洞察出语义、态度、情感、社会关系、效果等等传统统计难以解决的问题。即使针对结构化的海量数据,所要做的更为重要的是分析挖掘数据之间的内在关系,寻找更多有价值的信息。在这种背景下,数据分析变成统计部门一个关键性的环节,需要专业化的数据挖掘与处理技术。
(4)统计发布透明化
由于数据的繁杂性,有价值的数据往往被大量无价值的数据淹没。因此,大数据背景下的统计发布的意义在于看谁的数据更能阐述现实意义。“大数据”的背景下,数据的获取分析将全社会共享,而非统计部门一家独享。在同样的价值需求下,人们可能更加关注某大型电商(如淘宝网)的销售数据,而不需要再关注“社会消费品零售额”的统计指标。因此,统计数据的产品属性会更加突出,面临的市场竞争压力会更大。数据产品需要从大量人群中找到潜在用户,将他们最关心的数据产品“卖”给他们——而从未知市场中寻找潜在用户正是“大数据”的核心理念。在发布结果上,仅仅告诉别人一个结果(如全国GDP数据)是远远不够的,还需要通过可视化、交互等方式给予用户更加方便、高效的使用方式提供更为详尽的“意义”信息(如广东某市的GDP为何比青海某市的GDP高)。也正是由于数据的大量存储和共享,统计数据发布的公开透明程度将会极高,没有公开详细、公允计算方法的数据将会被其他数据替代。
3、对政府统计职能的冲击
从中国经济发展与政府统计的关系上看,统计的重要性往往是与传统的经济模式连接在一起的。在各级政府都管经济的体制下,经济管理者需要知道社会有多少需求、多少供给,以此来规划安排未来的生产计划,实现社会总需求与总供给的平衡。统计数据为经济管理者提供了依据。随着市场化的深入,市场内部的自我调节机制逐步替代了政府对经济的干预。价格信号会告诉市场主体需求与供给的状况,从而在微观层面上实现资源配置。经济发展的主导力量由宏观逐渐走向了微观,统计数据的价值就发生了变化,以前的一些物量统计被取消便是例证。
在这种变化趋势下,现行的一些统计指标,如工业增加值、固定资产投资、铁路公路里程,在未来“大数据”背景下有多大的参考价值,还需要进一步探讨,但这些指标的采集方式必定会发生巨大的改变。从现已发生的变革上来看,包括进出口、货币供给、财政等数据已经不需要专门进行统计了,在各项相应的行政记录里均可查询。而物联网等网络经济的发展,使得工业生产、运输物流、最终消费、服务等各种交易生成直接可用的数据,而不需要再经过专门的统计采集。因此,“大数据”背景下,政府统计的地位和职能将受到极大的挑战。
三、借力“大数据”加速统计改革
“大数据”对传统统计技术的冲击巨大,但另一方面,“大数据”也是一把“双刃剑”,对于统计业务的再造、数据的采集以及数据质量的提高都有帮助。尽管短期内“大数据”离现实的世界或许还有一段距离,但其带来的革命性冲击已经波及到现行的统计制度。统计应当借助于“大数据”所带来的有利条件,主动顺应数据社会化的趋势,加快推进政府统计的改革。我们认为,当前可以从优化统计机构设置、推进统计业务数据化,提高数据挖掘分析能力、完善统计数据发布等方面着力。
(1)优化统计机构设置
大数据背景要求统计机构的各项工作要必须走专业化道路,制度设计部门要研究数据获取来源、可信度、成本等项目,按照用户的需求设置指标;数据采集部门的任务是开拓更多可用的数据来源,并对数据流进行实时监测,保证数据流的通畅和清洁;数据分析部门则通过专业化的分析手段进行科学分析,而后由专业化的营销部门将数据产品传递给社会用户。只有按照统计数据生产流程设定机构,并进行网络化管理才能保证数据生产的科学性。目前按专业、部门条块分割的方式会造成大量数据的交叉重叠,方法制度不统一,数据质量良莠不齐,这一机构设置模式亟待优化。
此外,今年推行的“联网直报”等四大工程也显示,网络技术对人工的替代导致地方统计机构职能做出调整——由以前的催报、加工汇总、审核等职能转化为质量控制,而其他职能均可由技术实现。可见在“大数据”背景下,国家与地方统计机构关系及设置也面临调整。
(2)扎实推进统计业务数据化
对于目前的统计来说,与“大数据”时代的最大差距在于“数据化”,具体讲包括调查对象行为的数据化以及调查业务的数据化。
调查对象的数据化运作是采集获取数据的基础。在数据化管理时代,企业更重视自身的业务模式的数据化,不少企业已经建成了从原材料到销售品一体化的数据跟踪体系,每一项业务流程都有数据记录可查。我们要加快推进物联网进程,帮助社会形成生产、物流、交易等环节的数据化,并将这些数据通过互联网系统搜集、存储起来。比如在超市收银机上加装统计采集装置,以保证每一笔交易的数据及时传送到统计数据平台,以提供给社会消费、价格调查等指标使用。加快行政数据的共享。投资、房地产、服务业统计等数据可从税务、工商、银行等部门的行政记录中获取,并可以实现多部门数据的交叉验证,保证数据的准确与真实。住户调查方面,改变依赖调查对象记账的采集方式,比如可以使用住户的银行卡交易数据替代记账中的收入和支出,一些居民用电、水、气等消费记录也可以帮助我们更好地控制数据质量。
调查业务的数据化主要是针对统计调查的质量控制。目前“联网直报”采取IP定位控制、修改痕迹保留等方式就是这一理念的现实应用。比如为了保证每个采价员按照“三定原则”进行采价,可以对每台采价器进行数字化定位,其采价的时间、地点、数据情况可以即时传到服务器,即可进行监测。未来的统计数据采集可能就是联网的测量仪来进行,统计业务的数据化管理显得尤为重要。
(3)提高数据挖掘分析能力
“大数据”的概念来源于互联网,其要求的数据分析已经远非目前的统计数据处理技术能够实现。有研究者认为,“在大数据时代到来之时,传统的社会学,统计学从业者,面对半道杀出来的计算机背景的互联网数据挖掘者,就好比波兰骑兵面对德国坦克一样脆弱。”
对于统计来说,“大数据”还处于概念和社会趋势意义上,我们所要面对的大量、复杂的行政记录、商业交易数据实际上是结构化的海量数据,我们要能从这些海量数据中提取隐含的关系、模式和趋势等信息和知识供统计使用。目前,结构化的海量数据挖掘已有比较完善的方法论和挖掘工具及算法,在一些商业调查领域已经开始发挥作用。为了在未来的数据竞争中站稳脚跟,我们必须在数据挖掘等现代分析能力上下功夫。
(4)完善统计数据发布
统计最终是为用户服务的,发布对用户有价值的统计数据才是统计存在的意义所在。从这个意义上说,数据的多少并不是关键,即使海量的“大数据”对不需要的用户也是信息负担。因此,我们需要提高数据发布的针对性,发挥数据的最大信息价值。
目前我们发布的数据主要是为满足党政领导的需求为主,以社会需求为辅。这种需求模式对于统计而言是有局限性的,容易自我封闭。未来,我们需要通过更为详细的数据挖掘技术,从抽象的“社会公众”里分辨出具体的数据用户,将要明确哪些人想了解哪些数据,将他们最需要的数据信息传递给他们。因此,在大数据的生产模式下,生产哪些数据、调查发布哪些数据不是由“上级部门”指派或依照传统惯例,而是根据用户的真实需求来决定。
在发布数据的形式上,数据可视化、人机交互、机器智能等先进的技术已经逐步应用到统计、计算机及商业领域,包括“智慧城市”等应用已经逐步成为现实。以文字、表格的方式发布统计数据已经跟不上用户的数据需求,也落后于商业调查的步伐。我们在数据发布方面还需要进一步加大创新力度,完善各种发布渠道,充分发挥数据的价值。
“大数据”的本质实际上是数据生产的社会化,其对统计尤其是政府统计的冲击是重大的,不仅涉及到整个统计流程,更加对当前的政府统计管理体制、机构设置、数据价值等方面形成了挑战。可以大胆预测,未来政府统计的政府角色会被统计专业性取代,经济分析的职能会被更为专业的经济分析部门取代,宏观数据的重要性会让位于更有信息价值的微观数据。统计部门需要正视这种变革,顺应这种潮流,并借助于“大数据”的变革的有利形势,加快提高统计能力,使得统计在大变革中处于优势地位。