微信公众号
分享
[字体: ]
分享到:
分享
国内外政务大数据应用发展述评:方向与问题
??作者:于施洋 王建冬 童楠楠 ??时间:2018-05-04

近年来,大数据在全球范围内受到追捧。据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到2020年,全球将拥有35ZB的数据量。据统计,平均每一秒都有200万用户在使用Google搜索,Facebook注册用户超过10亿,每天生成300TB以上的日志数据。同时,传感网、物联网、社交网络等技术迅猛发展,引发数据规模爆炸式增长,大数据时代已经到来。著名的管理和咨询公司麦肯锡(McKinsey)指出,“大数据已经渗透到工业和商业领域的各个方面,成为影响生产的一个重要因素”,大数据的应用涉及经济、文化、教育、医疗、公共管理等各行各业。正是由于大数据的广泛应用以及其背后蕴藏的巨大潜力和价值,许多国家纷纷将“大数据”的建设和发展上升为国家战略,积极推动大数据应用的发展。我国政府虽已发布《促进大数据发展行动纲要》,将数据定性为国家基础性战略资源,但各级政府在推动政务大数据应用方面,仍存在不少问题。所谓政务大数据,是指政府推动大数据应用发展的过程或大数据在公共服务领域的应用实践。本文旨在对国内外政务大数据应用发展述评的基础上,界定大数据的概念内涵和外延,指出我国政务大数据应用发展的方向及应避免的认识误区和需警惕的潜在问题。

一、大数据的概念内涵及其外延

对于大数据概念的界定,目前尚无统一的认识。由于所从事学科领域的差异,国内外学者对“大数据”有不同的看法。一些学者从计算科学角度出发,认为大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合1。还有学者从信息资源的角度出发,指出大数据是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产2。而近年来,从事社会科学领域的学者认为大数据的概念内涵不应仅仅局限在技术层面:大数据可以定义为在合理时间内采集大规模资料、处理成为常规使用者更有效决策的社会过程3。基于现有学者对“大数据”的研究,本文从大数据的内涵、外延出发,将其界定如下。

图1 大数据的概念内涵及其外延

从概念内涵来看,大数据是指海量数据,泛指大规模或超大规模的数据资源集合。与传统数据相比,大数据具有新的特点,现可概括为“5V”,即Volume(数据规模大)、Velocity(处理速度快)、Variety(数据类型多)、Value(价值密度低)、Veracity(数据准确性低)。

从概念外延来看,大数据还具有三个层面含义:

一是指一种新型的研究方法或发现新知识的分析技术,这是因为大数据不仅强调数据量大,更重视海量数据背后的价值信息。从本质上说,大数据是应对人类数据量剧增挑战而产生的一种新技术。据统计,全球约90%的数据产生于最近两年间,目前每天新增数据量达到2.5百万兆字节4IDC的预测则指出,2011年全球数据总量约1.8ZB,到2020年则将激增到40ZB,这其中文本、视频、图片等非结构化数据占比将达到75%。面对这样一个全球数据的爆炸性增长,没有一套全新的数据处理和分析技术是无法想象的。

二是指由数据驱动的新型决策机制。Gang-Hoon Kim5认为,大数据技术属于第五代决策分析技术。在大数据时代,小到商业机构的营销分析,大到公共领域的政府决策,开始越来越多的依靠数据做出。这种基于数据驱动的新型决策机制,表明了大数据不仅仅是一种技术,更是一种理念创新和模式创新。如美国沃尔玛连锁超市因“啤酒与尿布”的购物篮数据分析而获得的大量利润,美国总统奥巴马依靠竞选团队的数据分析而做出的竞选决策等,都是大数据时代下由数据驱动决策的经典案例。

三是指数字时代下的新型治理模式。大数据不仅仅是政府管理的一种新手段或新工具,其将带来政府管理改革的一个全新阶段。随着大数据在政府管理和公民社会生活的深入,政府部门内部及其与公民社会的关系将被重新建构。技术、组织、关系和行为的再造呼唤全新的管理模式的出现,这种新的管理模式就是数字时代的治理6,这种治理模式不只是政府自身内部的一种数字化变革,还是一种广泛深远的社会变革和管理方式的创新7。从这个层面看,由大数据应用带来的数字治理模式创新将成为政府管理改革的全新阶段。Amanda Clarke8认为,过去100年间,政府机构设置经历了三种模式(如下图所示)。首先是韦伯模式,其基本特征是基于书面文献和大规模科层级结构的控制模式9。这一模式下,政府信息化致力于社会集成,即办公自动化,政府获取和掌握数据资源的能力较弱。从上世纪60年代开始,韦伯式政府机构开始面向数字化转型,但其数据主要来自内部业务运转,是一个封闭和不透明的系统。在韦伯式结构中,很少使用数据来理解公民,并为政策制订提供依据。自上世纪80年代到本世纪初,新公共管理(NPM)模式成为政府管理改革的主要模式,该模式强调大型部门的解构,引入政府机构间竞争机制以及业务线管理机制等10。在这一模式中,信息技术在最初被用于更好地传递服务之后,也逐渐被边缘化了,因为激进的NPM理论认为信息技术技能应当剥离给外部服务供应商11。由于政府IT部门被外包出去,甚至在某些情况下被私有化,公民使用政府服务所产生的数据被计算机服务商所拥有,从而与服务供给脱节。且由于担心招来不必要的政府审计,这些服务提供商往往选择雪藏这些数据,而不是将其反馈到政府决策过程之中12。这些情况的出现,导致NPM模式下的政府机构实际上既不了解公民,也不了解他们自己。

2000年以来,一种新的公共管理模式——数字时代治理(Digital-Era Governance,DEG)模式出现13。这种模式将数字化技术置于机构层级的核心位置,恢复了被NPM模式所阻隔的政府-公民数据流。DEG模式的基础有三,即对纸质和基于电话的信息系统的完全数据化,以用户为中心的服务一体化模式,以及对碎片化政府机构的重组与整合。在DEG模式下,政府将跨层级的数据管理从原先的私人部门管理转移到集中化的“智能中心”模式,这种模式类似于沃尔玛的大数据仓库管理模式,比原来的政府数据管理模式有效得多。大数据的兴起,正好与政府管理模式的这一变革遥相呼应。

图2 行政管理的三种模式

二、国内外政务大数据发展现状

由于“大数据”的广泛应用以及“大数据”蕴藏的巨大潜力和价值,许多国家纷纷将“大数据”的建设和发展上升为国家战略。2012329日,美国正式发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative14,该倡议书中提到,大数据计划的实施,旨在帮助美国获得从海量复杂数据集中萃取知识的能力,借此提高国家应对急迫挑战的能力。这一计划类似于过去美国联邦政府在高性能计算和互联网等领域的战略性投入,并旨在推动国家在科学研究、教育和国家安全等领域的能力。该倡议书的发布,标志着大数据已经上升成为美国在计算服务领域的国家战略。英国、加拿大、新加坡、日本、韩国等国家纷纷推出了以开放、融合、创新为特征的新一轮信息技术革命推进政策。如英国政府所宣布的一项价值1.89亿英镑的“大数据”发展计划,意在推动“大数据”在商业、医疗、农业和科学研究等方面的应用;法国政府发布的“数字路线图(Digital Roadmap)”,计划投资一千多万欧元用于支持包括大数据在内的7个尖端领域的研究;澳大利亚联邦政府发布“澳大利亚公共服务大数据战略”,以推动公共行业利用大数据分析进行服务改革等。2011920日,美国、英国、挪威、墨西哥、印度尼西亚、菲律宾、巴西、南非等八国发起成立“开放政府联盟”,发布了《开放政府宣言》,目前全球已经有超过60个国家加入该联盟,贴近互联网、开发大数据、造福全社会已经成为当前发达国家政务信息化的主流声音。

相较而言,国内对于大数据的研究起步较晚,始于1993年国家自然科学基金会成立的“大数据共享联盟”,以搜集和展示大数据的研究开发。自1999年起,“第三届亚太地区知识发现与数据挖掘国际会议”、“Hadoop与大数据技术大会”和“大数据共享联盟”等才开始开展有关大数据研究和开发的促进工作152008年“计算社区联盟”(Computing  Community  Consortium)在《大数据计算:在商务、科学和社会领域创建革命性突破》报告中详尽阐述了大数据对社会治理的推动作用,以及潜在的商业价值16。但到2013年,维克托·迈尔-舍恩伯格的 《大数据时代:生活、工作与思维的大变革》一书才掀起国内“大数据”热潮。2013年以来,大数据、互联网、云计算等新兴产业得到了我国政府高度重视。李克强总理在2014年政府工作报告中明确提出,要设立新兴产业创业创新平台,在大数据、云计算等方面赶超先进,引领未来产业发展。国务院常务会议多次专题研究部署推进互联网、大数据等新兴产业的快速发展,科技部、发改委、工信部等部委在科技和产业化专项中对新一代信息技术给予重点支持,在推进技术研发方面取得了积极效果。在国家层面的积极鼓励和倡导下,各地政府高度重视互联网、大数据、云计算等新兴产业发展。20142月,广东省率先提出设立广东省大数据管理局,并正式公布了《广东省大数据发展规划(2015-2020年)》,为大数据产业发展注入了强大动力。上海、北京等地率先推出了政府数据资源开放共享网络平台,整合本地区数十个部门的政务大数据资源,向全社会开放共享,为企业和个人开展政务信息资源的社会化开发利用提供数据支撑。贵州省提出建设“云上贵州”计划,力争成为全国首个基于云计算建成省级政府数据共享平台的省份。重庆、内蒙、陕西、湖北等地都提出建设大数据和云计算产业基地的计划,力图将新兴产业培育成本地的支柱产业。20154月,国家发改委正式成立了国家发改委互联网大数据分析中心,在部委中首个专门成立了大数据分析中心,全面支撑国家发改委宏观调控和重大决策,这标志着我国大数据产业已经开始进入应用深化的全新阶段。

三、政务大数据需坚持的三个基本方向

(一)整体性政府

整体性政府强调政府内部须实现机构、部门、专业、层级等之间的协调整合,以更好的解决公众提出,避免因政府内部矛盾冲突而造成的公共服务效率低下。Michael Milakovich17指出,单一数据源已越来越难以满足应对很多政策领域日益复杂问题的需求,未来将会出现越来越多跨数据集的联系,且在数字时代,政府治理的关键在于整合多数据源的公共管理模式,因此,推动政务大数据应用首先应坚持整体性政府方向,推动政府间的数据共享与业务协同。在英国,曾有报道称,由于缺乏跨部门沟通,当地警察部门和医院系统推进的一个分享暴力犯罪数据的项目最终宣告失败18虽然相比商业机构而言,政府在推进大数据方面所面临的挑战更加尖锐,因为他们必须在遵从安全性和相关法规的前提下,不断打破部门孤岛来推进数据的集成19政府部门不仅要应对多数据源和不同格式的数据的集成分析等大数据领域通用性问题,还要面对很多政府部门特有的挑战和问题。但对推进政务大数据应用而言,无论是对政府自身监管行为所产生的大数据,还是对公民在社交媒体或其他网络平台上所产生的行为数据进行采集和分析,都可能促进政府机构中跨层级的智能中心的建立。如在美国,911事件以后,借由国家安全之名,政府开始强力推进跨部门电子数据共享。如美国国土安全部高度强调跨部门数据的互操作性,并应用多种技术手段促进数据在市政部门、社区、意愿、血站、避难所等各类机构之间的顺畅流动。此外,美国在环保、交通、医疗和公共安全等领域的信息共享也取得了良好成效。

(二)透明化政府

Joseph, R.C20认为,大数据分析技术的使用,能够大大提升政府服务的效能。大数据能够提升电子政府的效率和效果,并促进其进一步演化为透明政府(transformational government t-government),这被认为是电子政府的最终演化阶段21。大数据应用建立在掌握数据的基础上,以海量数据为前提,政务大数据的发展往往离不开政府开放数据,这使得政府的透明度大大提高。纽约大学法学院教授贝丝·诺维克(Beth Novick)表示,数据的开放可以让政府公职人员和民众一起参与进来,解决政府无法完成的、棘手的问题,更广泛地发挥群众力量,借助大数据平台进行更好的社会管理。随着政府组织的行为及其与公众的交互越来越数据化,在政府自身内部系统中产生的各类大数据也为政府建设透明性政府提供了巨大潜力。在推进政务大数据应用中,政府的监管方式应不断创新,更加透明。最极端的情况下,如果我们可以设想一个机构像维基百科那样完全进行数字化运作,那么通过下载其所有的编辑历史就可以提供该组织的所有完整的交互记录,从而提供了一种迄今为止难以想象的机会去理解其治理安排22。随着政府组织越来越“成为”一种前台的网络存在和后台的信息处理系统,大数据也将更有力地促进上述整体性政府的最终形成。

(三)服务型政府

大数据可以促进政府公共服务水平的提升,有利于服务型政府的建立。Rajagopalan, M.R23指出,在大数据时代,公众可以更好地参与到政府工作之中,与政府分享信息,形成政府和公众共同参与的政务决策机制24。社会公众可以通过社交媒体、公开出版物、博客等渠道分享他们的意见,大数据分析技术可以处理这些非结构化数据,并将更好的服务和方案传递给所需的客户群体。因此,在大数据背景下,任何政府都可以藉由政务大数据的采集分析和利用,不断推动优化政府自身运作流程和服务效能。而且,政务大数据分析是政府理解公民行为、解释政策与公共服务优劣势的良好手段,也是政府决策者理解公众需求与偏好的工具,以更好地理解人们对于公民参与的积极性,对立法变动的态度25,以及对政府公共服务的需求。美国国税局(IRS)曾经重新设计其纳税申报流程,并应用大数据技术手段来提高对纳税欺诈和纳税不遵从行为的自动监测 。随着联邦政府各个机构对于大数据分析的应用,政府在处理自身事务时将花费越来越少的精力。此外,大数据还可有效改进政府绩效管理方法,促进公共服务的提升。Michael Milakovich 26指出,以往政府部门的绩效管理往往是滞后的,因为其主要依赖一些事后的指标来评估政府工作的效果。未来,政府管理部门应当更多依靠实时性数据来提升政府管理效能。

四、政务大数据需避免的三大认识误区

(一)大数据等于开放数据

由于目前尚无对“大数据”的标准界定,政府部门对大数据的认识存在混淆,将开放数据等同于大数据,将任何“大”的政府数据集的发布都当作是大数据。但事实上,很多开放数据只是离散的“小数据”,并不具备大规模、未经处理和非结构化等大数据的基本特征,且很多通过开放数据机构发布的在线数据集仅仅是一个可用的样本集。同时,虽然开放数据对于促进政务大数据应用意义很大,但当开放数据仅仅是由于上级部门的指令要求,并对政府部门本身工作并没有任何回馈时,开放数据项目就会缺乏可持续性。考虑到开放数据并不是不需要成本(公务员需要花时间去收集这些数据,并发布出去),在政府看不到任何收益的情况下,其维持下去会很困难。在加拿大和英国,已经有证据表明,政府开放数据项目的可持续性受到了威胁,有些官员将开放数据描述为仅是由一小群爱好者推动的“桌角项目”。这实际上也是因为网站数据集的可用性不佳造成的27。此外,为了便于开发者和分析者能够不受数据格式限制而处理数据,开放数据集都是以原始格式发布,这将影响数据的获得和使用。由于缺乏编码的一致性,这些数据在没有电脑归纳的情况下非常难以理解,从而难以得到真正有效应用。再以美国的data.gov门户网站为例,其在2012年包含有378,529个原始空间数据集、1,264个政府APP236个公民开发APP。然而到了2014年,该网站的数据集事实上已经下降到了108,606个,且各种APP的数量也有所下降28。可见,在推动政务大数据应用中,并不能简单地将大数据等同于开放数据。

(二)大数据等于共享数据

Gang-Hoon Kim29对美国、英国、荷兰、瑞士、新加坡、日本、韩国、澳大利亚等欧美发达国家的24项政府大数据应用进行了统计分析,发现目前欧美发达国家大数据应用发展相比商业领域大数据其规模还有很大距离,且目前大部分政府大数据应用的对象仍以结构化数据为主,较少采用实时、动态、半结构化甚至非结构化数据。这在我国政务大数据应用中也较为常见。据调查,目前很多地方政府建设的大数据平台,仅仅是过去政府共享数据平台的“翻版”。政府推动大数据平台建设首要目的不是推动大数据应用,而是统一政府信息基础设施,实现各部门数据的互联互通。但政府大数据不仅仅是政府自身的业务数据,在当前社会,有大量对政府治理有意义的大数据源,如金融、电商、医疗、社交媒体等,并不完全由政府自身掌握。在推动政务大数据应用中,应逐步整合政府外部数据资源,建设国家层面的全国性大数据中心,形成更加完善的治理决策支持体系,以在数据整合的基础上实现服务整合。如澳大利亚Centrelink国家数据中心的建设,全国各地的Centrelink与数据中心直接联网,联邦、州、当地的服务机构,如税务部门、金融机构、警局等,也与数据中心实现联网共享;Centrelink在多种服务渠道的后台,借助信息通讯技术将业务流程、服务、网络和资源进行优化整合,便捷、高效地为公众提供一体化的服务。

(三)大数据等于海量数据

随着大数据在我国的不断发展,各个地方都开始兴建大数据中心,但对于大数据中心的建设,更多的还停留在“建机房、上设备、堆数据”的阶段,忽视了大数据强调的是对数据的分析和应用。对于政务大数据的推进或大数据中心的建设,首先应有周密、严谨、细致的数据目录体系顶层规划,建立统一的数据资源目录体系、数据标准体系、数据质量审计体系和业务系统数据共享交换体系等;其次要有可对比、可回溯、可审计的数据质量管理体系,保障数据采集获取的可持续性,避免“数据陷阱”;再者,要有精通数据挖掘和业务建模的数据科学家队伍,从政务应用需求出发,做好潜在数据价值的挖掘与应用。此外,当前不少学者还未真正认识到大数据价值,认为海量数据无法获得,且大数据只是一种暂时性趋势。诸不知,大数据虽指海量数据,但并不是“全数据”,而是数据资源总量不断增长的状态,且从“大数据”中挖掘出价值信息才是大数据应用的关键。

五、政务大数据需警惕的三大潜在问题

(一)警惕数据权的恶意使用或过度滥用

随着大数据应用的不断推进,数据开始被视为重要的战略资源,“世界经济论坛”报告曾指出大数据为新财富,价值堪比石油。在政治领域,数据的所有权是一种新的权利源泉。围绕原始数据的占有权和发布权的斗争将成为一个持久性的政治议题。一个不可否认的政治事实是,意识形态的倾向性总是会影响对客观事实的调查,并且对决策过程产生导向作用。当前,数据权被滥用的案例普遍存在。如针对政府网站数据不准确问题,2001年布什政府颁布了《数据质量条例(Data Quality Act)》,允许私人团体对联邦政府部门所发布信息的准确性提出质疑。很多反对美国环保政策的商业团队就经常利用这一条款来拖延环保监管工作的执行。这条法律变成了环境保护监管工作的一个巨大障碍,因为它经常被用来拖延那些必要的监管工作的正常开展。在推进政务大数据应用中,应警惕数据权的恶意使用或过去使用。

(二)警惕大数据带来的信息歧视问题

大数据技术为基于证据的未来趋势预测提供了一种可能,但同时有可能会带来公平和公正的问题。Michael Milakovich 30指出,政务大数据应用中,数据挖掘阶段最有可能引发对公民隐私权的侵害。尽管作为一种提升公共服务传递的重要手段,数据挖掘本身的意图是好的,但由政府收集和分析个人数据,不可避免地会引发对公民自由问题的争论。很多民众正在失去对政府的信任,其部分原因就是政府机构拥有太多对公民个人数据的获取手段,但相反对个人数据的保护手段却太少。另外一个政务大数据应用的障碍来自伦理上的挑战,数据“可被获取,并不代表使用他就是道德的”31。大数据技术为基于证据的未来趋势预测提供了一种可能,使得社会科学的研究可以做到像自然科学研究一样的精准、量化、客观。大数据可以用于预测未来,人们可以基于大数据构建政策制定的概率模型,分析未来可能会发生什么。但这些模型会带来公平和公正的问题。举例来说,通过应用大数据技术,我们可以识别一些犯罪的“热点”区域,这些政府就可以在犯罪发生之前更好预知其发生规律。但生活在这些区域的人将会因此而比其他地方的人面临更高的被逮捕率32

(三)警惕互联网公司侵害国家数据主权

由于我国数据产权的立法滞后,且在国家层面缺乏采集相关数据资源的统一规划,使得当前与国家经济、政治密切关联的数据较少掌握在政府手中,而如阿里、百度、腾讯、小米等互联网公司所掌握的数据资源较为丰富,且与国家经济社会运行关系密切。以阿里为例,已将数据化作为公司三大战略之一,其所掌握的大数据资源与中国国家安全之间的关联,是建立在阿里的数据覆盖面和数据累积深度的基础之上的。目前,阿里旗下淘宝的注册用户就接近5亿,从而支撑起阿里的消费者数据、制造业数据和供应商数据。至2013年底,阿里旗下的支付宝实名用户已近3亿(其注册账户早在2012年底即已突破8亿),并成为全球最大的移动支付商;而截止到2014630日,创立仅一年的余额宝用户已超过一亿,差不多是股市开市20多年后的中国股民的两倍,支付宝和余额宝共同支撑起阿里的金融数据。马云说其未来的进军领域是医疗和文化事业,届时又会形成阿里关于中国人的体质健康生理数据和心理意识数据。这些数据通过云计算进行挖掘之后,其对国家安全的价值会远远超国家保密局所保密的信息价值33。为此,推进政务大数据应用,必须要警惕互联网公司对国家数据主权的侵害。

六、结语

Gang-Hoon Kim34指出,国家主导是政务大数据发展的根本动力。发达国家政府的大数据项目都有着相似的目标导向(如公共服务的平等性和可获取性、公众对公共事务的更好参与、透明性政府等等)。政务大数据应用发展的主要关注点集中在安全性、速度、互操作性、分析能力和竞争人才等。当然,每个国家的政府都有其优先主导的方向,以及基于自身特殊环境的机遇与挑战(如美国的恐怖主义和健康问题,日本的自然灾害,以及韩国的国防事业等等)35。我国在推进政务大数据应用的过程中,应从中国实际出发,出台切实可行的政府大数据发展供给政策。