大数据并非严格意义上的证据,因为被万维网络记录下来的大数据是杂乱的,分散的,尚不具备作为证明案件事实的证据资格,只有在将相关数据进行客观完整采集的基础上,运用科学的数据处理技术进行连接、运算和分析,它们才能为证明案件事实提供有价值的分析结论,成为证据。大数据成为证据除了要求具有传统的证据三性之外,还要具备新的标准。笔者以2012年—2014年奇虎诉腾讯滥用市场支配地位案(以下简称奇虎诉腾讯案)为例,对大数据成为证据所应具备的新标准进行阐释。
一、数据内容的完整性
大数据转变为证据要求所依赖和利用的数据必须具有完整性,即应采集获取与所证明事项或目标相关的完整数据,唯有如此,所作出的分析结果才具有充分的证明力。在奇虎诉腾讯案中,奇虎证明相关商品市场范围时所提供的艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其所依据的数据就缺乏完整性,艾瑞咨询监测了个人电脑端即时通信软件的数据,但未监测统计手机和平板电脑等移动端即时通信软件的数据,也未将即时通信产品作为核心产品一部分的微博和SNS社交网站产品纳入到相关市场商品集合中进行数据监测统计,因此不能用来有效地划定本案相关市场的范围。
二、数据来源的复合性
大数据不是从单一来源中形成证据的,大数据到证据的转变需要针对具体事项和目标的需要,通过对多个不同来源的数据库或信息相互关联,从中多维分析挖掘才能够实现,这是一个复杂的分析挖掘复合形成的过程。奇虎诉腾讯一案中法院多次使用了CNNIC第24次《中国互联网络发展状况统计报告》和艾瑞咨询《中国即时通信年度检测报告》(2010-2011年),其中CNNIC拥有高效、安全、稳定的互联网基础资源服务平台,从1997年成立至今已发布了38次《中国互联网络发展状况统计报告》,其统计报告的调查数据和分析结论就具有典型的复合性。艾瑞咨询是拥有国内数据累积时间最长、规模最大、最为稳定的各类数据库,并通过多种指标研究帮助行业建立评估和衡量的标准,至今发布了大量互联网行业的数据统计分析报告,同样具有典型的复合性。在奇虎诉腾讯案中,法院就是根据这两个机构提供的统计数据对既使用移动端即时通信服务又使用个人电脑端即时通信服务的网民数量进行推算,结果是1.7亿人,约占个人电脑端即时通信服务用户总数的48.6%;而且法院根据艾瑞咨询报告的预测,作出合理预见:用户用移动端即时通信服务替代个人电脑端即时通信服务的可能性和比例将进一步增大,这对个人电脑端即时通信服务的经营者形成了有效的竞争约束。据此法院将移动端即时通信服务纳入了本案相关商品市场范围。
三、数据处理技术的科学性
大数据是海量的,分散的、无形的,必须借助科学有效的大数据处理技术才能从中获取有价值的大数据证据。所谓数据处理技术的科学性是指必须采用相关技术领域普遍认同的技术方法,或者可以进行相应验证的技术方法。唯有采用科学的数据处理方法,才能保证通过该方法形成的数据处理结论具有可靠性、具有证明力。在奇虎诉腾讯一案中,法院在认定腾讯是否可以控制商品价格时,使用了CNNIC《中国即时通信用户调研报告》(2009年度)、艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年)和eNet的调查结果。其中CNNIC《中国即时通信用户调研报告》(2009年度)指出,不愿意为使用即时通信服务付费的用户高达60.6%。艾瑞咨询《中国即时通信用户行为研究报告》(2010-2011年)则表明,2010年51.2%的中国即时通信用户从未支付任何费用。eNet调查结果也显示,如果腾讯QQ即时通信服务收费,只有6.69%的用户表示将付费并继续使用,81.71%的用户将转而使用其他即时通信软件。上述报告或结果很明显使用的是数据处理技术中的统计与分析技术,其主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行常规的分析和分类汇总等,其方法已得到业界的普遍认同,具有科学性。据此法院认为,在免费的互联网基础即时通信服务已经长期存在并成为通行商业模式的情况下,用户对即时通信服务价格的改变会有极高的敏感度,如果从免费模式改为收费模式,哪怕是收费较低都会产生客户大量流失的风险,故法院认定腾讯控制商品价格的能力较弱。
2015年8月国务院印发的《促进大数据发展行动纲要》明确指出大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。为此,我们应将大数据的思维和方法运用到我国司法领域,将完整的数据作为证据基础,复合的数据库作为证据来源,科学的数据处理技术作为证明方法,从中发现和获取新的知识、创造新的价值,通过大数据分析结果为认定疑难事实提供可靠有效的依据。