网络审查允许批评政府禁止群体煽动

时间：2016-06-10 来源：观察者网作者：Gary KingJennifer Panand Marga 条评论

OCi免费翻墙网

　　我们能完成的原因是数据手机系统高度自动化，而中国审查系统涉及人工操作。我们庞大的工程(由于明显原因将不会在此详述)在全世界很多地方运行，包括中国内地。OCi免费翻墙网

OCi免费翻墙网

OCi免费翻墙网

　　最后，在2011年前半年，我们从1382个中国网站上定位、访问并下载了社交媒体网贴。中国社交媒体结构最显著的特就是它有极长的(幂律状的)尾巴(指中小型网站的原创内容)。图1是各网站的样本和中文标识(图片a)以及代表该长尾的网帖数量饼状图(图片b)。图中可见，最大的网帖来源是新浪博客(占总数的59%)，百度嗨，华声论坛，四月论坛和天涯。但尾巴还在一直(向更小的网站)延伸。OCi免费翻墙网

OCi免费翻墙网

　　社交媒体网贴涵盖的话题范围太广，以致于全面的随机取样策略很难对单一话题提供有价值信息。因此，我们采取了分层随机抽样设计的方法。我们先选取了85个单独的话题范围，并按照假定的政治敏感性分为高(如艾未未)、中(如计划生育)、低(如流行网游)三档。通过回顾以前的研究、咨询中国专家以及对当下事件进行研究，我们分别在这三档中选取某些特定话题。附录A是完整的清单。OCi免费翻墙网

OCi免费翻墙网

　　然后，针对不同的每个话题范围(用关键词区分)，我们收集6个月时间内所有相关的社交媒体网贴。我们检查每个话题范围的网贴，删除垃圾邮件，再用辅助阅读工具对内容进行研究。(Crosas et al. 2012; Grimmer and King 2011)我们一共收集了3674698篇网贴，其中随机选出127283万篇进行进一步分析。(我们在其他时间段里重复这一过程，有时候会对某些话题范围进行更深入的研究。总共收集并分析了11382221篇网贴。)所有这些来自中国站点的网贴都是用中文写的，但不包来自括香港和台湾的文章。我们先阅读每篇文章的内容，将其置于某个话题范围的时间轴上，并重复访问源网站以确定其是否被过滤。根据需要，我们将用其他特定的数据对该信息进行补充。OCi免费翻墙网

OCi免费翻墙网

　　审查者们并不羞于公开自己的行为，因为我们发现可以很容易区分(有意的)审查和零星的断电，或是短暂的超时错误。被审查的网页清晰地包含这样的字眼：“抱歉，指定的主题不存在，已被删除或正在审核”，有时候还会留下有警警和察察(网警logo)的标志。OCi免费翻墙网

OCi免费翻墙网

　　尽管我们搜集信息比审查者审帖快，但他们的效率也体现出了高度专业水平。为了说明这一点，我们随机收集并分析了2011年9月27日上海地铁相撞事件前后的网帖、2012年4月10日到12日薄熙来事件的网帖和有关谷开来的网帖，以此举例。尽管我们搜集信息比审查者审帖快，但他们的效率也体现出了高度专业水平。为了说明这一点，我们随机收集并分析了2011年9月27日上海地铁相撞事件前后的网帖、2012年4月10日到12日薄熙来事件的网帖和有关谷开来的网帖，以此举例。OCi免费翻墙网

OCi免费翻墙网

OCi免费翻墙网

　　我们对上述三个话题范围的网贴进行不间断监控，一共监控9天。(其他范围的审查遵循同样的基本方式)图2表示的是被审查的网贴数的直方图。在三个事件中，大多数的内容过滤发生在原文发布后的24小时之内，当然也有一小部分网贴到5天之后才被删除。这体现了惊人的组织能力，它需要战争机器般的精确：不同政府级别、分管不同互联网运营商的领导需要首先做出决断(给出一致意见、直接命令或妥协方案)，决定什么内容需要被过滤;他们需要将该决定传达给数十万的个人;然后这支军队需要在大约24小时之内完成绝大多数审查工作。OCi免费翻墙网

OCi免费翻墙网

　　正如埃德蒙(2012)指出，社交媒体上信息源的激增让信息越来越难以控制，然而，中国政府竟然在全国范围内克服了这一困难。鉴于很多人很难达成一致意见，而且不同的人执行指令很难达成同样的效果(比如Hopkins and King 2010, Appendix B)我们认定政府对审查工作做出了巨大而专业的努力。我们发现了一些证据，表明这一庞大芜杂的官僚体制中存在不同意见，比如不同级别的政府之间的不一致。但我们尚未对此进行细致的研究。OCi免费翻墙网

OCi免费翻墙网

　　研究的局限性OCi免费翻墙网

OCi免费翻墙网

　　如下所示，我们的方法很大程度上揭示了中国领导层的目标，但它忽略了网站的自我审查以及这些内容被我们看到之前已经发生的过滤;它也没有对”防火长城”、关键词屏蔽或搜索过滤的直接效果进行量化。我们也没有研究现实中暴力的效果，如逮捕博主或进行威胁。尽管各级政府和官员都会对审查什么、何时审查进行干预，但我们的数据有时候并不能让我们对这些信息源加以区分。OCi免费翻墙网

OCi免费翻墙网

　　我们的确无法判断上述局限性的后果，不过我们可以合理地推断，其中最重要的应该是现实中的暴力、威胁以及由此导致的自我审查。尽管我们分析的社交媒体数据包含数百万中国人的意见，涵盖了极其广泛的话题和演讲行为，但那些从未被我们观测到的话题(即网民不敢谈到的话题)可能才是政府认为最要害(或最紧迫的)的部分。OCi免费翻墙网

OCi免费翻墙网

　　最后，过去对互联网行为的研究存在一个可靠的前提——网民的社会行为跟“现实世界”行为基本同步。但是，当前的网络行为已经占据了人类生活很重要的位置，因此今天社交媒体上观察到的思想本身就非常重要——不论它能否很好地衡量非网络自由和行为。但无论这个前提是否成立，我们都难以作出这样的论断：我们对中国社交媒体的研究可以用来说明中国的新闻自由或是其他信息传递问题。OCi免费翻墙网

OCi免费翻墙网

　　分析策略OCi免费翻墙网

OCi免费翻墙网

　　总体上看，大约有13%的网贴被过滤。如果将所有领域、所有的网贴汇总起来，这一数据随着时间的推移变化不大，但它会随着网贴数量和审查力度的变化产生巨大变化。我们发现，网贴的潜在政治敏感性和审查之间的关联性非常低：在低档和中档敏感度事件中，审查率基本一致(分别是16%和17%)，仅仅比高档敏感度事件(24%)低一点。当然，单个数据的稳定性不意味着内涵的简单。为了发现审查的深层规律，我们接下来将讨论编码规则、给出核心假设，探讨中国政府可能的审查程序。OCi免费翻墙网

OCi免费翻墙网

　　编码规则OCi免费翻墙网

OCi免费翻墙网

　　我们分5步进行样本编码。OCi免费翻墙网

OCi免费翻墙网

　　首先，按分层随机抽样设置的关键词，我们将社交媒体网贴分为85个话题范围。尽管我们做了大量的检查(通过大量人工阅读并借助现代电脑辅助阅读技术)确保其准确性，我们的话题范围里难免(借助任何机器或人工分类技术)存在一些归类错误。我们采用了保守的方法，先做出结论，暂且忽略这一错误的影响。随后，我们进行了反复的筛查(用同样的技术)，确保我们不会错过任何重要的信息。这种归类错误可以看做是系统性错误，但迄今为止，所有数据(扣除错误后的数据)都依然支持我们的结论。OCi免费翻墙网

OCi免费翻墙网

　　第二，众所周知，几乎所有话题范围(和相关区域)的言论数量都是“阵发”的，即稳定的时间曲线常常因偶然事件而出现数量激增。这一规律仅仅有两个例外——色情内容和对审查者自身的批评。如下所述——审查工作在数量爆发(volume burst)时期(即事件热点时期)力度往往格外大。因此，我们对数量爆发期前后的数据进行了处理。我们将每个话题的数据搜集范围都确定为6个月时间序列中每天的数量，并采用回归方式计算数据，以确定在剩余时间序列中的离散值(outlaying observations)。OCi免费翻墙网

OCi免费翻墙网

　　通过这一过程，我们检测的85个话题范围中有67个出现过数量爆发，一共出现了87次。OCi免费翻墙网

OCi免费翻墙网

　　第三，我们将每个事件归为以下五类：每个类别都可能包含批评或不批评政府、领导人和政策的网贴。OCi免费翻墙网

OCi免费翻墙网

　　1.潜在群体性事件OCi免费翻墙网

OCi免费翻墙网

　　“群体性事件”定义：OCi免费翻墙网

OCi免费翻墙网

　　两个(含)以上的人，受到参与者而非官员(或官方代表)的鼓动、控制，追求特定目标的行为。我们的“潜在群体性事件”原则上包括任何有可能引发群体性事件的事件，但是为了保守起见，并确保编码规则清楚明确且可以重复验证，我们将增加3个归类条件：a)作者参与了抗议活动或有组织的人群;b)网贴与曾经组织或引发群体性事件的个人有关;c)网贴与曾经引发抗议或群体性事件的民族主义或民族主义情绪有关。OCi免费翻墙网

OCi免费翻墙网

　　2.对审查者批评OCi免费翻墙网

OCi免费翻墙网

　　“对审查者批评”定义：OCi免费翻墙网

OCi免费翻墙网

　　对效命于政府或非政府实体的审查者(无论个人和公司)的批判。OCi免费翻墙网

OCi免费翻墙网

　　3.色情内容OCi免费翻墙网

OCi免费翻墙网

　　“色情”定义：OCi免费翻墙网

OCi免费翻墙网

　　包含色情或明显性方面内容的电影、网站、广告、新闻。OCi免费翻墙网

OCi免费翻墙网

　　4.政府政策OCi免费翻墙网

OCi免费翻墙网

　　“政策”定义OCi免费翻墙网

OCi免费翻墙网

　　政府声明或政府活动报告，包括国内或对外政策。OCi免费翻墙网

OCi免费翻墙网

　　5.其他新闻。OCi免费翻墙网

OCi免费翻墙网

　　其他新闻是指对上述4类事件以外的事件的报告。OCi免费翻墙网

OCi免费翻墙网

　　最后，我们进行了一项研究以验证我们编码规则的可靠性。OCi免费翻墙网

OCi免费翻墙网

　　我们把上述规则给两位熟悉中国政策的人看，要求他们对87个话题分别进行编码(每个话题都曾导致中国网民的发帖量爆发)，并将其归入上述的5个范畴中。两名编码者独立工作，各自对这些事件进行归类。编码结果证明，两位编码者的一致率是98.9%，即87个话题中的86个归类都相同。唯一不同的话题是方滨兴(”防火长城”的发明者)遭扔鞋事件。这一事件既导致对审查者的批评，在一定程度上也是群体性事件，因为有好几个人一起向方滨兴扔鞋。我们最后决定将该事件作为批评审查者的例子，不过不管它怎么编码，都不会影响我们的结果。因为我们估计，无论它归入哪一类，都会遭到审查。OCi免费翻墙网

OCi免费翻墙网

　　核心假说OCi免费翻墙网

OCi免费翻墙网

　　我们的核心假说如下：网贴数量爆发期间，政府会根据话题范围，将所有讨论潜在群体性事件的网贴删除。也就是说，审查者将不管这些网贴是否有群体性事件的可能。这或许是因为执行精确鉴别指令的难度比较大。Kuran (1989)和Lohmann (2002)研究表明，正是有关群体性事件事件的信息促进了群体性事件的产生，因此，要想把这种信息和明确的对群体性事件的号召区分开来，即使不是不可能，也是非常困难的。因此，我们假设审查者采用了更简单的标准来判断网贴是否诱发潜在群体性事件。而且他们不会考虑网贴是否批评政府的(即支持政府的也一概不放过)。OCi免费翻墙网

OCi免费翻墙网

　　审查者还试图把全部删除色情内容和批评审查者的内容。但不会删除政府政策和其他新闻范畴内的网贴。OCi免费翻墙网

OCi免费翻墙网

　　政府的运作程序OCi免费翻墙网

OCi免费翻墙网

　　中国政府审查的确切运作程序当然无法观测。但是我们约谈了接近审查机构的人，以及内部人士，我们相信我们的编码规则可以视作接近真实程序。(事实上，在文章的一个草稿公布后，我们收到的反馈证实了我们的观点)我们手动确定话题范围，用关键词对网贴进行归类，并通过统计发帖数量的时间序列数据，自动甄别网贴数量爆发。某些情况下，对谈论现实世界事件网贴的过滤可能发生在事件真正发生之前——因为审查者会被秘密告知某事将要发生(比如对某个异见分子的逮捕)，而这件事可能引发群体性事件。OCi免费翻墙网

OCi免费翻墙网

　　在网贴数量爆发期间进行过滤，第一步的甄别工作几乎全部需要人工完成，或许偶尔会辅以计算机程序，如算法识别特色词组(statistically improbable phrases)。最后，审查者对单个网贴做出审查决定——根据我们的假说，要检查它是否与某个特定事件有关——几乎肯定是人工完成的，因为没有哪个已知的计算机系统的精度能与中国审查工作的精确程度相比。审查者可能会先用关键词搜索找到相关事件，但他们依然需要人工阅读文章，再进行审查。比如，当审查者从网上的讨论中找到增城事件的文章，他们可能采取了关键词搜索的方式，但他们可能必须要阅读全文，这样才能将增城抗议和增城的其他信息区分开来，比如增城荔枝丰收。OCi免费翻墙网

OCi免费翻墙网

　　结果OCi免费翻墙网

OCi免费翻墙网

　　接下来我们介绍3个具体的测试以验证我们的假说。这些测试基于：OCi免费翻墙网

OCi免费翻墙网

　　1 网贴数量OCi免费翻墙网

OCi免费翻墙网

　　2 引发每次数量爆发的事件性质OCi免费翻墙网

OCi免费翻墙网

　　3 被审查的网贴的具体内容。OCi免费翻墙网

OCi免费翻墙网

　　此外，附录C(见文末)提供了一些证据，表明中国政府的审查行为自相矛盾地反映了中国政府的意图。OCi免费翻墙网