《华尔街日报》有一篇专栏批评中国失业率的统计数据,说人保部高喊的“失业率保四”的口号纯属无中生有。假如中国的失业率果真保持在4%左右,那真是善莫大焉。问题是,我国采用的仅统计城镇户籍人口的登记失业统计方法没法反映事实上的就业状况。据社科院的部分学者调查,真实的失业率或许将超过9%。文章作者称之为“掩耳盗铃”,并认为这种登记失业率应尽快被调查失业率替代,因为调查失业率采用抽样调查的方法,相比较登记失业率而言,其调查对象更广泛,在中国这种劳动力流动性大的国家更适用。
不过,采用了调查失业率,大家就都喜笑颜开了吗?读过美国统计学者达莱尔·哈夫所著的《统计数字会撒谎》一书,不禁又让人眉头紧锁。任何抽样调查的准确率,其实很大程度上都存在一种偶然性。他举例说,美国有一个名叫多克斯(Doakes)牙膏广告声称,用户反映使此品牌的牙膏将使蛀牙减少23%。不过,值得玩味的是,赫然在目的广告词下方,有一排用不甚清晰的小字体印刷的英文,大意是说这项数据出自一家独立的实验室,该实验由12名受调查人员组成。这让人不得不佩服多克斯公司,既在宣传上做足了广告,又在数据来源的可靠性上为自己留了后路——用信誉良好的实验室和注册会计师为自己背书。
但显而易见,12人组成的测试,其实什么问题也说明不了。这个道理就像抛硬币一样,理论上的正/背面的概率应该是一半对一半,但只有抛硬币的次数积累到一定的量时其结果才有效,并且抛的次数越多,其结果就越接近50%的概率。反之,如果把结论建立在十次试验的基础上,正/背面的结果很可能是6:4或者3:7。把这个极不靠谱的结果堂而皇之地登在广告上,不仅是对消费者不负责,简直是有辱公众智商。
对于统计数据能否客观地反映“现实”,哈夫提出了不少类似的质疑。他认为,当人们面对一项统计数据时,首先要问自己的是以下五个问题,谁说的?他是如何知道的?遗漏了什么?是否有人偷换概念?这个资料有意义吗?只有这样,我们才不致误入统计学的某些“陷阱”。
《统计数字会撒谎》出版至今已经50多年,但哈夫的提醒,似乎早已被今天的人遗忘。数据与排名的泛滥,使得广告、杂志上的各种统计数字强迫每个人都像经济学者般思考。一方面,我们对这些数据并不抱太多信心,另一方面,我们几乎已确信这一过程的真实性:在所谓“田野调查”的基础上,专业人士们将采集的“数据”分类打包,按照自己的需求制作成数字、表格、曲线图、柱状图、饼状图,并告诉人们,在这样的“科学”包装下,一切结论都必将是确信无疑的。
统计学的英文Statistics最早是源于现代拉丁文Statisticum Collegium (国会)以及意大利文 Statista (国民或政治家),也就是“研究国家的科学”。但这门“国学”自身的问题却越来越多,这当中有统计方法上的问题,同时,数据的发布者也难辞其咎。远的不说,就在本周,美国的许多媒体都在指责美国今年7月的失业率数据有造假的嫌疑。其中的真相,众说纷纭,一时难解。不可否认的是,无论是政府、反对党,还是传媒都想通过炒作这个数据,从中分一杯羹——不是像中国那样“粗鲁”地直接去改,而是筛选有利数据和统计方法,得到自己希望的答案。
话说回来,统计学原本属于应用数学的一个分支,所处理的只是一串串冷冰冰的数字,本身并不带有对与错、真与假的道德判断。不过,由于这些数字在为研究者提供数学模型之余还能够“描绘”现实、影响现实,那么来自于现实的一些力量就不得不借重、利用,甚至歪曲它,让虚假的数据为某些不可告人的目的服务。在这个本就缺乏诚信的社会,如果连官方正式公布的数据都不可靠,我们还能相信什么呢?
责任编辑:cprpw