苏宁易购
跳转到路径导航栏
跳转到正文内容

管理学博士:700万问题彩民调查方法错误

http://sports.sina.com.cn  2012年05月07日09:50  公益时报

  导读:针对中国700万问题彩民的调查,管理学博士邵祥东提出了四点质疑。最后总结到,问题彩民调查在抽样方法、样本框等方面存在诸多问题,就算对采集的数据做了严格处理,但因抽样方法错误,则结论也是错误的,至少是不准确的。700万问题彩民的调查结论可能失真。

  疑点一:样本框是否被扩大化?

  若想调查中国问题彩民及行为,前提是界定样本框,即参与问卷调查的人必须是彩民,之后才可继续研究其中的问题彩民。抽样框是指用以代表总体,并从中抽选样本的一个框架,其具体表现形式主要有包括总体全部单位的名册、地图等。抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,其对于推断总体具有相当大的影响。

  此次问题彩民调查面向的主要人群是上网的人(不一定是网民),调查对象可能包括以下三类群体影响样本框的准确:一是非彩民人群,其填写的问卷肯定是无效问卷;二是长期购买非法彩票(微博)的人,其成为问题彩民的根源并非因为购买国家彩票,而是因为长期大额购买非法彩票所致;三是网络黑客等技术类人群,他们可以突破确保网络调查安全而设置的防护网,由此会引发网络刷票行为。如果问题彩民调查未能控制这些人群,则样本框必然扩大,进而导致调查结论失真。

  疑点二:抽样方法是否科学及是否误用偶遇抽样法?

  最近一段时期,社会各界对北京师范大学彩票研究中心在今年3月份发布的《中国彩民行为网络调查》(下称“问题彩民调查”)中提到的中国现有问题彩民高达700多万的研究结论高度关注,并就国家彩票的公益性和彩票机构的社会责任展开讨论。应当予以肯定的是,该课题研究具有历史开创性和一定的现实意义。但是,调查方法的科学性和研究结论的准确性存在多个疑点,本文现从社会调查方法角度加以分析。

  社会调查中的抽样方法主要有纯随机抽样、系统抽样、类型抽样、整群抽样四种。

  纯随机抽样法的特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。该抽样法适用于总体单位之间差异程度较小和数目较少时。

  系统抽样法的特点是:抽出的单位在总体中是均匀分布的,且抽取的样本可少于纯随机抽样。它是实际工作中应用较多的方法,目前我国城乡居民收支等调查,都采用这种方法。

  类型抽样的特点是:通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。

  整群抽样的特点是:调查单位比较集中,调查工作的组织和进行比较方便。但调查单位在总体中的分布不均匀,准确性要差些。因此,在群间差异性不大或者不适宜单个抽选调查样本的情况下,可采用这种方法。

  中国彩民群体数量大,个体差异也大,不适合采用纯随机抽样法和整群抽样法。而要采用系统抽样和类型抽样需要分别解决好两个问题,如采用系统抽样法需要确定样本标志分为相关标志和无关标志,它们对等距抽样的作用和相应的估计进度各有不同的影响。相关标志即其与调查标志具有共同性质或密切关系。

  很显然,如果采用系统抽样法,则以全国彩民在一定期限内的购彩支出额为相关样本标志为好。但是,彩民群体数量大,且其购彩额无法得知。所以,即便采用系统抽样法,若样本标志处理不好,也会出现结论错误。

  根据社会调查理论和经验做法,关于中国问题彩民调查采用多段分层抽样为宜。不过,多段分层抽样不适合网络调查(比如样本无法科学分配)。综上分析,四种社会调查方法都难以有效解释700万问题彩民这一调查结论的准确性。

  就实际调研情况推断,问题彩民调查有误用偶遇抽样法的可能。偶遇抽样基本理论依据是,被调查总体的每个单位都是相同的,因此把谁选为样本进行调查,其调查结果都是一样的。而事实上并非所有调查总体中的每一个单位都是一样的。只有在调查总体中各个单位大致相同的情况下,才适宜应用偶遇抽样法。它适用于探测性调查,或调查前的准备工作。问题彩民调查采取的是网络调查法,极可能陷入了偶遇抽样法,如果推断成立,则抽样结果偏差增大,可信程度较低,样本没有足够的代表性,调查结论也必然错误。

  疑点三:网络调查法的弊端是否被有效控制?

  网络调查法是一种新兴的社会调查方法,它具有快捷、节省费用等优点,但也存在一些弊端。

  第一个弊端是技术手段无法控制调查对象身份和数据的真实性。目前,网络调查法采用的主要技术手段有四种:一是检验网上用户身份。即在调查中,为尽可能消除同一个被调查者多次填写问卷,常采用“IP+若干特征标志”技术手段作为判断调查对象填写次数唯一性的检验条件。在设计指标体系时,所有可以肯定的逻辑关系和数量关系都应充分利用,并被列入调查质量检验程序,以实现网上用户身份的唯一性,排除干扰;二是电子邮件+网络密码。采用电子邮件邀请和在线调查相结合方法,给调查对象提供一个含有密码的链接,每一个调查对象的密码彼此不同,且只能使用一次。当调查对象点击链接时,程序会读取密码并与数据库核对,这样可避免不合乎标准的人填写问卷,防止调查对象多次填写问卷;三是随机IP自动拨叫技术措施。通过一个随机IP地址发出软件产生一批随机IP,再由一个IP自动拨叫软件向这些IP发出呼叫,传送一个请调查对象参加调查的信息。收到该信息的网上用户可以按照意愿决定是否参加调查;四是利用过滤器技术措施。根据具体调查问题选取有效的特征指标,如调查对象年龄、性别、学历、职业、职务、地区以及其他品质标志和数量标志等作为特征标志,通过特征标志将调查表中代表性差的样本过滤出去。

  但是,这四种技术措施仍然无法控制实际填写问卷的人的主观行为,如其是否是彩民或其填写的信息是否准确等,都无法验证。就算调查者在调查之前制定了样本分配方案,准确限定了调查对象的身份,但是仍无法有效控制调查提供的信息的准确性。而且,网络刷票行为也无法得到有效控制。如果采用一对一的访谈式调查,这些问题就可以避免或减少。

  第二个弊端是彩民群体和网民群体在地区空间分布方面存在差异。而且,网络调查对象有限,选取的样本难以具有代表性。

  2012年1月16日,中国互联网络信息中心(CNNIC)发布了《第29次中国互联网络发展状况统计报告》,数据显示:当前互联网在全民中的普及率不到四成,从地区空间分布结构看,互联网发展的地域差异明显,北京市的互联网普及率高达70.3%,而互联网普及程度较低的云南、江西、贵州等省份互联网普及率不到25%。普及程度超过全国平均水平的省市大部分集中在东部沿海。中部省市的互联网普及率低于全国平均水平。西部省市普及率低于全球平均水平。网上调查参与者多是网民,网络调查的总体即为是网民。但是目前中国的网民只占中国人口极少的一部分。我国网络发达地区集中在东部地区,仅以东部地区的彩民行为解释全国彩民行为,难具全国代表性。

  在城乡结构上,2011年,农村网民占整体网民比例为26.5%。网民群体集中在城镇地区,农村地区网络普及率低。调查结果很显然更多反映了城镇地区彩民行为,对农村地区彩民行为的代表性差。

  由此可见,以全国不足四成、且存在严重地区结构差异的网民做为问题彩民调查总体得出的全国性结论很难具有说服力。

  此外,从年龄结构上分析,2011年,我国10-29岁网民所占比重为56.5%,10-39岁网民所占比重为82.2%,20-29岁网民所占比重为55.5%。即部分70后、多数80后和90后人群是网民主体。问题彩民调查得出,73%的彩民年龄集中在26-34岁,这表明彩民具有年轻化特征。近些年来,深圳、广州、武汉、合肥、南昌、沈阳等地福彩机构都做过本地区彩民消费调查,得出的结论是彩民年龄主要集中在35-55周岁,并不具有年轻化特征。而且,如果问题彩民调查得出的结论为真,则多数彩民的年龄段和网民主体的年龄段高度一致,这令人产生如下疑问:参与网络调查的彩民群体基本上都是网民,非网民的彩民群体被排除在调查范畴之外。从职业结构方面看,学生是网民中规模最大的群体,占比为30.2%,如果结合这一指标,那么可以推断出参与问题彩民调查的人群中可能包括了收入水低的在校学生,而这部分群体并不是我国彩民主体。《第29次中国互联网络发展状况统计报告》数据还显示,截至2011年12月底,中国网民规模达到5.13亿,其中,中国手机网民规模达到3.56亿。这部分群体也多是年轻的在校学生。

  网络调查法的作用是很有限的。如果调查“中国城镇地区居民上网购物状况”,则网络调查无疑是一种较好的社会调查方法。但,若是调查中国民众对目前南海局势的看法,则网络调查的代表性就无法保障了,因为很多关注南海局势的民众并不上网,尤其是年纪稍大的民众。

  疑点四:样本数越大,调查结论越准确?

  问题彩民调查显示,参与调查的人数高达176200多人,有效问卷也多达38000多份。这给公众传递了一个信号:样本数越大,调查结论越准确。事实果真如此?以具有代表性的是美国著名刊物《文学文摘》预测1936年美国总统选举结果出现重大失误的实例。当年的两位候选人是民主党的罗斯福和共和党的兰登,大多数民意测验,新闻机构和政治观察家都预测罗斯福会获胜,但《文学文摘》与众不同,它预言兰登会以57%:43%的优势战胜罗斯福。最后结果是:罗斯福以62%:38%的压倒优势当选。由于这个重大失误,这家杂志不久即宣告破产。该刊起初拟访问对象为1000万人,研究人员认为在这个庞大的样本中,美国社会各阶层的代表性会好些。但这1000万人中只有240万人寄回了对问题单的回答。较富有的人,对当时现实抱比较满意态度以及文化水平较高的人,做出回答的可能性要大些,这个倾向有利于共和党。这是一个系统性偏差,它加重了原来在挑选样本时已存在的系统性偏差。这一点曾在芝加哥地区得到证实:该刊向芝加哥地区1/3的登记选民发了问题单,有20%的人做了回答,其中半数以上有利于兰登。但实际结果是:罗斯福和兰登在芝加哥的支持率确实2:1。

  类似于本例的错误,在其他抽样调查工作中也时有发生。除了有意的偏向外,为图工作省事而不去认真研究随机化抽样方案,是一个常见的原因。

  网络抽样调查是根据部分实际调查结果来推断总体标志总量的一种统计新兴调查方法。它需按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体。问题彩民调查在抽样方法、样本框等方面存在诸多问题,就算对采集的数据做了严格处理,但因抽样方法错误,则结论也是错误的,至少是不准确的。700万问题彩民的调查结论可能失真。(邵祥东)

  邵祥东,管理学博士,在媒体发表彩票文章39篇。专著《中国社会福利事业发展与挑战:以福利彩票为范例的研究》。参编著作《民政法制概述》(2011年8月1日出版),负责“福利彩票法制概述”一章。

  参与国家社科基金课题和国家自然科学基金课题2项,国家发改委、辽宁省科技厅、省财政厅、省哲学社科基金、省发改委等重大课题9项。发表论文17篇,参编著作5部,获省级科研成果二等奖、三等奖5项。

分享到:

无标题文档

相关专题:中国足球彩票专题

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2012 SINA Corporation, All Rights Reserved

新浪公司 版权所有