墨宁：当代中国研究中的问卷调查研究：从地方样本中学习

学科: 社会
关键词: 抽样，问卷调查，墨宁1983年在中国山西某县做的一次引起广泛关注的问卷调查发现，该县43%的专业户为干部或前任干部家庭。这一发现，如果重要的话，在何种意义上重要呢？广而言之，从这项问卷调查可以对中国社会、政治及经济得出什么结论？本文试图说明，从作为大多数中国大陆问卷调查研究之基础的对中国人口的非代表性抽样能够（及不能够）推出什么结论。
抽样不是在中国进行问卷调查的唯一严重障碍。很多其它问题也对社会科学家的聪明才智提出了巨大挑战，它们要求科学家们调整标准的方法以适应显然不标准的条件。不过，本文考虑的问题的性质是不同的。在中国进行抽样的最基本现实不是调查研究人员努力想克服的那些障碍，而是一个普遍被认为可容忍的情况：对大多数调查者来说，获得对全中国人口的概率抽样是不可能也是不现实的。不论问卷设计得如何巧妙，访问实际上总得在一定的地域内与中国人进行，而这些地域的选择不是根据任何随机选择的原则,而是部分出于方便，而且总是要得到政府的认可才行。不需要懂多少方法论就可以看出来，即便地区内的采访对象是用概率方法选择的，这些地域性样本也是更大的中国人口的非代表性的“非概率样本”。对问卷调查研究人员来说，这一状况不大可能在近期改变。即便中国领导人继续允许问卷调查，全国性的概率抽样可能仍是特例而非常态。
缺乏全国性的概率样本并未阻碍对中国的问卷调查研究。从1980年代开始，中国高层领导人允许并经常鼓励就广泛的问题进行客观的实证调查，很多中国社会科学家对此作出回应，对一些重大而有意思的问题进行了大胆的问卷调查研究。研究当代中国的西方学者——特别是社会学家——也敏锐地抓住了这些新机会，很多人都与中国学者在问卷调查研究项目中展开合作。1989年政治气候的改变直接和间接地产生了重大负面影响，但最近一些重要的新项目已经成功地在进行，以前险些被中止的一些项目也恢复了。正如及时掌握文献的当代中国的研究者了解的那样，已经有大量的已发表的著述是以对中国的地域性样本的研究结果为基础的。这类研究还可能大量增加。但它在重要性上是否也相应地增加，则在很大程度上依赖于研究当代中国问题的学者（他们中的大多数使用其它方法）认为他们可以从中学到什么。
本文阐明：从对非随机地选择出的地域中的样本的问卷调查中，仍可了解到很多关于更大的中国人口总体的情况。熟悉问卷调查和推理统计的社会科学家，包括越来越多的在中国进行问卷调查研究的学者，会发现本文没有多少新意。但对于研究中国问题的其他学者而言，本文是个入门的方法论基础，有助于区别和吸收从在中国进行的问卷调查得到的发现。文章也表明，精通问卷调查研究和推理统计的方法并不能取代好的研究问题、常识及良好的判断力。而要想获得这些，研究者必须经常依靠“区域研究”的知识积累。
本文对研究目的作了一个简单而基本的区分：一是沿单一维度描述总体特征，二是考察变量之间的关系。通过分析在中国进行问卷调查是可能出现的三种偏差，文章讨论了实现后一目的的各种可能性。这些偏差被认为是对“外在有效性”的威胁——也就是说这些情境使人们怀疑样本的研究结果是否适用更大的总体。在讨论这些情境时，本文区分了“良性偏差”“可以应付的威胁”和“致命打击”。

概率抽样与推理性统计分析
问卷调查是为了回答有关特定总体的问题而在自然环境下系统地搜集数据。数据通常只从总体的一部分——样本——中收集，关键是运用样本数据来对总体作出推论。
概率抽样使我们确信足够大的样本会充分可靠地反映总体的相似性与差异性，因此能代表总体。它用偶然性方法和已知的非零概率选择方法从总体中选择“元素”（比如个人）到样本中。比如，最直观的概率抽样方法是“简单随机抽样”，采用该抽样方法时，每一元素都有相同的被选入样本的概率。
概率抽样为使用统计理论评价对于实际总体值的估计是否可靠提供了唯一基础，这些估计是由样本数据推出的，例如某一被测量的维度的平均值或比例。比如，考虑这样一个研究问题：中国农民每年参加的政治会议的平均次数。假设我们收集到了样本数据，也计算了样本的平均值（估计）。但这个估计与通过对全中国所有农民作全面而精确的人口普查得出的平均值是不一样的。到底有何具体的差异并不清楚——因为总人口的平均值是未知的。考虑这一问题的标准的科学方法是用概率术语问这样的问题：长远来看，也就是说，如果抽样选择重复无数次的话，可能会发生什么情况。
统计理论正是通过提出下面这个问题从这个角度以概率方式考虑抽样的多样性：用相同的抽样方法抽取的相同规模的所有可能的样本的平均值会构成什么模式？由这些平均值构成的模式被称为平均值的“抽样分布”。只要样本足够大（比如20或更大），这种理论上的分布就接近“正态分布”，即我们熟悉的铃形曲线。
实际获取的样本可以被视为是一组理论上重复的样本中的一个，该样本的平均值可被视为平均值的样本分布中的一个值。对足够大的概率样本，这种抽象是有效的。同时，因为这种抽象将总体均值的估计值放在了一个包括真正的总体均值的正态分布之内，它也是有用的。现在，我们可以参考正态分布的已知特征以概率方式考虑估计值与总体均值不相同的可能性有多大。
理论上重复的样本的估计值围绕总体均值的分布方式是用“标准误”测量的。标准误概念是统计推理的关键。正是标准误——实际上，正是我们用来根据一个概率样本的数据估算标准误的公式——使我们能够评估对总体值的特定估计（当然包括平均值之外的其它值）的可靠性。计算标准误的方程以概率论为基础。归根结蒂，我们是根据一个样本来评估一个估计值，评估方法是估计该估计值的标准误并且根据我们关于正态分布的知识考虑该估计值及其标准误。
包括估计值在内的特定值域可以与总体值在多大的确定度上处在该值域内相联系。其它条件相同的情况下，我们偏爱确定程度高而值域范围小。确定度（95%，99%是常规的选择）可以选择，但与其联系的值域的大小取决于估计值的标准误。较小的标准误产生较可靠的估计值。
概率抽样使我们可以回答一些基本问题（这一点很重要），并且使答案的可靠性得到科学界定。中国境外的学者几乎没有人在做问卷调查时对任何特定中国人口总体进行全国性概率抽样。有一个确实使用了全国概率抽样的问卷调查是1988－90年由史天健对政治参与的调查。史的调查要回答的问题属于那类如果没有概率抽样就不可能进行科学探讨的问题：即描述总体的单一变量，描述总体的任何一个被测量的维度。
中国公民是如何参与政治行动？频率怎样？他们为什么在选举中投票？如果对政府的政策不满或发现地方领导以权谋私，他们会怎么行动？史的应答百分比图表为以上以及其它很多问题提供了具体的答案。由于样本是全国概率样本，我们可以期待这些估计值与全国总人口的实际值十分相近。究竟有多么相近可以用统计推理的科学语言说明。
在中国试图进行全国概率抽样时，调查人员面对的主要困难不是技术上的可行性，而是实践的难题，本质上是政治上的难题。确实，从纯粹技术上看，在中国进行问卷调查的条件是良好的。由于政府对居住的控制和对人口流动的限制，在十分基层的人群层面——城市街道和乡村村庄——都有相当及时、准确和完整的户籍登记。有了这些记录，很容易在每一个人群内选择家庭或家庭成员的概率样本。显然，要对全国人口进行抽样，没必要获得每个街道和村庄的户籍记录。更经济的方法是把总人口划分为地域抽样单位——比如，第一步，分为2000多个县。这些单位可以进一步划分为更小的地域人群和次人群，直到最后的地域人群单位，然后从这些单位抽取家庭或个人。抽样者可以首先挑选包括50个左右的县的概率样本。然后从每个县抽取乡镇概率样本，依此类推，直至最后从街道或村庄中选出家庭或个人。
要对总体更有代表性，可以先依照某一维度（地理区域或经济发展水平可能是明智的选择）作一分层，然后在每一层中选择概率样本。现在，关于中国县级状况已有相当具体的聚合数据，很多已发表并且可以为公众获得。研究者可以利用这些数据识别特征区分由大约同质的县群构成的各个层级。
重要的是指出，从中国人口这么大的总体中进行概率抽样，本身并不构成困难或对资源的过份压力。由于其对标准误的影响，样本规模在抽样设计中是一个重要的考量：样本越大，标准误越小（估计值也更可靠）。但除非总体很小，绝对样本规模在减小标准误方面比比例样本规模更重要。简言之，较大的总体并不由于其规模大而要求较大的样本才能产生可靠的估计值。
在以上描述的抽样设计中，不需要完备的总体记录。抽样者只需要在从倒数第二抽样阶段选出的最后人群（比如街道或乡村）中抽样时使用户籍记录。尽管技术上可行，但这正是实际与政治困难开始之处。调研者不能指望获得由随机程序选出来的每个最后人群的户籍记录。他们不能指望当地干部承担起责任，决定让他们接触到户籍记录，因为这些记录是官方资料。
地方政府很少有合作的动力。从实际角度看，问卷调查打乱日常事务，影响生产。从政治角度看，很多官员不理解或不信任调研者的学术目的，尤其是当问题触及政治（广义的政治）或研究者是外国人的时候。考虑到中国易变的政治环境，合作的潜在成本对地方干部来说不能算小。由于这些原因，研究者在中国做问卷调查时不是让机会决定他们的调查地点。相反，他们一开始就以非概率程序选择允许他们进行概率抽样并采访那些选出来的个人的地方。这些地方通常是是一个或几个相当基层的人口聚居区（县或县级以下），而且他们本人或他们的中国同事在这些地方有官方或非官方的关系。这些样本是当地人口的概率样本，但对更大的中国人口来说，则是非概率样本。

非概率抽样
非概率抽样选择样本的方式使我们不可能估计每一元素被选入的概率。它不能确保每一元素都有入选的机会。这样产生的样本可能是有误差的，会包括过多或过少特定类型的人。
基于非概率样本对总体作出的估计可能与总体实际情况存在系统的、未知的差异。对于当代中国很多引起人兴趣的问题 —— 包括所有试图沿任何单一向度描述一个总体的问题—— 的可靠答案只能在全国概率样本获得的数据中找到。
尽管产生能代表中国全体人口的样本的程序并非不可企及（即便在1989年后的研究氛围中），它们对绝大多数人来说仍是不现实的。这是一种不幸的环境，但不是灾难。根据地方样本的数据，我们可以可靠地回答有关变量之间关系的问题，而且对这类极为重要的问题的答案可以被推广到超越样本的一个总体。比如，虽然我们不能使用来自地方样本的数据可靠地（象史天健做的那样）估计全中国人参与政治行动的方式，但我们可以运用这些数据对于政治参与形式与年龄、性别、职业等的关系作出可以推广的推理，并且不是一定会遇到可靠性问题。只有当抽样时选择的人从我们研究的变量关系角度看异乎寻常的时候，非代表性样本才对作出估计构成问题。
线性回归是一种统计分析形式，它极好地表明用非代表性样本的数据也有可能做出可靠的估计。一个回归模型就是两上或更多变量之间由理论假设的因果关系。它典型地表述为一个线性方程，其中包括一个（理论试图解释的）因变量，一个常量，一个或更多的自变量或“解释”变量（理论假设的原因）以及需要估计的系数。系数是解释变量的每单位变化引起的因变量的变化量。方程还包括“误差项”，以承认解释的不完备性。误差项包括任何未作为变量包括到模型中并且因此在收集数据时未被测量的因素。
比如，在一个简单的模型中，可以从理论上假设人们的收入可以由其受教育的年限来解释。研究者进而收集对收入和教育水平的观察（每一个人收入和受教育年数的数据构成一个观察）。在一张图表中，可以用y轴标志收入，用x轴标志教育，然后在标志出的各观察值中间划一条线，使各个观察与该线的垂直距离最短。该线的斜率就是教育变量的系数：它是教育变量（在其它条件相同的情况下）每一单位变化（比如小学以上每增加一年）引起的收入的变化。并非各个观察都正好落在该线上，它们与直线的垂直距离等于“随机误差”。显然，这种模型不够充分，收入水平的变化可能有其它重要的解释。我们可以把这些其它的解释（解释变量）加到模型中，可以收集它们的数据，可以用回归分析来分析它们对收入水平的独立添加效应。
只有理解了回归模型中的误差项，才能理解非代表性样本对于依据样本推断总体的努力究竟有什么影响。模型中的误差项是一个理论概念，与数据收集无关。它表明研究者务实地理解模型中有不明因素（包括测量误差以及总体固有的可变性）可能导致因变量的变化。误差是可容忍的——除非它们具有系统模式。非常具体地说，如果解释变量与误差项不相关，并且每一观察的预期误差为0，误差是可容忍的。这些假定并不符合直觉，我们将在下面用例子详细说明。现在我们只是用较简易的语言说，如果被列明并被测量的解释（解释变量）与未被列明并且未被测量的因素没有系统的联系，并且因变量的各个观察值并不系统地偏离由解释变量所解释的模式，误差就是可以容忍的。如果相信模型说明的理论，那么误差就被假定是非系统性的。
如果抽样并没有违背以上关于误差项的一个或两个假定，那么我们可以就由回归模型代表的理论关系对超越样本的总体做出可靠的推理。当一个（或两个）假定被违背时，模型表述的理论可能仍站得住脚，但不能指望某一样本中的数据产生与理论近似的结果。用非概率抽样程序收集数据时，有一些方法显然可能违背这些假定。
以下是一些例子，用来说明非概率样本可能不具代表性的最常见的几种方式。我们的焦点是根据在中国做的问卷调查而完成的已经发表的著作中经常可以发现的各类样本：在这种情景下，调查样本是对地方总体的概率样本，而不是更大总体（比如全中国农民或全中国人）的概率样本，而后者是研究者希望对其作出推测的。下文讨论对每一例样本偏差如何影响我们就回归方程模拟的关系对总体做出推测。这就相当于问：这个样本偏差对误差项意味着什么？
带着这一问题，这些例子被分为三种样本偏差情形，分别为“良性偏差”“可以应付的威胁”和“致命打击”。当样本的非代表性特征不违反关于误差项的任何一个假定时，出现的是“良性偏差”。可以应付的威胁违背一个或两个假定，但可以运用统计技术加以矫正。致命打击也违反一个或两个假定，但它们是不可解决的，因为不能纯粹由统计技术加以矫正，尽管常常能通过收集额外的数据来矫正。因此，只有这第三种样本偏差才真正成问题。
下文所讨论的理论关系是由近来关于中国农村农业非集体化的政治经济分析文献启发的。非集体化始于1970年代晚期，基本上完成于1980年中期，它将管理生产的责任赋予农户，解除了党和政府对农业生产的官僚控制。这样它就使乡村政治经济发生了巨大的转型。它使几百万地方干部变得多余，也减弱了在职干部的功能。它还鼓励了新的为市场从事专门生产的富裕专业户阶层的出现，到1980年代中期专业户达到大约2300万户。地方干部数量和权力的下降以及专业户的兴起提出了经济资源控制中心发生转换这一有趣的问题：以前的及现在的政治精英已经有效地使自己转变成新的经济精英了吗？
文章开头提到的1983年的中国问卷调查似乎支持下一观点：大量的干部已经放弃作为干部拥有的政治权力（或正在利用干部拥有的政治权力）去作为乡村企业家追求经济财富。问卷调查发现，山西某县43%的专业户是干部家庭或前干部家庭。很多研究中国政治经济的学者，一方面不质疑乡村政治经济发生了根本性的结构转型，同时得出结论说，干部地位是解释在新的乡村秩序中哪些家庭最发达的一个关键变量。简单地说，这一结论背后的理论表明下面三个机制至少有一个在起作用：第一，在非集体化过程中,地方干部操纵了土地和其它资源的分配，结果，他们开始其家庭生产的综合条件与普通农户相比具有不成比例的优越性；第二，即使在集体解散之后，地方干部对生产资料的分配仍有相当的控制，他们从中为自己以及多年共事建立了关系的前任干部谋好处；最后，干部或前任干部得益于本地的人际关系网，这关系网使他们优先获取信息和稀缺资源，而后者都构成在市场交易中获利的机会。每一种机制都把干部权力和地位本身视为一个解释，而不是把可能与干部地位相联系的其它变量（比如教育）作为解释。
政治权力的持有者使自己摇身变为经济能人的问题为考虑有偏差的样本在对总体作出推测中的意义提供了引人注意的焦点。这是一个重要的问题，已经理所应当地吸引了一些最好的社会科学家的注意力。中国问卷调查的结果指向了一个戏剧性的结论，而上文回顾的三种机制也为这些结论提供了令人信服的解释。最有意思的是，社会科学家Ｖictor Nee和同事的认真的问卷调查对这一理论的最简单的形式提出了质疑并得出了与中国学者的发现相矛盾的结论。
良性偏差
在中国进行地域性调查时最常见的良性样本偏差是变量的“非代表性部分”。也就是说，任一给定维度上的地域性变化与希望对其作出概括的更大的总体的变化不同。比如，一个农民的地方性样本可能比全中国农民的总体更富或更穷，或者受教育更多或更少。即使在地域内是用概率抽样程序来选择采访对象，仍然没有理由期望它对中国农民的总体沿任何维度变化上有代表性。
考虑这样一个线性回归模型，其中家庭收入是因变量，干部地位是理论上主要感兴趣的解释变量。干部地位由一个二分的、表明某一家庭成员是否曾任干部的变量来测量。该模型中还包括一个衡量家庭成年成员受教育年数的变量。这使得教育和干部地位的独立添加效应得以被澄清，也可以检验另一替换假说：干部家庭在集体解散后更富裕是因为干部一般受过更好的教育。集体解散前的家庭收入、家庭劳力和非劳力的数量等“控制变量”也包括在模型内。出于方便的考虑，选定了某个县进行调查，但在该县内用概率抽样的程序选出了农民。几百户的观察被收集到。多元回归结果表明，干部地位在统计和实质上都是显著的。可以得出结论，其它条件相同时，干部或前任干部从现在或过去的权力中获得的好处使得他们能从非集体化中最大程度地富起来。
假如有研究人员发现被选中的县在模型中作为一个变量的一个维度上特别不具有代表性。比如，该县的一般教育水平比大多数乡村的要高很多。这一样本偏差会使关于教育与家庭收入变化关系的结论——也（或许）使方程式中涉及其它关系的结论——无效吗？如果认为关于回归模型中的误差项的假定没有被违反，则我们仍可期望对更大的总体的推理是可靠的。图１和图２解释了其原因。

图1：假想的中国农户概率样本中教育与家庭收入变化之间的关系
图2：X县农户的概率样本中教育与家庭收入变化之间的关系

图１标示的是根据来自假想的全中国乡村人口的概率样本的观察得出的农村教育与家庭收入变化之间的关系。因为这是一个概率样本，我们可以认为在教育这一维度的外上端的观察点集可靠地反映了全部农业人口中教育水平相对较高的那一部分人口。在图１中，这一部分人很少。
图２表明了同样的关系，但它是从地方问卷调查数据估计出来的。这个样本是一个县农民的概率样本。我们可以认为教育这一维度的外上端的观察点集可靠地反映了该县具有相对较高教育水平的农户的情况。比较这两幅图中的点集，该县的样本对全中国乡村教育水平很不具有代表性。正如我们所预料的，乡村总人口的非概率样本不能沿任何单一维度提供可靠的数据。也就是说，我们不能用地方样本说明中国农民总体上受过多少教育。
但是，估计的教育与家庭收入变化的关系不依赖于样本的各个部分。在两张图中，教育直接随家庭收入一起变化，而且没有内在的理由假定它不会以相似的程度发生变化。因此，非概率样本中不具代表性的部分并不影响对变量间关系的估计的可靠性。
我们经常把样本观察与现有的聚合数据（比如人口普查数据）进行对比，以了解非概率样本在何种程度和在哪些方面不具代表性。但在很多情况下，比如，当被测量的是价值观或信念时，聚合数据是不存在的。这时，就不可能对样本的代表性作任何具体的推测。这并不重要；我们可以假定非概率样本的各个部分不具有代表性。而这对社会科学家所提出的大多数问题也不构成障碍。非代表性的各个部分都是样本偏差的情境，但它们并不会内在地威胁到关于变量间关系的发现的可推广性。
现在考虑另一种不同的非代表性的部分。被选的地域在一般意义上不能代表中国农村，但是它的非代表性在于一个未作为变量包括到模型中的维度。比如，该具人口中有很高比例的少数民族。显然，这使该县与众不同。
我们必须从理论假设的关系角度考察这一情形会如何影响我们作出关于全体中国农民的推理。也就是说，尽管人们普遍认为汉族与少数民族在很多重要方面有所差异，要问的问题是：如果该样本被分为少数民族和汉族两组，可以预期从这两组获得的有关理论假设的关系的发现会有所不同吗？显然，如果一个变量（比如少数民族地位）被认为具有解释力，那么它将被包括到模型中来。但是模型是简省的，没有任何地方是完全典型的，而且非概率样本中的各个部分可能在无数维度上没有代表性。因此，有关地域样本，很可能产生未被纳入模型的变量是否相关这类问题。
比如，有理由认为干部地位和家庭收入之间的理论关系对少数民族和对汉族来说是不同的吗？一个理论的回答可能就足够了。如果研究人员满足于否定答案，样本的非代表性就无关紧要，但如果答案可能是肯定的，则可以用经验方法处理这一问题。假定样本的观察包括关于少数民族身份的信息，那么就可以在模型中加入一个标明这信息的变量，这样就在统计上控制了非代表性。这时，少数民族身份就可以被认为是一个潜在的解释变量，而且可以用经验方法回答下面这个问题：这种非代表性重要吗？不管它是否重要，通过使用一个控制变量分离出少数民族身份的独立添加影响，我们仍然可对包括汉族和少数民族的总人口作出可靠的推论。

可以应付的威胁和致命打击：违反假定一
除了回归模型标明的解释变量，各种误差也会引起因变量的变化。由于模型一定是不完全的，所以误差是意料之中的——它包括所有没有标明并且没有测量的因素。非系统性的误差并不影响对回归方程模拟的关系作出的估计的可靠性。因此，关于这些关系的模型容许有误差，不过同时也假定这些误差不具有系统的模式。如果违背了模型中的解释变量与误差项不相关这一假定，对模拟的关系的估计就是不可靠的。
研究者感兴趣的总体的非代表性样本可能导致对这一关键假定的违背。在有些情况下，这种违背可以借助统计技术加以矫正（可以应付的威胁）。然而，在其它情况下，即使问题能够矫正，也只能通过收集新的数据实现（这是对从样本获得的发现的可推广性的致命打击）。
回顾上一节描述过的回归模型。因变量是非集体化后农户收入的变化。解释变量也是以户为基础测量：前任或现任干部地位、成年人受教育年数、集体解体前的收入、劳力与非劳力人口数。如上所述，出于方便，选择了一个县进行地区调查。在该县内，用概率抽样程序选出几百家农户。然而，在本例中，基于样本观察的多元回归结果表明，干部地位是不显著的。
由于该县内的农户是用概率抽样程序选出的，对研究结果的可推广性的考虑主要集中在样本被选出的地区。样本偏差将会如何影响模型中误差项与一个或多个解释变量的相互关系呢？
假定与中国农村的总体情况相比该县的总体与样本都是异常的，因为该县很高比例的居民有亲属居住在国外（如果该县位于南部沿海地区，情况就会如此）。如上，我们必须从理论假设的关系角度看样本偏差的意义：如果把样本分为有海外亲属和没有海外亲属的家庭，可以预期从这两组家庭得出的关于理论假设的关系的研究结果会有所不同吗？显然，设想海外亲属会有所影响是合理的。一些专业户富起来，可能只是因为有大量的初始资本投入，而资本的一个来源可能是其海外亲属。
如上指出的，当有人言之有理地认为非代表性会有影响时，问题可以用经验方法得到解决。在这里，我们假定样本观察包括相关的信息，我们就可以在模型中增加一个标明农户是否有海外亲属的变量，以便从统计上对非代表性进行控制。用这样的方式表述，这里的问题与前面关于少数民族身份偏差的问题完全一样。
但这一问题的本质是不同的。我们最关心的不是省略了一个潜在地相关的变量，而它必须被纳入模型以便对样本在某一维度上不具代表性的部分进行控制。在这里，我们最关心的是模型中一个或多个解释变量与误差项之间的相关性。现在考虑一个附加的命题：在其它情况相同的情况下，与从未当过干部的村民相比，前任或现任干部较少可能有海外亲属。考虑到在集体经济解体之前人们普遍认为有近枝亲属在海外的人政治上不可靠，这个命题显然不是难以置信的。
如果接受这第二个命题，那么不测量是否有海外亲属（即把是否有海外亲属放在误差项内）就会产生系统性的误差。我们模型中的误差项将会与表示干部地位的解释变量相关。对于构成回归分析基础的一个关键假定的违反使得估计变得不可靠了。
图3，4，5标示了这一问题及其解决办法。图3画出了干部家庭和非干部家庭的收入变化的样本观察，其中前任或现任干部家庭用数值2表示，非干部家庭用数值1表示。从图中，看不出干部地位与收入变化有明显的关系。有少数干部家庭收入有较大增长，但绝大多数干部家庭增长处于中等水平。相当大比例的非干部家庭收入增长相对较大，但更多的非干部家庭相对增加较少。有这样一些观察，毫不奇怪回归结果指向的结论是干部身份并不能帮助解释家庭收入的变化。
图4，5标示同样的关系，但样本被分为有海外亲属的家庭（图4）和没有海外亲属的家庭（图5）。这两张图中点集的相对规模表明，与非干部家庭相比，较小比例的干部家庭有海外亲属。这标示了上文假定的第二个命题。这一命题的含义很清楚。在控制了家庭是否有海外亲属的影响后，干部地位事实上与家庭收入的变化是相关的。在有海外亲属的家庭中（图4），干部家庭比非干部家庭的收入增长更大；没有海外亲属的家庭之间也存在类似的关系（尽管斜率并不完全一致）（图5）。

图3：X县家庭的概率样本中干部身份与家庭收入变化的关系
图4：X县家庭的概率样本中有海外亲属的家庭的干部身份与家庭收入变化的关系
图5：X县家庭的概率样本中没有有海外亲属的家庭的干部身份与家庭收入变化的关系

当模型中的解释变量由于样本的非代表性而与误差项相关时，样本偏差的情况不是不可救药的。解决方法本质上与上一节建议的没什么不同。我们可以在模型中增加解释其相互关系的变量来对付这一问题（在这个例子中，是增加表明是否有海外亲属的变量）。但是，尽管解决方法基本相同，但问题本身是根本不同的。在一上节，作为回归模型基础的假定并未被违背，而在这里样本偏差的情形违反了回归模型的一个关键假定。
用统计方法解决这一问题要求收集个体层面（此处是家庭层面）的变量数据，如果已经收集了这些数据，对模型的关键假定的违背就是可以应付的威胁，否则，该问题就可能对从样本获得的发现的可推广性构成致命打击。有关样本偏差情形的聚合数据（比如有无海外亲属的干部家庭的比例和有无海外亲属的非干部家庭的比例——不管是全县的还是样本的比例）不能用来矫正这一问题。在这些情况下，就需要收集个体层面的新数据。
然而，解释变量与误差项之间假设的关系并不一定意味着问卷调查研究的结果无效。如果第一个假定被违背而且没有可以用来进行统计控制的个体层面的数据，那么，只有当被排除的变量的影响被假设的影响是显著的时候，这种违背才是严重的。换言之，在这种问题未能用经验方法回答之前，研究人员将不得不依靠常识和良好的判断力评价损害程度。

可以应付的威胁和致命打击：对假定二的违背。
本节考虑导致违背第二条假定的非概率抽样的影响。模型中的误差具有系统性，因为预期的误差值不为零。假定这种违背对可推广的威胁可以控制，矫正这种违背需要不同的数据和更复杂的统计技术。
导致误差均值不等于零的最常见的情形之一是对因变量观察的“删节”。这里的问题不是随机缺失的观察，而是把因变量的观察的一些组别系统地排除在外。导致“被删节的”样本的一个通常原因是“样本选择偏差”：样本选择规则仅依赖于因变量的值，或者选择标准与因变量相关。不管哪种情况，都违反了第二条假定。发生在样本中的误差不再为零（零是预期值），因为抽样程序已经把从理论角度看“异常的”的观察排除在外了。
关于样本选择偏差的讨论一般会假设，采用了概率抽样程序，但是一些类型的观察与模型相关但未被测量。一个经典的案例是，James Tobin想解释家庭愿意花多少钱买新车，但他发现他对实际购车的分析展示的是一个“被裁掉一截”的样本：有些家庭愿意花在车上的钱少于最低车价，实际上没买车，因此，他们愿花的金额未被观察，被记录为零。 “删节”样本的问题在研究者以因变量的值为基础选择样本时尤其可能发生，人们普遍承认这样做不大科学，但实践中这种作法并不少见。
假设有一位研究者想解释集体经济解体后家庭收入的变化并在收集地方样本数据时只把收入有较大增长的那部分家庭选入样本。选择程序的这种偏差基本上就是本文开篇提到的1983年对山西某县专业户的调查中存在的偏差。在这一调查中，选择标准（是否是专业户）与因变量的值显然是相关的：因为专业户一般有较高的平均收入，他们在集体经济解体后收入的变化（因变量）被预计比所有家庭普遍经历的变化大很多。也就是说，这个抽样程序很可能把因变量值不高的家庭排除在外。从前文提到的回归模型假设的理论关系角度看，根据这样一个删节的样本产生的研究发现有什么异常呢？
首先，对任何解释变量，删节的样本的回归线会比“真实的”（没有删节的样本的）回归线平缓。这意味着研究结果会系统地低估模型中的解释变量的真实影响。这可以在图6中看出来。图6中因变量是家庭收入变化，标出的解释变量是教育（使用其它解释变量得到的结果本质上相同）。如图６所示，只将“专业户”家庭选入样本的结果是删节了对集体经济解体后收入增加相对较少的家庭的观察。结果，教育的影响被低估了：将某些家庭排除在观察之外大大地降低了回归线的斜率。图６中所示的“真正”的回归线（将删掉的观察纳入进来）要更陡一些。如果出现极端的低估，回归线会接近于水平，结果是，真正显著的关系会显得不显著。

图6：X县专业户概率样本中教育与家庭收入变化的关系

显然，由被删节的样本引起的极度变平缓的回归线对于估计变量之间的关系造成了严重的问题。有这样一个被删节的样本，有关这些关系的发现是不能被推广到总体的。除了这一对外在有效性的威胁之外，以因变量的值为基础选择样本可能产生对第二个假定的更复杂（而且更有害）的违背。与因变量相关的内生性选择机制也会发挥作用，删掉某些观察值。这种违背也对发现的可推广性构成威胁，以下就是这种违背的一个例子。
在前面两节和本节中用作例子的模型中，引起关键理论兴趣的是：农村的政治权力持有者是否通过农业集体经济解体提供的机会将自己转变为新的经济精英。我们记得，支持这一假定关系的理论包括下述解释：在集体经济解体后，干部们在开始其家庭生产时具备的全套资源与普通农户相比好得不成比例，因为在执行非集体化政策的过程中，干部控制着土地的和其它资源的分配。在这一解释之内，暗含着一个与因变量相关的内生性选择机制，该机制删掉了“专业户”样本中的某些值。
要理解为什么会这样，首先要明白该解释的暗含之义：样本中的那些干部本质上是通过在非集体化的过程中运用权力给自己的家庭分配更多、更好的资源而将自己选进了样本。但这种自己把自己选进入样本又有什么意义呢？
假定增加家庭收入是所有干部都偏好的选择。那么，凡是在非集体化中能够将其政治权力转变为经济资源的干部都会这么做。在集体经济解体后收入的增长一般高于平均水平的“专业户”样本中的干部之所以在这个样本中，是因为他们在划分集体资源时相对较大的权力使他们得以成为专业户。这种自我选择机制删节了对于一些干部的观察，这些干部在对于这种权力的假想量表上得分会很低。
在这里，问题的关键是“权力”，它解释了样本的选择，也可以被预期解释因变量的值（即集体解体后家庭收入的变化）。具体地说，使干部家庭被选入样本的那种权力很可能也把这些家庭选入比样本中的非干部家庭增长更大的家庭之列。在专业户样本中，有关干部身份与集体经济解体后家庭收入变化之间具有显著关系的发现有可能是误导的。它忽略了一个至关重要的关系：在非集体化之后，所有的干部都被预期比非干部收入更高（理由如前几节所述），但有权势（对非集体化过程有权力）的干部被期待肯定能做到这一点。由于回归模型中没有测量权力，某个假设的能够解释入选样本的方程式中的误差项就与模型中的误差项相关。从平均值看，家庭收入变化的观察系统地偏离由模型列明的自变量所解释的模式。假定二被违背了：模型中误差的预期值不为零。
要克服上述问题对可推广性的威胁，需要对产生删节的选择程序有足够的理解。它也要求比前文提议的统计控制高深许多（并远远超出了本文的范围）的方法论。不过，更重要的是，类似删节这样的问题并不必然是不可解决的。在过去十年左右，有关如何对付样本选择偏差引起的问题的文献已经发展起来了。显然，在研究人员的控制范围内，他们避免根据因变量的值来选择样本。但是知道对可推广性的威胁并不必然是个致命打击毕竟是令人放心的。
结论
中国政府允许研究人员运用问卷调查方法探讨有关中国社会、经济甚至政治方面的问题，迄今已经大约十年了。绝大多数在中国进行的问卷调查，都用概率程序来确定某一或几个地域内要采访哪些人。这些地域的选择，不是根据任何随机选择原则，而是一部分为了方便，并且总是需要获得政府的批准。显然，出于方便而选择的一个或几个地区内的被访问的中国人样本，不能可靠地代表研究感兴趣的更大的总体。
本文指出，原则上没有理由认为地区样本是“个案研究”。尽管我们不能依靠来自地区样本的数据沿着任何单一的维度去描述更大的总体，这种非代表性并不一定影响有关变量之间关系的研究结果的可推广性。
并不是所有关于变量之间关系的说法都经得起认真推敲。总的来说，没有哪一个地域或哪一些地域对中国来说是“典型的”。所有的地区样本在任何数目的维度上都可能（在广义上）是异常的。但这可能无关紧要。要考虑的关键问题是地区样本的异常特征与假设的理论关系是否相关。相关性的问题通常可以通过控制那些可能产生混淆的异常特征而用经验方法解决。对数据搜集地区和作为研究对象的总体的了解越多，就越容易评价从地区样本中得到的研究结果的可推广性。对于某些问题来说，我们可能无法相信在任何单一或一组地域内获得的研究结果具有代表性，即便是在假设的理论角度看也是如此。如果是这样，就必须运用常识和判断力来评价研究结果适用的范围——是农民，沿海地区居民或其他的什么人。
在科学的统计推理中，没有什么东西内在的阻止社会科学家认为非代表性样本中的变量之间的关系可以推广到总体。与此相反，有很多理论支持这种做法，也有很多简单或不那么简单的统计方法有助于这么做。这意味着，如果问卷调查和统计分析是恰当地进行的，那么关于从地区样本获得的研究结果的最大讨论将不会引发方法论问题本身，而会引发判断力是好还是不好的问题。
1983年对中国山西某县的问卷调查发现，43%的专业户是干部或前任干部家庭，我们可以从中得出什么结论？这个调查发现在几个方面代表了很多根据在中国做的问卷调查得出的已经发表了的结果。绝大多数情况下，据以得出研究结果的样本是地区样本，而且多数是（但不都是）一定地域内的概率抽样。正如本文表明的，从这种样本中作出推论没有什么内在的问题，然而，不幸的是，很多研究结果是以描述性（而不是推理）统计分析的形式报道出来的。我们无法估计这些估计作为对于更大总体的描述是否可靠，也没有科学根据相信这种估计是可靠的。换言之，1983年的问卷调查结果不多不少地就是它所报道的东西：山西某县“专业户”中的一部分是干部或前任干部家庭。这个发现对于该县是一个描述性统计分析。它不是通过对干部身份和专业户地位之间关系进行推理性统计分析得出的结果。但中国研究者中一些最优秀的社会科学家已经着手研究一些山西某县的问卷调查没有回答的重要而有趣的问题，而且他们已经发表了一些根据疑点较少的调查研究和更精深的统计分析得出的研究发现。作为中国研究中新出现的问卷调查研究的有鉴别力的顾客，学者们可以对这些发现作出自己的结论。

墨宁（美）\周凤华李连江译

人文与社会 :: 文章

墨宁：当代中国研究中的问卷调查研究：从地方样本中学习