他懂黑暗 ,却使音乐响起。
忆及此套图书的编撰缘起 ,便难以绕开我在燕园的受教经历与生命历程中诸多恩师的耳提面命。京师大学堂 (北京大学前身 )首任校长严复先生尝谓 :今世学者为西人之政论易 ,为西人之科学难。政论有骄嚣之风 (如自由、平等、民权、压力、革命皆是 ),科学多朴茂之意。且其人既不通科学 ,则其政论必多不根 ,而于天演消息之微 ,不能喻也。此未必不为吾国前途之害。故中国此后教育 ,在在宜着意科学 ,使学者之心虑沉潜 ,浸渍于因果实证之间 ,庶他日学成 ,有疗病起弱之实力,能破旧学之拘挛 ,而其干图新也审 ,则真中国之幸福矣。
燕园提倡科学、因果实证方法之思想根源由是可见。此后 ,北京大学教授胡适与傅斯年在历史学研究中 ,又首开国内实证研究之先河 ,尤其是 “大胆假设、小心求证 ”的思想电照风行 ,影响更为深远。受此精神的濡染与浸淫 ,笔者的研究旨趣从自然科学转向社会科学 ,并获诸多师长谆谆教导 ,渐入实证研究殿堂。此后 ,又幸得美国伊利诺伊大学 Tim Liao、普林斯顿大学谢宇、芝加哥大学 James Heckman和 StephenRaudenbush等教授的悉心教诲 ,更觉如鱼得水、渐入佳境。
日月不淹 ,春秋代序 ,转瞬间笔者投身于科研、教学已逾三十载 ,依然夙夜忧叹,恐初心难寄 ,故焚膏继晷 ,不遑暇食 ,殚思极虑 ,匪石匪席。科研经年 ,荒野寒暑 ,庶竭驽钝 ,遍尝百草 ,最终发现以理论为导向的实证研究妙趣横生。譬如 ,在理论建模、数据处理过程中降妖除魔、历尽千磨万击而最终过关斩将、一骑绝尘、直奔顶峰的乐趣 ,足以媲美最经典的游戏桥段 ;在寻寻觅觅、追本穷源过程中发现问题答案并渐得合理结论而激动与战栗的刹那 ,足以使人忘却模型建构、数据分析中的苦思冥想与寝食难安。上下求索 ,山重水复疑无路 ;蓦然回首 ,结论竟在柳暗花明处。一时间 ,面对意料之外、情理之中的结果 ,喜悦与慰藉齐飞。同时 ,穷理尽性、脱然贯通的幸福感亦沁入心脾 ,令人百骸俱疏。
传道授业 ,明辨事理 ,格物致知 ,殚精竭虑 ,因而如临深渊 ,如履薄冰 ,夙夜匪懈,一课一讲未尝有丝毫懈怠 ;一词一句 ,如指诸掌 ,言之凿凿 ,如数家珍 ,不敢有半分差错 ,唯恐疏忽未尽、贻误后学。甚感欣慰的是 ,本校、外校同学及部分中青年教师等人士学习的积极性颇高 ,教室常一座难求。俟课始 ,诸生便凝神屏息 ,唯恐不得讲者之口授心传。不仅如此 ,他们还谬赞笔者为 “少有的良心教师 ”“最会教计量的那个人 ”“听他讲复杂模型 ,像听小说般如痴如醉 ”等,并戏称笔者的讲义为 “葵花宝典 ”。学生与同行的抬爱与鼓励 ,常使笔者百感交集、涕泣盈眶。投我以木瓜 ,报之以琼琚 ,遂长年授课 ,不辞艰辛。尤为幸甚的是 ,笔者任教的所有课程均被遴选为精品课程。其中 ,“社会统计学及 Stata应用 ”获 “十四五 ”校级一流本科课程立项,“高级社会定量分析 ”获校级研究生优质课程建设项目 ,且均已上线中国大学 MOOC (慕课 )和其他平台 ,目前全国已有 20余所高校师生及众多社会人士参与 ,反响颇佳。
尽管此套图书最初作为本科生、研究生及培训课程讲义 ,帮助无数受众利用量化方法 ,顺利发表了数量可观、质量颇高的论文 ,在一定程度上解决了生存焦虑 ,但在长年的授课及师生互动的过程中 ,笔者依然遗憾地发现部分同学深受量化学习之苦,尤其为教材所绊。往往在课堂上听懂了、明白了 ,但课后一翻英文文献资料或以复杂数学推导为主的统计教材 ,便茫然无措 ,不知所云 ,或觉有云泥之别。这对于社会科学专业的学生 ,尤其是高中文科出身的同学 ,在自学、理解、再现及应用等方面可能存在一定的挑战。然而 ,对于社会科学而言 ,量化研究范式及统计模型的学习不可或缺。与其他范式相比 ,量化研究有规可循、有矩可依 ,理应是社会科学研究方法学习中最容易学习及掌握的范式。而因果推断恰是科学探索的核心与宗旨 ,更不能也无法规避。“只找到一个原因的解释 ,也胜过当上波斯人的国王。”①对因果推断的探索 ,目前已成为社会科学研究的主流。但如何从学生们熟悉的线性回归过渡到复杂的因果推断 ,与其说是一门精细的技术 ,不如说是一门难懂的艺术。
因此 ,笔者在自己的社会统计学、计量经济学及因果推断教学讲义之基础上 ,借鉴自己所授精品课程及 MOOC课程的经验 ,决定为中国学生写一套从基本统计概念、统计软件操作到线性回归 ,再从线性回归切入因果推断的系列图书 ,即《社会统计学及 Stata应用》《进阶社会统计学及 Stata应用》《从线性回归到因果推断》,以求罕譬而喻、深入浅出。图书以通俗易懂、简洁明了、浅白流畅的表达讲解深奥的模型原理及其背后的本质 ,用精心打造的案例事无巨细地阐述复杂模型的应用与操作 ,寓理论于实践 ,融问题意识与人文关怀于其中 ,力争使统计图书的严谨性和叙事的故事性、表达的趣味性合而为一 ,试图打造一套中国学生喜闻乐见的 “探索量化研究方法、致力于因果推断的图书 ”。
随着写作的不断深入 ,以减轻读者量化研究的生存焦虑为志趣 ,致力于中国的社会科学研究与国际学术接轨 ,笔者又提出了进一步的自我要求与愿景 :为中国学生写一套学生能读懂的统计学及因果推断图书 ;为中国读者写一套便捷的 ,能够由浅入深、循序渐进地掌握复杂量化分析方法与技术的丛书 ;为中国学生及读者写一套传世图书 ,即为广大读者呈上一套寓教于乐、心怀天下地探究高级量化分析方法、致力于因果推断的经典作品及实用手册。
作品特色
此套图书尤为值得一书的特色 ,是从平等的学生视角出发 ,以 “是什么 ”“为什么”及 “怎样做 ”为编撰逻辑 ,在语句表达、章节安排及段落顺序上予以打磨 ,适宜学生阶梯学习、友好阅读及实际操作。身为教师 ,在编撰图书时不由自主地会从教师的视角出发 ,经常在无意间忽略或无暇顾及学生的接受程度及理解能力 ,以致许多图书或高高在上俯视众生 ,或佶屈聱牙 ,最终不是被束之高阁 ,就是被弃若敝屣。此套图书则以学生自我学习与友好阅读为出发点 ,将教师枯燥讲解的静态画面转化为能让学生身临其境、感同身受 ,且步步升级 ,集自我期许、自我奖励及学习乐趣于一体的立体性图书。因此 ,笔者不仅郑重邀请有志于此的学生参与作品编撰 ,而且在教学实践中让几十所高校的学生进行试读与修订 ,并参阅同行及相关学者、教师的建议 ,得到了广大师生的积极反馈与鼓励 ,方敢尝试出版。
需要重点说明的是 ,笔者的学生 ———芝加哥大学经济学系的研究生陈馥婷 (Fu-tingCHEN),不仅认真听了与观摩了笔者的全程教学 ,而且参与了此套图书的整体编撰。尤其难能可贵的是 ,她基于学生理解与学习的视角 ,对笔者的课堂讲义进行了大量的增删、段落调整、制图及语句表达的修订。因此 ,她是此套图书当之无愧的合作者。
编撰此套图书的挑战主要来自 :其一 ,如何更好地服务于无高等数学背景或数理功底相对较弱的社会科学专业的学生 ;其二 ,如何突破许多统计图书内容泛泛、语言枯燥、不用案例、不接地气的桎梏 ;其三 ,如何适用于社会科学 ,尤其是文科背景学生的教学特点 ,即培养的重点并非在于统计方法的创新 ,而在于如何把富于人文性、思辨性的理论与统计实践相结合、学以致用 ,使他们既能利用正确的统计方法分析与处理数据 ,解读数据背后的机制 ,理解与发现社会 ,又能通过标准的统计学方法、模型及统计软件解决实际问题 ,提升或改进社会科学理论。此套图书试图超越上述挑战 ,力求达到如下标准 :
(1)图书内容具有全面性、系统性、创新性。一套优秀的统计学图书 ,不仅要涵盖统计学基础知识的重点、难点 ,还要把基础知识、研究问题及学科前沿的研究成果有机结合 ,并通过合理铺垫 ,以实现与后续学习内容的有序延展与顺畅对接。
(2)从研究问题及中国案例入手 ,把统计理论穿插其中。以适用于社会科学各学科、跨学科的中国案例及学生耳熟能详的研究问题为起点 ,把统计原理与公式糅合其中 ,加强学生对统计思想的理解 ,淡化公式的推导与死记硬背 ,但要求读懂公式背后的故事 ,启发读者对现实问题的思考 ,培养他们分析与解决问题的能力 ,从而提高学习的针对性与实用性。此外 ,尽管在正文中淡化了数学公式的推导 ,但考虑到不同读者的需求 ,把数学公式的推导放入各章附录 ,以供查阅与参考。
(3)强化统计软件的应用。现代统计学或数据分析 ,不仅是手工计算所无法完成的,而且即使学会统计计算 ,也不一定能正确使用统计方法来解决实际问题。因此 ,此套图书从中国案例分析、具体问题入手 ,强化统计知识点在实际研究中的应用 ,并从真实数据出发 ,辅以 Stata统计软件操作演示命令 (提供完整的 dofile),对操作过程及统计结果进行详细解读 ,强化对案例分析、统计思想、方法特点、应用范围、局限性的理解 ,力图使学生在阅读中获得沉浸式的课堂体验。
(4)图书编排的友好性。这是指不仅保证此套图书内容的可信性 (系统性、科学性及正确性 ),还要保证呈现形式的可爱性 (语言文字、图表、案例等)。如何在可爱与可信之间权衡 ,更加友好地服务于社会科学专业的本科生、研究生及青年教师等 ,是此套图书的首要任务。因此在编排上 ,尽可能地把复杂的概念与问题合理拆解 ,以简单而不失严谨的逻辑、易于让读者接受的语言文字、清晰易懂的图表和命令 ,力求浅显易懂、循序渐进地展现 ,由浅入深、深入浅出 ,由此期待在统计学科的严谨性 (如严密的数学证明 )与通俗接地气的解读之间达到一种有机的平衡。
同时 ,此套图书保留并延续了已出版姊妹篇图书的编撰特色 ,诸如 :
(1)聚焦基础统计概念、线性回归及因果推断方法与技术的应用。此套图书在浓缩与提炼了几十部英文原典精髓的基础上 ,结合实际调查数据 ,对统计概念、回归模型及因果推断方法的原理与应用进行教学式解析 ,重在实例分析、Stata程序实现以及对统计结果的详细解读。
(2)试图涵盖现代因果推断研究领域的前沿方法与技术。此套图书不但注重常规模型的应用 ,更放眼于国际主流社会科学学术刊物 ,对因果推断方法与技术的前沿进展及具体应用进行详细的解读 ,来帮助读者读懂、欣赏与评价高级计量分析文献,并能规范地运用此类成熟的技术。
(3)淡化公式推导 ,重在细节丰富及实用。根据定位目标与服务人群 ,此套图书力图避免使用晦涩的数学语言与公式推导 ,弱化对矩阵等计算方法的介绍与要求 ,强化模型应用与统计结果的解读 ,让读者能够按图索骥 ,准确而高效地掌握社会统计、回归分析及因果推断等工具。
(4)完整呈现执行文件。此套图书不仅在正文中呈现完整的 Stata命令语句 ,详细解读命令用法及对应的数据特征 ,写明注意事项 ,还通过实例操作示范性地解释模型结果。另外 ,此套图书还提供所有案例分析的数据和 Stata执行文件。当读者应用图书中提及的模型时 ,多数情况下只需在执行文件中替换原文件中的变量 ,并到对应的正文中寻找示范语句加以解释即可。
就《进阶社会统计学及 Stata应用》(以下简称 “本书 ”)而言 ,读者可以通过案例分析与软件操作 ,进一步掌握社会统计学的原理、核心知识及应用方法 ,熟悉数据统计分析的技术与流程 ,提升统计软件的操作能力与结果解读水平 ,培养科学的统计思维 ,为未来高阶统计学习 (如回归分析与因果推断 )及复杂问题的解决奠定坚实基础。本书强调数据的收集、准备与基础性统计分析方法的学习 ,注重实用性与操作性 ,尤其突出统计学的黄金法则 ———检验、检验、再检验 ,以强化统计推断的生命力与重要性。唯有通过严密的统计检验 ,才能从有限样本推断至总体 ,确保推理的可靠性。若理论未经反复检验与实证支持 ,则极有可能只是一个容易被证伪的特殊性理论 (adhoctheory)。只有通过持续而严格的实证检验 ,理论的科学性与普适性才能真正得以确立。
本书适用于社会科学专业的本科生、研究生、青年教师及有一定基础的量化方法爱好者 ,既可以从零起点学习 ,也可以作为进阶读物 ,来指导论文 /著的撰写与发表。学习本书的预备课程包括概率论与数理统计知识、社会调查研究方法、抽样调查等基础知识。
作品结构与数据说明
因经费有限、出版要求与字数限制 ,此套图书分为三本 ,即基础篇《社会统计学及 Stata应用》《进阶社会统计学及 Stata应用》及进阶篇《从线性回归到因果推断》。此套图书既可独立成书 ,亦存在承继关联。
《社会统计学及 Stata应用》共5章,其脉络为 :从抽样及研究设计的讨论开始 ,过渡到抽样分布及参数估计等内容的讨论。需要说明的是 ,此图书已于 2024年由经济科学出版社出版。
《进阶社会统计学及 Stata应用》共 7章,其脉络为:延续《社会统计学及 Stata应用》的内容,回顾社会统计学基础概念,重点讨论假设检验、方差分析、相关分析及简单线性回归等。
上述两图书宜作为规范量化研究及计量经济学学习的入门读本。若未深谙其内容,可能会对理解后续进阶图书有一定挑战。
《从线性回归到因果推断》共 11章,整体脉络围绕 “线性回归—过渡—因果推断”逐步展开。重点解决如何从学生熟悉的线性回归模型,过渡到更复杂的因果推断方法与技术,兼顾理论逻辑推导与模型分析操作,并辅以丰富的实证案例。前几章从简单线性回归的原理入手,依次讲解多元线性回归的推导与应用,随后引导读者思考回归模型在因果推断中的局限性与可能性。中后几章系统介绍因果推断的主要方法与识别策略,首先从追踪数据常用的方法切入,探讨内生性问题并引出工具变量法 ((DID)、三重差分法IV);继而围绕准实验设计展开,讨论双重差分法 (DDD)、双重变化模型 (CIC)等方法;随后介绍断点回归设计 (RDD),并最终落脚于观察性数据条件下的倾向得分匹配方法 (PSM)及其系列扩展。通过理论推导、模型应用与实证演练的结合,力求帮助读者在理解方法本质的基础上,掌握因果推断的核心思想与实践技能。
在上述三本图书中,主要使用的数据为 CHIP2013及各方发布的公开数据。此处仅对 CHIP2013简介如下:
中国家庭收入调查 (CHIP)致力于追踪中国收入分配的动态情况。其由国内外研究者组织,并在国家统计局的协助下完成。CHIP调查分别于 1989、1996、2003、 2008、2009和2014年收集了前一年的收支信息,这些数据按照收支发生年份被分别编号为 CHIP1998、CHIP1995、CHIP2002、CHIP2007 (RUMiC2008)、CHIP2008 (RUMiC2009)和 CHIP2013。所有的数据均包含农村和城镇住户的调查,并鉴于农村向城镇迁移的日渐重要的现实意义,以及城镇和农村样本并未包含所有流动人口, CHIP数据从2002年开始包含了流动人口样本。
此套图书的案例分析主要采用 CHIP2013数据。该数据于 2014年 7—8月份收集,样本来自国家统计局2013年城乡一体化常规住户调查大样本库,并由 CHIP课题组按东、中、西分层,采用系统抽样而得。该调查包括农村、城镇和流动人口三个样本,共覆盖从15个省份、127个城市和 234个县区抽取的 18948个住户和 64777个个体。其中有7175户城镇住户、11013户农村住户和760户外来务工住户。其他所用案例数据,会在各对应章节脚注中予以解释与说明。
致谢
感谢家人,父慈子孝,长惠幼顺,讲信修睦,笙磬同音,康泰安平,其乐融融,为笔者的顺利写作提供了充足时光与遁世港湾;感谢纳欣悦、许茗萱、王丁一鹤、吴爱晖、王舒垚、苏荷雅、陈强、黄达、岳永逸、张立英、王海港、边燕杰、周雪光、陆铭、田梦怡等诸多师生挚友,对此套图书提出了大量有益的建议与修改意见。感激之情,无以言表,唯 “日趋於新、精益求精、密益加密”为报。不宁唯是,幸得亲朋师友宽厚仁济、砥砺扶持,纵使荆棘丛生,屈心抑志,忍尤攘诟,步履维艰,仍以 “横渠四句”诚意正心、识仁求仁,以潜心读写为辟邪茱萸、消炎菊酒,披星戴月,朝删暮辑,苦心孤诣,百易其稿,逾之十载,终有小得。虽思来唏嘘,亦不枉印证今生。
此外,需要说明的是,此套图书中的统计概念、统计模型、公式表达、步骤推导及规范表达等,均由统计先贤们发现与创设,在量化研究方法与技术不断发展中日益规范,逐渐成为该研究领域之约定俗成,为全人类之共同财富。更为重要的是,此套图书的编撰多受益于统计学前辈及数位导师们的研究积累与启发,笔者仅为 知“识的搬运工”,并尽可能用通俗易懂、妙趣横生的表达及贴近现实的经典案例解读复杂的统计模型,试图让更多学子从中受益。若说此套图书有一定的创新或贡献,也只是笔者于其中增添了自己多年的研究经验、教学感悟及人文关怀而已。对待成果的态度,笔者一向欣赏李政道先生于闲暇时分回忆他与杨振宁先生共获诺贝尔物理学奖往事时所说,他们就像两个在科学海边玩耍的孩子,为自己发现的一个又一个小贝壳而欣喜若狂。赠人玫瑰,手留余香。因此,此套图书的全部版税将继承已出版图书的传统,继续捐赠给公益事业,以奖掖后进,推动国内社会科学研究之道的进展。
有诗可证的生命,是值得纪念的。
是为序。
王存同癸卯中秋于燕园
