查询
您所在的位置:首页 > 学术中心 > 历史人文

梁晨、董浩、李中清:量化数据库与历史研究

现今“史学家对数据库建设的认知大多还停留在资料永久保存阶段,以文献和数据检索为主要目的”,较少涉及数据库的可量化研究及其研究方法的转变问题。作者在文中指出量化数据库是分析大规模史料的重要方法之一,并探讨了这种新研究方法对历史研究的学术价值。本文出自《大数据与中国历史研究》,有删节。作者梁晨,南京大学中华民国史研究中心副教授;董浩,香港科技大学人文社会科学学院社会科学部博士研究生;李中清,香港科技大学人文社会科学学院讲座教授。


8.1量化数据库1


8.1量化数据库小标

量化数据库研究的兴起与研究范式调整

自然科学和人文社会科学学术传统在16世纪开始的“科学革命”后出现“大分流”:自然科学追求对“未知”事物的发现和认识,人文社会科学注重对“已知”现象的理解和解释。根据美国教育学家欧内斯特·博耶对学术类型的分类,前者更符合“求是型学术”,后者偏重于“解释型学术”。

然而,20世纪90年代以来,一种将大批量历史材料数据库化,并依靠定量分析揭示其中隐含的史实、检验和发展历史认识与经验的新方法逐渐在国际学术界流行起来,很多成果与著作产生重大学术和社会影响。例如,法国经济学家托马斯·皮凯蒂《二十一世纪资本论》一书依据多国20世纪国民账户、收入、财产与纳税等多种系统历史数据,研究资本主义社会不平等的长期演化。该书曾高居英文畅销书排行榜首并引发热烈的学术讨论。这些成就在推动全球学术进步的同时,也彰显了大规模量化数据库在结合历史资料系统研究人类社会长期变化与延续等大问题上的作用。由此可见,人文社会科学研究同样可以贡献“求是型学术”。

量化数据库研究是指搜寻能够涵盖一定地域范围、具有一定时间跨度的整体性大规模个人或其他微观层面信息的系统(一手)资料,并将这些资料按照一定数据格式进行电子化,构建成适用于统计分析软件的量化数据库并进行定量研究的方法。量化数据库研究多以“大数据”为基础,关注材料的系统性和可量化数据平台的构建,重视对长时段、大规模记录中的各种人口和社会行为进行统计描述及彼此间相互关联的分析,以此揭示隐藏在“大人口”中的历史过程与规律。相较于传统定量研究,这种方法对数理统计分析技术要求不高,很多时候只需要描述性统计分析和比较研究即可,大大方便了对复杂定量分析方法认识有限的普通学者对数据的理解和运用。同时,“大数据”本身往往涵盖相对完整的“大人口”的多种“长时期”的具体信息,这使学者不仅可以依托数据库理解个体是如何被宏观社会环境所规范和影响的,也可以理解这些微观、个体行为又如何集合起来塑造和改变宏观社会进程,甚至可以用来检验“中观”社会群体,如家族、邻里社区等在宏观环境和微观行为互动下的特点和作用。传统定量研究则倾向于将研究问题和具体操作抽象化,倚重数理模型和逻辑推导,强调复杂统计方法的运用,但往往不够重视实证材料或数据本身。因此,量化数据库研究是一种更为基础和宽泛的研究思路和方法,它既能够丰富、完善我们对微观人类历史和行为的认识,还有助于构建更为可靠的宏大叙事,促进我们对人类社会发展规律的进一步认识。

值得注意的是,目前历史学界似乎对量化数据库这种科学化的方法在研究和学科建设上所具有的重要价值缺乏认识。积极参与到这股“热潮”中来,将历史量化数据库作为新的工具与资料开展研究的更多是社会科学和自然科学学者。历史量化数据库日益凸显的学术价值与历史学者及整个学科在这一新兴学术浪潮中的远非充分参与,形成一种对比强烈的“内冷外热”现象。

重视构建大规模史料数据库已经成为国内外史学界共识,国内一些学术单位与学者也尝试建立数个重要的大型电子史料库,但史学家对数据库建设的认知大多还停留在资料永久保存阶段,以文献和数据检索为主要目的。数据库的可量化研究以及由此带来的方法转变还未曾涉及,这也造成一些大规模历史数据库被构建却无法得到很好利用的尴尬。量化数据库是分析大规模史料的重要方法之一,能为历史学者解决这种“尴尬”提供帮助。


8.1量化数据库2


8.1量化数据库小标

国际大型量化历史数据库的创建与运用

量化数据库研究方法是近60年来计算技术发展的结果。第二次世界大战后,计算机逐渐深入人类生活的各个方面,海量电子原始数据也逐渐在全球积累起来,人类正步入“大数据”时代。这些数据是分析、研究人类多种行为的重要依据。但面对庞杂的信息数据,不仅人眼(人脑)无能为力,甚至早期的统计分析工具也无法胜任,这促使统计分析技术向“数据挖掘”方向发展。利用“数据挖掘”,研究者可以对复杂的“大数据”进行定量分析,从中有效挖掘隐藏的现象与规律,总结经验模式。20世纪中期以后,计算机辅助下的定量分析逐渐成为国际学术研究中的一股新风潮,许多大型量化数据库得以构建并服务于学界。1962 年,以美国密歇根大学为基地成立的跨大学政治和社会校际联合数据库(ICPSR),联合全世界多个成员机构,存储17000多种调查资料,包括全球各地各种社会调査,其中美国自身资料包括各州选举投票资料、军队名册、遗嘱、遗嘱査验与税收记录和美国联邦调查局案卷资料等,是目前世界上最大的社会科学数据中心之一,对经济学、政治学、社会学、人口学以及法学等学科研究具有重要价值。定量研究的风气也渗透进历史研究。20世纪60年代起计量史学在欧美学界曾盛行一时。

最近十几年里,一些侧重东亚研究的历史学者和研究团体意识到,西方学术界构建量化历史数据库使用的相关人口、社区原始材料,在中国或东亚地区很早便广泛存在。一些东亚地区的历史人口微观数据库由此陆续得以建立。如美国学者李中清、康文林从20世纪80年代起,花费20多年时间,建立基于八旗户口册和清代皇室族谱资料的中国多代人口系列数据库( CMGPD)。该系列数据库包含辽宁、双城和皇族三个子数据库,其中前两个已经在ICPSR网站上对全球学界免费公开。辽宁数据库涵盖1749~1909年辽东地区26万人的150余万条记录。双城数据库涵盖1866~1913年黑龙江双城县10万人的130余万条记录,并尝试与不同时段的家户地亩资料相连接。这些大规模、长时段的微观历史数据包含丰富的人口和社会经济信息,具有时间上的深度和空间上的广度,对人口统计学、家与家族、亲属关系、社会分层与流动、卫生健康等多个学术研究领域有重要价值。东亚其他国家和地区也存在大量类似的户口册资料,如日本的户口册、韩国的“户籍大帐”、台湾日据时期户籍资料等,目前这些相应数据库都在各国或地区研究者的努力以及国际学界的合作下不断完善,对整个东亚历史人口和社会变迁的研究产生积极影响,更为与西方社会进行长时段和微观层面的比较研究提供更多便利。

大规模历史微观数据库不仅成为历史研究的重要基础,也越来越为其他相关学科学者所看重,成为学术研究的重要推动力。利用Google Scholar的搜索功能,统计五大国际微观量化数据库和中国多代人口数据库辽宁部分在不同学科领域内研究使用情况,可以看出,所有数据库在社会学、经济学、人口学、政治学、生物学和健康学等非历史学领域都有普遍运用。 


 8.1量化数据库小标

量化历史数据库的学术价值

量化历史数据库是计算技术和结构数据的组合,这种源于方法的更新带来史学研究形式的改进。巴勒克拉夫认为20世纪后半叶以来,历史学向其他社会科学寻求新方法,突破旧史观和研究框架已成必然。这使得社会科学在两个层面上促进了历史学的新发展:一是应用更加广泛的社会科学思维范畴;二是新的定量方法开始运用。这些影响最终推动了历史研究重心的大转移,从特殊转向一般,从个别事件转向普遍过程,从叙事研究模式转向结构分析模式。量化数据库研究模式及其在历史学中的应用,在有效扩展研究史料范围和转变研究驱动模式的同时,帮助历史学家从更普遍、更基层的角度发现隐藏的史实与规律,开展更具普遍意义的国际比较,实现史学研究的突破与转变。

· 扩大史料范围和史学研究基础

量化数据库方法对分析大规模的系统性、连续性历史材料非常有效,在扩展几乎所有史学研究门类材料范围的同时,为克服史料繁芜提供重要思路,可使史学家们从传统的“选精”与“集萃”研究方法中超脱出来,对“大人口”“长时段”的整体史学研究颇有帮助。大规模、同类型的群体性记录广泛存在于历史材料中,但过去往往被历史学家忽略或无法运用。历史因果关系是“多种事物互为因果的复杂关系”,普通逻辑思维本就“难济事”,个人层面的微观材料又繁芜庞杂,如果没有科学的研究方法几乎无法开展系统性整体研究,史料的学术价值无法被开发。就国际史学来说,警察记录、税收记录、人口调查资料、遗嘱、市政委员会的诉讼、教堂登记、新闻报纸、选举统计和人口史领域内的家族谱与人口登记材料等均是在量化历史数据库建立后,首次为学者系统利用,对研究选举与政治史、商业周期史以及历史人口学和家族等重大问题起到重要作用。近些年笔者一直从事的中国大学生学籍卡数据库构建及研究亦如此。学籍卡是近现代教育史上常见材料,但在建立量化数据库之前,一直不能为中国史学界深入利用,通常只为佐证某位名人的求学经历等。学籍卡数据库的建立,为分析整个大学生群体的社会来源与社会流动等学术问题提供了可能。

中国历史文献中类似材料非常丰富,量化数据库的构建与研究可以有效发挥它们的学术价值。笔者认为传统官方文献中至少有三类非常适合数据库化和定量研究。第一,历代户籍材料。中国约自战国时期已有户籍制度,秦统一后逐渐形成规模,经三国及南北朝时期的调整,隋唐后已经非常完备。在这个过程中,户籍登记材料得以累积并逐渐完善。明代以来的黄册更是蔚为壮观。这些连续长达两千多年的户口材料是数据库与量化研究的绝好素材。第二,与户籍材料相伴随同样历史悠久的土地及财产占有与分配登记材料。西周以来,中国土地赋役制度经历井田制、屯田制、均田制、府兵制、均税法、一条鞭法、摊丁入亩到现代土地改革多次调整,但每个新制度下,对土地数量丈量、归属权益的明确以及相关赋税情况都有庞大记录,这些重要材料非常适合数据库化研究。第三,自隋唐以来,考试(考核)就成为中国社会选拔精英人才的重要方式,历代皆有数量惊人的科考或官员铨选材料,这些材料历时长,系统化程度高,是不可多得的量化数据库素材。李中清-康文林研究组目前正在收集此类教育与官员考核史料,以构建两个新的全国性量化历史数据库。一个是由李中清、梁晨负责的民国大学生学籍信息数据库。目前已收集、输入近10万民国大学生的学籍信息,对民国大学生社会来源问题研究很有帮助。另一个是康文林负责的清代《缙绅录》资料的数据库化和量化分析。目前已确定《缙绅录》涉及50万官员超过260万条个人记录,对系统分析清代官员人际网络和职位波动意义重大。以上三方面材料及相关研究问题是中国历史研究的重点与热点。以这些材料来构建大型量化历史数据库,对重大历史选题研究的突破和为教师提供教学素材等都非常有利。此外,民间材料如家族谱、商业机构账册等都是适于构建量化数据库的重要资料。

大数据库通常涵盖某一范围内所有参与者或构成者的状况,量化方法又能系统、细致地研究或描述不同规模群体的多种信息。一些多变量分析方法还能同时比较多个因素与结果的相互关系,或者在考虑到结果与其他因素相互关联的情况下,估计特定因素与结果的统计相关性。这不仅能帮助研究者更深入理解各种因素的变化与彼此关系,还能兼顾所有个体的影响与权重,很大程度上避免选择资料时的疏漏与偏废,可弥补史学家惯用的“选精”与“集萃”研究方法之缺陷。李伯重认为,“选精”与“集萃”研究方法,前者是“从有关材料中选取一两种据信是最重要或最有‘代表性’的,以此为据来概括全面”;后者是在研究“一个较长时期或一个较大地区中的重大历史现象时,将与此有关的各种史料尽量搜寻出来加以取舍,从中挑选出若干最重要或最有代表性的,集中到一起,合成一个全面性证据,以求勾画历史现象的全貌”。他认为这两种方法是史学家惯常使用的,但在本质上并无大异,其特点都是通过从史料中选取具有代表性的例证推导出结论。研究者常将“某一或某些例证所反映的现象普遍化”,从而可能丧失真实性,导致研究结果具有一定不可靠性,需要加以改进。量化数据库研究在处理海量材料上的能力,在一定程度上可以解决史学研究中“史料不可能竭泽而渔,甚至难以把握边际”的困难,避免“或分门别类,缩短战线;或随意比附,看朱成碧”的研究困境。


8.1量化数据库3


· 善于发现隐藏史实,改进研究驱动模式

量化研究的一个重要优势是,能够发现靠传统文献阅读无法发现的隐藏在历史资料堆中的史实。与传统计量史学强调高级统计方法和侧重因果推论不同,大规模微观量化数据库最根本的优势在于,可以帮助研究者通过简单的统计分析,得出基础的描述性统计结果、发现不同因素间基本的相互关系。当然,通过巧妙的研究设计和逻辑推导,研究者同样可以基于这些“大数据”得出因果推论。同时,这种基于量化数据库的基础性统计描述有很大兼容性,对系统的、可归类的文字信息也有很好的分析能力,这使得它为帮助史学家发现传统文献阅读无法察觉到的历史因素的相关性,对话已有的学术理论和观点以及进行更为复杂的研究分析提供了基础。

以大规模数据为基础的量化研究还能较好纠正研究的主观性,实现研究从常见的理论或问题驱动转向数据或经验驱动,在发现真实历史的同时修正过去的讹误。我们强调的构建量化数据库应是一个整理、开发历史材料的客观过程。设计合理的量化数据库,应首先完整体现史料所记录的原始信息而非研究者对数据的主观判断和改动,将主观处理和理解数据库的操作空间留给数据库使用者,并在设计上为数据库使用者依据当前数据生成需要的新变量提供可能。不同于以存档和检索为目的的文史资料数据库,构建量化数据库的初衷在于方便研究者直接对数据进行量化分析。量化数据库所包含的信息既可以直接来自史料中的数字记录,如人口、税赋、田亩等,也可以对文本资料如传记、名录等进行系统编码。量化数据库的形式往往是一个或多个数据表格。虽然具体数据结构可能因材料类型、内容及其他特点而不同,但绝大部分数据表格的设计都是每列包含一个因素或类别(即变量)的信息,每行代表一个最低层次的研究个体,例如某人、户等。对这些数据库的量化分析,实际上就是通过统计软件对大规模研究个体(行)在不同因素(列)之间相互关系的统计分析。这种量化分析本身并不依赖任何单个或正反方事件参与者的叙述,相对简单、明确的数量关系也可以避免表达上的主观与刻意,可以更好避免研究者基于自身认知或经验所形成的预设观点对研究结论的影响,减少研究时的“先入为主”并方便重复验证,得出的规律性现象或结论也更可靠。因此,只有保证数据库最大限度地反映历史材料的原有信息,才可能保证分析结果的客观性和完整性。

构建量化数据库尤其是大规模微观量化数据库能够更好地推动历史研究,其原因主要在于,相比传统史学的“选精”、“集萃”或是新经济史研究中常见的集合数据,量化数据库能够提供更加全面、系统和微观的信息。在获取历史事实方面,仅仅依靠对各变量最简单的描述性统计,如频数、平均值、标准差、比例、列联表等,量化数据库就可以提供许多集合数据或个案研究无法提供的信息和视角。这一点在结合历史数据往往覆盖长时段的特性时作用尤为明显。更重要的是,这些简单的统计描述仅反映数据库的客观情况,不同的数据库使用者可以如自然科学研究一样重复检验。

· 为国际比较和多学科合作创造精准的数据基础

国际比较和多学科合作研究是很多大规模历史研究项目追求的重要目标之一,但很多历史现象本身蕴含复杂的信息,直接进行跨国、跨文化比较研究困难重重。李伯重指出,比较是史学(特别是现代史学)的基础,但在进行比较研究时须认真考虑研究对象是否具有可比较性,有无一致的时空范围以及是否具备合适的比较标准,而数据的优点使得量化比较成为比较史学中最成功的部分。量化数据库则致力于从文献中系统抽取相对明确的信息,如传记履历或人口调查材料中的生卒年份、职业身份、财富收入等,通过编码处理供计算机分析。这些信息基本都有普遍通用的含义,适合进行跨地区、跨国界比较。加之定量方法的客观性与可比性,这削弱了材料与结论的意识形态和国别属性,可以保证国际比较的事实基础可靠,比较的结果相对准确,容易形成共识。

量化历史数据库的构建还能为社会科学家提供强大且灵活的研究资源,推动历史学与其他社会科学的优势整合。传统史学研究,一般通过文献资料收集和学者个人化解读,梳理出历史史实。这些史实通常可以成为其他学科的认识基础与判断依据,但由于研究方式不一致,大部分描述性的历史材料或结论,较难直接应用于其他学科相对系统和量化的研究方法,进而阻碍历史学与其他学科的融合。通过对史料整合,构建量化数据库,历史材料转变成可直接适用于定量分析研究的数据,成为历史学和其他学科均可直接分析利用的一手材料,而不是难以“消化”的描述性史实,为实现历史学科研究方法的多样化,以及与其他社会科学甚至自然科学的交流互动提供基础,提升历史学的学术价值。

此外,量化历史数据库大多向学界开放,这意味着会有更多不同学科的研究者和研究方法投入历史材料的解读和分析,丰富历史研究的形式和成果,形成与传统历史学家“单打独斗”不同的局面。如中国多代人口数据库辽宁部分,早期主要由研究组成员及其合作者使用,但随着数据材料于2010年对学界在线开放,已有越来越多数据计划成员(李中清-康文林研究组)以外的学者开始使用这些数据进行研究,成果数量甚至超过了李中清-康文林研究组本身。这只是各大公开量化数据库对学界贡献的一个缩影。量化数据库的构建与公开,对学术发展的贡献显然已超出单个学者或研究组的能力范围。






推 荐 阅 读 >>>

大数据与中国历史研究

大数据与中国历史研究(第1辑)

付海晏 徐剑 主编

2017年6月


标签: 历史
上一篇: 纐纈厚:田中义一的帝国军人之路
下一篇: “偏离”与“回归”:京郊土改中的路径依赖...