12月16日下午,法与经济学研究院举办的“法律文本的自然语言处理”讲座于我校海淀校区成功举办。本次讲座由美国康奈尔大学Jack G. Clarke讲席教授张永健主讲,法与经济学研究院副院长徐文鸣主持,北京大学政府管理学院教授马亮、中国人民大学法学院教授侯猛、北京大学法学院长聘副教授贺剑、对外经济贸易大学法学院副教授马超、中国社会科学院法学研究所副研究员胡昌明等进行评议,部分教师及同学共同参与了此次活动。
张永健教授以宪法理念和模式的跨国界影响为例,展示了自然语言处理方法在法学研究中的应用。张永健教授指出,传统的机器学习方法需要人力阅读法律文本,并将其编码为数值,再利用统计方法对数据样本进行分析;而自然语言处理方法可以略过人工处理的阶段,让机器直接处理文本。以宪法理念和模式传播的影响力研究为例,一个具体的问题是,理论标准所认为的13部核心且具有标志性的经典宪法在长期(1900年至2020年)内对572部新近宪法的影响程度究竟如何?应用自然语言处理方法处理该问题,首先,需要利用人工智能识别非英文文本并翻译为英文,同时去除文本中的代名词、介词等不具有实质意义的语词。其次,利用Document Term Matrix(MTR)方法,形成两个文件矩阵,分别为572部新近宪法和13部经典宪法中每一个实体词的出现次数占总词数的比例。再次,通过代数计算在赋予何种权重时,13部经典宪法加总后可以在假想意义上构成各部新近宪法。最后,将每部经典宪法的572个加权系数取平均,即可得到代表其影响力的数值并进行比较。张永健教授进一步论证,不论是将经典宪法中在先出现的词从在后宪法的研究中去除,还是仅考虑或仅摘除宪法条文中的人权条款,实证研究结果都具有稳健性。
在MTR方法之外,张永健教授还提供了Document Embeddings方法的新型研究视角。此方法利用Open AI的3072个变量,对每部宪法文本进行定位,并通过函数计算每部宪法在3072维空间中的距离,距离越近即代表相似度越高。相较于MTR方法,Document Embeddings方法结果显示出的各部宪法的相似程度远高于前者。
随后,几位嘉宾结合实务案例和政策前沿,围绕法律文本的自然语言处理方法及其逻辑进行了深入的互动和探讨。
中国人民大学法学院侯猛教授指出,比较宪法学在英文世界是一个热门研究领域,而在国内相对冷淡,且多局限于定性研究。比较宪法学在整个学术脉络里的定位如何,研究进展应当推进到何种地步仍有待探索。
北京大学政府管理学院马亮教授认为,宪法的扩散亦是一种政策的扩散,也可以相应地适用政治学中的扩散机制,而张永健教授的研究深入到每一部宪法文本的枝节,多维度的进行比较,更加深入和细致。在方法论意义上,人工智能的应用降低了实证研究的门槛,但是也带来了稳健性检验即研究可复制性的问题。
北京大学法学院贺剑副教授指出,Document Embeddings方法的研究结果启示我们,在通用人工智能眼中,法律文本之间的相似程度远远高于人类的预期,垂直领域的专业人工智能在法学研究中具有更高的应用价值。在相似性问题上,贺剑提出两个问题:其一,宪法文本中具有重要影响力的语词可能本身来自于宪法文本之外;其二,以统计词频作为研究方法来比较文本的相似度可能会忽略非实义语词对文义的影响。
对外经济贸易大学法学院马超副教授认为,通过语词词频为指标观测宪法文本的影响力具有不完备性。马超以美国宪法为例,表明这种方法可能会忽略诸如条文顺序、篇章设置等宪法文本结构因素及宪法文本中的人称表达因素在影响力中发挥的作用。这些无法被观测到的因素的重要性如何值得进一步探究。
中国社会科学院法学研究所副研究员胡昌明讨论了研究视野和方法设计的问题。胡昌明指出,国内学术研究的部门法领域界分明显,张永健教授跨部门法的研究思路和视野有助于部门法的新发展。最新的研究方法不一定是最适合的研究方法,从机器学习到基于大语言模型的自然语言处理,张永健教授的研究方法始终在不断迭代创新,根据不同的研究问题选择适合的研究方法。胡昌明围绕研究报告,进一步提出了翻译失真、词频与影响力之间的逻辑关系证成、经典宪法之间的相互影响如何处理等问题。
张永健教授一一回应各评议人的观点和问题,并认真解答了现场互动环节同学们提出的困惑,现场讨论观点碰撞、氛围热烈、富有深度,本次讲座取得圆满成功。
