2023年12月3日上午,由日语学院、北京日本学研究中心主办的“日本学综合讲座-大数据与AI时代,日语研究与教学的变与不变”在线上成功举行。本次讲座邀请了神户大学石川慎一郎教授担任主讲人。国内外高校师生400余人报名参加。
首先,石川老师简单梳理了日语研究与教学的研究范式由内省判断逐渐转向数据分析的研究史。在不依靠数据的时代,语言研究主要依靠语言学家的经验和内省判断,由此制定的语法规则被称为“规范语法”、“学校语法”或“传统语法”。在这一阶段,学界并不重视实际的用例。进入上世纪50年代,研究者逐渐开始使用依靠人力收集的小规模数据进行词典编纂。其中具有代表性的成果是自1957年开始编纂的《牛津英语大辞典》,历时76年完成。日本在上世纪80年代开始类似的词典编纂工作,其中代表性的成果是《三省堂国语词典》。虽然此类依靠人力收集的小规模数据曾发挥了巨大作用,但是其局限性依旧被学界所诟病。随着Hymes的“交际能力观”以及利用计算机收集语言数据的方法确立,利用大规模数据进行研究的语料库语言学应运而生。随后,石川老师介绍了目前主要的英语及日语语料库及其构建原理。
在讲座的第二部分,石川老师介绍了目前日语语料库研究的整体情况。首先,石川老师指出了语料库语言学研究的基本立场,分别是“描写主义”“频率主义”“脱理论主义”“脱语法主义”“规律主义”“修正主义”和“反‘主义’主义”。即以出现频率为指标,对语料库中出现的现象正确地描写,重视对数据的观察,不将语法作为绝对的、固定的规范,不囿于“主义”之下固定的思考倾向。随后,石川老师以日本国立国语研究所开发的BCCWJ语料库为例,详细介绍了该语料库的开发历史、使用方式和检索时的注意事项。在实际操作中,石川老师通过检索多个语言形式在语料库中的出现频率,详细讲解了回归分析、假定检验等多个统计方法的实际运用。
在讲座的最后部分,石川老师解释了生成式AI的工作原理,并指出我们已经从大规模数据逐渐进入超大规模数据的时代,在各种各样的生成式AI不断被开发出来且被广泛运用的背景下,语言研究者如何去应对是当前面临的重要课题。石川老师指出,相比于现在的语料库,生成式AI所处理的数据不再是数百万到数千万的数据量,而是到了数千亿的级别。而生成式AI的诞生也不过是2022年末,在短短的一年间,就已有数家公司的产品接连上线。在这样的背景下,日语语言研究、教育研究的意义何在?随后,石川老师通过两个小实验,对这个问题做出了一定的回答。实验1是针对同一篇作文,比较人工批阅和AI批阅的结果,发现处理日语数据的AI中,作文的正确率大概为7成。实验2是让AI回答关于日语接续词使用是否具有年龄倾向,在这个实验中虽然部分AI能做出准确的判断,但是依旧存在许多问题尚待解决。
在总结部分,石川老师点出了本次讲座的主旨。在大数据与AI时代,我们应当将AI作为辅助工具,将AI能够处理的部分交给AI,而作为语言研究者与教育者,我们应当把目光集中在“只有人才能做到的事”上。讲座结束后,多名参会师生就语料库使用、生成式AI等问题向主讲人提出了疑问和想法,现场讨论热烈。
石川慎一郎,1969年10月生于日本神户市。文学博士。毕业于神户大学研究生院和冈山大学研究生院。现任神户大学大学教育推进机构、国际文化学研究科、数理数据科学中心教授。历任英语语料库学会会长、计量国语学会副会长、大学英语教育学会理事等职。主要研究领域为语料库语言学、应用语言学、英语教育学、日语教育学等。出版专著『ベーシックコーパス言語学(2版)』(ひつじ書房、2021)、『ベーシック応用言語学(2版)』(ひつじ書房、2023)、『The ICNALE Guide』(Routledege, 2023)等,曾获大学英语教育学会学会奖、全国英语教育学会学会奖、英语语料库学会学会奖、语言资源协会语言资源奖等多个奖项。