NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述

拼写纠正系列

NLP 中文拼写检测实现思路

NLP 中文拼写检测纠正算法整理

NLP 英文拼写算法,如果提升 100W 倍的性能?

NLP 中文拼写检测纠正 Paper

java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!

一个提升英文单词拼写检测性能 1000 倍的算法?

单词拼写纠正-03-leetcode edit-distance 72.力扣编辑距离

NLP 开源项目

nlp-hanzi-similar 汉字相似度

word-checker 中英文拼写检测

pinyin 汉字转拼音

opencc4j 繁简体转换

sensitive-word 敏感词

前言

大家好,我是老马。

下面学习整理一些其他优秀小伙伴的设计、论文和开源实现。

摘要

本文介绍了NLPTEA 2020中文语法错误诊断(CGED)共享任务,该任务旨在识别学习中文作为外语的学生在书写中出现的语法错误类型、错误发生的范围以及推荐的纠正措施。

我们描述了任务定义、数据准备、性能评估指标以及评估结果。在注册参加该共享任务的30支队伍中,17支队伍开发了系统并提交了总共43个实验结果。

系统的表现取得了显著进展,检测层面的F1得分达到了91%,位置层面的得分为40%,纠正层面的得分为28%。

所有带有标准答案的数据集和评分脚本都已公开,供研究人员使用。

1 引言

自动化语法检查在英语作为外语的学习者中已取得显著进展。

帮助我们的学习者(HOO)是一系列纠正文本错误的共享任务(Dale 和 Kilgarriff,2011;Dale 等,2012)。

2013年和2014年的CoNLL共享任务集中于语法错误修正,增加了教育应用研究在自然语言处理(NLP)社区中的可见度(Ng 等,2013;2014)。

这些学习技术大多集中在英语作为外语(EFL)学习者上,而相对较少有语法检查应用程序是为了支持中文作为外语(CFL)学习者开发的。

现有的一些应用程序使用了多种技术,例如统计学习(Chang 等,2012;Wu 等,2010;Yu 和 Chen,2012)、基于规则的分析(Lee 等,2013)、神经网络建模(Zheng 等,2016;Fu 等,2018)和混合方法(Lee 等,2014;Zhou 等,2017)。

为了应对CFL学习者数据在机器学习和语言学分析中的有限可用性,ICCE-2014关于教育应用的自然语言处理技术(NLP-TEA)研讨会组织了一个针对CFL语法错误诊断的共享任务(Yu 等,2014)。

该共享任务的第二版本在NLP-TEA与ACL-IJCNLP-2015(Lee 等,2015)和COLING-2016(Lee 等,2016)同时举办。

从那时起,它的名称被确定为中文语法错误诊断(CGED)。

作为IJCNLP 2017的一部分,该共享任务再次组织(Rao 等,2017)。

在与ACL 2018的NLP-TEA研讨会联合举办时,CGED再次被组织(Rao 等,2018)。

这些共享任务的主要目的是提供一个共同的设置,使得使用不同语言因素和计算技术的方法研究者能够比较他们的结果。这种技术评估使得研究人员能够交换经验,推动该领域的发展,最终为这一共享任务开发出最优的解决方案。

本文其余部分组织如下:第2节详细描述任务,第3节介绍构建的数据集,第4节提出评估指标,第5节报告参与者方法的结果,最后在第6节得出结论。

2 任务描述

本共享任务的目标是开发自然语言处理(NLP)技术,自动诊断(并进一步修正)中文语法错误,这些错误出现在中文作为外语(CFL)学习者写作的句子中。

此类错误定义为PADS:冗余词(用大写字母“R”表示)、缺失词(“M”)、词语选择错误(“S”)和词语顺序错误(“W”)。

输入句子可能包含一个或多个此类错误。

开发的系统应指示给定单元(包含1至5个句子)中嵌入了哪些错误类型以及错误出现的位置。

每个输入单元都有一个唯一的编号“sid”。如果输入没有语法错误,系统应返回:“sid, correct”。如果输入单元包含语法错误,则输出格式应包括四个项目:“sid, start_off, end_off, error_type”,其中start_off和end_off分别表示语法错误发生的起始和结束字符的位置,error_type应为定义的错误之一:“R”、“M”、“S”或“W”。每个字符或标点符号占用一个位置进行计数。

示例句子及相应注释如表1所示。今年,我们只有一个HSK的评测任务轨道。

表1:示例句子及相应注释

汉语水平考试(HSK)

示例 1
输入: (sid=00038800481) 我根本不能了解这妇女辞职回家的现象。在这个时代,为什么放弃自己的工作,就回家当家庭主妇?
输出:
00038800481, 6, 7, S
00038800481, 8, 8, R
(注释:“了解”应改为“理解”。另外,“这”是冗余词。)

示例 2
输入: (sid=00038800464) 我真不明白。她们可能是追求一些前代的浪漫。
输出:
00038800464, correct

示例 3
输入: (sid=00038801261) 人战胜了饥饿,才努力为了下一代作更好的、更健康的东西。
输出:
00038801261, 9, 9, M
00038801261, 16, 16, S
(注释:“能”缺失,单词“作”应改为“做”。正确句子应为“才能努力为了下一代做更好的”)

示例 4
输入: (sid=00038801320) 饥饿的问题也是应该解决的。世界上每天由于饥饿很多人死亡。
输出:
00038801320, 19, 25, W
(注释:“由于饥饿很多人”应改为“很多人由于饥饿”)

3 数据集

我们共享任务中使用的学习者语料来自汉语水平考试(HSK,Hanyu Shuiping Kaoshi,中文水平测试)的写作部分(Cui 等,2011;Zhang 等,2013)。母语为中文的讲者被训练为手动标注语法错误,并提供与每个错误相应的修正。

然后,数据被分成两个互斥的子集,如下所示:

  1. 训练集 :该集合中的所有单元用于训练语法错误诊断系统。每个单元包含1到5个句子,标注了语法错误及其相应的修正。所有单元以SGML格式表示,如表2所示。我们提供了1129个训练单元,总共有2909个语法错误,错误类型包括冗余(678个实例)、缺失(801个)、词语选择(1228个)和词语顺序(201个)。除了提供的数据集,参与的研究团队还被允许使用其他公共数据进行系统开发和实施。使用其他数据的情况应在最终的系统报告中说明。

  2. Table 3: The statistics of correct sentences in testing set.

    ```

    Units #Correct #Erroneous

    1,457 (100%) 307 (21.07%) 1,150 (78.93%)
    ```

测试集 :该集合由用于评估系统性能的测试单元组成。

表3展示了今年测试集的统计数据。根据HSK写作部分的抽样,超过40%的句子没有错误。

这一情况在测试集中进行了模拟,以测试系统在识别假阳性(false positive)时的表现。错误类型的分布(见表4)与训练集相似。正确句子的比例来自HSK在线动态语料库的样本数据。

表4:测试集中错误类型的分布

错误类型

  • 冗余(#R) :769(21.05%)
  • 缺失(#M) :864(23.65%)
  • 词语选择错误(#S) :1694(46.36%)
  • 词语顺序错误(#W) :327(8.95%)
  • 总错误数(#Error) :3654(100%)

评估结果

表6总结了17个参与团队的提交统计数据。

在官方测试阶段,每个参与团队最多可以提交三次运行结果。

在17个团队中,11个团队在修正层次(Correction-level)提交了测试结果,共计43次提交。

表6:所有参与者的提交统计

参与者(按名称排序)提交统计

参与者 提交次数(#Runs) 修正层次(Correction-level)
Boli 2
CYUT 2 -
DumbCat 1
Flying 3
LDU 3 -
NJU-NLP 3 -
OrangePlus 3
PCJG 3
SDU_MLA 1 -
SPPD 3 -
TextCC-CloudPoineer 3
TMU-NLP 1
UNIPUS-Flaubert 3
XHJZ 3
YD_NLP 3
ZZUNLP-HAN 3
ZZUNLP-YAN 3 -

结论

本研究描述了2020年NLP-TEA共享任务,用于中文语法错误诊断,包括任务设计、数据准备、性能指标和评估结果。

无论实际表现如何,所有提交都为开发中文语法错误诊断系统做出了共同努力,会议记录中的个别报告为计算机辅助语言学习(CFL)提供了有价值的见解。

我们希望为此次共享任务收集和标注的数据集能够促进并加速该研究领域的未来发展。

因此,所有带有金标准的数据集和评分脚本都可以在以下网站上公开获取:http://www.cged.science

致谢

我们感谢所有参与者参加我们的共享任务。

Lung-Hao Lee在咨询和投标方面提供了大量帮助。

Xiangyu Chi、Mengyao Suo、Yuhan Wang和Shufan Zhou在数据审查方面做出了重要贡献。

本研究得到了国家语言委员会项目(YB135-90)的支持。

参考资料

https://github.com/wdimmy/Automatic-Corpus-Generation/blob/master/README.md

文章整理自互联网,只做测试使用。发布者:Lomu,转转请注明出处:https://www.it1024doc.com/5456.html

(0)
LomuLomu
上一篇 2025 年 1 月 7 日
下一篇 2025 年 1 月 7 日

相关推荐

  • 什么是南北向流量和东西向流量?

    在现代云计算和微服务架构中,南北向流量与东西向流量构成了网络通信的两大核心模式。 南北向流量(North-South Traffic) 定义:南北向流量描述了从外部环境进入系统或从系统向外传输的数据流,这通常涉及到客户端与服务器之间的交互,比如用户通过浏览器或移动应用访问Web服务或API。 特点:此类流量穿越系统的边界,例如从外部网络进入内部网络,或者从内…

    未分类 2024 年 12 月 26 日
    83800
  • Python数据结构与算法分析 第3版PDF、EPUB免费下载

    适读人群 :1. 希望学习数据结构和算法的Python用户; 2. 计算机专业的学生和老师。 只有洞彻数据结构与算法,才能真正精通Python!热门计算机科学教材,华盛顿大学、北京大学等多家高校采用,让你在代码编写的战场上所向披靡! 电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍 点击原文去下载 书籍信息 作者: [美] 布拉德利·…

    2025 年 1 月 7 日
    81000
  • MySQL 优化利器 SHOW PROFILE 的实现原理

    背景 近期,我遇到了一个技术挑战:通过传输表空间的方式导入一个体积达4GB的表,整个过程耗时13分钟。通过PROFILE工具的分析,我惊讶地发现,大部分时间竟然花费在了System lock阶段。 mysql> set profiling=1; Query OK, 0 rows affected, 1 warning (0.00 sec) mysql> al…

    未分类 2024 年 12 月 24 日
    60000
  • JavaSE 核心知识精要(万字长文详解,助你快速掌握!)

    目录一. 基础语法要点1. 数据类型概述2. 数据类型转换规则3. 运算符详解4. 循环结构解析5. 方法定义规范6. 数组使用指南二. 面向对象编程1. 类与对象关系2. 构造方法解析3. 方法重载机制4. this关键字应用5. static特性说明6. 代码块执行顺序7. 访问权限控制8. 三大特性剖析封装原理继承机制多态实现9. 方法重写规则10. …

    2025 年 5 月 15 日
    25600
  • 一文带你了解什么是servlet

    介绍 Servlet是在服务器端运行的Java程序,可以接收客户端请求并做出响应,是基于 Java 技术的 web 组件,该组件由容器托管,用于生成动态内容。他是用Java编写的服务器端程序。其主要功能在于交互式地浏览和修改数据,生成动态Web内容。 servlet说实在点就是个接口,浏览器发送请求给Tomcat(服务器),若是这个请求正好对应了servle…

    2025 年 1 月 16 日
    61900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信