COLING会议(The International Conference on Computational Linguistics)是自然语言处理/计算语言学国际旗舰会议之一,由ICCL (International Committee on Computational Linguistics)主办,具有悠久的历史,从1965年开始主办,每2年举办一次,是自然语言处理/计算语言学方面的传统旗舰会议。
COLING 2018将于2018年8月20日至26日在美国新墨西哥州圣达菲举行,经过同行评审最终录取了332篇科研论文。北京大学大数据科学研究中心和北京大学计算语言学研究所合作的论文“SGM: Sequence Generation Model for Multi-Label Classification”被COLING 2018录用,并获得最佳论文奖(同时获得九个方向中两个方向的Best Paper Award)。第一作者杨鹏程为大数据科学研究中心硕士研究生,其指导老师为北京大学研究员孙栩博士。详情请见会议主页链接:
https://coling2018.org/coling-2018-best-papers/
图1:COLING 2018最佳论文列表。SGM论文同时获得“Best error analysis”和“Best evaluation”两个奖项。
下面是关于论文“SGM: Sequence Generation Model for Multi-label Classification”的介绍:
SGM: Sequence Generation Model for Multi-label Classification
作者:杨鹏程,孙栩*,李炜,马树铭,吴炜,王厚峰
多标签分类是自然语言处理中一项重要而又具有挑战性的任务。它比单标签分类更复杂,因为标签倾向于彼此相关。现有的方法容易忽略标签之间的相关性。此外,现有的模型也未考虑到:当预测不同的标签时,文本的不同内容会做出不同的贡献。在本文中,我们提出将多标签分类任务视为一个序列生成问题,并提出一种使用新颖解码器结构的序列生成模型。实验结果表明,我们提出的方法的表现大幅超过已存在模型的性能。对实验结果的进一步分析表明,所提出的方法不仅可以捕获标签之间的相关性,而且可以在预测不同标签时自动选择最有信息量的词汇。