6项世界第一！深兰科技在RANLP 2023大赛上共斩获11项大奖

网络 · 2023-09-05 16:13:08

9月4日至8日，RANLP 2023（Recent Advances in Natural Language Processing）在保加利亚著名海滨城市瓦尔纳召开。该会议是自然语言处理领域的国际性会议之一，专注于自然语言处理（NLP）和计算语言学（CL）领域的最新研究进展和创新，为全球相关领域的研究人员提供了一个分享和学习的平台。中国人工智能领军企业深兰科技在本届会议上参与了多项竞赛任务，一共斩获了6个冠军、3个亚军和2个季军。

当今数字时代，社交媒体和在线平台已经成为人们交流的主要平台，但网络上的信息来源众多，鱼龙混杂，真假难辨，面对数据规模大、传播速度快的互联网信息，我们亟需通过人工智能等新兴技术监控和筛选网络上的错误和虚假信息，营造良好的网络生态。当下基于自然语言处理的新闻检测算法是解决虚假信息的重要途径之一，该技术可以从文本特征、历史信息、情感分析和图谱表示等方面去考量，很好的解决虚假新闻的问题。

本届RANLP大赛的举办，不仅仅是一场NLP自然语言处理技术的竞技，更大的意义在展示如何利用人工智能技术解决网络虚假、恶意谣言和精神健康等问题，为人们的情感交流和情绪表露提供一个更加安全、积极、理性的网络环境，赋能全社会的精神文明建设。

据介绍，本次竞赛的大部分数据，来源于印度德拉维达语系。德拉维达语系在语法、音韵体系和词汇等方面都有独特的特点，与其他印度语系有显著的区别，完成相关竞赛任务要面临可用数据量少、质量低的难题。深兰团队凭借丰富的竞赛经验和技术积累，结合了多种模型训练技巧，使用多个预训练模型作为基座进行精调，然后选取优质的模型进行融合，最终在RANLP的竞赛中取得了6个冠军、3个亚军和2个季军的好成绩。

深兰科技此次参赛获得名次的研讨会有DravidianLangTech（含：侮辱性评论检测、情感分析、虚假信息检测三项任务）、LT-EDI（含：针对同性恋和跨性别的恶意言论检测、抑郁症检测两项任务）和CASE（含：基于因果新闻语料库的事件因果关系识别一项任务）。

图一：Sentiment Analysis in Tamil

DravidianLangTech中，深兰科技在侮辱性评论检测任务下的Tamil-English和Telugu-English两项子任务中，分别获得冠军和亚军；在情感分析任务下的Tamil和Tulu两项子任务中，夺得双冠；在虚假信息检测任务中夺得冠军。

图二：Sentiment Analysis in Tulu

LT-EDI中，深兰科技在针对同性恋、跨性别的恶意言论检测下任务A所属的Tamil 和Malayalam两项子任务中，分别夺得亚军和季军；在任务B所属Tamil 和Malayalam两项子任务中，分别获得冠军和季军；在抑郁症检测任务中夺得亚军。

另外，深兰科技还在CASE的基于因果新闻语料库的事件因果关系识别任务下的因果分类子任务竞赛中夺得冠军。

从2019年到现在，深兰科技团队已在各类AI领域国际比赛中获得了50多项冠军，其中在ACL、EMNLP、NAACL这三大NLP领域顶级赛事中累计获得10余项冠军，在全球同行面前充分展现了中国科技企业在人工智能理论研究上的突破和技术创新方面的硬实力。