近日,我院数据挖掘实验室本科生陈卓玮以第一作者身份在计算语言学和自然语言处理领域国际顶级会议EMNLP2024上发表论文“An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification”。该论文是在通讯作者王连喜教授的指导下联合实验室其他同学共同完成,其主题为低资源信息处理和情感分类。
EMNLP(Conference on Empirical Methods in Natural Language Processing)由国际计算语言学协会ACL举办,是中国计算机学会CCF推荐的B类国际学术会议、中国人工智能学会和清华大学计算机学院推荐的A类会议,在人工智能及自然语言处理领域享有较高学术声誉,其涉及领域包括但不限于机器翻译、文本生成、文本分类、信息抽取、问答系统、语言模型等研究方向。陈卓玮同学已于2024年11月12日至11月16日赴美国佛罗里达州迈阿密参加EMNLP会议并介绍论文。
论文标题:An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification
类型:main, long paper
作者:陈卓玮,王连喜,吴雨奔,廖信峰,田宇甲,钟钧仰
访问地址:https://aclanthology.org/2024.emnlp-main.109/
论文简介:情感分类面临诸多挑战,如低资源语言、低资源特定领域的数据稀缺、数据分布不平衡和小样本场景等。目前,尚未充分探索扩散语言模型在文本数据增强方面的潜力,而传统方法难以同时保持新样本的多样性和标签一致性。以往的数据增强方法通用依赖于逻辑修改,或是用语言模型改写原始序列中不太重要的词汇。在情感分类中,强烈的情感词汇可能对整个序列的情感起着关键作用。因此,与传统方法不同,论文提出的DiffusionCLS方法利用扩散语言模型来捕获领域内知识,并通过重构与情感标签强密切相关的词汇来生成伪样本。这种方法确保了一致性和多样性之间的平衡,避免了噪声的引入,同时增强了数据集的关键特征。实验表明,提出的方法在中文、英文、阿拉伯语的covid-19低资源特定领域和通用领域影评数据集SSF-2上均表现出有效性。
论文海报:
初稿:陈卓玮
复审:吴笛
终审:王连喜