好发论文的NLP小众研究方向[EMNLP2022] CEM: Machine-Human Chatting H

大语言模型下,NLP领域还有哪些蓝海的小众研究方向?今天分享EMNLP 2022的一篇论文《CEM: Machine-Human Chatting Handoff via Causal-Enhance Module》 [paper] [code]。

简介

即使在大预言模型盛行的当下,chatbot回复的准确度也无法达到百分百,甚至离百分百差距还有点远,大火的ChatGPT胡言乱语的情况也屡见不鲜。为了应对chatbot回复不准确的问题,《CEM: Machine-Human Chatting Handoff via Causal-Enhance Module》 专注于解决对话系统中的Machine-Human Chatting Handoff (MHCH) 问题。如下图所示,MHCH的目的是识别出业务对话场景中,chatbot无法准确处理的一些问题,这些无法处理的问题会被切换到人工服务端。到ChatGPT场景下,MHCH任务也可以辅助用户识别ChatGPT胡言乱语的情况,避免用户被ChatGPT忽悠。

图中“Global satisfaction”是用户对当前chatbot服务的评分,又称全局满意度;“Local sentiment”代表用户每句话的情绪状态,又称局部情绪值。“Handoff label”指MHCH任务的label,“Normal”表示不切换到人工客服处,“Transferable”表示切换到人工客服处。

相关工作

MHCH是近年来的一个小众研究方向。这里我们简单介绍两篇MHCH方向的重要工作,了解MHCH的模型设计特点。

Liu等人 将MHCH定义为分类问题,专注于确定应将哪个句子转移到人工客服处,提出了DAMI和RSSN两篇工作。如图所示,为了检测正常/可转移的话语,DAMI 利用 difficulty-assisted编码来增强话语的表示。此外,引入了匹配推理机制来捕获上下文匹配特征。同时,论文提出了一种新的评估指标,Golden Transfer within Tolerance(GT-T),以通过考虑 MHCH 的公差特性来评估性能。

RSSN的结构如下图所示。相比于DAMI,RSSN考虑了对话的情绪状态,将对话满意度估计和切换预测集成在一个多任务学习框架中,通过利用用户局部满意度(每句话)作为桥梁,全局满意度(整个对话)检测器和切换预测器可以有效地交换关键信息。

从模型图中可以很清晰地了解到DAMI和RSSN的模型结构。

CEM

CEM是一种基于因果推断的MHCH模型强化模块。基于如下因果图,CEM的论文分析了现有方法的不足。

“labor cost ( C)” 表示当前对话的人工成本,人工成本由当前对话转人工的次数决定;“user state (US)” 为用户状态,指用户当前的情绪状态;“Dialog (D)”为当前的对话信息;“Handoff label (Y) ”指MHCH任务的label;“Local sentiment (LS)”代表用户每句话的情绪状态,又称局部情绪值;“Global satisfaction (GS)”是用户对当前chatbot服务的评分,又称全局满意度

这里需要区分用户状态(US)、局部情绪值(LS)和全局满意度(GS):US是用户当前的累积情绪状态,是LS的即时累积结果,每句话都有相应的US,US随对话内容的更新而更新;LS是局部情绪,只与当前的语句有关;GS是全局满意度,是LS的最终累积结果,与chatbot服务质量相关。

  • a:MHCH场景下完整的因果图。对话内容(D)决定了用户的局部情绪值(LS);局部情绪值(LS)决定了用户状态(US),也决定了用户最终对chatbot的满意度评分(GS);是否需要转人工客服(Y)由当前的用户状态(US)和对话内容决定,而不仅仅由对话内容,例如如果用户很生气很着急,即使chatbot可以逐步解决用户问题,也最好转接人工客服端,以对用户进行更人性化的安抚;是否转人工(Y)决定了最终的人工成本(C)。
  • b:多任务模型的因果图,例如RSSN。该因果图最明显的缺陷是没有建立用户状态和MHCH任务之间的因果联系。
  • c:CEM的因果图。相对于b,c引入了两个隐性因果量人工成本(C)和用户状态(US),使得模型能够在降低人工成本的情况下,实现更好的chatbot服务。这里的虚线表示judge关系而非因果关系,这是因为作者考虑到直接建模US->Y的因果关系会使得D成为一个confounder,使得MHCH分支的预测结果不准确。

CEM的设计很简单:

  • d:原始的MHCH多任务模型的结构
  • e:应用了CEM(U)的多任务模型的结构。CEM(U)表示只考虑了用户状态(US)的CEM模块。CEM(U)从多任务的用户满意度预测分支中提取出US,并将US作用在MHCH的预测上,以对MHCH分支进行调整
  • f:应用了CEM( C)的多任务模型的结构。CEM( C)表示只考虑了人工成本(C)的CEM模块。主要通过在损失函数中定义人工成本,使得模型在训练过程中可以关注到人工成本信息
  • g:应用了CEM的多任务模型的结构

实验

作者在多个MHCH模型和多个数据集上检验了CEM的有效性,同时检验了CEM在控制人工成本上的性能。

结语

MHCH方向的相关研究相当少,但是发文质量都挺不错的,DAMI发表在了AAAI 2021,RSSN发表在EMNLP 2021,CEM发表在EMNLP 2022。在大语言模型盛行的当下,MHCH方向可能是个不错的切入点。

本文链接:https://my.lmcjl.com/post/13680.html

展开阅读全文

4 评论

留下您的评论.