基于知识图谱与指代消解的对话式问答
王笳辉1,2, 赵林超1,2, 尹兆睿1,2, 岳昆1,2, 陈兴通1,2, 段亮1,2
1.云南大学 云南省智能系统与计算重点实验室 昆明 650500
2.云南大学 信息学院 昆明 650500
通讯作者:

段 亮,博士, 副教授,主要研究方向为图分析、结构信息论、贝叶斯深度学习.E-mail:duanl@ynu.edu.cn.

作者简介:

王笳辉,博士,助理研究员,主要研究方向为数据与知识工程、领域知识挖掘、不确定性知识推理.E-mail:wjh@ynu.edu.cn.

赵林超,硕士研究生,主要研究方向为数据与知识工程.E-mail:zlc@stu.ynu.edu.cn.

尹兆睿,硕士研究生,主要研究方向为数据与知识工程.E-mail:yinzhaorui@stu.ynu.edu.cn.

岳 昆,博士,教授,主要研究方向为图数据分析、大数据知识工程、神经符号计算、贝叶斯深度学习.E-mail:kyue@ynu.edu.cn.

陈兴通,硕士,助理工程师,主要研究方向为数据与知识工程.E-mail:cxt_79@qq.com.

摘要

如何解决对话式问答中的指示代词和长依赖现象,有效利用依赖信息,以及如何有效维护上下文查询子图,避免因不当扩展而导致的子图过度增长的风险,在上下文查询子图中精准检索问题的答案是当前对话式问答亟待解决的问题.为此,文中提出基于知识图谱与指代消解的对话式问答模型.首先,将指代消解应用于对话式问答,利用指代消解模块获取指代簇,并提出索引替换算法,完善问题的语义信息.同时,提出词汇指代结构和字符语义两种依赖计算方式,获取依赖信息,指导上下文查询子图的扩展和答案检索.然后,为了有效扩展上下文查询子图并避免过度增长,基于依赖信息扩展查询子图,得到准确的查询子图,进而根据对话轮次和查询子图大小提出奖惩机制,有效防止子图过度增长.最后,将依赖信息用于答案检索,有效提升答案检索准确率.在ConvQuestions数据集上的实验表明文中模型的有效性.

关键词: 对话式问答; 指代消解; 知识图谱; 查询子图
中图分类号:TP 391
Conversational Question Answering Based on Knowledge Graph and Coreference Resolution
WANG Jiahui1,2, ZHAO Linchao1,2, YIN Zhaorui1,2, YUE Kun1,2, CHEN Xingtong1,2, DUAN Liang1,2
1.Yunnan Key Laboratory of Intelligent Systems and Computing, Yunnan University, Kunming 650500
2.School of Information Science and Engineering, Yunnan University, Kunming 650500
Corresponding author:
DUAN Liang, Ph.D., associate professor. His research interests include graph analysis, structural information theory and Bayesian deep learning.

About Author:
WANG Jiahui, Ph.D., assistant profe-ssor. His research interests include data and knowledge engineering, domain knowledge mining and uncertain knowledge reasoning.
ZHAO Linchao, Master student. His research interests include data and knowledge engineering.
YIN Zhaorui, Master student. His research interests include data and knowledge enginee⁃ring.
YUE Kun, Ph.D., professor. His research interests include graph data analysis, big data knowledge engineering, neural symbolic computation and Bayesian deep learning.
CHEN Xingtong, Master, assistant engineer. His research interests include data and knowledge engineering.

Abstract

There are two urgent challenges in conversational question answering to be addressed at present. One is how coreference and long range dependencies can be resolved to effectively utilize dependency information. The other is how contextual query subgraphs can be effectively maintained to avoid the risk of excessive expansion, thereby enabling more precise answer retrieval within them. In this paper, a model of conversational question answering based on knowledge graph and coreference resolution is proposed. First, coreference resolution is employed to obtain coreference clusters and an index replacement algorithm is introduced to enhance the semantic information of questions. Additionally, two types of dependency information, word coreference structure and character semantics, are proposed to guide the expansion of contextual query subgraph and answer retrieval. The contextual query subgraph is effectively expanded based on dependency information to obtain accurate query subgraph while avoiding overgrowth. Then, a reward-and-punishment mechanism is designed based on the number of dialogue rounds and the size of the query subgraph to effectively prevent the subgraph from overgrowing. Finally, dependency information is utilized to effectively improve the accuracy of answer retrieval. Experiments on the ConvQuestions dataset verify the effectiveness of the proposed method.

Key words: Key Words Conversational Question Answering; Coreference Resolution; Knowledge Graph; Query Subgraph

随着人工智能技术的飞速发展, 人们对于能进行自然对话的智能系统的需求日益增长.传统的问答系统主要基于关键词匹配或模式匹配, 无法理解用户的自然语言表达, 限制系统的应用场景和交互能力.对话式问答旨在通过理解和生成自然语言, 实现智能系统与用户之间的自然对话交流[1].

知识图谱(Knowledge Graph, KG)[2]和深度神经网络技术不断发展及其应用快速普及, 使得基于知识图谱的对话式问答(Conversational Question Answering, CQA)成为当前的研究热点[3].Kacupaj等[4]提出PRALINE(Path Ranking for Conversational Question Answering), 有效排序KG路径, 结合对话历史信息和邻居信息等会话上下文, 共同学习其与KG路径的同构表示, 实现有效的答案路径排序.Kaiser等[5]将回答过程建模为多个代理在KG上并行游走, 由策略网络采样动作决定游走路径, 有效、准确地回答带有干扰词汇的问题.

然而, 在对话式问答中, 当前问题往往与历史对话相关, 并且会出现上下文指代和省略现象[6], 导致理解当前问题的语义信息较困难, 需建立对话的长期依赖关系[7]并结合上下文语义信息进行解析.当使用一个上下文查询子图(Contextual Query Sub-graph)捕捉历史信息时, 在后续问题达到以后需要对子图进行适当的扩展以回答当前问题.同时, 由于KG中的节点有大量1跳(One-Hop)和2跳(Two-Hop)邻居, 在扩展时容易导致上下文子图过大[8], 并且随着对话轮次的增加和对话分支范围的扩大, 上下文子图过度增长的风险也相应增加.此外, 巨大的上下文子图将难以关注当前问题的主题, 大幅降低对话式问答的准确率.因此, 基于KG的对话式问答存在如下挑战:1)如何解决对话式问答中的指示代词和长依赖现象, 从而有效利用依赖信息; 2)在大规模知识库中, 如何有效维护上下文查询子图, 避免因不当扩展而导致的子图过度增长的风险, 从而在上下文查询子图中更精准检索问题的答案.

由此, 本文提出基于知识图谱与指代消解的对话式问答模型(Conversational Question Answering Based on Knowledge Graph and Coreference Resolu-tion, CKC), 通过时序索引替换实现高效语义复原, 利用三维拓扑增强算子动态构建知识子图, 并引入多级剪枝奖惩机制抑制推理噪声, 将指代结构与子图扩展深度融合, 在保证语义完整性的同时, 大幅提升在长对话场景中的答案检索精度.

1 相关工作

基于知识库的对话式问答模型的核心流程是将问题中的指称映射至知识库中对应的实体, 再提取适配问题的查询子图以获取答案[9].Yih等[10]提出STAGG(Staged Query Graph Generation), 通过语义解析生成类似于知识图谱子图的查询图, 并映射成问题的逻辑形式, 最后在KG中执行逻辑查询, 获取答案.Sun等[11]提出SPARQA, 将问题解析成语法骨架, 使用多策略方法, 结合句子级语义和词汇级语义, 生成查询图, 并在KG中执行逻辑查询.Wang等[12]在生成阶段提取问题的结构性查询意图, 在查询阶段生成候选查询并选择执行语义相似度最高的查询.上述基于语义解析查询图的方式具有较强的可解释性, 但需要手工标记大量指定语法和规则的训练数据, 可扩展性不强.

基于图搜索的对话式问答模型将查询子图中的实体作为候选答案, 聚焦子图内实体以缩小检索范围, 有效降低大规模知识库的答案检索难度.Christmann等[13]提出CONVEX(Conversational KG-QA with Context Expansion), 使用上下文查询子图维护对话中的历史实体, 使用图搜索算法进行扩展, 得到后续问题的候选答案.Jin等[14]提出GStar, 以问题的主题实体为中心向外扩展子图, 每一跳扩展时都判断实体是否在Top-k的答案范围内, 若候选答案实体数已达到Top-k则停止扩展子图.成凌云等[15]提出基于对抗强化学习的多跳知识推理模型, 设计KG嵌入框架, 衡量嵌入空间中< 主题实体, 问题, 答案实体> 的可信度, 将多维信息融入强化学习框架的状态表示中, 使用生成器计算候选实体的概率并生成答案.Lan等[16]使用实体转换图和图构造器, 对每轮问答中的实体进行建模, 使用图模型捕获每轮对话的主题实体, 根据主题实体构造当前问题的查询图并预测答案.李凤英等[17]提出融合语义信息的知识图谱多跳推理模型, 使用推理路径和查询关系的语义相似度度量推理路径的可靠性, 并作为奖励函数反馈给智能体.上述模型能有效减小大规模KG中的答案检索空间, 但可能导致空答案或错误答案[18].

基于检索的对话式问答模型通过检索相关文档或知识以回答问题, 通常使用信息检索技术, 从大规模文档库中检索与问题相关的文档, 再从检索的文档中提取答案.Qu等[19]提出位置历史答案嵌入的方法, 有效处理对话依赖, 可动态表示历史轮次对当前问题影响的不同权重值, 但在轮次较多的对话中对整个对话历史的建模可能会出现大量冗余信息, 导致花费更多的计算资源.Qiu等[20]捕捉和回溯相关历史对话, 采用机器阅读理解(Machine Reading Comprehension, MRC)解析选定的历史轮次, 帮助回答当前问题.该类模型计算资源较少, 可专注于更相关的历史轮次, 但选择策略的质量直接影响答案预测的性能.

基于生成式的对话式问答模型通过生成式模型直接生成答案, 通常使用序列到序列模型或预训练语言模型生成自然语言答案.Kim等[6]提出EXCORD(Explicit Guidance on How to Resolve Conversational Dependency), 将CQA任务分解为问题重写(Question Rewriting)和QA任务.Liu等[21]提出CORNNET, 利用大语言模型生成高质量重述, 并结合强化学习定位答案.Kaiser等[22]通过强化学习生成问题的变体, 增强模型的鲁棒性.Ke等[23]为了克服重写监督信号的缺失, 引入知识增强的自训练机制, 从其它数据集中迁移问题重写器以适应当前的知识库.Su等[24]把指代词消解和补全作为多轮对话建模的预处理步骤, 先将历史对话及当前问题通过句子重写模型补全问题的语义信息再进行对话处理.Quan等[25]提出GECOR(Generative Ellipsis and Co-reference Resolution Model), 有效结合多轮任务型对话和句子重写.张诗安等[26]通过端到端指代消解模型识别对话中蕴含的表示同一实体的指代簇, 使用两种不同方法, 利用指代簇增强对话模型.此类模型效果显著, 但对大规模预训练模型的计算资源依赖较高.

还有模型结合多种技术的优势, 如检索和生成、知识图谱和预训练语言模型、基于神经符号推理与智能体等.Sun等[27]提出ToG(Think-on-Graph), 利用LLM(Large Language Model)作为智能体, 在图上执行波束搜索, 实现免训练推理.Kaiser等[28]提出PRAISE(Preference-Based Learning with Retrieval Aug-mented Iterative Sequence Generation for ConvQA), 引入偏好学习, 优化检索增强过程.Agarwal等[29]提出NS-KGQA, 基于预训练知识图谱嵌入与大模型逻辑解析机制, 实现在无需标注数据训练的前提下对复杂知识图谱问题的深度推理.

2 基于知识图谱与指代消解的对话式问答模型

本文提出基于知识图谱与指代消解的对话式问答模型(CKC), 主要包括指代消解模块、上下文查询子图模块和答案检索模块, 框架如图1所示.

图1 CKC框架图Fig.1 Framework of CKC

2.1 指代消解模块

定义1 指代簇(Coreference Cluster) Cr={c1, c2, …, cm}表示对话文本中指向同一实体的所有指代簇, ciCr表示指代簇中的第i个指称, 包含名词性实体.集合内的元素根据其在对话历史中的出现索引进行升序排列.

为了充分考虑历史对话和当前对话中的所有指称, 对当前问题Qk和历史问答对

H={(Q1, A1), (Q2, A2), …, (Qk-1, Ak-1)},

使用e2e-coref(End-to-End Neural Coreference Reso-lution)[30]实现指代消解, 并得到指代簇

Cr={c1, c2, …, cm}

和注意力权重

Cw={w1, k, w2, k, …, wk-1, k},

计算两两指称表示同一实体的概率, 选择得分较高的形成指代簇, 最后通过指代簇完善当前问题的语义信息.

指代簇表示指代消解模型识别的表示同一实体的指称集合.例如, 在对话“ Q2:主演是谁?A2:吴京; Q3:他还演过哪些电影?” 中, 指代簇{吴京, 他}表示“ 吴京” 和代词“ 他” 表示同一个实体.

以对话“ Q2:主演是谁?A2:吴京; Q3:他还演过哪些电影?” 为例, 指代消解过程如下.

1)使用e2e-coref对历史对话和当前问题进行指代消解, 得到指代簇{吴京, 他}.e2e-coref计算两两指称表示同一实体的概率, 选择得分高的形成指代簇.本例中, “ 吴京” 在Q2中首次出现, 索引为2, “ 他” 在Q3中出现, 索引为3, e2e-coref计算得到“ 吴京” 和“ 他” 表示同一实体的概率为0.95, 超过阈值0.5, 因此形成指代簇{吴京, 他}.

2)对指代簇中的实体进行升序排序, 先出现实体的索引在前.在本例中, 排序后的指代簇为[吴京, 他], 其中“ 吴京” 的索引为2, “ 他” 的索引为3.

3)将第一个实体作为基准实体, 从后往前逆序使用该实体替换同类中的其它实体.本例中基准实体为“ 吴京” , 从后往前替换, 将“ 他” 替换为“ 吴京” , 得到指代消解后的问题“ Q3:吴京还演过哪些电影?” .

4)识别消解后问题中的实体“ 吴京” , 并加入上下文查询子图中.

消解前, 问题“ Q3:他还演过哪些电影?” 与历史轮次的依赖权重为0.3(因为“ 他” 是一个代词, 依赖信息较弱); 消解后, 问题“ Q3:吴京还演过哪些电影?” 与历史轮次的依赖权重为0.7(因为“ 吴京” 是一个明确的实体, 依赖信息较强).这说明指代消解能有效增强问题的语义信息和依赖信息.

为了使用指代簇完善当前问题语义信息的描述, 首先对指代簇中的实体进行升序排序, 先出现实体的索引在前.然后将第一个实体作为基准实体, 从后往前逆序使用该实体替换同一类中的其它实体, 并删除多余索引, 得到指代消解后的问题Qk'.进一步识别Qk'中的实体信息并加入上下文查询子图中, 使用轮次为k的问答

γ k=wβ FFNN( qk* )

与当前问题最相关的实体, 对上下文查询子图进行扩展, 使Qk'主题转换时尽可能将新主题的实体扩展至子图中, 提高答案检索的准确率, 其中, wβ 表示可学习权重矩阵, FFNN(· )表示前馈神经网络(Feedforward Neural Network), qk* 表示整轮对话的注意力向量.再基于每个词的平均相似度计算消解前后问题的相关性.

为了从词汇指代结构的角度计算依赖权重, 考虑对话历史中的实体与当前问题中的实体是否表示为同一类, 若是, 历史轮次将对当前问题产生影响.当节点有依赖信息时, 首次出现的轮次依赖权重最大, 距离当前轮次越近的历史轮次权重也越大, 依赖权重的计算如下所示:

wι =φ + αC-T(x)+0.5.

其中:C表示当前轮次; T(x)∈ dr表示节点x的轮次, dr表示轮次信息; φ =1或0时分别表示问题Qk'是否依赖于第一轮次且在依赖信息中; α 表示超参数衰减因子, 控制历史信息权重随轮次变化的衰减速率.

为了从字符语义的角度计算依赖权重, 扩展注意力机制, 由跨度区间向量拼接成整轮对话的注意力向量:

qk* =[ x̂0, k, x̂1, k, …, x̂m, k],

其中 x̂i, k表示句子中跨度的注意力向量.

利用前馈神经网络计算历史轮次对当前问题的影响权重:

$w_{j, k}=\frac{\exp \left(\boldsymbol{\gamma}_{k}\right)}{\sum_{i=1}^{k-1} \exp \left(\boldsymbol{\gamma}_{i}\right)} .$

为了更好地表示依赖的整体情况, 计算待加入节点与上下文查询子图的相关性, 最终权重为:

wd= wι+wj, k2, wι0wj, k, wι=0(1)

2.2 上下文查询子图模块

定义2 上下文查询子图Gsub=(Vsub, Esub, Q* , wd)是从全局知识图谱中动态提取的语义关联图, 用于支撑当前问题的推理.设全局知识图谱G=(V, E), 其中, V为节点集, E为边集, Vsub由基于消除歧义并恢复问题的完整语义信息Q* 的种子节点集与动态扩展节点集组成, 子图的演进过程受融合词汇指代结构与字符语义的双重依赖权重wd引导, 在保证证据链召回准确性的同时, 确保能通过相似度门槛实现对冗余空间的有效抑制.

对话式问答中的第一轮次不存在历史对话, 为了使第一轮次的答案搜索方式与其它轮次相同, 利用中心主题实体Ect和第一轮问题中的实体, 初始化上下文查询子图X1.

选择与问题Q1最相似的Top-k关系, 将与所选关系相连的所有三元组加入X1中, 生成扩展后的上下文查询子图 X+1, 再进行答案检索.第一轮问答完成后, 扩展后的上下文查询子图 X+1包含问题Q1中出现的实体及预测的答案实体.

进一步提出构造和扩展上下文查询子图的方法, 融入依赖信息, 扩展上下文查询子图, 并给出相应的奖惩机制以限制子图过度增长, 具体步骤如下.

1)上下文查询子图实体添加.使用TAGME[31]识别问题Qk'中的实体, 并计算链接到Wikidata对应实体的可能性.将可能的实体加入上下文查询子图, 并在扩展时将这些实体赋予更大的权重, 保证扩展的实体与Qk'具有更高的相关性.

2)上下文查询子图扩展.基于下述3个特征, 计算节点加入查询子图的可能性, 将Xkt(t≥ 1)跳(t-Hop)邻域内的可能实体或关系扩展至上下文子图中.

(1)待加入节点与当前问题的相关性.问题Qk'中的词为KG中的相关节点提供直接线索, 由于用户在问题词中的内容与KG术语之间存在词汇不匹配的现象, 因此, 基于word2vec[32]等词嵌入技术, 使用节点标签和问题词中词汇嵌入的余弦相似度定义待加入节点η 与问题词的相关性得分:

req(η , Qk')=cosnorm(ω v1, ω v2),

其中

ω v1=w2v(label(η )), ω v2=w2v( Qik'),

cosnorm表示余弦相似度, w2v(· )表示word2Vec, label(· )表示节点标签, η N(Xk), N(Xk)表示上下文查询子图Xkt跳邻域节点.

使用问题词的平均相似度分数定义待加入节点与当前整个问题的相似度分数:

$\operatorname{req}\left(\eta, Q^{k^{\prime}}\right)=\frac{1}{\tau} \sum_{i=0}^{\tau} \operatorname{req}\left(\eta, Q_{i}^{k^{\prime}}\right), $

其中τ 表示问题词去除停用词后的长度.

(2)待加入节点与上下文查询子图的相关性.在一段对话问答中, 当前谈论内容与历史对话往往具有相关性, 因此, 考虑待加入节点与上下文查询子图的相关性, 保证待加入节点与当前对话是同一主题内容.已知待加入节点η , 与问答qa相关的节点集合记为Lqa, 计算η Lqa中所有节点在上下文查询子图Xk中的最短跳数之和dt的相关性, 节点间的距离越近, 相关性越高.相关性计算公式如下:

$\operatorname{rec}\left(\eta, X^{k}\right)=\frac{\sum_{x \in X^{k}}\left(\frac{w_{d}(x) L_{q a}(x)}{d_{t}(\eta, x)}\right)}{\sum_{x \in X^{k}} L_{q a}(x)} .$

其中:Lqa(x)=1或0分别表示节点x是否为qa节点; wd(x)表示权重, 由式(1)计算得到; dt(η , x)表示节点η x之间的最短跳数.

(3)KG先验.利用KG中节点的使用频率反映该节点在用户问题中被询问的可能性, 初始时利用频率最大值进行归一化处理, 待加入节点η 的KG先验为:

prior(η , Kg)=freqnorm(η , Kg).

其中, freqnorm(· )表示节点在KG中出现的概率函数, Kg表示知识图谱.

3)边缘扩展分数计算.考虑待加入节点与问题的相关性、与上下文查询子图的相关性及KG先验, 使用FA(Fagin's Algorithm)[33]对上述3个指标进行聚合, 为不同的指标分配不同的权重, 计算边缘扩展分数:

$\begin{aligned}\text { frontier }\left(\eta, Q^{k^{\prime}}, X^{k}, K_{g}\right) & =h_{1}^{F} \operatorname{req}\left(\eta, Q^{k^{\prime}}\right)+ \\h_{2}^{F} \operatorname{rec}\left(\eta, X^{k}\right) & +h_{3}^{F} \operatorname{prior}\left(\eta, K_{g}\right), \end{aligned}$

其中, h1F表示待加入节点与当前问题相关性的权重, h2F表示待加入节点与上下文查询子图相关性的权重, h3F表示知识图谱先验特征的权重,

h1F+ h2F+ h3F=1.

4)扩展节点数量约束.为了防止上下文查询子图随对话轮次扩展而过度增长, 考虑上下文查询子图大小及对话轮次, 上下文查询子图越大或对话轮次越多, 上下文查询子图的扩展能力越弱.每轮次扩展节点的数量为:

Tr= 2Turn-1log2(numnodes),

其中, Turn表示节点标签, numnodes表示实体加入当前问题后上下文查询子图的节点数.

5)子图扩展终止规则.选择Tr个节点加入上下文查询子图中, 考虑知识图谱中实体分支发散导致的语义噪声干扰及检索空间冗余, 当待加入节点的边缘扩展分数低于阈值θ 时, 停止扩展.同时, 单轮扩展节点数不得超过动态计算的阈值Tr, 也不得超过当前子图节点数的50%.对话轮次增加时, 为了防止由于历史上下文堆叠导致的扩展节点数随轮次呈爆炸式增长, 引入衰减因子, 对远距离轮次的扩展预算进行惩罚, 使旧轮次实体的扩展节点数呈受控衰减.当前上下文查询子图的规模增加时, 为了防止搜索空间无限扩张, 设计饱和度惩罚机制, 实时监测子图大小, 当规模接近预设阈值时, 自动提高由权重 h3F调控的语义相关度门限并减小基础扩展权重 h2F以严格限制扩展节点数量, 轮次k时可扩展上下文查询子图的最大扩展节点数为:

ExpandNum(k, num(Xk))=⌊h2Fγ (k-i) e-αVX+|」.

其中:num(· )表示上下文查询子图; h2F表示初始状态下每一跳允许的最大分支数, 保证搜索空间的初始覆盖率; γ (k-i)表示对话轮次增加时的惩罚机制; e-αVX+|表示查询子图大小增加时的惩罚机制, 当前子图节点总数 VX+增大时, 扩展按指数级压缩, 防止子图爆炸.

最终生成扩展后的上下文查询子图 X+k, 用于当前轮次的答案检索.

2.3 答案检索模块

将当前轮次加入的节点称为边缘节点, 在对答案候选节点评分时, 将边缘节点视为问题Qk'最相关的节点.考虑当前问题Qk'依赖历史轮次节点的可能性, 利用候选答案节点到历史节点的距离及历史节点影响候选节点的权重大小, 从 X+k中检索当前问题Qk'的答案.候选答案分数为:

Ak=arg maxAX+k[θ 1(A)+θ 2(A)],

其中

$\begin{array}{l}\theta_{1}(A)=\frac{h_{1}^{B}}{r}\left(\sum_{i=1}^{r} \frac{\operatorname{rec}\left(F_{i}^{k}, X_{+}^{k}\right)}{d_{t}\left(A, F_{i}^{k}\right)}\right), \\\theta_{2}(A)=h_{2}^{B}\left(\frac{\sum_{x \in X_{+}^{k}} \frac{w_{d}(x) L_{q a}(x)}{d_{t}(A, x)}}{\sum_{x \in X_{+}^{k}} L_{q a}(x)}\right), \end{array}$

rec( Fik, X+k)表示新加入的边缘节点 Fik与上下文查询子图的相关性, dt(A, Fik)表示节点A与边缘节点 Fik的最短跳数, r表示新加入的边缘节点数量, h1Bh2B表示超参数.

最后, 从候选答案集合Ak中, 筛选得分最高的一个或多个实体节点作为问题Qk'的最终预测答案.

2.4 算法步骤

CKC具体步骤如算法1所示.

算法1 CKC

输入 对话中心主题实体Ect, 总对话轮次T,

对话的所有问题Q={Q'1, Q'2, …, QT'},

知识图谱Kg

输出 每轮预测的答案Apre={A1, A2, …, AT}

k← 1; X1Ect

while kT do

EQk'TagMe(Qk') //获取当前问题中的实体

XkXkEQk'

for each η N(Xk) do

req(η , Qk') //计算与问题相关性

rec(η , Xk) //计算与上下文查询子图的相关性

prior(η , Kg) //计算先验

L

{ h1Freq(η , Qk'), h2Frec(η , Xk), h3Fprior(η , Kg)} //计算边缘扩展分数

end for

$\begin{array}{r}\operatorname{Tr} \leftarrow \min \left(\frac{2}{\operatorname{Turn}-1} \log _{2}\left(\text { num }_{\text {nodes }}\right), \right. \\\left.\operatorname{ExpandNum}\left(k, \operatorname{num}\left(X^{k}\right)\right)\right)\end{array}$

//计算扩展节点数

{ Fik}i=1TrFagin(L, Tr) //筛选边缘节点

X+kXk∪ {Fk} //扩展上下文查询子图

for each AX+kdo

answerscore(A)=θ 1(A)+θ 2(A) //计算候选答案

end for

Ak← arg maxAX+kanswerscore(A)

X+k+1X+k

kk+1

end While

return {A1, A2, …, AT}

每轮次Xk邻域的节点数为n, 第一轮后上下文查询子图中的节点数为m, 每轮次选择Tr个与节点相关的三元组加入上下文查询子图, 当上下文查询子图并不包含待加入三元组时, 最多将2Tr节点加入上下文查询子图.当上下文查询子图包含待加入的三元组时, 最少有Tr个节点加入上下文查询子图.因此, 最坏情况下T轮的时间复杂度为

O(T(n+m)+2T(T-1)Tr),

最好情况下的时间复杂度为

O(T(n+m)+T(T-1)Tr).

3 实验及结果分析
3.1 实验环境

本文使用Christmann等[13]创建的大规模对话KBQA数据集— — ConvQuestions数据集(https://convex.mpi-inf.mpg.de/).该数据集将Wikidata作为知识库, 包含books、movies、music、soccer、tv_series领域的主题, 每段对话包含5轮问答对.训练集包含6 720段对话, 验证集包含2 240段对话, 测试集包含2 240段对话, 训练集、验证集、测试集的对话数量在5个领域中都均匀分布.

由于本文方法是对候选答案实体进行评分并生成答案排序列表, 针对某一问题可能包含一个或多个正确答案, 因此使用Top-1准确率(P@1)、Top-5命中率(Hit@5)和平均倒数排名(Mean Reciprocal Ranking, MRR)评估模型性能.P@1表示得分最高的候选答案是否为正确答案.Hit@5表示前5个最高得分候选答案中是否命中正确答案, 用1和0分别表示是否命中.MRR表示正确答案排名的倒数, 值越大效果越优.使用正确率评判查询子图的有效性, 表示上下文查询子图中包含正确答案子图的比例.P@1、Hit@5和MRR的计算公式分别如下:

$\begin{array}{l} P @ 1=\frac{1}{N} \sum_{i=1}^{N} \sigma(\operatorname{rank}(A)=1), \\ H i t @ 5=\frac{1}{N} \sum_{i=1}^{N} \sigma(\operatorname{rank}(A) \leqslant 5), \\ M R R=\frac{1}{N} \sum_{i=1}^{N} \frac{1}{\operatorname{rank}(A)}, \end{array}$

其中, rank(A)表示正确答案A的排名, σ (· )表示指示函数, 通过取值为1或0表示内容是否为真.

操作系统为Ubuntu 20.04.1, CPU处理器为Intel(R) Xeon(R) Silver 4210R @2.40 GHz, GPU为RTX 2080 Ti, 内存64 GB.

3.2 对比实验

本文选择如下7种对比模型进行性能对比.

1)CONVEX[13].无监督的图探索模型, 在每一轮次中将问题与相邻的实体匹配, 用于扩展子图, 通过节点分类器在子图中找到候选答案, 是Conv-Questions数据集上的基准方法.

2)文献[16]模型.基于图神经网络的焦点实体预测模型, 建模对话中出现的实体信息, 采用基于图神经网络的焦点实体预测器分别预测对话中的焦点实体和当前生成的新焦点实体, 将预测后的焦点实体输入预测器中并生成答案.

3)ToG[27].基于思维树图的模型, 在知识图谱上构建思维树以指导答案检索, 利用图结构捕捉对话中的推理路径.

4)D2A(Dialog-to-Action)[34].端到端的KGQA神经网络模型, 使用基于灵活语法的生成模型管理对话记忆, 包含查找、比较、计数、复制历史逻辑表达等多种逻辑操作, 使用自顶向下的方式预测当前问题的逻辑表达.

5)GCoQA(Generative Retrieval for Conversational Question Answering)[35].为段落分配独特的标识符, 通过编码器-解码器体系结构逐个标记生成标识符以检索段落, 在每个解码步骤中关注对话上下文的关键标记, 高效实现对话式问答.

6)EXPLAIGNN(Explainable Conversational Ques-tion Answering over Heterogeneous Graphs via Iterative Graph Neural Networks)[36].基于解释图神经网络的对话式问答模型, 构建解释图以捕捉对话中的推理路径, 利用图注意力机制学习实体和关系的表示.

7)OntoTune(Ontology-Driven Self-Training Fine-Tuning Framework)[37].基于本体驱动自训练的知识增强大语言模型, 利用知识图谱中的本体(Onto-logy)结构指导大语言模型的自训练过程, 在无监督状态下实现大语言模型与结构化知识的语义对齐.

为了测试各模型在对话式问答任务上的性能, 在ConvQuestions数据集上进行对比测试, 结果如表1所示, 表中黑体数字表示最优值, 斜体数字表示次优值.由表可见, 相比CONVEX, CKC在P@1指标上提升6.6%, 在MRR指标上提升6.8%, 在Hit@5指标上提升6.7%.由此可看出, CKC效果较优, 可提升答案检索的准确率.原因在于CKC有效利用对话中的依赖信息, 提出的子图扩展方式使得更多的正确答案能加入上下文查询子图中, 验证其有效性.

表1 各模型在ConvQuestions数据集上的测试结果 Table 1 Test results of different models on ConvQuestions dataset

本文还在ConvQuestions数据集各领域上进行测试, 结果如表2~表4所示, 表中黑体数字表示最优值, 斜体数字表示次优值.由表2可见, 在P@1指标上, 相比CONVEX, CKC最高在tv_series领域上提升9%, 最低在books领域上提升3.4%.相比ToG, CKC最高在movies领域上提升9.1%.相比文献[16]模型, CKC在tv_series领域上提升7%.结果表明, CKC在一定程度上能提升对话式问答的准确率.

表2 各模型在ConvQuestions各领域上的P@1值 Table 2 P@1 of defferent models in different fields of ConvQuestions dataset
表3 各模型在ConvQuestions各领域上的MRR值 Table 3 MRR of different models in different fields of ConvQuestions dataset
表4 各模型在ConvQuestions各领域上的Hit@5值 Table 4 Hit@5 of different models in different fields of ConvQuestions dataset

表3可见, 在MRR指标上, 相比CONVEX, CKC最高在tv_series领域上提升10.1%, 最低在books领域上提升3.4%.相比ToG, CKC最高在movies领域上提升5.3%.结果表明, CKC得到的正确答案排名更靠前, 效果也更优.由表4可见, 在Hit@5指标上, 相比CONVEX, CKC最高在music领域上提升10%.相比ToG, CKC最高在soccer领域上提升8.2%.结果表明, CKC在面对复杂知识实体检索时展现出更强的召回能力和更高的覆盖率.

ConvQuestions各领域上的数据特征统计结果如表5所示, 表中实体密度=实体数/词数.由表可看出, tv_series领域上的平均每轮对话指代次数为0.65, 显著高于其它领域, 远高于books领域的0.32.同时, tv_series领域上的实体密度为0.28, 也高于books 领域的0.24.这说明tv_series 领域的对话中包含更密集的指代现象和实体分布, 文本的上下文依赖性更强.由于CKC的核心之一是指代消解模块, 能有效还原对话中的隐式语义, 因此对于这种具有高频指代的tv_series领域, 能更显著地捕捉实体间的复杂关联, 从而实现9%的性能提升, 而对于指代频率较低、语义联系相对独立的books领域, 仅提升3.4%.这从数据特征维度验证CKC的有效性, 也进一步说明指代消解对于高频指代领域的对话式问答任务具有重要的实用价值.

表5 ConvQuestions各领域上的数据特征统计结果 Table 5 Data characteristic statistics in different fields of ConvQuestions dataset
3.3 有效性分析

3.3.1 指代消解

本文中的指代消解主要用于完善当前问题的语义信息和计算依赖信息, 相当于对话式问答的预处理步骤.因此, 分别从将不同指代消解模型与对话式问答模型结合、指代消解对对话式问答所起作用两个方面测试指代消解模块的有效性.选择如下指代消解模型:e2e-coref[30]、BERT(Bidirectional Encoder Representations from Transformers)[38]、SpanBERT[39].它们分别与CQA结合后, 在ConvQuestions数据集上的指标值对比如表6所示.

表6 各指代消解模型在ConvQuestions数据集上的测试结果 Table 6 Test results of different coreference resolution models on ConvQuestions dataset

表6可见, 仅使用基于指代消解得到的依赖信息时, 指代消解模型的准确率和召回率会影响对话式问答准确率, 效果越优的指代消解模型得到的指代簇越精准、全面, 越有利于将更丰富的依赖信息用于指导CQA, 越能提升其依赖信息利用的有效性.此外, 在e2e-coref的基础上加入注意力机制(Attention)后计算依赖信息, 效果优于未使用注意力机制的其它模型, 由此也验证CKC的有效性.

针对指代消解在对话式问答模型中每个部分的作用进行测试, 选择如下模型.1)CONVEX+inidata, CONVEX未使用指代消解数据.2)CONVEX+crr- data, CONVEX加上指代消解数据.3)crrdata+dt, 在指代消解数据上添加依赖信息.4)crrdata+qsm, 在指代消解数据上结合问题相似度均值.5)crrdata+addentity, 使用指代消解数据, 在扩展上下文子图前加入当前问题的实体.6)CKC.综合crrdata+dt、crr- data+qsm和crrdata+addentity.

完整ConvQuestions数据集上的指代消解的有效性测试结果如表7所示, ConvQuestions数据集各领域上的指代消解的有效性测试结果如表8表9所示, 表中黑体数字表示最优值.

表7 各模型在ConvQuestions数据集上指代消解测试结果 Table 7 Coreference resolution test results of different models on ConvQuestions dataset
表8 各模型在books、movies领域上的指代消解测试结果 Table 8 Coreference resolution test results of different models in the fields of books and movies
表9 各模型在music、soccer、tv_series领域上的指代消解测试结果 Table 9 Coreference resolution test results of different models in the fields of music, soccer and tv_series

表7~表9可得如下结论.

1)若对CONVEX不作任何改进而直接使用指代消解数据(CONVEX+crrdata), 由于缺少对依赖信息的充分利用, 难以有效提升准确率.

2)相比CONVEX+crrdata, 指代消解数据上添加依赖信息(crrdata+dt), 得到的指标值都有所提升, 说明添加依赖信息的有效性.P@1指标在books领域上提升最大(约5%), 在tv_series领域上提升最小(约0.1%).MRR、Hit@5指标有升有降, 但MRR指标总体呈上升趋势.因此, 添加依赖信息更有利于提高查询子图的正确率和答案检索的准确率.

3)相比CONVEX+crrdata, 在指代消解数据上结合问题相似度均值(crrdata+qsm), 得到的指标值都有所提升, 说明相似度均值的有效性.使用均值表示问题相似度可更好地反映问题总体的相似度, 受特殊情况影响较小, 从而提升指代消解的有效性.P@1指标在music领域上提升约7.2%, 在tv_series领域上下降约1.5%, 但总体呈增长趋势.MRR指标在tv_series领域上下降约0.7%, 总体也呈增长趋势.Hit@5指标在movies领域上下降约1.4%, 在其它领域上均呈上升趋势, 故总体也呈增长趋势.由于每个领域的数据上下文指代和省略分布不均匀, 使得单个领域上各指标升降不一致.

4)相比CONVEX+crrdata, 使用指代消解数据, 在扩展上下文子图前加入当前问题的实体(crrdata+addentity), 得到的指标值中P@1、MRR值均呈上升趋势, Hit@5值略微下降, 说明加入当前问题实体再进行上下查询子图扩展这一方法是有效的.P@1指标在movies领域上提升最大(约8.2%), 在soccer领域上提升最小(约1.4%).Hit@5指标在books、music、soccer领域上呈下降趋势, 但总体上也是略微下降.结果表明在上下文查询子图扩展前先加入当前问题的实体并赋予更大权重, 可有效提升答案检索的准确率.

5)相比CONVEX+crrdata, CKC的所有指标值都有所提升.相比CONVEX+inidata, CKC的P@1、MRR指标都有一定提升, P@1指标提升约5%, Hit@5指标超过CONVEX+crrdata并与CONVEX+inidata几乎相同.上述情况说明加入指代消解的有效性, 也验证使用均值表示相关性、添加依赖信息辅助答案检索、上下文查询子图扩展前先加入问题实体等策略都有利于提升P@1值.MRR指标的提升也表明上述策略可使更多的正确答案排名靠前.

3.3.2 上下文查询子图

为了验证改进的上下文查询子图的有效性, 设计轮次扩展数与CONVEX一致, 从第2轮开始每轮依次扩展10, 4, 5, 5个节点, 最后在测试数据集上统计上下文查询子图中包含正确答案的子图的正确率, 结果如表0所示.由表可见, CKC中子图扩展方法能获得更多的正确答案, 更有利于答案检索.

表10 CONVEX和CKC上查询子图的正确率对比 Table 10 Accuracy comparison of query subgraphs between CONVEX and CKC %
3.4 消融实验

为了验证CKC中各模块对性能的贡献, 进行消融实验, 依次移除指代消解模块、奖惩机制、依赖信息后的性能如表11所示.

表11 在ConvQuestions上的消融实验结果 Table 11 Ablation experiment results on ConvQuestions dataset

表11可看出, 移除指代消解模块后, P@1指标从0.230降至0.125, 降幅约45.6%, 表明指代消解模块在补全对话语义、精准定位关键实体中的决定性作用.移除奖惩机制或依赖信息虽然对P@1指标的影响略小于指代消解模块, 但导致MRR指标从0.257骤降至0.113, 降幅达56%, 揭示这两个机制在抑制子图噪声、优化答案排序方面的关键作用.

3.5 超参数分析

在ConvQuestions数据集上验证超参数的敏感性.首先定义 h1F=0.05, 0.10, …, 0.60, h2F=0.05, 0.10, …, 0.60, h3F=0.05, 0.10, …, 0.60, 在Conv- Questions数据集及tv_series领域上相应的P@1值对比如图2所示.

图2 h1Fh2Fh3F对CKC性能的影响Fig.2 Effect of h1F, h2F, h3F on CKC performance

由图2可见, h1F在0.4~0.5内表现最优, 过低容易引入无关冗余节点, 过高则过度依赖字面相似性而忽视结构关联. h2F在0.25~0.45之间能有效维持主题一致性, 低于0.25时会导致主题漂移, 高于0.45时会限制新主题实体扩展. h3F敏感性相对较低, 在0.1~0.3之间时能调节高频节点入选概率, 权衡召回率与精准率以辅助优化检索性能, 对CKC整体影响较温和.

为了验证子图扩展终止条件中阈值θ 对CKC性能的影响, 在ConvQuestions验证集上进行敏感性测试.实验设置Kmax=15, τ =0.01, 相应结果如表12所示.

表12 θ 对CKC性能与效率的影响 Table 12 Effect of θ on performance and efficiency of CKC

表12可见, 当θ =0.5时, P@1值(0.230)与MRR值(0.257)均达到峰值, 表明θ 是语义过滤的帕累托最优解, 能有效平衡证据的完整性并抑制干扰信息.当θ < 0.4时, 虽然子图涵盖更多的候选节点, 但由于引入大量弱相关的背景噪声, 导致注意力机制分散, 使得P@1指标显著下降, 单轮推理耗时大幅增至482 ms.反之, 当θ > 0.6时, 子图规模迅速缩减, 过于严苛的约束导致在处理长程依赖或复杂多跳问题时, 关键推理节点被提前剪枝, 导致MRR指标下降.最终, 选定θ =0.5, 不仅保证检索精度, 还将单轮推理耗时优化至186 ms左右, 相比θ =0.3时, 降低约61.4%的计算开销.上述分析充分验证该终止条件在提升模型工程实践效率方面的显著作用.

4 结束语

本文提出基于知识图谱与指代消解的对话式问答模型(CKC), 利用指代消解完善问题的语义信息.将依赖信息用于指导上下文查询子图扩展和答案检索, 利用奖惩机制防止查询子图过度增长, 提升对话式问答的准确率.在ConvQuestions数据集上的实验验证CKC的有效性.今后考虑将模型用于口语化问句的解析, 进一步提升上下文查询子图的准确率.

本文责任编委 林鸿飞

Recommended by Associate Editor LIN Hongfei

参考文献
[1] ZAIB M, ZHANG W E, SHENG Q Z, et al. Conversational Question Answering: A Survey. Knowledge and Information Systems, 2022, 64(12): 3151-3195. [本文引用:1]
[2] ZHONG L F, WU J, LI Q, et al. A Comprehensive Survey on Automatic Knowledge Graph Construction. ACM Computing Surveys, 2024, 56(4). DOI: 10.1145/361829. [本文引用:1]
[3] 饶东宁, 许正辉, 梁瑞仕. 基于知识库问答的回答生成研究. 计算机工程, 2025, 51(2): 94-101.
(RAO D N, XU Z H, LIANG R S. Research on Answer Generation Based on Knowledge Base Question Answering. Computer Enginee-ring, 2025, 51(2): 94-101. ) [本文引用:1]
[4] KACUPAJ E, SINGH K, MALESHKOVA M, et al. Contrastive Representation Learning for Conversational Question Answering over Knowledge Graphs // Proc of the 31st ACM International Confe-rence on Information and Knowledge Management. New York, USA: ACM, 2022: 925-934. [本文引用:1]
[5] KAISER M, ROY R S, WEIKUM G. Reinforcement Learning from Reformulations in Conversational Question Answering over Know-ledge Graphs // Proc of the 44th International ACM SIGIR Confe-rence on Research and Development in Information Retrieval. New York, USA: ACM, 2021: 459-469. [本文引用:1]
[6] KIM G, KIM H, PARK J, et al. Learn to Resolve Conversational Dependency: A Consistency Training Framework for Conversational Question Answering // Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing(Long Papers). Stroudsburg, USA: ACL, 2021: 6130-6141. [本文引用:2]
[7] 陈晨, 朱晴晴, 严睿, . 基于深度学习的开放领域对话系统研究综述. 计算机学报, 2019, 42(7): 1439-1466.
(CHEN C, ZHU Q Q, YAN R, et al. Survey on Deep Learning Based Open Domain Dialogue System. Chinese Journal of Compu-ters, 2019, 42(7): 1439-1466. ) [本文引用:1]
[8] 宋鹏程, 单丽莉, 孙承杰, . 基于查询路径排序的知识库问答系统. 中文信息学报, 2021, 35(11): 109-117, 126.
(SONG P C, SHAN L L, SUN C J, et al. A Knowledge Base Question Answering System Based on Query Path Ranking. Journal of Chinese Information Processing, 2021, 35(11): 109-117, 126. ) [本文引用:1]
[9] 乔凯, 陈可佳, 陈景强. 基于知识图谱与关键词注意机制的中文医疗问答匹配方法. 模式识别与人工智能, 2021, 34(8): 733-741.
(QIAO K, CHEN K J, CHEN J Q. Chinese Medical Question Answering Matching Method Based on Knowledge Graph and Keyword Attention Mechanism. Pattern Recognition and Artificial Intelligence, 2021, 34(8): 733-741. ) [本文引用:1]
[10] YIH W, CHANG M, HE X D, et al. Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base // Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Na-tural Language Processing(Long Papers). Stroudsburg, USA: ACL, 2015: 1321-1331. [本文引用:1]
[11] SUN Y W, ZHANG L L, CHENG G, et al. SPARQA: Skeleton-Based Semantic Parsing for Complex Questions over Knowledge Bases. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 8952-8959. [本文引用:1]
[12] WANG S J, JIAO J, ZHANG X W. A Semantic Similarity-Based Subgraph Matching Method for Improving Question Answering over RDF // Proc of the ACM on Web Conference. New York, USA: ACM, 2020: 63-64. [本文引用:1]
[13] CHRISTMANN P, ROY R S, ABUJABAL A, et al. Look Before You Hop: Conversational Question Answering over Knowledge Graphs Using Judicious Context Expansion // Proc of the 28th ACM International Conference on Information and Knowledge Ma-nagement. New York, USA: ACM, 2019: 729-738. [本文引用:3]
[14] JIN J H, LUO J Z, KHEMMARAT S, et al. GStar: An Efficient Framework for Answering Top- k Star Queries on Billion-Node Knowledge Graphs. World Wide Web, 2019, 22(4): 1611-1638. [本文引用:1]
[15] 成凌云, 郭银章, 刘青芳. 基于对抗强化学习的多跳知识推理. 模式识别与人工智能, 2025, 38(1): 22-35.
(CHENG L Y, GUO Y Z, LIU Q F. Multi-hop Knowledge Reasoning Based on Adversarial Reinforcement Learning. Pattern Re-cognition and Artificial Intelligence, 2025, 38(1): 22-35. ) [本文引用:1]
[16] LAN Y S, JIANG J. Modeling Transitions of Focal Entities for Con-versational Knowledge Base Question Answering // Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing(Long Papers). Stroudsburg, USA: ACL, 2021: 3288-3297. [本文引用:3]
[17] 李凤英, 何晓蝶, 董荣胜. 融合语义信息的知识图谱多跳推理模型. 模式识别与人工智能, 2022, 35(11): 1025-1032.
(LI F Y, HE X D, DONG R S. Multi-hop Inference Model for Knowledge Graphs Incorporating Semantic Information. Pattern Recognition and Artificial Intelligence, 2022, 35(11): 1025-1032. ) [本文引用:1]
[18] REN H Y, HU W H, LESKOVEC J. Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings[C/OL]. [2025-10-16]. https://arxiv.org/pdf/2002.05969. [本文引用:1]
[19] QU C, YANG L, QIU M H, et al. Attentive History Selection for Conversational Question Answering // Proc of the 28th ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2019: 1391-1400. [本文引用:1]
[20] QIU M H, HUANG X J, CHEN C, et al. Reinforced History Back-tracking for Conversational Question Answering. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(15): 13718-13726. [本文引用:1]
[21] LIU L H, HILL B, DU B X, et al. Conversational Question Answering with Language Models Generated Reformulations over Knowledge Graph // Findings of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2024: 839-850. [本文引用:1]
[22] KAISER M, ROY R S, WEIKUM G. Robust Training for Conversational Question Answering Models with Reinforced Reformulation Generation // Proc of the 17th ACM International Conference on Web Search and Data Mining. New York, USA: ACM, 2024: 322-331. [本文引用:1]
[23] KE X R, ZHANG J, X, et al. Knowledge-Augmented Self-Training of a Question Rewriter for Conversational Knowledge Base Question Answering // Findings of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2022: 1844-1856. [本文引用:1]
[24] SU H, SHEN X Y, ZHANG R Z, et al. Improving Multi-turn Dialogue Modelling with Utterance Rewriter // Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2019: 22-31. [本文引用:1]
[25] QUAN J, XIONG D Y, WEBBER B, et al. GECOR: An End-to-End Generative Ellipsis and Coreference Resolution Model for Task-Oriented Dialogue // Proc of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, USA: ACL, 2019: 4546-4556. [本文引用:1]
[26] 张诗安, 熊德意. 使用共指消解增强多轮任务型对话生成. 中文信息学报, 2022, 36(9): 149-158.
(ZHANG S A, XIONG D Y. Improving Multi-turn Task-Oriented Dialogue Generation Using Coreference Resolution. Journal of Chinese Information Processing, 2022, 36(9): 149-158. ) [本文引用:1]
[27] SUN J S, XU C J, TANG L M Y, et al. Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph[C/OL]. [2025-10-16]. https://arxiv.org/pdf/2307.07697. [本文引用:2]
[28] KAISER M, WEIKUM G. Preference-Based Learning with Retrie-val Augmented Generation for Conversational Question Answering // Proc of the ACM on Web Conference. New York, USA: ACM, 2025: 1053-1057. [本文引用:1]
[29] AGARWAL P, BEDATHUR S. A Zero-Shot Neuro-Symbolic Approach for Complex Knowledge Graph Question Answering // Findings of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2025: 11514-11527. [本文引用:1]
[30] LEE K, HE L H, LEWIS M, et al. End-to-End Neural Corefe-rence Resolution // Proc of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2017: 188-197. [本文引用:2]
[31] FERRAGINA P, SCAIELLA U. TAGME: On-the-Fly Annotation of Short Text Fragments(by Wikipedia Entities) // Proc of the 19th ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2010: 1625-1628. [本文引用:1]
[32] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed Representations of Words and Phrases and Their Compositionality // Proc of the 27th International Conference on Neural Information Proce-ssing Systems. Cambridge, USA: MIT Press, 2013: 3111-3119. [本文引用:1]
[33] FAGIN R, LOTEM A, NAOR M. Optimal Aggregation Algorithms for Middleware. Journal of Computer and System Sciences, 2003, 66(4): 614-656. [本文引用:1]
[34] GUO D Y, TANG D Y, DUAN N, et al. Dialog-to-Action: Conversational Question Answering over a Large-Scale Knowledge Base // Proc of the 32nd International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2018: 2946-2955. [本文引用:1]
[35] LI Y Q, YANG N, WANG L, et al. Generative Retrieval for Conversational Question Answering. Information Processing and Ma-nagement, 2023, 60(5). DOI: 10.1016/j.ipm.2023.103475. [本文引用:1]
[36] CHRISTMANN P, ROY R S, WEIKUM G. Explainable Conversational Question Answering over Heterogeneous Sources via Iterative Graph Neural Networks // Proc of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 2023: 643-653. [本文引用:1]
[37] LIU Z Q, GAN C T, WANG J J, et al. OntoTune: Ontology-Driven Self-Training for Aligning Large Language Models // Proc of the ACM on Web Conference. New York, USA: ACM, 2025: 119-133. [本文引用:1]
[38] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understand ing // Proc of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies(Long and Short Papers). Stroudsburg, USA: ACL, 2019: 4171-4186. [本文引用:1]
[39] JOSHI M, CHEN D Q, LIU Y H, et al. Spanbert: Improving Pre-Training by Representing and Predicting Spans. Transactions of the Association for Computational Linguistics, 2020, 8: 64-77. [本文引用:1]