融合目标端历史信息的篇章级神经机器翻译
王晓聪1,2, 余正涛1,2, 张元1,2, 高盛祥1,2, 赖华1,2, 李英1,2
1.昆明理工大学 信息工程与自动化学院 昆明 650504
2.昆明理工大学 云南省人工智能重点实验室 昆明 650500
通讯作者:

余正涛,博士,教授,主要研究方向为自然语言处理、信息检索、机器翻译.E-mail:ztyu@hotmail.com.

作者简介:

王晓聪,博士研究生,主要研究方向为自然语言处理、机器翻译.E-mail:wangxcai@foxmail.com.

张 元,硕士研究生,主要研究方向为机器翻译.E-mail:873867748@qq.com.

高盛祥,博士,教授,主要研究方向为自然语言处理.E-mail:gaoshengxiang.yn@foxmail.com.

赖 华,硕士,副教授,主要研究方向为智能信息处理、机器学习.E-mail:405904235@qq.com.

李 英,博士,讲师,主要研究方向为智能信息处理、机器学习.E-mail:yingli_hlt@foxmail.com.
第二十七届中国科协年会学术论文

摘要

现有的篇章级神经机器翻译方法难以有效挖掘目标端远距离的上下文信息,翻译的译文不连贯.为此,文中提出融合目标端历史信息的篇章级神经机器翻译方法.首先,通过多头自注意力机制,获得源语言的上下文表征和目标语言的上文表征.然后,使用线性偏置注意力机制,动态地将历史信息注入当前目标语言表征.最后,通过融合源语言表征和经过增强后的目标语言上下文表征获得较优的篇章译文.在多个数据集上的实验表明,文中方法性能较优,在解码过程中融合通过循环机制建模的长序列信息,可有效提升篇章译文的连贯性和完整性.

关键词: 神经机器翻译; 篇章翻译; 线性偏置注意力; 历史信息
中图分类号:TP391.2
Document-Level Neural Machine Translation with Target-Side Historical Information Fusion
WANG Xiaocong1,2, YU Zhengtao1,2, ZHANG Yuan1,2, GAO Shengxiang1,2, LAI Hua1,2, LI Ying1,2
1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504
2. Key Laboratory of Artificial Intelligence in Yunnan Province, Kunming University of Science and Technology, Kunming 650500
Corresponding author:
YU Zhengtao, Ph.D., professor. His research interests include natural language processing, information retrieval and machine translation.

About Author:
WANG Xiaocong, Ph.D. candidate. His research interests include natural language processing and machine translation.
ZHANG Yuan, Master student. His research interests include machine translation.
GAO Shengxiang, Ph.D., professor. Her research interests include natural language processing.
LAI Hua, Master, associate professor. His research interests include intelligent information processing and machine learning.
LI Ying, Ph.D., lecturer. Her research interests include intelligent information processing and machine learning.
Academic Papers of the 27th Annual Meeting of the China Association for Science and Technology

Abstract

Existing document-level neural machine translation methods struggle to effectively capture long-distance contextual information on the target side, resulting in incoherent translations. To address this issue, a method for document-level neural machine translation with target-side historical information fusion is proposed. First, the contextual representations of the source language are derived via a multi-head self-attention mechanism. Second, the preceding context representations of the target language are obtained using another multi-head self-attention mechanism. Next, an attention with linear biases is employed to dynamically inject the historical information into the current target language representation. Finally, a higher-quality translation is obtained by integrating the source language representation with the enhanced preceding context representation of the target language. Experimental results on multiple datasets demonstrate that the performance of the proposed method is superior. Moreover, the proposed method effectively improves the coherence and completeness of document-level translations through incorporating long-sequence information modeled by recurrent mechanisms during decoding.

Key words: Neural Machine Translation; Document-Level Machine Translation; Attention with Linear Biases; Historical Information

篇章机器翻译是指利用计算机自动将一个篇章文本从一种语言翻译成另一种语言[1], 是现阶段贸易合同、学术论文、新闻报道、小说等翻译领域的研究热点.有别于以句子为翻译单元的神经机器翻译(Neural Machine Translation, NMT)[2], 篇章翻译不仅需要翻译单个句子, 提供准确译文, 还要确保整个篇章的上下文连贯和逻辑一致[3], 这需要模型具备长序列的建模能力, 能有效捕捉文档中长距离依赖关系, 准确传达文档语义并满足实际应用需求.

为了获得更好的翻译, 学者们针对如何从源端文档、目标端上下文中抽取有价值的信息, 对篇章机器翻译展开大量研究.面向使用上下文信息的来源, 可大致将篇章机器翻译方法分为基于源文档上下文建模的方法和基于源文档和目标文档上下文建模的方法.

基于源文档上下文建模的方法主要通过添加一个额外的编码器, 将上下文信息融入当前的句子表示中.Jiang等[4]提出AMN(Associated Memory Net-work), 捕捉源语言局部的上下文信息.Yang等[5]使用Query-Guided Capsule Network[6]建模上下文中单词之间的关系, 并利用当前源句子作为查询向量, 区分不同单词角色.Kuang等[7]利用动态缓存和主题缓存, 分别存储前一句翻译中的目标单词和与源文档语义相关的一组目标语言主题单词.Zheng等[8]在Transformer编码器层之上添加一个段落级别的相对注意力, 及时构建全局源上下文.Macé 等[9]在训练期间使用文档标签增强源句, 并使用文档级嵌入替换源句嵌入, 考虑全局源上下文信息, 在添加额外编码器的基础上, 增加记忆模块缓存目标端已翻译的信息以增强目标端的上下文信息利用.Maruf等[10]在源文档和目标文档中对句子进行粗略的注意力处理, 融入外部记忆, 增加文档间的相互依赖性.

在篇章级的机器翻译模型中, 上下文信息对译文质量的提升十分重要, 有效利用句子之间的上下文信息可在篇章级机器翻译任务中取得性能提升[11].基于源文档上下文建模的方法主要侧重于源端上下文或邻近句子的目标端信息, 对目标端远距离历史信息的建模和利用相对有限, 容易导致因篇章上下文信息及结构信息丢失而出现的译文连贯性差、重复翻译、指代错误等问题.

因此, 本文提出融合目标端历史信息的篇章级神经机器翻译方法(Document-Level Neural Machine Translation with Target-Side Historical Information Fu-sion, DocTHiF), 实现模型对目标语言的上下文信息的有效利用.借用多分解度篇章到篇章的训练方式, 首先将文档进行片段化处理, 在模型解码的每步都加载一个片段而不是单个句子.然后, 使用一个全连接层更新上下文信息, 使用ALiBi(Attention with Linear Biases)[12]给更新的上下文信息注入位置信息.最后, 整合远距离历史信息, 融入当前的解码状态, 有效改善翻译过程中的长距离依赖建模.

在5个篇章级机器翻译数据集上进行评估实验, 数据集涵盖中英、英德两个语言对, 包含TED(Tech-

nology Entertainment Design)、新闻、欧洲议会、网络小说、个人简历等领域.实验表明, DocTHiF可有效利用目标语言的历史信息, 缓解解码过程中的长距离上下文依赖问题, 改善模型的翻译性能, 在收敛速度、训练稳定性及序列建模长度方面均有优势.值得注意的是, 即使在低资源的条件下, DocTHiF仍可保持较强的鲁棒性.

1 相关工作

句子级机器翻译模型都是基于句子独立性构建的, 在构建语料库时使用独立的平行句对.对于句子级的机器翻译模型而言, 翻译的过程不需要建模很长的序列, 也无需考虑上下文信息.

现实中只有极少数的场景需要单句翻译, 人们往往需要的是一个段落或一个完整文档的翻译, 如新闻、法律文书、财报等长文档的翻译.相比句子级机器翻译, 篇章级机器翻译最主要的特点就是要在句子之间建立相互的依赖关系, 在句子翻译过程中利用篇章中的上下文信息, 有效指导当前句子翻译.

近年来, 大语言模型(Large Language Model, LLM)技术在自然语言处理任务中性能较优.Open AI[13]基于GPT-4进行大量评估, 证实LLM翻译能力较优.尽管大模型可在翻译任务上取得较优结果, 但在建模跨句子和段落的长距离依赖关系和话语现象方面仍具有挑战性.Wang等[14]研究表明翻译大模型在文档层面也有一定潜力.Mohammed等[15]发现, 微调加强LLM对上下文感知能力, 可提高篇章机器翻译的可靠性.Ramos等[16]对高质量文档级数据进行有针对性的微调, 改进基于LLM的长文档翻译性能.Liu等[17]合并多个知识来源, 包括文档摘要和实体翻译, 增强基于LLM的篇章机器翻译的性能.Vaswani等[18]提出Transformer, 将相邻句子状态纳入注意力机制以利用上下文信息.因此, 如何充分挖掘并高效利用上下文信息, 尤其是在目标端建模长距离依赖关系, 始终是篇章级机器翻译研究的问题之一.

在编码器端添加额外的上下文编码器, 可使当前句子获得更好的表示.Jean等[19]引入一个额外的编码器和针对前一句源语言的注意力机制, 将本地源语言上下文整合到解码器中.Kuang等[20]提出句子间门控模型, 控制生成当前句子翻译时从前一句接收的信息量.Wang等[21]提出通用的上下文感知模型, 将文档级机器翻译作为模型的一个用例.

目标端上下文对译文连贯性与指代一致性的影响信息的有效建模与源端上下文具有同等重要作用.Tiedemann等[22]除了源语言上下文之外, 还使用目标语言上下文进行研究.Bawden等[23]使用多编码器NMT, 通过连接、门控或分层注意力, 从上一个源语言句子中利用上下文信息.Yamagishi等[24]设计单独的编码器, 编码源语言和目标语言上下文的模型.Miculicich等[25]提取两个层次的HAN(Hierar-chical Attention Network), 使用前文的单词和句子作为上文, 同时使用门控机制结合上下文信息与当前句子信息.Dai等[26]在Transformer-XL架构中使用缓存器保存上下文信息.Tu等[27]使用连续的缓存存储最近的双语上下文表征.Xu等[28]在源上下文编码器上添加源语言感知的上下文编码层、在Transformer编码器上添加上下文感知的源编码层、在Transformer解码器上添加上下文感知的目标解码层, 充分利用源语言和目标语言上下文.贾爱鑫等[29]借助Deliberation Network, 对篇章源端进行二次翻译, 并共享两个解码器的参数, 挖掘目标端文档的信息.

为了更好地利用全局上下文信息, 在编码器端引入一个上下文注意力层, 增强源端的全局文档上下文信息表示, 再通过残差连接添加源句子的嵌入.Liu 等[30]利用多语言去噪预训练, 提升文档级别的有监督机器翻译.Petrick等[31]扩展单语的语言模型, 提升翻译模型文档级的翻译能力.Bao等[32]提出G-Transformer, 引入局部位置假设, 约束注意力机制, 提升翻译性能.Li等[33]提出P-Transformer(Posi- tion-Aware Transformer), 使用位置感知转换器, 增强自注意力和交叉注意力中的绝对位置信息和相对位置信息.Tan等[34]使用分层编码器建模源侧的全局文档上下文, 将全局上下文信息分配给源句子中的每个单词, 通过另一个源端上下文注意力层传递文档编码器的全局文档上下文, 在解码器中引入与源端上下文注意力层并行的文档解码器注意力层, 并改变前馈层的输入, 使其成为这两个注意力层输出的总和.文献[34]同时使用循环神经网络(Recu- rrent Neural Networks, RNNs)和基于Transformer的NMT测试方法, 使用大规模句子并行语料库预训练模型.

2 融合目标端历史信息的篇章级神经机器翻译方法

受CADec(Context-Aware Decoder)[35]的启发, 本文提出融合目标端历史信息的篇章级神经机器翻译方法(DocTHiF), 框架如图1所示:Hi-1表示上一步的历史上文信息输出, Hi表示当前的历史上文信息, 由 EY1初始化得到H0.

图1 DocTHiF框架图Fig.1 Framework of DocTHiF

在解码过程中, 当前解码的隐状态作为下一步解码的历史信息.在更新上下文信息的同时使用线性偏置注意力给更新的上下文信息注入位置信息, 将历史的上文知识传递至下一步的解码过程.

与Transformer架构相似, DocTHiF由1个6层编码器以及1个6层解码器组成.在解码器中添加ALiBi层, 目的是将上文的历史信息用于当前的解码过程, 仅在解码器的最后一层融入历史上文信息.

2.1 文本嵌入

借用Sun等[3]多分解度篇章到篇章的训练方式, 即把篇章较短的段落、句子一起混合训练, 能较好地激活篇章到篇章的翻译.具体地, 将篇章多次平均分成k份.例如:将一篇含有4个句子的篇章, 分解为4份1句的片段、2份2句的片段、1份4句的片段, 并将这7个片段统一送入模型进行训练.定义源语言文档

X={X1, X2, …, Xi, …, Xn},

目标语言文档

Y={Y1, Y2, …, Yi, …, Yn},

其中i表示文档中的第i个片段, 则源文档和目标文档的第i个片段的嵌入表示为:

$ \begin{array}{l} \boldsymbol{E}_{X}^{i}=e m b\left(\boldsymbol{X}_{i}\right)+p o s\left(\boldsymbol{X}_{i}\right), \\ \boldsymbol{E}_{Y}^{i}=e m b\left(\boldsymbol{Y}_{i}\right)+p o s\left(\boldsymbol{Y}_{i}\right), \end{array}$

其中, emb(· )表示文档的词嵌入层输出, pos(· )表示文档的位置嵌入层输出.对于嵌入 EXi, 编码器的输出为 HXi.

2.2 编码器

DocTHiF使用和Transformer相同的编码器, 由多头注意力层、残差网络和前馈神经网络(Feedfor- ward Neural Network, FNN)层组成.多头注意力是由多个头的自注意力拼接的注意力.

2.3 融合历史信息的解码器

相比句子级翻译任务, 篇章级机器翻译的翻译对象是整个文档.文档由多个句子组成, 同时各个句子之间具有较强的逻辑关系和层次结构, 而在现有的篇章机器翻译模型的解码器中, 并未较好使用模型已翻译的上文句子.

因此, 受Transformer-XL的启发, 本文采用循环传递的方式, 使用已翻译的历史上文信息.历史信息的更新和融合过程如图2所示.

图2 历史信息的更新和融合过程Fig.2 Historical information update and fusion process

首先, 引入历史信息Hi-1, 表示上一步的历史上文信息输出, i表示目标端输入的第i个片段.对于Hi-1, 主要有两种操作:更新和融合.

使用第一个片段的嵌入 EY1初始化H0:

H0= EY1W+b.

其中:W表示初始化矩阵, 在模型训练过程中学习

得到; b表示一个常数值.再在整个文档的翻译过程中不断更新Hi-1.

在逐步的更新过程中, Hi-1的位置信息被减弱, 各向量没有实际上的位置含义.为了解决这个问题, 拼接当前信息和历史信息, 再使用全连接层将其维度缩减为之前的维度, 构成新的历史上文信息输出:

$ \boldsymbol{H}^{i}=F F N\left(\left[\boldsymbol{H}^{i-1}, \boldsymbol{Y}_{T}^{i}\right]\right), $

其中, YTi表示当前的位置最终输出的解码隐状态, FNN(· )表示前馈神经网络, 目的是拼接上步历史信息和当前信息.

在解码器的最后一层, 将历史信息通过注意力计算的方式融入当前解码中.在历史信息的更新过程中, 很难区分哪些向量是早期的, 哪些向量是最近的, 因此, 在注意力的计算中引入ALiBi, 可通过一个给定的衰减矩阵, 控制注意力关注的相对距离.

2.4 ALiBi

ALiBi是一种注意力线性偏置方法, 可通过简单的线性函数对不同位置之间的关系进行建模, 简化位置编码的复杂性.此外, 线性偏置注意力不需要对每个位置进行显式计算, 可大幅提升模型在处理长序列时的计算效率.具体公式如下:

$ \begin{array}{l} \operatorname{ALiBi}(\boldsymbol{q}, \boldsymbol{K})= \\ \quad \operatorname{softmax}\left(\boldsymbol{q}_{i} \boldsymbol{K}^{\mathrm{T}}+m[-(i-1), \cdots, -2, -1, 0]\right) . \end{array}$

其中:m表示固定参数, 仅与注意力头的数量有关; i表示Q在每个头的i号位置.

m越大, 衰减越剧烈, 越关注最近的位置; m越小, 衰减越平缓, 越关注稍远位置上下文.对于8个头的模型,

$ m \in\left[\frac{1}{2}, \frac{1}{2^{2}}, \cdots, \frac{1}{2^{8}}\right] .$

ALiBi可将相对距离引入注意力计算中, 使引入历史信息的注意力分布更关注较近的位置.注意力机制通过softmax(qiKT)计算注意力分数, 远距离分数对应的权重趋近于零, 近邻位置权重相对更高.模型能在不同粒度上灵活利用上下文信息, 但整体上又能强制模型依据距离对历史信息进行衰减, 优先依赖邻近信息, 提升模型的长序列外推能力.

在ALiBi中, 在计算注意力分数时要加上一个给定的偏置.具体示例如图3所示.

图3 线性偏置注意力示例Fig.3 Examples of attention with linear biases

在解码器中, 和Transformer一样, 先对目标端的片段使用掩码多头注意力, 计算目标片段的隐状态.对于目标文档的片段嵌入 EYi, 经过掩码多头注意力层后,

$ \boldsymbol{H}_{\mathrm{YM}}^{i}=M H A\left(\boldsymbol{Q}^{Y_{i}}, \boldsymbol{K}^{Y_{i}}, \boldsymbol{V}^{Y_{i}}\right) m_{A}, $

其中, mA表示掩码操作, MHA(· )表示对输入变量进行多头注意力计算, QYiKYiVYi分别表示解码器中第i个查询(Query)向量、键(Key)向量、值(Value)向量.

ALiBi可通过注意力计算引入远近的概念, 使模型建模历史上文的远近信息, 有助于注意力关注最近的上文信息.为了方便描述, 先定义历史上文信息的隐状态为Hi, 则历史信息的融合描述为:

$ \boldsymbol{H}_{\mathrm{YA}}^{i}=\operatorname{ALiBi}\left(\boldsymbol{H}^{i-1}, \boldsymbol{H}_{\mathrm{YM}}^{i}\right), $

其中ALiBi(· )表示对输入向量进行线性偏置注意力计算.

在经过ALiBi层后, 得到的 HYAi又通过残差和标准化, 使其分布更加稳定, 得到融入历史上文信息的解码隐向量:

$ \boldsymbol{H}_{\mathrm{YF}}^{i}=F F N\left(\text { LayerNorm }\left(\boldsymbol{H}_{\mathrm{YA}}^{i}\right)\right), $

其中, LayerNorm (· )表示对当前层中的所有元素进行归一化处理, 确保每个序列内的向量规模一致.

再通过交叉注意力层, 将源端信息引入解码器中, 以 HYFiQ, 以 HXiK, 则

$ \widetilde{\boldsymbol{H}}_{Y}^{i}=M H A\left(\boldsymbol{H}_{\mathrm{YF}}^{i}, \boldsymbol{H}_{X}^{i}, \boldsymbol{H}_{X}^{i}\right) .$

接着, 使用残差连接将交叉注意力层的输出与目标片段的隐状态 HYMi融合, 通过前馈神经网络更新其隐状态, 得到最终的解码器输出:

$ \boldsymbol{Y}_{T}^{i}=\operatorname{FFN}\left(\text { LayerNorm }\left(\boldsymbol{H}_{\mathrm{YM}}^{i}+\widetilde{\boldsymbol{H}}_{Y}^{i}\right)\right) .$

2.5 训练方法

本文使用直接训练和微调篇章级Transformer这2种训练方法进行训练.

1)直接训练.使用篇章级数据集直接进行训练, 步骤如下.

(1)初始化篇章级Transformer模型.

(2)开始训练后, 从文档语料库中循环提取文档, 进行词嵌入编码后, 得到相应的令牌(Token)表示.

(3)将Token输入模型中进行训练.

(4)利用交叉熵计算损失.

(5)根据损失更新参数.

(6)迭代训练直至模型训练轮次的最大值.

具体代码如下所示,

算法1 直接训练

输入 篇章级语料document_corpus, 训练轮数 num_epochs

输出 doc_transformer_model

doc_transformer_model ← InitializeTransformerModel()

for epoch in 1 to num_epochs do

for document in document_corpus do

input_tokens, target_tokens ← Embedding(document)

log_probs ← ForwardPass(doc_transformer_model,

input_tokens)

Loss ← LabelSmoothedCrossEntropyLoss(log_probs,

target_tokens)

UpdateModelParameters (doc_transformer_model, loss)

End for

End for

Return doc_transformer_model

2)微调篇章级Transformer.将篇章级数据集按句子切分为句子级数据集, 先在句子级数据集上训练Transformer, 再在Transformer的模型参数基础上微调模型.步骤如下.

(1)先将篇章级的文档按句子切分后训练一个句子级的Transformer.

(2)初始化篇章级Transformer, 将已训练的句子级Transformer参数复制给篇章级Transformer, 作为基础模型.

(3)微调训练后, 从文档语料库中循环提取文档, 进行词嵌入编码后, 得到相应的Token表示, 并应用到模型中进行训练.

(4)利用交叉熵计算损失.

(5)根据损失反向更新模型参数.

(6)迭代训练直至模型微调训练轮次的最大值.

具体代码如下所示.

算法2 微调篇章级Transformer

输入 句子级模型transformer_model,

篇章级语料document_corpus,

微调训练轮数num_finetune_epochs

输出 篇章级神经机器翻译模型

doc_transformer_model

doc_transformer_model ←

InitializeDocTransformerModel()

CopyAttentionParameters(doc_transformer_model,

transformer_model)

for epoch in 1 to num_finetune_epochs do

for document in document_corpus do

input_tokens, target_tokens ← Embedding(sentence)

log_probs ← ForwardPass(doc_transformer_model,

input_tokens)

Loss ← LabelSmoothedCrossEntropyLoss(log_probs,

target_tokens)

UpdateModelParameters(doc_transformer_model, loss)

End for

End for

Return doc_transformer_model

3 实验及结果分析
3.1 实验环境

实验选择如下数据集:TED中英数据集(IWS-LT15)、中英数据集(Multi-domain Zero Pronoun Re-covery and Translation Dataset, mZPRT)[36]TED英德数据集(IWSLT17)、英德新闻数据集(NC-2016)、英德欧洲议会数据集(Europarl v7), 包括TED、网络小说、新闻评论、欧洲会议、个人简历这5个领域.

中英TED数据集和英德TED数据集分别来自IWSLT 2015年和IWSLT2017年的翻译任务评估活动.对于中英翻译任务, 将dev2010作为验证集, tst2010~2013作为测试集.对于英德翻译任务, 直接使用文献[37]中提取的3个准备好的EN-DE语料库.NC-2016数据集使用 News Commentary v11 进行训练, 按照文档划分并按句子对齐, newstest2015用于验证, newstest2016 用于测试.

Europarl v7数据集是从Europarl v7中提取获得的, 使用附加信息对句子进行分割和对齐, 随机按 8∶ 1∶ 1的比例划分训练集、验证集、测试集.

具体数据集统计信息如表1所示.

表1 数据集统计信息 Table 1 Dataset statistics

本文采用Torch1.13作为神经网络模型的主要框架, 并利用Python 3.8进行编程, 同时使用CUDA 11.7版本在NVIDIA RTX 4090上执行计算.

本文代码基于FairseqTransformer架构实现, 使用Transformer的默认设置:6层、8头、嵌入维度512、隐藏层维度1 024.使用β 1=0.9和β 2=0.98的Adam(Adaptive Moment Estimation)优化器, 最大长度设为4 096, 学习率设为5× 10-4, 预热4 000步, 应用0.1的标签平滑和0.3的失活率.

3.2 评价指标

本文使用s-BLEU作为标准的评价指标, 同时引入d-BLEU指标[32].d-BLEU是一种基于文档层面的BLEU(Bilingual Evaluation Understudy)评估指标, 翻译效果越优, 指标值越高.在某些情况下, 可能无法准确确定每个译文中的每个短语与原始文本中哪些部分对应.这可能是因为翻译结果与源文之间的语言结构不完全对应, 或者是因为文本过于自由而无法进行准确对齐.因此, 为了计算BLEU分数, 考虑整个文档而不是逐句对齐.这意味着会将翻译结果中的所有短语与源文本中的所有短语进行对比, 而不仅仅是逐句对比.此方法在不确定对齐的情况下也能评估翻译的质量.

为了更好地反映翻译模型质量, 还使用COMET(Crosslingual Optimized Metric for Evaluation of Trans-lation)[38]分数.该指标利用神经网络模型预测翻译的主观质量.

3.3 对比实验

为了验证本文方法的有效性, 选取如下融合不同篇章上下文信息的篇章NMT作为对比方法.

1)文献[8]方法.编码器为每个单独的句子构建上下文, 从整个源文档中检索全局上下文.

2)GPT-4[13].基于Transformer, 经过预训练可预测文档中下一个Token的大语言模型.

3)Transformer[18].使用注意力机制, 是句子级别的上下文无关NMT.

4)文献[25]方法.设计分层注意力网络, 以结构化和动态方式获取篇章上下文.

5)G-Transformer[32].使用组注意力机制, 直接使用完整文档进行训练.

6)CADec[35].先生成当前句子的翻译草稿, 再使用上下文信息进行纠正.

7)文献[39]方法.基于自顶向下的方式并结合文档级上下文的注意力和单词级的注意力.

8)Flat-Transformer[40].改进文档级机器翻译的双编码器结构的解决方案, 设计一种平面结构, 可对上下文和源句子之间的双向关系进行建模.

9)HanoiT[41].汉诺塔结构的Transformer, 在不同层关注不同比重的信息.

10)IADA(Importance-Aware Data Augmentation)[42].

通过隐藏状态和训练梯度的范数, 评估文本中的重要成分, 增强训练数据的多样性.

各方法在多个基准数据集上的指标值结果如表2所示, 表中黑体数字表示最优值, r表示随机初始化参数直接训练, f表示使用两次训练法, 下面情况相同.相关方法的结果均引用原文献.

表2 各方法在5个数据集上的指标值对比 Table 2 Metric value comparison of different methods on 5 datasets

表2可见, DocTHiF性能最优. 在LWSLT-15、LWSLT-17、NC-2016数据集上, 相比对比方法, 性能实现稳定提升, s-BLEU值平均提升约0.83, d-BLEU值平均提升约0.79, 充分展示DocTHiF具有良好的泛化能力.在结构化会议语料Europarl v7数据集上, DocTHiF性能略低于IADA, 分析发现该差异源于会议文本的规范性特征, 在此类场景中, 基于隐藏状态与梯度范数评估的数据增强策略具有更强的适应性.在网络小说这类开放领域, DocTHiFs-BLEUd-BLEUCOMET指标上全面超越GPT-4, 验证其对新领域数据的泛化能力优势, 而大语言模型对未训练领域数据的迁移存在局限, 性能优化依赖高成本的领域再训练.

总之, DocTHiF能更准确地捕捉文档中长序列的长距离依赖关系, 使目标端文档得到更充分的表示, 获得更完整的历史上文信息, 模型的翻译性能更优.此外, 实验结果还表明, 在所有数据集上, 通过微调方式训练得到的翻译模型性能均优于通过直接训练得到的模型.这与普遍共识相符:微调能帮助模型学习更好的向量表示.

3.4 有效性分析

为了进一步验证本文方法的有效性, 进行多方面实验.

选择如下目标端上下文融合方法:Transformer[18]、文献[25]方法、G-Transformer(f)[32]CADec[35], 与DocTHiF(f)进行对比实验, 具体指标值如表3所示.由表可观测到, 相比CADec, DocTHiF(f)在IWS- LT-17、mZPRT数据集上的s-BLEU指标分别增长1.03和1.7, 翻译性能显著提升.此外, 相比文献[25]方法, DocTHiF(f)在IWSLT-17、mZPRT数据集上s-BLEU指标分别提升0.9和0.8.

表3 DocTHiF与目标端上下文融合方法性能对比 Table 3 Performance comparison among DocTHiF and target-side context fusion methods

表3还对比各方法参数量, 相比TransformerG-Transformer(f), DocTHiF(f)的参数量略有提升, 但远少于文献[25]方法与CADec.

在IWSLT-17数据集上评测Transformer的文档到文档(Document to Document, Doc2Doc)任务, 验证编码器和解码器对翻译性能的影响, 指标值如表4所示.由表可见, 对于Doc2Doc的翻译任务, 当仅有编码器处理完整文档时, 模型可正常生成目标翻译序列.当解码器处理完整文档时, 翻译效果断崖式下跌, 可认为模型已不具备生成翻译序列的能力.由此可知, 在Doc2Doc任务中, 解码器是实现翻译性能提升的关键.

表4 编/解码器对翻译性能的影响 Table 4 Effect of encoders/decoders on translation performance

根据Bao[32]等在G-Transformer中的论述, Trans-former的较低层可建模更好的局部信息, 而上下文信息在更高层融入后结果会更优.因此, 在IWSLT-17数据集上进行实验, 对比解码器不同的层融入历史信息的效果.

当解码器在第1层融入历史信息时, s-BLEU为24.16; 当解码器在第2层融入历史信息时, s-BLEU为24.23; 当解码器在第3层融入历史信息时, s-BLEU为23.91; 当解码器在第4层融入历史信息时, s-BLEU为24.57; 当解码器在第5层融入历史信息时, s-BLEU为24.82; 当解码器在第6层融入历史信息时, s-BLEU为25.48.

此结果和Bao等[32]的推论匹配, 选择在高层融入上文信息后模型更有优势.由数据可发现, 越接近底层融入历史上文信息, 分数越接近标准的Trans- former, 这说明在低层时, 注意力更容易聚焦在局部, 而在高层会更发散.由此可知, 对于Doc2Doc的任务来说, 过长的序列必然导致Transformer的注意力分散, 训练不稳定, 因此, 在解码器中采取逐个片段建模, 并使用历史信息辅助当前句子解码的方案是合理的, 能提升翻译模型的性能.

完整的篇章文档在Transformer上直接训练会导致训练崩溃, 效果完全失衡.对此, Bao等[32]得出的结论是因为完整篇章的上下文太过分散.他们在实验中构建注意力熵, 用于评估注意力的分散情况.在Transformer和DocTHiF(f)上, 训练步数改变时, 注意力熵的变化情况如图4所示.由图可观测到, Transformer的熵值基本在8左右, 而DocTHiF(f)的熵值逐步降到3.4左右并趋于稳定.注意力分散容易导致模型训练的不稳定.

图4 注意力熵随训练步数的变化情况Fig.4 Variation of attention entropy with training steps

篇章机器翻译的一个难点就是如何构建长序列的建模, 对于Transformer来说, 虽然注意力已解决RNN中远程衰减的问题, 但并不代表Transformer可建模很长的序列, 其对于很长序列的建模能力依然有限.将篇章级的数据集按照句子划分为句子级别的数据集进行训练, 使用篇章级文档的测试集进行测试.在测试模型的长序列建模能力时, 使用不同长度的篇章文档进行评估, 在IWSLT17数据集上, s-BLEU值变化情况如图5所示.

图5 输入序列长度不同时对方法性能的影响Fig.5 Effect of sequence length on method performance

由图5可观测到, Transformer在短序列上建模仍是有效的, 但是对于过长的序列, 如长度到达500以上时, 翻译效果急剧下降, 而DocTHiF(f)在这个长度上仍可有效建模.

在Europarl v7数据集上, 当训练语料数变化时, Transformer[18]、G-Transformer(f)[32]和DocTHiF(f)的d-BLEU值变化如图6所示.

图6 训练语料数不同时对方法性能的影响Fig.6 Effect of training data size on method performance

由图6可见, DocTHiF总体具有平滑的性能曲线, 训练稳定, 始终优于G-Transformer.值得注意的是, 当数据规模偏小时, DocTHiF(f)的性能远优于G-Transformer(f), 由此表明DocTHiF(f)在低资源条件下能获得较优性能, 即当数据规模较小时, 在解码过程中融入适当的上文信息对性能的提升效果更明显.

为了进一步验证在编码端融入上下文信息对翻译性能的影响, 在IWSLT-15数据集上计算代词翻译准确率, Transformer[18]为51.1%, G-Transformer(f)为61.5%, DocTHiF(f)为63.2%.由此表明在解码端有效利用目标端上下文信息能较好地改善模型的指代翻译性能.

参数量和计算复杂度是衡量模型复杂度的重要指标之一, 对比Transformer[18]和DocTHiF(f), 结果如表5所示.

表5 Transformer和DocTHiF的复杂度及训练成本对比 Table 5 Comparison of complexity and training cost between Transformer and DocTHiF

表5可见, 相比Transformer, DocTHiF参数量有所增加, 这是由增加已翻译的历史信息引起的模型结构变化而带来的.在计算复杂度层面, 在极限情况下, 当n趋于无穷大时, 与Transformer一样, 时空复杂度都是n2.随着n的增加, DocTHiF(f)复杂度的上升趋势显著缓于Transformer.

在训练时长及内存消耗上, DocTHiF(f)的内存占用量(在训练过程中, 每5 min取1次内存占用的数据, 再取平均值)高于Transformer, 但训练时长显著缩短.

综合分析可知, 在同等条件设置下, DocTHiF(f)的资源消耗与Transformer相当.

除了性能分析以外, 还从IWSLT15测试集上抽取翻译实例, 分析和评判Transformer和DocTHiF(f)的翻译性能, 具体如表6所示.

表6 Transformer和DocTHiF翻译示例对比 Table 6 Comparison of translation examples between Transformer and DocTHiF

表6可发现:Transformer对例子中的“ 客户” 和“ 这种活力” 进行翻译时, 出现重复翻译; 同时译文中出现顺序错乱的现象, 第2行中“ create miracles” 本应该是在第3行“ create miracles” 的位置, 但却提前出现.

DocTHiF(f)通过融合历史信息, 指导当前句子的建模, 不仅提升模型处理长序列的能力, 同时通过引入相对位置编码, 能学习正确的顺序, 翻译更符合人们的期望.

4 结束语

现有的篇章级神经机器翻译方法未能充分挖掘目标端远距离的上下文信息, 对已翻译的上文信息缺乏关注, 容易导致译文连贯性较差、重复翻译等问题.对此本文提出融合目标端历史信息的篇章级神经机器翻译方法(DocTHiF), 能有效地将历史译文信息融入解码过程, 改进模型对长距离依赖的处理能力, 提升译文连贯性及指代准确性.近年来, 大模型展示强大的长序列处理能力, 今后将考虑如何利用大模型长序列处理能力改善篇章机器翻译性能.

本文责任编委 林鸿飞

Recommended by Associate Editor LIN Hongfei

参考文献
[1] 苏劲松, 陈骏轩, 陆紫耀, . 篇章神经机器翻译综述. 情报工程, 2020, 6(5): 4-14.
(SU J S, CHEN J X, LU Z Y, et al. A Survey of Document-Level Neural Machine Translation. Technology Intelligence Engineering, 2020, 6(5): 4-14. ) [本文引用:1]
[2] ZHANG J C, LUAN H B, SUN M S, et al. Improving the Transformer Translation Model with Document-Level Context // Proc of the Conference on Empirical Methods in Natural Language Proce-ssing. Stroudsburg, USA: ACL, 2018: 533-542. [本文引用:1]
[3] SUN Z W, WANG M X, ZHOU H, et al. Rethinking Document-Level Neural Machine Translation // Findings of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2020: 3537-3548. [本文引用:2]
[4] JIANG S, WANG R, LI Z C, et al. Document-Level Neural Ma-chine Translation with Inter-Sentence Attention[C/OL]. [2025-02-19]. https://arxiv.org/pdf/1910.14528v1. [本文引用:1]
[5] YANG Z X, ZHANG J C, MENG F D, et al. Enhancing Context Modeling with a Query-Guided Capsule Network for Document-Level Translation // Proc of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, USA: ACL, 2019: 1527-1537. [本文引用:1]
[6] SABOUR S, FROSST N, HINTON G E. Dynamic Routing between Capsules // Proc of the 31st International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 3859-3862. [本文引用:1]
[7] KUANG S H, XIONG D Y, LUO W H, et al. Modeling Coherence for Neural Machine Translation with Dynamic and Topic Caches // Proc of the 27th International Conference on Computational Linguistics. Stroudsburg, USA: ACL, 2018: 596-606. [本文引用:1]
[8] ZHENG Z X, YUE X, HUANG S J, et al. Towards Making the Most of Context in Neural Machine Translation // Proc of the 29th International Joint Conference on Artificial Intelligence. San Francisco, USA: IJCAI, 2020: 3983-3989. [本文引用:2]
[9] MACÉ V, SERVAN C. Using Whole Document Context in Neural Machine Translation[C/OL]. [2025-02-19]. https://aclanthology.org/2019.iwslt-1.21.pdf. [本文引用:1]
[10] MARUF S, HAFFARI G. Document Context Neural Machine Trans-lation with Memory Networks // Proc of the 56th Annual Meeting of the Association for Computational Linguistics(Long Papers). Stroudsburg, USA: ACL, 2017: 1275-1284. [本文引用:1]
[11] BAO G S, TENG Z Y, ZHANG Y. Target-Side Augmentation for Document-Level Machine Translation // Proc of the 61st Annual Meeting of the Association for Computational Linguistics(Long Papers). Stroudsburg, USA: ACL, 2023: 10725-10742. [本文引用:1]
[12] PRESS O, SMITH N A, LEWIS M. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation[C/OL]. [2025-02-19]. https://arxiv.org/pdf/2108.12409. [本文引用:1]
[13] Open AI. GPT-4 Technical Report[C/OL]. [2025-02-19]. https://arxiv.org/pdf/2303.08774. [本文引用:2]
[14] WANG L Y, LYU C Y, JI T B, et al. Document-Level Machine Translation with Large Language Models[C/OL]. [2025-02-19]. https://openreview.net/pdf?id=sXErPfdA7Q. [本文引用:1]
[15] MOHAMMED W, NICULAE V. Analyzing Context Utilization of LLMs in Document-Level Translation[C/OL]. [2025-02-19]. https://openreview.net/pdf?id=YqwQgLVMI7. [本文引用:1]
[16] RAMOS M M, FERNANDES P, AGRAWAL S, et al. Multilingual Contextualization of Large Language Models for Document-Level Machine Translation[C/OL]. [2025-02-19]. https://arxiv.org/pdf/2504.12140. [本文引用:1]
[17] LIU B, LYU X, LI J H, et al. Improving LLM-Based Document-Level Machine Translation with Multi-knowledge Fusion[C/OL]. [2025-02-19]. https://arxiv.org/pdf/2503.12152. [本文引用:1]
[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need // Proc of the 31st International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 6000-6010. [本文引用:6]
[19] JEAN S, LAULY S, FIRAT O, et al. Does Neural Machine Translation Benefit from Larger Context?[C/OL]. [2025-02-19]. https://arxiv.org/pdf/1704.05135. [本文引用:1]
[20] KUANG S H, XIONG D Y. Fusing Recency into Neural Machine Translation with an Inter-Sentence Gate Model // Proc of the 27th International Conference on Computational Linguistics. Stroudsburg, USA: ACL, 2018: 607-617. [本文引用:1]
[21] WANG X Y, JERNITE Y, WESTON J, et al. Improving Conditioning in Context-Aware Sequence to Sequence Models[C/OL]. [2025-02-19]. https://arxiv.org/pdf/1911.09728. [本文引用:1]
[22] TIEDEMANN J, SCHERRER Y. Neural Machine Translation with Extended Context // Proc of the 3rd Workshop on Discourse in Machine Translation. Stroudsburg, USA: ACL, 2017: 82-92. [本文引用:1]
[23] BAWDEN R, SENNRICH R, BIRCH A, et al. Evaluating Discourse Phenomena in Neural Machine Translation // Proc of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies(Long Papers). Stroudsburg, USA: ACL, 2018: 1304-1313. [本文引用:1]
[24] YAMAGISHI H, KOMACHI M. Improving Context-Aware Neural Machine Translation with Target-Side Context[C/OL]. [2025-02-19]. https://arxiv.org/pdf/1909.00531. [本文引用:1]
[25] MICULICICH L, RAM D, PAPPAS N, et al. Document-Level Neural Machine Translation with Hierarchical Attention Networks // Proc of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2018: 2947-2954. [本文引用:5]
[26] DAI Z H, YANG Z L, YANG Y M, et al. Transformer-XL: Attentive Language Models beyond a Fixed-Length Context // Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2019: 2978-2988. [本文引用:1]
[27] TU Z P, LIU Y, SHI S M, et al. Learning to Remember Translation History with a Continuous Cache. Transactions of the Association for Computational Linguistics, 2018, 6: 407-420. [本文引用:1]
[28] XU H F, XIONG D Y, VAN GENABITH J, et al. Efficient Context-Aware Neural Machine Translation with Layer-Wise Weighting and Input-Aware Gating // Proc of the 29th International Joint Conference on Artificial Intelligence. San Francisco, USA: IJCAI, 2020: 3933-3940. [本文引用:1]
[29] 贾爱鑫, 李军辉, 贡正仙, . 融合目标端上下文的篇章神经机器翻译. 中文信息学报, 2024, 38(4): 59-68.
(JIA A X, LI J H, GONG Z X, et al. Modeling Target-Side Context for Document-Level Neural Machine Translation. Journal of Chinese Information Processing, 2024, 38(4): 59-68. ) [本文引用:1]
[30] LIU Y H, GU J T, GOYAL N, et al. Multilingual Denoising Pre-training for Neural Machine Translation. Transactions of the Association for Computational Linguistics, 2020, 8: 726-742. [本文引用:1]
[31] PETRICK F, HEROLD C, PETRUSHKOV P, et al. Document-Level Language Models for Machine Translation // Proc of the 8th Conference on Machine Translation. Stroudsburg, USA: ACL, 2023: 375-391. [本文引用:1]
[32] BAO G S, ZHANG Y, TENG Z Y, et al. G-Transformer for Document-Level Machine Translation // Proc of the 59th Annual Mee-ting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing(Long Papers). Stroudsburg, USA: ACL, 2021: 3442-3455. [本文引用:8]
[33] LI Y C, LI J H, JIANG J, et al. P-Transformer: Towards Better Document-to-Document Neural Machine Translation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023, 31: 3859-3870. [本文引用:1]
[34] TAN X, ZHANG L Y, ZHOU G D, et al. Document-Level Neural Machine Translation with Hierarchical Modeling of Global Context. Journal of Computer Science and Technology, 2022, 37(2): 295-308. [本文引用:2]
[35] VOITA E, SENNRICH R, TITOV I. When a Good Translation Is Wrong in Context: Context-Aware Machine Translation Improves on Deixis, Ellipsis, and Lexical Cohesion // Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2019: 1198-1212. [本文引用:3]
[36] XU M Z, WANG L Y, WONG D F, et al. GuoFeng: A Benchmark for Zero Pronoun Recovery and Translation // Proc of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2022: 11266-11278. [本文引用:1]
[37] MARUF S, MARTINS A F T, HAFFARI G. Contextual Neural Model for Translating Bilingual Multi-speaker Conversations // Proc of the 3rd Conference on Machine Translation: Research Papers. Stroudsburg, USA: ACL, 2018: 101-112. [本文引用:1]
[38] REI R, STEWART C, FARINHA A C, et al. COMET: A Neural Framework for MT Evaluation // Proc of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2020: 2685-2702. [本文引用:1]
[39] MARUF S, MARTINS A F T, HAFFARI G. Selective Attention for Context-Aware Neural Machine Translation // Proc of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies(Long and Short Papers). Stroudsburg, USA: ACL, 2019: 3092-3102. [本文引用:1]
[40] MA S M, ZHANG D D. ZHOU M, et al. A Simple and Effective Unified Encoder for Document-Level Machine Translation // Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2020: 3505-3511. [本文引用:1]
[41] YANG J, YIN Y W, MA S M, et al. HANOIT: Enhancing Context-Aware Translation via Selective Context // Proc of the International Conference on Database Systems for Advanced Applications. Berlin, Germany: Springer, 2023: 471-486. [本文引用:1]
[42] WU M H, WANG Y F, FOSTER G, et al. Importance-Aware Data Augmentation for Document-Level Neural Machine Translation // Proc of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Long Papers). Stroudsburg, USA: ACL, 2024: 740-752. [本文引用:1]