机器翻译NMT中数据打分和选择的经典方法

摘要

MT数据选择分类图：提升翻译质量需挑选好领域、去除无用数据、减少干扰等。情景决策决定数据选择方式，解决问题。

正文

依据Survey of Data-Selection Methods in Statistical Machine Translation的汇总，MT中的数据信息选择分类图以下：

应用情景 数据信息应用的情景决策了挑选哪些的数据信息，及该方式要处理什么问题。

Improve Quality：Domain Improvement、Unhelpful Data Reduction、Noise Reduction
Limited Resources：Training Resources、Deployment Resources、Human Labeling Resources

评价方法

特点融合

难题界定

语句评分涵数

前后文不相干（depend on nothing but the candidate sentences in question）：语言模型、两端对齐实体模型、别的
依靠前后文（depend on the selected pool）：语言模型、语句表、视频解码器、n元统计数据

挑选优化算法

根据阀值过虑
贪婪检索
子控制模块最优控制
自主学习
Batch Model Learning

下边是一些經典的毕业论文的汇总，供本人学习培训用，写的不合理的地区请轻喷～

Dynamic Data Selection for Neural Machine Translation 2017

数据格式挑选

最开始源于Moore-Lewis 2010的数据信息挑选方式 ——交叉熵之差CED：用in domain\general domain 源端语料库各自训炼语言模型，再测算备选语句的in domain和general domain交叉熵之差，越低表明离in domain越近的离general越长。（在其中的语言模型能够是n gram语言模型或是LSTM这些）

上边方式的source、target双语版变异 Axelrod 2011：源端CED 总体目标端CED

文章内容选用的双语版的变异，语言模型是LSTM

可视化数据挑选

sampling

依照以上数据格式挑选的方式给训炼集中化的语句对评分，排列；
把以上CED成绩规范化到0-1中间，转化成新的成绩CED‘，离in domain越近的，CED‘成绩越高（1 – 较大最少归一化的結果）；
再把CED‘的成绩归一化为权重值；
每一个epoch依照权重值取样，不反复取样，成绩高的语句会被数次取样

gradual fine-tuning

按照fine tune的设计灵感，先往general 数据G上训，再在in domain数据信息上调整：文中逐渐减少训练集G的尺寸，例如每2个epoch换一次数据信息，选的数据信息是上一轮排行靠前的60%——1、两个epoch在全部G上训炼；3、4epoch挑选在G中数据格式分数排名靠前的60%，总产量是0.6*|G|；第5、6epoch挑选3、4个epoch中数据格式分数排名靠前的60%，总产量是0.6*0.6*|G|。。。

結果是LSTM 好于n gram、gradual fine-tuning好于sampling

Boost neural machine translation 2017

汉语翻译PPL高的句子成分繁杂，更难汉语翻译，NMT应当花时间关心更难的语句。语句按汉语翻译的ppl排列。

试验对策：

boost——在original基本上添加10%高ppl的语句；
reduce——除掉20%低ppl排行的语句，即保存80%高ppl的翻译句子。先后保存全部训炼集中化高ppl的100%-80%-64%-100%-80%-64%-100%-…。（此方式結果最好是）
bootstrap——random resampling 100%，从original中再度sampling，因此有一些低ppl的或是高的会消退/反复发生

Dynamic Sentence Sampling for Efficient Training of Neural Machine Translation 2018

zhang 17（即续篇）的文章内容用sentence-level training cost做为考量词语翻译品质的方式，训炼损害越小意味着实体模型把语句学的好，缺陷有两个：训炼损害小的语句再次训炼很有可能还能够提高；假如训炼数据信息持续缩小，可是这种被清除语句中包括的专业知识很有可能在NMT的训炼全过程中慢慢被丢掉掉。

本文用语句2次迭代更新的训炼损害之差（the differences between the training costs of two iterations）做为词语翻译品质能不能被提高的评价指标。越小表明他们的损害不大可能转变，因此他们再次训炼对NMT沒有协助：

　　（上一次的训炼损害 – 该次训炼损害）/ 上一次的训炼损害 = 该次的dif

　　dif（差别度）可能是恰逢，也可能是负数。因此要较大最少归一化到【0，1】中间 = criterion

实验方法：

weighted sampling WS——以上criterion值变换为归一化的概率分布函数，依照权重值子取样全部训练集的80%（不反复取样）做为下一iteration的训练集，训炼目标函数也会升级为在选的的子训练集上。一个语句很有可能在一个子取样的全过程中沒有被挑选，可是在下一个子取样的全过程中，因为被挑选语句的criterion都发生了转变，未被选择的句子的criterion不会改变，因而weight也会产生变化，因此该语句仍有可能被挑选到。
review mechanisim RM——挑选的80% top-ranked数据信息构成了 $D_{high}$ ，未被挑选的20%数据信息构成了 $D_{low}$ ， $D_{low}$ 中的数据信息在训炼中也就没法被挑选了。并且 $D_{low}$ 会伴随着训炼全过程越来越大，因而很有可能造成一些信息内容遗失。为了更好地防止这个问题，毕业论文引进了一个主要参数 $\lambda$ ，例如为10%，则表明取样 $D_{low}$ 中10%的数据信息开展备考。损失函数时会由 $D_{high}$ 和两一部分构成。(该方式实际效果更强)

在巨大数据的训炼中还提及能够选用小一部分早已训炼的和未训炼过的语句相似性做为取样语句的一个规范。

Feature Decay Algorithms for Neural Machine Translation 2018

是一种transductive data selection method ，最开始用在SMT中有非常好的实际效果，如今把它用在NMT中。

FDA：用test set的源端来挑选语句，让挑选的样版能与该set最有关。一旦n gram被当上，就减少他们的值，FDA根据那样来利润最大化所挑选训炼集中化relevant n-grams的标准差。具体做法需看下边。

方式：

最先从test集提取n-grams做为特点，这种特点有初值，该值说明被挑选的关联性；每一个备选句也是有总得分。
迭代更新的挑选成绩高的语句添加set L，挑选一句话后，测算set L中已挑选的数据信息的某一特点发生的频次，该特点的得分会随发生的频次提升而衰减系数。那样促使下一次挑选以前没被挑选的特点。

特点得分衰减系数公式计算：

　　，L is the set of selected sentences，CL(f) is the count of the feature f in L

语句评分的测算：sentences are scored as the normalized sum of values of contained features.

　　，Fs是语句s中的特点集

文章内容中的是3元特点，还用了第一篇文章内容中gradual fine-tuning的设定，训练集检测集全是WMT2015的试验結果中，在使用 FDA挑选小量数据信息（100k 200k）时，先训炼base model、到最终一轮再用FDA挑选的数据信息调整比较好；当FDA挑选的数据信息到500k时，仅用FDA挑选的数据信息从头开始训NMT实体模型实际效果高些。

Adaptation of Machine Translation Models with Back-translated Data using Transductive Data Selection Methods 2019

续篇的同一创作者

Transductive Algorithm（TA）是运用test集的信息内容获得语句：

Infrequent n-gram Recovery（INR）-挑选包括不经常n-gram的语句

　　t是阀值：超出意味着该n-gram经常，低于意味着ngr不经常。
　　假如挑选池中的ngr超出阀值t，则对语句成绩没奉献=0

　　（前边有提及）

本来是用test集（源端）做为种籽，如今用通用性NMT实体模型把test翻译为总体目标端，也做为种籽，对源端和总体目标端种籽都用TA方式挑选数据信息，把二者选的数据信息combine

a和1-a，各自意味着从TA_srcTA_trg选中的数据信息占比

方式较为见下面的图：

TA还包含TF-IDF间距

高频词逆文本文档頻率

稀缺词比普遍词对语句相似性的标示性更强

下边几篇毕业论文均有运用该指标值

Extracting In-domain Training Corpora for Neural Machine Translation Using Data Selection Methods 2018

Dynamic Data Selection and Weighting for Iterative Back-Translation 2020

tf是term在文本文档中发生的頻率；df多少钱个文本文档中包括term（idf is the inverse document frequency），N是文本文档数

该原文中（we apply tokenization, remove punctuation and common stopwords in the texts, and finally truecase the sentences）把数据信息集中化的每一个语句当文本文档，词作为term。

测算词（term）对语句（文本文档）的tf-idf值，把语句中全部词的tf-idf空间向量均值做为全部语句的词向量表明，再测算in和general中语句词向量的cosine相似性，按cos相似性给general domain的句子排序，类似值越大离in domain越近的。

Dynamic Data Selection and Weighting for Iterative Back-Translation 2020

相对性于静态数据挑选数据信息，对迭代更新反方向汉语翻译，明确提出一个新的课程内容学习方法。

该毕业论文中提及语句由象征性和简易性二种指标值开展得分，留意得分都各自较大最少归一化到[0,1]

象征性指标值：

　　In-Domain Language Model Cross-Entropy(LM-in)、TF-IDF Scores (TF-IDF)、BERT Representation Similarities (BERT).

简易性指标值：

　　General-Domain Language Model Cross-Entropy (LM-gen)、Round-Trip BLEU (R-BLEU)

说一下BERT Representation Similarities (BERT).

把语句送进multilingual bert，把除开[CLS] [SEP] 以外键入tokens在第8层的掩藏情况均值，获得语句的表明，依据语句表明能够测算单语中某一语句和in domain全部语句的cosine相似性。

二种评定标准由一个主要参数lambda操纵，该主要参数的来源于是19的一篇CL的毕业论文，意味着了实体模型工作能力随epoch的转变曲线图（按sqrt提升）。最开始选的数据信息是简易性为主导，随时间流逝中后期是选象征性的语句。

挑选出的伪语句还会继续具有权重值，让汉语翻译品质低的语句权重值更小。明确提出二种当今品质可能方式：一种是测算伪平行面句对各自用2个方位NMT实体模型的encoder的最终一层表明、再均值，算cosine相似性；另一种是测算伪平行面句对在2个方位实体模型中的汉语翻译几率、再测算条件概率之差平方根、取负指数值，值越大，语句品质越差。

也有测算语句品质发展的指标值，该指标值与当今品质融合了：

EMBEDDING-BASED METRICS

Improving Neural Machine Translation by Filtering Synthetic Parallel Data 2019

学习培训一个线性映射，把二种语言表达词向量投射到同一词向量空间，根据双语版词向量各自获得语句词向量（词向量累积再均值），测算双语版语句空间向量的cosine相似性，设置阀值，除掉低于threshold的语句。

1.在wiki百科语料库上放fastext训炼韩文，英文词向量；

2.选排行靠前的4500个常见英文单词建立英文词汇表（没有作用词和停用词）

3.用到双语版的人把英文词汇表汉语翻译为韩文；

4.运用现有双语版的词向量X，Z和双语版字典，用目前的方式学习培训线性映射W。

关注不迷路

扫码下方二维码，关注宇凡盒子公众号，免费获取最新技术内幕！

温馨提示：如果您访问和下载本站资源，表示您已同意只将下载文件用于研究、学习而非其他用途。

文章版权声明 1、本网站名称：宇凡盒子
2、本站文章未经许可，禁止转载！
3、如果文章内容介绍中无特别注明，本网站压缩包解压需要密码统一是：yufanbox.com
4、本站仅供资源信息交流学习，不保证资源的可用及完整性，不提供安装使用及技术服务。点此了解
5、如果您发现本站分享的资源侵犯了您的权益，请及时通知我们，我们会在接到通知后及时处理！提交入口

机器翻译NMT中数据打分和选择的经典方法

摘要

正文