一、基于实例的机器翻译中实例匹配算法的研究(论文文献综述)
王琪[1](2021)在《基于迁移学习的中朝神经机器翻译方法的研究》文中研究说明翻译是人类思想交流的一个重要需求,智能翻译技术加速了不同文明的融会贯通,促进了人类社会的发展。深度学习技术成功运用于现代机器翻译领域,在许多语言翻译任务中取得了很好的翻译效果。由于神经机器翻译模型受限于数据量的规模,对于小数据、低资源的语言对来说翻译效果不尽如人意。本文针对中朝双语平行语料不足的问题,提出了基于迁移学习的中朝神经机器翻译方法,以提升翻译性能。首先,对中朝语料自动对齐进行研究,提出了结合朝鲜语汉字词(Sino-Korean Word)的句子对齐算法,将语料进行分句,并根据概率以及动态规划算法对语料进行了句子对齐。其次,提出了基于权值共享的中朝神经机器翻译方法,在编码器-解码器框架下训练父模型,然后将父模型的网络权值参数传递给子模型,并将父、子模型的词汇表进行整合,将子模型的词向量用共同词汇表表示,最后将子模型训练至收敛。最后,提出结合预训练语言模型的方法,将BERT网络结构作为翻译模型的编码器,对Transformer模型进行初始化。采用Wordpiece字节编码的方式对中朝语料进行划分,并将语料切分为子词的形式,减少了未登录词的影响。该方法解决了未登录词以及长句子处理问题,在语义流畅性上获得良好表现。本文研究的基于权值共享的中朝神经机器翻译模型BLEU值为15.36,较初始模型BLEU值提升了2.68;结合预训练模型的中朝神经机器翻译模型BLEU为31.61,较基础模型BLEU值提升了1.74。实验证明本文提出的翻译模型在中朝双语平行语料不足的情况下,有效地实现了中朝文本的翻译转换。
慈祯嘉措[2](2020)在《贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究》文中进行了进一步梳理随着深度学习在自然语言处理研究中取得突破性进展,机器翻译技术也发生了革命性的变化,被广泛应用于人们的生活和工作中。我国作为一个统一的多民族国家,党和政府高度重视少数民族自然语言处理。近年来,我国少数民族自然语言处理相关技术蓬勃发展,尤其是藏语自然语言处理,更是随着科学技术的发展不断地在进步。不论基于统计还是基于神经网络的机器翻译方法,都需要具备大规模的双语或多语语言数据资源作为支撑,对于藏语相关的藏语自然语言处理研究而言,依然存在着数据资源稀缺、理论基础薄弱和技术方法不够成熟等问题,本文希望通过藏汉语言数据资源构建、单语语言模型融合、迭代式回译策略的应用以及跨语言模型预训练等理论和方法的研究,为贫语言资源条件下的藏汉机器翻译提供一个有效的研究思路,同时缓解目前藏汉机器翻译中资源稀缺、翻译性能不理想等问题,为藏区经济社会发展提供语言互译的技术支撑。本文的主要工作和创新点总结如下:针对藏汉语言数据资源匮乏问题,本文提出了一种面向藏汉机器翻译的语言资源构建技术,并构建了一个基于人民日报(藏文版)的藏、汉单语语料库和藏汉双语平行语料库。本文首先使用基于Web的大规模资源获取技术收集藏语单语新闻语料,并通过CNN+Bi-LSTM+CRF的藏文分词技术和Bi-LSTM+CRF的命名实体识别技术识别藏语新闻中的时间、地点、人物、组织机构等命名实体,并将其进行粗翻译,得到对应的汉语命名实体,然后通过汉语命名实体匹配到相对应的汉语新闻并将其进行预处理,通过篇章特征集合的相似度计算和基于Bi-LSTM+Attention模型的跨语言句子相似度计算,对藏汉两种语言的新闻文本进行篇章对齐和句子对齐,最终构建一个具有53.834万句藏语单语、61.759万句汉语单语和53.762万句对的藏汉双语平行语料库。针对藏汉机器翻译中双语平行语言资源缺乏,而藏汉两种语言的单语数据较为丰富的问题,为有效利用资源丰富的藏语单语数据以提高藏汉神经网络机器翻译的性能,本文提出了一种融合单语语言模型的藏汉机器翻译方法。本文首先通过循环神经网络语言模型建模的方法构建藏语单语语言模型,并将其与翻译模型的解码端预输出进行融合处理,利用浅层融合和深层融合的方式,将翻译模型生成的词和语言模型生成的词重新进行加权排序,使源语言与目标语言产生映射关系,最终输出目标语言。通过这种融合单语语言模型的藏汉机器翻译建模方法,可有效提升贫语言资源条件下的藏汉机器翻译的性能,经实验,这种方法在相同资源条件下,比原有的Transformer基线系统提升了3.4(藏-汉)和4.7(汉-藏)个BLEU值。针对贫资源条件下藏汉机器翻译性能不佳的问题,提出了一种迭代式回译策略的藏汉机器翻译方法。本文首先通过资源构建技术和实验室原有数据资源构建一个Transformer初始系统,对较大规模的单语语料(正向)进行翻译,得到源端是正确的句子,目标端是翻译生成的句子,然后通过平行句对过滤机制构建具有较强监督信息的伪藏汉双语平行语料,将其加入到翻译模型的训练中,然后进行回译(反向),通过相同的方式得到目标端是正确的句子,而源端是翻译生成的句子,经多次迭代实验,在初始系统原有的性能指标上,提升了6.7(藏-汉)和9.8(汉-藏)个BLEU值。针对藏汉平行数据资源规模和领域受限,对监督式神经网络机器翻译模型的适应性较差的问题,提出了一种跨语言模型建模的藏汉机器翻译方法。本文首先构建了一个以Transformer为基线系统的藏汉机器翻译系统,通过对藏、汉掩码语言模型的预训练和藏汉跨语言翻译模型的建模,建立了富资源(汉)和贫资源(藏)之间的映射关系,然后将带有详细的语言信息和位置信息标签的藏汉双语句子以文本流的形式作为输入,通过这种预训练方式优化基线模型的性能,经实验表明,BLEU值分别提升了8.1(Transformer Base+MLM和Transformer Base)和5.7(Transformer Base+MLM和SMT)。本文一方面通过对藏汉语言资源构建和相关技术的研究,构建面向藏汉机器翻译的语言资源库,另一方面通过研究贫语言资源条件下的藏汉机器翻译理论和方法研究,优化和改进藏汉机器翻译的性能,取得了一些成果,为今后藏汉机器翻译研究提供了一个可借鉴的思路和方法。
刘洪涛[3](2020)在《基于生物医学语料的神经机器翻译系统研究》文中认为随着社会的发展,不同语种之间的交流越发密切。机器翻译降低了翻译过程中的人工成本,然而无论是人工翻译还是机器翻译,都对翻译结果的准确性和及时性要求极高。机器翻译在大量的翻译工作中降低了人力成本,以机器翻译模型为基础的翻译系统可以随时随地的帮助人们进行翻译工作。从统计机器翻译到基于神经网络的机器翻译,两者已展现出了较好的准确性和时效性,并在一定程度上可以替代人工翻译来解决日常生活中的翻译需求。本文在Transformer架构的基础上,添加了语义消歧工作和外部词典的辅助工作构建了一个翻译模型。该翻译模型采用基于神经网络的机器翻译中通用的序列到序列的翻译流程,抛弃传统的循环神经网络、长短期记忆网络等,采用完全由注意力机制构成的Transformer模型构建翻译框架。为了解决生物医学领域中专业词汇的翻译问题,本文使用爬虫系统获取生物医学语料后,将生物医学语料与通用语料混合作为翻译模型的训练语料。实验结果表明,基于混合语料训练的神经机器翻译模型在保证了通用语句翻译准确性的基础上,对生物医学领域的整句翻译结果以及生物医学名词翻译结果更加准确和专业。在面向生物医学语料的神经机器翻译模型的基础上,作者构建了Web服务。该翻译服务能够帮助生物医学领域的科研人员进行外语文献资料的翻译和理解工作。
刘桃艳[4](2019)在《《劳特里奇翻译技术百科全书》(节选第五至七章)的英汉翻译报告》文中指出在经济全球化、信息化时代下,计算机科学及其相关领域发展迅猛,翻译技术在语言服务行业得到了广泛的应用。译者选取了《劳特里奇翻译技术百科全书》第一部分的第五、六、七章作为本翻译报告的翻译实践文本。该书于2015年由劳特里奇出版社出版的一部研究翻译技术方面的开拓性着作。第五、六、七章主要介绍了机器翻译的定义、发展阶段、研究、运用以及基于实例的机器翻译情况。通过翻译该书,译者不仅进一步比较全面地了解了机器翻译,提高了翻译能力,而且译者还希望通过本书的翻译能够对国内翻译技术的教学、实践和研究提供具体指导,促进国内翻译技术和跨学科研究的发展。在本次翻译实践的过程中,译者切实运用皮特·纽马克的交际翻译理论对所选择的原文文本的翻译过程和译文进行指导,并且运用交际翻译理论力求尽可能地使译文再现原文读者的同样效果。本翻译实践报告分为五个部分。第一个部分概述了翻译任务的选题来源与意义、源文本及其语言特征等。第二部分介绍了本次翻译任务的译前、译中和译后的翻译过程。第三部分简要介绍了纽马克文本类型和交际翻译理论。第四部分,在交际翻译理论的指导下,从词汇和句法两个层面来对选取的译例进行分析,通过采用音译、增译、倒译、分译、重组等翻译方法和技巧,来解决翻译过程中的问题,从而使得译文符合汉语的表达习惯,符合交际翻译理论,实现译文的交际目的。第五部分总结了本次翻译实践中存在的一些问题和不足。
刘璐[5](2019)在《融合短语知识的神经机器翻译技术研究》文中研究表明随着信息化和网络化的迅猛发展,全球一体化进程急剧加快,人们对实用化语言转换技术的需求日益迫切,机器翻译技术引起了越来越多研究人员的兴趣。目前,最先进的机器翻译方法是神经机器翻译。相较于传统的统计机器翻译方法,神经机器翻译直接利用神经网络实现源语言文本到目标语言文本的映射,不需要人工设计特征,并且能够充分利用句子中的上下文信息,使翻译效果得到了显着提升。但是,主流的神经机器翻译方法以单词为基本处理单元,对短语的建模能力有限。而基于短语的统计机器翻译方法能够从大规模双语语料库中自动学习源语言和目标语言之间的短语翻译知识并建立相关的概率模型,在短语翻译方面具有一定优势。如何将两种翻译方法结合起来,使其优势互补,是一个重要的研究问题。针对上述问题,本文开展了融合短语知识的神经机器翻译技术研究。本文提出了一种基于后缀的短语知识表示方法,通过对源语句进行句法分析,进而识别句中的短语,并与统计机器翻译系统生成的短语表进行匹配,产生双语短语片段,以后缀的形式添加到源语句的尾部,作为指导神经机器翻译中短语翻译的约束信息,将添加短语表示的源语句输入到编码器,使短语知识融入神经机器翻译编码产生的句向量,提升翻译效果。在中英语料上进行的对比实验表明,将短语知识融入源语句后进行编码,能够提高机器翻译的准确率,即在神经机器翻译编码器中整合合适数量的短语翻译信息可以有效地指导译文的生成。
朱俊国[6](2019)在《机器翻译的译后优化关键技术研究》文中指出近年来随着机器翻译技术的发展,机器翻译系统已逐渐被应用于各种领域,以帮助人们完成一系列跨语言任务。然而在大多数情况下,机器翻译系统产生的机器译文仍然不能与人工翻译的标准译文相媲美。尤其是当面临一些译文质量要求较高的翻译任务时,在机器翻译系统进行自动翻译的基础上,人们仍需要对机器译文进行校对、修改、润色,来保证译文质量。相对于人工译文优化,机器翻译的自动译后优化是针对一个或多个翻译系统产生的译文做进一步改进,提升其翻译质量,减少人工编辑的代价。但在自动译后优化过程中,可以用于译后优化的用户数据规模通常较小,甚至不存在。面对这样的小数据或零数据的困难情况,如何有效地提高译文的质量是一个机器翻译领域中亟待解决的重要问题。本文的研究主要围绕如何充分利用小数据或者构造伪数据,对已有的通用大规模数据(机器翻译训练数据)进行迁移利用,探索如何合理利用有限的人工翻译历史或者不同的机器翻译结果,进一步提升机器翻译结果的质量、并提供相应的翻译质量估计手段,以达到提高译文质量,降低人工编辑成本的目标。本文的研究主要包含四个方面:(1)研究基于小规模翻译实例的译文一致性优化。在仅有少量人工翻译历史数据场景下,针对如何有效利用这些数据优化通用机器翻译系统的译文,使其更符合特定领域翻译要求的问题,本文将用户人工翻译历史实例与当前机器译文进行融合,提出了一种基于小规模翻译实例的译文一致性优化方法。该方法将机器翻译译文与相似的翻译实例的译文在混淆网络模型框架下进行融合,并重新计算混淆网络中的每个词的后验概率,并基于多个特征采用对数线性模型进行解码,重新生成译文,解决了在小数据场景下的不同源译文的融合问题。(2)研究基于伪反馈的后编辑优化。在仅有少量的用户人工翻译的历史数据场景下,针对如何利用这些数据学习机器翻译后编辑建模,从而更有效地修改机器翻译的错误并减少重复性劳动的问题,本文提出了一种基于伪反馈的译文后编辑优化方法。该方法利用相似翻译实例的机器译文生成译文的伪反馈,有效地克服了译文后编辑数据的稀疏问题。同时该方法还可以将源语言的上下文信息引入到译文的后编辑模型中,从而更准确地判断和估计某些后编辑短语规则是否适用于编辑当前待翻译句子的机器翻译译文。(3)研究基于深度学习的多翻译系统译文融合优化。当用户不能提供任何相关数据时,针对如何在无用户数据的极端情况下优化机器翻译译文质量的问题,本文提出了一种基于深度学习的多系统译文的融合优化方法。该方法将译文融合过程分成编码和解码两个阶段,并分别使用适用于机器翻译系统的大规模双语数据,以及少量译文融合任务数据,对编码和解码过程中的参数进行训练,以缓解译文融合任务训练数据不能充分训练整体模型参数的问题。同时在编码阶段用源语言信息增强机器翻译译文的编码,来弥补机器翻译译文质量上的缺陷,并且通过限制了融合译文的词表和解码空间降低产生译文的不确定性,使得融合的译文质量有了显着性的提高。(4)研究基于伪数据的译文质量估计。在缺少人工译文质量标注数据的情况下,针对如何有效构建并训练翻译质量估计的深度模型的问题,本文提出了一种基于伪数据的机器译文质量估计方法。该方法引入了伪数据的思想,通过双语平行语料构造译文质量评估所需的正例和反例,对基于神经网络的译文质量估计模型参数进行预训练,使得通用领域的双语数据可以直接用于质量估计模型的预训练,提高了译文质量评估模型的性能。同时通过自动生成错误译文的方法,基于双语数据扩大带有标注数据的规模,进一步对模型进行充分地训练,提高了译文质量估计模型的性能。综上所述,本文的主要贡献在于面对小规模用户数据或零数据的困难情况下,提出了一系列有效的机器翻译译后优化方法。本文基于小规模翻译实例对译文进行一致性优化,基于伪反馈修改机器译文中的翻译错误,基于大规模双语平行语料训练多系统译文深度融合模型,从而提高机器译文的质量,降低人工后编辑的代价。同时提出了一种基于伪数据的深度译文质量估计模型,通过一种有效的伪数据生成方法提高翻译质量估计效果。实验结果表明,这些方法相对于各自的基线方法在性能上都有显着性提升。
李梦洁[7](2018)在《注意力机制在英汉机器翻译中的应用研究》文中研究表明近年来,人工智能在图像处理、自然语言处理、文本识别等方面发展迅速,尤其是在机器翻译上,取得了显着的效果。机器翻译是利用计算机算法去实现两种自然语言之间相互转换的过程。在实现机器翻译任务上,目前已经有很多成熟的模型可以应用,包括经典的隐马尔科夫模型、BP神经网络、递归神经网络、Encoder-Decoder模型以及序列到序列模型(Sequence to Sequence Model)。当向机器翻译模型输入序列时,随着序列长度的不断增加,会出现长距离约束即输入输出序列的长度被限制在固定范围内的问题,因此所建模型的能力会受到约束。序列到序列模型可以解决长距离约束问题,但单纯的序列到序列模型无法参考词语前后或其他位置的内容改善翻译质量的行为进行建模。为了弥补该缺陷,学者们提出添加注意力机制(Attention Mechanism)的序列到序列模型。本次实验使用递归神经网络,将数据集应用在添加注意力机制的序列到序列模型中进行探索研究。本文的主要工作如下:(1)本文以从射手网提取的中英文对照语句为数据对象,使用注意力机制下的序列到序列模型进行中文到英文之间的翻译研究。(2)本次研究阐述了机器翻译及部分模型的研究现状,简述了深度学习框架。详细分析了BP神经网络、Encoder-Decoder模型、基于神经网络的机器翻译及注意力机制的运算过程、原理、优缺点;(3)对使用Py Torch实现的序列到序列模型以及注意力机制进行了研究,通过分析翻译的时间消耗、翻译后的词错率以及模型评价标准值来评价模型;(4)最后,本次实验通过应用Encoder-Decoder模型和机器翻译相关技术完成在注意力机制的应用探究,通过训练数据,该模型在中文英文数据集上取得了一定的效果,得出了部分翻译结果以及注意力机制在语句中的表现。相比只使用机器翻译模型来说,应用了注意力机制的机器翻译模型在中文到英文的翻译上使得BLEU值提高了1.24。
李强[8](2018)在《基于多层次知识的机器翻译方法研究》文中进行了进一步梳理机器翻译是实现“沟通无国界”这一梦想的核心技术,长期以来一直受到学术界和工业界的广泛关注。然而,无论是统计机器翻译,还是发展速度较快的神经机器翻译,都还有一些问题有待解决,包括:如何提高稀缺资源翻译任务上的翻译效果、如何在神经机器翻译中使用统计机器翻译中证明有效的方法、如何有效地利用骨架知识指导翻译、如何有效地使用语言学知识优化译文质量。本文通过引入多层次知识来解决机器翻译中存在的上述问题,多层次知识主要包括中介语知识、泛化与短语知识、骨架知识、语言学知识。本文的研究内容包括以下四个方面:第一,提出了基于中介语知识的机器翻译方法。在稀缺资源翻译任务上,本文证实神经机器翻译模型无法表现出较好的翻译效果,与统计方法相比性能相差极大。因此,在稀缺资源翻译任务上,本文着重对基于统计的机器翻译方法进行研究。本文提出了词对齐优化的语料级中介语方法和基于解码生成的短语级中介语方法,用于构建外国语至汉语的机器翻译模型。本文使用基于最小错误率训练的方法对语料级和短语级的翻译结果进行融合,进一步提高了翻译质量。通过使用本文提出的方法成功构建了孟加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译模型。第二,提出了基于泛化与短语知识的机器翻译方法。在统计机器翻译中,在泛化数据上进行模型训练的短语统计机器翻译模型的翻译质量显着地优于基于词的翻译模型,受到这一想法的启发,本文对神经机器翻译中的数据泛化方法和短语生成方法进行了深入的研究。为了缓解子词方法在未登录词和低频词翻译时出现的错译问题,本文提出了泛化数据结合子词方法的技术。在将泛化知识引入到神经机器翻译中,本文提出了一致性检测和解码优化的方法。在将短语知识引入到神经机器翻译中,本文提出了基于数据压缩算法的短语生成方法。神经机器翻译通过使用泛化和短语知识,获得了翻译质量的提升。第三,提出了基于骨架知识的机器翻译方法,将骨架知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,本文方法生成的骨架短语对提供了译文端的局部翻译框架。通过在短语翻译表中使用翻译骨架的概念,经过分解、替换、生成操作,生成了骨架短语对。该方法显着地缓解了在已有的语料条件下短语对学习不充分的问题,学习到大量的高质量的骨架短语对,获得了翻译质量的提升;在神经机器翻译中,翻译骨架提供了译文端的全局翻译框架,可以将翻译问题转化为目标语言的填空问题。该方法通过额外的骨架编码器对翻译骨架进行建模,通过使用知识门阀和注意力门阀动态地控制解码过程中不同来源的知识对当前解码词汇贡献度的大小。从真正的翻译结果中可以看出,本文提出的基于骨架的神经机器翻译可以使用翻译骨架对翻译过程进行有效地指导,最终获得了翻译质量的提升。通过实验证实,当翻译骨架中真实词汇的数量上升时,翻译性能随之增长。第四,提出了基于语言学知识的机器翻译方法,将语言学知识同时引入到统计机器翻译和神经机器翻译中。在统计机器翻译中,通过对丢词现象进行分析,本文将丢词问题分为想要的丢词和不想要的丢词。继而,对于这两类丢词,本文使用基于最大熵的丢词模型进行解决,在最大熵方法训练丢词模型参数的过程中,通过知识块内嵌了词性、命名实体、浅层语义这三类语言学知识。在丢词问题上,实验结果证实,本文提出的方法显着地提高了译文的翻译质量;在神经机器翻译中,在对源语言词汇进行建模的同时,使用另外一个语言学编码器对语言学知识进行建模。该模型使用知识块对四种语言学知识进行建模,包括词性、命名实体、浅层语义、依存句法树,使用知识门阀和注意力门阀动态地控制从不同编码器传入到解码器的信息的多少。最终的实验结果证明,本文提出的方法有效地提高了机器翻译模型的翻译质量,明显地缓解了机器翻译中存在的丢词问题和译文结构混乱问题。基于本文提出的方法,我们成功开发了开源统计机器翻译系统NiuTrans和开源神经机器翻译系统LiNMT。NiuTrans在NTCIR、LoReHLT、CWMT等多项国内外机器翻译评测中获得了第一、第二名的成绩,LiNMT在CWMT2017英汉机器翻译任务上获得了第二名的成绩。
武静[9](2017)在《多方法融合蒙汉机器翻译与译文重排序研究》文中研究表明机器翻译近年来蓬勃发展,取得了令人瞩目的研究成果,稀少资源语言和少数民族语言的机器翻译任务也获得了更多的关注。蒙古语是一个广泛使用的跨多国、多地区的语言,蒙古语言文字是内蒙古自治区的官方语言文字。蒙汉机器翻译研究一方面对于促进民族文化传播和多民族人民交流有着重要意义,另一方面对于稀少资源和少数民族语言机器翻译研究发展有着积极地推动作用。然而,蒙汉机器翻译面临着语言类型跨度大,蒙古文语言现象复杂,研究资源稀少,基础薄弱等问题。传统的基于模板和基于统计的机器翻译模型,以及前沿的神经网络机器翻译模型在蒙汉机器翻译任务上的研究存在诸多困难。本文结合蒙古文语言特点和蒙汉机器翻译研究的难点,系统性的分析以上三类模型在稀少资源的蒙汉机器翻译任务上的优势及不足,提出针对性的模型优化算法和蒙古文形态分析方法。为充分利用蒙汉机器翻译有限的资源和研究成果,本文将三个系统的多个翻译结果进行句子级别的融合,构建蒙汉机器翻译融合系统,进一步提升蒙汉翻译译文质量。本文主要研究工作包括:1.本文针对蒙古文形态分析方法展开研究。为解决蒙古文形态复杂在翻译中造成的数据稀疏、蒙古文识别和匹配困难等问题,本文在不同翻译模型中对多种蒙古文形态分析方法进行实验,通过对比分析得到针对不同机器翻译模型的形态分析策略如下:在统计机器翻译中使用词形还原得到的蒙古文词干作为翻译粒度;神经网络机器翻译中,将词干和格的附加成分共同作为子词参与模型训练;在模板翻译中使用切分词缀的方法来进行模糊匹配。2.本文提出了一种重对齐统计机器翻译模型。该重对齐模型突破了统计机器翻译同一粒度优化模型的限制,在不同翻译阶段采用不同粒度分别对模型进行优化,并设计了一个将小粒度向大粒度重新对齐的算法,降低了对齐错误率,提升了翻译性能,从整体上优化了统计机器翻译模型。3.本文提出了一种融合短语的注意力神经网络翻译模型。该模型为了充分利用蒙汉有限规模双语语料的语言特征,对于同一源端的输入序列,在目标端将汉文字和短语联合解码,使解码器共享其概率分布和目标词典向量表示。融合短语的神经网络解码模型使得深度神经网络在学习多粒度短语特征的同时缓解集外词问题,显着提升了蒙汉神经网络翻译模型性能,使其显着超过传统统计机器翻译模型的翻译水平。4.本文提出了一种基于统计词对齐的模板翻译模型。该模型利用统计词对齐信息抽取模板变量,克服了缺乏句法分析工具的难题。模板匹配算法利用多方法蒙古文形态分析进行模糊匹配,提升了模板变量词典匹配率。模板翻译模型构建了可用于蒙汉和汉蒙模板机器翻译的模板库。5.为了在稀少资源的蒙汉机器翻译任务中充分利用多个模型的翻译成果,本文提出了一种新的基于循环神经网络编码的双语句子相似度重排序模型,将上述三个翻译系统产生的译文进行重排序,构建多模型融合系统。本文针对经典和前沿的机器翻译技术,对蒙汉机器翻译展开研究,面向稀少资源蒙汉机器翻译任务的困难,针对蒙古文语言特点,融合多种方法,对模型进行优化,提升了三个蒙汉机器翻译模型的性能。最后,为了在当前成果下获得更好的蒙汉机器翻译译文,将三个翻译模型进行译文重排序,构建融合系统。本论文工作为蒙汉机器翻译构建了新的系统,提出了新的优化方法,显着提升了蒙汉机器翻译水平,为探索蒙汉机器翻译的新高度做出一定贡献。
苏依拉,刘婉婉,乌尼尔[10](2017)在《基于实例相似度检测的蒙汉机器翻译方法》文中进行了进一步梳理针对内蒙古地区机器翻译力量薄弱、技术落后等现状,提出一种基于实例的翻译方法,使用不同粒度的对齐技术对蒙汉双语语料库进行处理,根据相似度算法进行匹配和重组并生成译文.实验结果表明:利用实例库相似度检测的方法能够对特定领域的蒙古语做出有效的翻译,并在一定程度上提高翻译质量,在蒙汉机器翻译中具有较好的应用价值.
二、基于实例的机器翻译中实例匹配算法的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于实例的机器翻译中实例匹配算法的研究(论文提纲范文)
(1)基于迁移学习的中朝神经机器翻译方法的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 研究现状 |
1.2.1 机器翻译研究现状 |
1.2.2 朝鲜语机器翻译研究现状 |
1.2.3 神经机器翻译中的迁移学习研究现状 |
1.3 研究内容与主要工作 |
1.4 本文结构 |
第2章 神经机器翻译与迁移学习 |
2.1 引言 |
2.2 神经机器翻译模型 |
2.2.1 Seq2Seq模型 |
2.2.2 结合注意力机制的Seq2Seq模型 |
2.2.3 神经网络结构 |
2.3 迁移学习 |
2.4 机器翻译评估指标 |
2.5 本章小结 |
第3章 基于权值共享的中朝神经机器翻译方法 |
3.1 引言 |
3.2 结合朝鲜语汉字词(Sino-Korean Word)的句子对齐算法 |
3.3 模型设计的主要思想 |
3.4 权值共享模型结构 |
3.4.1 翻译模型整体结构 |
3.4.2 模型训练算法 |
3.5 实验及结果分析 |
3.5.1 实验数据预处理 |
3.5.2 实验环境及参数设置 |
3.5.3 实验结果及分析 |
3.6 本章小结 |
第4章 融合预训练语言模型的中朝神经机器翻译方法 |
4.1 引言 |
4.2 面向神经机器翻译的语言模型 |
4.2.1 神经网络语言模型 |
4.2.2 预训练语言模型 |
4.3 融合BERT的神经机器翻译模型 |
4.3.1 模型设计的主要思想 |
4.3.2 模型结构 |
4.3.3 模型训练方法 |
4.4 实验及结果分析 |
4.4.1 实验数据预处理 |
4.4.2 实验参数设置及过程 |
4.4.3 实验结果及分析 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文 |
致谢 |
(2)贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 藏汉机器翻译中存在的问题 |
1.3 本文主要研究内容与贡献 |
1.4 论文的结构安排 |
第二章 机器翻译概述 |
2.1 引言 |
2.2 国内外研究历史和现状 |
2.2.1 外-汉(汉-外)机器翻译 |
2.2.2 国内少数民族机器翻译 |
2.2.3 国外机器翻译 |
2.3 相关技术简述 |
2.3.1 基于规则的机器翻译 |
2.3.2 基于统计的机器翻译 |
2.3.3 神经网络机器翻译 |
2.4 本章小结 |
第三章 面向藏汉机器翻译的语言资源构建方法研究 |
3.1 引言 |
3.2 相关研究 |
3.2.1 国外语言资源构建历史与现状 |
3.2.2 国内语言资源构建历史与现状 |
3.3 藏汉双语语言资源构建方法相关理论 |
3.3.1 基于web的藏语单语语言资源构建技术 |
3.3.2 藏文分词研究 |
3.3.3 藏文命名实体识别研究 |
3.3.4 藏汉双语跨语言对齐研究 |
3.4 本章实例分析 |
3.5 本章小结 |
第四章 融合单语语言模型的藏汉机器翻译方法研究 |
4.1 引言 |
4.2 相关研究 |
4.3 相关理论方法 |
4.3.1 藏语单语语言模型构建方法 |
4.3.2 藏语单语语言模型融合策略 |
4.4 实验与分析 |
4.4.1 数据处理 |
4.4.2 实验 |
4.4.3 实验分析 |
4.5 本章小结 |
第五章 基于迭代式回译策略的藏汉机器翻译方法研究 |
5.1 引言 |
5.2 相关研究 |
5.3 相关理论方法 |
5.3.1 迭代式回译策略 |
5.3.2 平行句对过滤机制 |
5.4 实验与分析 |
5.4.1 数据准备 |
5.4.2 藏汉平行句对过滤实验 |
5.4.3 迭代式回译实验 |
5.5 本章小结 |
第六章 基于跨语言模型建模的藏汉机器翻译方法研究 |
6.1 引言 |
6.2 相关研究 |
6.3 相关理论方法 |
6.3.1 语言模型 |
6.3.2 翻译语言模型建模 |
6.4 实验与分析 |
6.4.1 语料处理及规模 |
6.4.2 藏汉双语跨语言模型的建立 |
6.4.3 实验分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
附录1 图目录 |
附录2 表格目录 |
攻读博士学位期间的研究成果 |
(3)基于生物医学语料的神经机器翻译系统研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.4 本文研究内容 |
第2章 机器翻译简介 |
2.1 机器翻译发展历程: |
2.2 基于规则的机器翻译 |
2.3 基于实例的机器翻译 |
2.3.1 基于实例的机器翻译的主要实现过程 |
2.3.2 基于实例的机器翻译优点 |
2.4 基于统计的机器翻译 |
2.4.1 统计机器翻译中的双语对齐问题 |
2.4.2 基于词的统计机器翻译 |
2.4.3 基于短语的统计机器翻译 |
2.4.4 基于句法的统计机器翻译 |
2.5 基于神经网络的机器翻译 |
2.5.1 注意力机制 |
2.5.2 Transformer机制 |
2.6 本章小结 |
第3章 基于生物医学语料的神经机器翻译系统 |
3.1 医学语料数据抓取系统 |
3.2 BioNMT模型 |
3.2.1 BioNMT网络架构 |
3.2.2 双语语料特征向量的提取与处理 |
3.3 BioNMT机器翻译系统流程 |
3.4 本章小结 |
第4章 实验和BioNMT系统实现 |
4.1 实验数据集 |
4.2 实验环境 |
4.3 评价指标 |
4.4 结果分析 |
4.5 BioNMT系统的实现 |
4.5.1 系统设计 |
4.5.2 未登录词解决办法 |
4.6 本章小结 |
第5章 总结与展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(4)《劳特里奇翻译技术百科全书》(节选第五至七章)的英汉翻译报告(论文提纲范文)
Acknowledgements |
Abstract |
摘要 |
Part Ⅰ Translation |
Part Ⅱ Translation Report |
2.1 Description of the Translating Project |
2.1.1 Introduction to the Original Text |
2.1.2 Significance of the Translation Project |
2.2 Translation Process |
2.2.1 Preparation before Translation |
2.2.2 Production of glossary |
2.2.3 Schedule Arrangement |
2.2.4 While-translation |
2.2.5 Post-translation |
2.3 Translation Theory Adopted |
2.3.1 Classification of textual function |
2.3.2 Communicative Translation Theory |
2.4 Case Study |
2.4.1 Lexical Level |
2.4.1.1 Translation of Proper Names |
2.4.1.2 Translation of Technical Words |
2.4.2 Syntactic Level |
2.4.2.1 Translation of Passive Voice |
2.4.2.2 Translation of Nominalization |
2.4.2.3 Translation of Long Sentences |
2.5 Summary |
2.5.1 Problems and Limitations |
2.5.2 Inspiration from the Translation Task |
References |
Appendix:List of Terminology |
(5)融合短语知识的神经机器翻译技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 课题的提出 |
1.4 本文的组织结构 |
第2章 相关研究 |
2.1 神经机器翻译 |
2.1.1 基本原理 |
2.1.2 循环神经网络 |
2.1.3 存在的问题 |
2.2 统计机器翻译 |
2.3 短语信息的引入 |
2.4 本章小结 |
第3章 短语翻译知识的抽取及表示方法 |
3.1 短语翻译表生成 |
3.1.1 词对齐 |
3.1.2 短语抽取 |
3.1.3 短语翻译概率估计 |
3.2 短语知识的抽取 |
3.2.1 文本预处理 |
3.2.2 句法分析 |
3.2.3 双语短语的匹配与抽取 |
3.3 基于后缀的短语知识表示 |
3.4 本章小结 |
第4章 融合短语知识的神经机器翻译系统 |
4.1 整体架构 |
4.2 模块介绍 |
4.2.1 框架选择 |
4.2.2 预处理模块 |
4.2.3 短语知识抽取模块 |
4.2.4 编码模块 |
4.2.5 注意力模块 |
4.2.6 解码模块 |
4.3 模型的训练 |
4.4 本章小结 |
第5章 实验结果及分析 |
5.1 实验设置 |
5.1.1 语料说明 |
5.1.2 系统设置 |
5.1.3 评价指标 |
5.2 实验结果 |
5.2.1 短语知识表示方法的比较 |
5.2.2 不同初始化参数的比较 |
5.2.3 不同短语后缀数目的比较 |
5.3 实例分析 |
5.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士期间发表(含录用)的学术论文 |
(6)机器翻译的译后优化关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究的背景和意义 |
1.2 机器翻译译后优化的相关工作 |
1.2.1 基于实例的机器翻译模型改进 |
1.2.2 机器翻译的自动后编辑模型 |
1.2.3 多机器翻译系统译文融合 |
1.2.4 机器翻译的质量估计 |
1.3 本文的研究内容及组织结构 |
1.3.1 研究内容 |
1.3.2 组织结构 |
第2章 基于小规模翻译实例的译文一致性优化 |
2.1 引言 |
2.2 基于小规模翻译实例的译文一致性优化模型 |
2.2.1 问题的形式化描述 |
2.2.2 译文一致性优化模型的框架 |
2.3 相似翻译实例的检索 |
2.4 基于混淆网络的融合模型 |
2.4.1 基于增量对齐的混淆网络构建 |
2.4.2 基于小规模翻译实例的词概率估计 |
2.5 基于对数线性模型的多特征解码 |
2.6 实验 |
2.6.1 实验设置 |
2.6.2 实验结果 |
2.6.3 不同检索相似度对译文质量的影响 |
2.6.4 翻译实例相似度值大小对译文质量的影响 |
2.6.5 翻译实例数量对译文质量的影响 |
2.6.6 特征的贡献分析 |
2.6.7 一致性优化示例及分析 |
2.7 本章小结 |
第3章 基于伪反馈的后编辑优化 |
3.1 引言 |
3.2 源语言相关的统计后编辑模型 |
3.3 基于伪反馈的后编辑优化模型 |
3.3.1 基于伪反馈的后编辑优化模型框架 |
3.3.2 基于相似实例的译文伪反馈 |
3.3.3 基于伪反馈的后编辑短语的分类 |
3.3.4 基于伪反馈的后编辑短语的置信度估计 |
3.3.5 模型的训练 |
3.4 实验 |
3.4.1 实验设置 |
3.4.2 后编辑模型实验结果 |
3.4.3 后编辑短语不同分类方法对模型的影响 |
3.4.4 参数微调前后的性能对比 |
3.4.5 后编辑短语的置信度特征的贡献 |
3.4.6 后编辑优化示例及分析 |
3.5 本章小结 |
第4章 基于深度学习的多翻译系统译文融合 |
4.1 引言 |
4.2 多系统译文优化的深度融合模型 |
4.2.1 问题的形式化描述 |
4.2.2 基于深度学习的多系统译文融合框架 |
4.3 源语言句子及机器译文的编码 |
4.3.1 基于双向RNN的源语言编码 |
4.3.2 源语言依赖的机器译文编码 |
4.4 多系统译文的深度融合解码 |
4.4.1 基于多注意力的解码 |
4.4.2 解码的搜索空间 |
4.5 深度融合模型的训练 |
4.5.1 编码器的参数学习 |
4.5.2 解码器的参数学习 |
4.6 实验 |
4.6.1 实验设置 |
4.6.2 实验参数设置 |
4.6.3 实验结果 |
4.6.4 多译文融合的示例及分析 |
4.7 本章小结 |
第5章 基于伪数据学习的译文质量估计 |
5.1 引言 |
5.2 基于神经网络的译文质量估计模型框架 |
5.2.1 基于LSTM的句子表示 |
5.2.2 基于句子表示的译文质量估计模型 |
5.3 基于随机生成伪数据的模型训练方法 |
5.3.1 模型在随机生成伪数据上的预训练 |
5.3.2 标准数据上的参数微调 |
5.4 针对特定任务生成伪数据的模型训练方法 |
5.5 实验 |
5.5.1 实验设置 |
5.5.2 评价标准 |
5.5.3 基线系统 |
5.5.4 基于随机生成伪数据的训练方法性能 |
5.5.5 针对特定任务生成伪数据方法训练模型的性能 |
5.5.6 译文质量估计示例及分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(7)注意力机制在英汉机器翻译中的应用研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 深度学习与自然语言处理 |
1.2.2 机器翻译的研究现状 |
1.3 相关研究内容 |
1.3.1 研究内容 |
1.3.2 技术路线 |
1.4 论文组织结构 |
第2章 相关技术概述 |
2.1 注意力机制相关概述 |
2.1.1 编码解码器架构 |
2.1.2 循环神经网络 |
2.1.3 注意力机制 |
2.2 机器翻译 |
2.2.1 基于短语的统计机器翻译 |
2.2.2 基于规则的机器翻译 |
2.2.3 基于实例的机器翻译 |
2.2.4 基于神经网络的机器翻译 |
2.3 深度学习框架 |
2.3.1 深度学习框架简介 |
2.3.2 PyTorch特点 |
2.4 本章小结 |
第3章 机器翻译相关模型 |
3.1 神经网络 |
3.1.1 神经网络概述 |
3.1.2 BP神经网络 |
3.1.3 卷积神经网络 |
3.2 递归神经网络模型 |
3.2.1 长距离依赖问题 |
3.2.2 递归神经网络 |
3.2.3 长短期记忆网络 |
3.2.4 GRU神经网络 |
3.3 注意力机制与机器翻译 |
3.4 本章小结 |
第4章 注意力机制在机器翻译模型中的应用实现 |
4.1 数据获取 |
4.2 算法实现 |
4.2.1 数据预处理 |
4.2.2 Encoder-Decoder模型 |
4.2.3 注意力机制与机器翻译模型 |
4.3 实验结果及分析 |
4.4 模型评价指标及结果 |
4.4.1 评价指标 |
4.4.2 模型评估 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
作者简历 |
(8)基于多层次知识的机器翻译方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 机器翻译 |
1.2 统计机器翻译模型 |
1.3 神经机器翻译模型 |
1.4 机器翻译存在的问题 |
1.5 研究内容 |
1.6 论文结构 |
第2章 机器翻译的基本理论 |
2.1 统计机器翻译的基本理论 |
2.1.1 数学模型 |
2.1.2 翻译建模 |
2.1.3 翻译模型 |
2.1.4 调序模型 |
2.1.5 最小错误率训练 |
2.1.6 解码 |
2.2 神经机器翻译的基本理论 |
2.2.1 数学模型 |
2.2.2 长短期记忆循环神经网络 |
2.2.3 注意力机制 |
2.2.4 双编码-单解码的神经机器翻译 |
2.2.5 翻译推导 |
2.3 本章小结 |
第3章 基于中介语知识的机器翻译 |
3.1 问题分析 |
3.2 基于中介语的翻译模型 |
3.3 系统级中介语 |
3.3.1 系统级中介语方法 |
3.3.2 优点和不足 |
3.4 词对齐优化的语料级中介语 |
3.4.1 语料级中介语方法 |
3.4.2 词对齐优化 |
3.4.3 优点和不足 |
3.5 解码生成的短语级中介语 |
3.5.1 短语级中介语方法 |
3.5.2 基于解码-生成的短语级中介语方法 |
3.5.3 优点和不足 |
3.6 融合的中介语方法 |
3.7 实验结果 |
3.7.1 数据 |
3.7.2 基本实验设置 |
3.7.3 对比系统说明 |
3.7.4 翻译性能 |
3.7.5 翻译实例 |
3.8 相关工作 |
3.9 本章小结 |
第4章 基于泛化与短语知识的机器翻译 |
4.1 问题分析 |
4.2 数据泛化方法 |
4.2.1 泛化类型 |
4.2.2 一致性检测 |
4.2.3 类型替换方法 |
4.2.4 翻译推导 |
4.3 短语生成方法 |
4.3.1 子词生成算法 |
4.3.2 基于压缩算法的短语生成方法 |
4.4 实验结果 |
4.4.1 数据 |
4.4.2 实验设置 |
4.4.3 翻译性能 |
4.4.4 翻译类型的准确率 |
4.5 相关工作 |
4.6 本章小结 |
第5章 基于骨架知识的机器翻译 |
5.1 基于骨架知识的统计机器翻译 |
5.1.1 问题分析 |
5.1.2 骨架短语对生成 |
5.1.3 短语分解 |
5.1.4 词对齐优化 |
5.1.5 相似度计算 |
5.1.6 概率估计 |
5.1.7 解码 |
5.1.8 实验结果 |
5.2 基于骨架知识的神经机器翻译 |
5.2.1 问题分析 |
5.2.2 基于骨架的翻译模型 |
5.2.3 注意力门阀 |
5.2.4 知识门阀 |
5.2.5 翻译骨架 |
5.2.6 实验结果 |
5.3 相关工作 |
5.4 本章小结 |
第6章 基于语言学知识的机器翻译 |
6.1 基于语言学知识的统计机器翻译 |
6.1.1 问题分析 |
6.1.2 丢词建模 |
6.1.3 最大熵模型 |
6.1.4 语言学知识的嵌入 |
6.1.5 解码 |
6.1.6 实验结果 |
6.2 基于语言学知识的神经机器翻译 |
6.2.1 问题分析 |
6.2.2 翻译模型 |
6.2.3 知识块 |
6.2.4 注意力门阀 |
6.2.5 知识门阀 |
6.2.6 与基于骨架知识方法的不同 |
6.2.7 语言学知识的嵌入 |
6.2.8 实验结果 |
6.3 相关工作 |
6.4 本章小结 |
第7章 结束语 |
7.1 工作总结 |
7.2 未来的方向 |
参考文献 |
致谢 |
攻读博士学位期间取得的学术成果 |
作者从事科学研究和学习经历的简历 |
(9)多方法融合蒙汉机器翻译与译文重排序研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 引言 |
1.1 研究背景与意义 |
1.2 蒙古文机器翻译研究现状 |
1.2.1 蒙汉机器翻译发展概述 |
1.2.2 蒙古文语言特征 |
1.2.3 蒙汉机器翻译资源稀少 |
1.3 研究内容及创新点 |
1.4 论文结构安排 |
第二章 多方法蒙古文形态分析研究 |
2.1 蒙古文形态特点 |
2.2 词形还原 |
2.3 格的附加成分处理 |
2.4 形态分析实验 |
2.4.1 实验设置与数据 |
2.4.2 形态分析数据稀疏统计 |
2.4.3 蒙古文翻译模板词典匹配 |
2.4.4 蒙古文统计机器翻译形态分析 |
2.4.5 蒙古文深度神经网络形态分析 |
2.4.6 实验结论与分析 |
2.5 本章小结 |
第三章 基于重对齐的蒙汉统计机器翻译模型 |
3.1 统计机器翻译模型 |
3.1.1 统计机器翻译模型概述 |
3.1.2 IBM对齐模型 |
3.1.3 翻译粒度分析 |
3.2 重对齐模型框架 |
3.3 重对齐转换算法 |
3.4 实验 |
3.4.1 实验数据与配置 |
3.4.2 实验评价标准 |
3.4.3 重对齐模型实验 |
3.4.4 重对齐翻译模型实验 |
3.4.5 实验结论与分析 |
3.5 本章小结 |
第四章 多粒度融合的神经网络翻译模型 |
4.1 基于注意力的循环神经网络翻译模型 |
4.1.1 深度学习与神经网络 |
4.1.2 基于注意力机制的循环神经网络翻译模型 |
4.2 融合短语的神经网络翻译解码模型 |
4.2.1 蒙汉注意力神经网络翻译模型 |
4.2.2 融合短语解码模型框架 |
4.2.3 短语词向量模型 |
4.3 实验 |
4.3.1 实验数据与实验组 |
4.3.2 模型配置及性能分析 |
4.3.3 有限目标词典融合实验 |
4.3.4 非受限目标词典融合实验 |
4.3.5 半训练数据融合实验 |
4.3.6 实验结论与分析 |
4.4 本章小结 |
第五章 融合统计对齐模型的模板翻译 |
5.1 蒙汉模板翻译模型 |
5.1.1 模板翻译模型概述 |
5.1.2 蒙汉模板翻译模型框架 |
5.2 融合词对齐的模板抽取模型 |
5.2.1 模板提取 |
5.2.2 模板库构建 |
5.3 基于蒙古文形态分析模糊匹配的模板翻译模型 |
5.3.1 模板匹配 |
5.3.2 蒙古文形态分析模糊匹配 |
5.3.3 译文选取 |
5.4 实验 |
5.4.1 实验设置与数据 |
5.4.2 模板库覆盖率实验 |
5.4.3 模板翻译实验 |
5.4.4 实验结论与分析 |
5.5 本章小结 |
第六章 基于深度神经网络编码的多模型译文重排序 |
6.1 多翻译模型对比与分析 |
6.1.1 多模型对比 |
6.1.2 蒙汉机器翻译多模型应用成果 |
6.2 基于循环神经网络的译文重排序算法 |
6.2.1 机器翻译融合系统 |
6.2.2 融合模型框架 |
6.2.3 神经网络重排序模型 |
6.2.4 N元双语词向量表示 |
6.3 实验 |
6.3.1 实验配置与数据 |
6.3.2 多模型对比实验 |
6.3.3 模型融合实验 |
6.3.4 多译文融合实验 |
6.3.5 实验结论与分析 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 本文工作总结 |
7.2 本文工作展望 |
参考文献 |
致谢 |
攻读博士学位期间发表的论文 |
攻读博士学位期间参加的科研项目 |
(10)基于实例相似度检测的蒙汉机器翻译方法(论文提纲范文)
1 基于实例相似度检测的机器翻译 |
1.1 基于实例相似度检测的机器翻译系统构成 |
1.2 预处理 |
1.3 词语对齐 |
2 系统的优化与改进 |
2.1 相似度 |
2.1.1 词性相似度算法 |
2.1.2 基于数学方法的相似度计算 |
2.2 最相似实例检索 |
2.2.1 倒排索引 |
2.2.2 句子长度索引 |
3 实验及评测结果 |
4 结论 |
四、基于实例的机器翻译中实例匹配算法的研究(论文参考文献)
- [1]基于迁移学习的中朝神经机器翻译方法的研究[D]. 王琪. 延边大学, 2021(02)
- [2]贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究[D]. 慈祯嘉措. 青海师范大学, 2020(02)
- [3]基于生物医学语料的神经机器翻译系统研究[D]. 刘洪涛. 吉林大学, 2020(08)
- [4]《劳特里奇翻译技术百科全书》(节选第五至七章)的英汉翻译报告[D]. 刘桃艳. 云南师范大学, 2019(07)
- [5]融合短语知识的神经机器翻译技术研究[D]. 刘璐. 沈阳航空航天大学, 2019(02)
- [6]机器翻译的译后优化关键技术研究[D]. 朱俊国. 哈尔滨工业大学, 2019(01)
- [7]注意力机制在英汉机器翻译中的应用研究[D]. 李梦洁. 新疆农业大学, 2018(06)
- [8]基于多层次知识的机器翻译方法研究[D]. 李强. 东北大学, 2018(01)
- [9]多方法融合蒙汉机器翻译与译文重排序研究[D]. 武静. 内蒙古大学, 2017(06)
- [10]基于实例相似度检测的蒙汉机器翻译方法[J]. 苏依拉,刘婉婉,乌尼尔. 北京工业大学学报, 2017(09)