一、基于部分匹配的XML文本文档向量检索模型(论文文献综述)
宁墨[1](2015)在《信息过滤技术在网站信息监管中的应用与研究》文中认为目前在全球经济一体化的情势下,各类网络信息深入发展和传播,已经引起了世界各个国家的高度重视,社交网络成为了彼此博弈的新的阵地。我们也发现在社交网络出现了大量的虚假和欺骗信息,还有一些反党反社会言论,这些都混淆了公众的判断,一旦被扩散传播,还会造成社会恐慌和动荡。随着社交网络逐渐影响人们的生活和各类信息在各个网络的传播,世界各国都对社交网络言论给予了高度重视。对于我国来说,考虑到在世界各地出现的各类突发事件对国家的影响,应该将社交网络管理纳入工作重点,通过对社交网络的监管,使它在健康、良性的轨道上发展,而不要成为别有居心的国家或个人为达到不可告人目的的工具。本文研究的方向就是利用信息过滤技术,将社交网络中涉及语言暴力、非法宣传、色情类文字内容从正常的网页中分离出来,以有效保护社交网络信息安全和网络的净化。信息过滤技术采用的主要方法有基于信息发布地址和基于信息内容关键字,经过分析研究发现其各有优缺点。只有采取对信息的内容进行详尽分析,并具体分拆理解,再加上统计算法才能够提高对网页内容的准确判断。本文的主要工作包括内容提取、中文分词、特征选择和提取、文本分类技术等。1)Web页内容提取。基于启发式方法从web页面提取用户感兴趣内容的技术实现简单,很有效。实验结果表明,实施启发式后生成的web页面没有无关紧要的内容链接,广告等内容被过滤,用户关注的主要内容被正确显示。2)中文分词算法设计。以文本中的标点为标记,每两个标点之间为一句。搜索整个句子进行匹配,当遇到终止符时可以理解为得到了一个具有意义的词,然后把这个词作为继续搜索匹配的基础。这种循环匹配方式是线性的,每个字都需要在句子中做到全部匹配,无论该词的长度是多少,都可以做到保证没有漏词。3)文本的向量空间模型。向量空间模型计算文档之间的相似度,以及文档的查询频率,为文本设置向量和为文档的索引词设置加权参数。4)特征选择和特征提取。特征选择是基于设定的规则选择最能充分表现的特征作为代表;特征提取是对原始特征进行分类重组,这样可以将离散化的原始特征聚集到较少的分类中,利于检索。5)SVM支持向量机。SVM支持向量机的工作因为创建一个分类器,最大化正面和负面之间的差距,提高利益最大化,对文本分类很有效。通过与其他分类器比较得知:SVM向量机分类器准确性和分类速度都是非常好的。本文设计的网站信息监管功能首先需要收集训练网页数据,并对数据进行预处理,去掉网页中无用的广告、图片、视频等信息内容,然后采用文本文档的方式保存数据。接着对文本文档进行中文分词和特征计算,这个过程中对较高维度进行特征抽取并执行特征降维操作。对所得到的训练数据利用支持向量机来获得用于各个分类的SVM分类器,进而完成训练过程。然后利用所得分类器对测试数据进行分类测试,经过多次分类结果反馈评估,根据测试结果对参数做进一步调整以提高预测精度。
井迪[2](2015)在《基于Nutch的分布式爬虫系统的研究与优化》文中研究说明伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展成为计算机产业界及学术界研究的热点。Hadoop以其良好的扩展性及可靠性成为当前应用较为广泛的云平台,得到了许多研究人员的关注。而作为Hadoop起初的主项目Nutch,是一个Java语言开发的开源搜索引擎,其支持分布式爬虫,且底层实现使用Hadoop,越来越多的学者围绕两者的结合展开研究,通过各种方式提高分布式搜索的效率。本文首先对Hadoop平台以及Nutch框架进行了分析研究,包括Nutch的插件机制与索引机制以及Hadoop分布式文件系统与分布式计算模型Map/Reduce。研究并分析了几种常见的网页去重算法与网页排序算法。在此基础之上,针对原生的Nutch系统在网页去重及网页排序方面的不足,提出了基于加权特征句提取的网页去重算法以及基于文档指纹与页面重要性的PageRank算法。其中基于加权特征句抽取的网页去重算法采用了网页内容加权提取的方式,并利用sim-Hash算法将文档表示成特征指纹集合,并通过计算集合间的Jaccard系数判断页面是否相似;基于文档指纹与页面重要性的PageRank算法利用本文提出的去重算法中的文档指纹来衡量网页间的主题相似度,并根据页面的链入链接数来分配所得的PageRank值,改善传统PageRank算法中出现的主题漂移问题以及权值的平均分配问题,并给出了这两个算法在系统中具体的Map/Reduce实现。最后,搭建Hadoop+Nutch的实验环境,并在Nutch系统实现中文分词的基础上对相关算法进行了测试实验,实验结果表明基于加权特征句抽取的网页去重算法拥有良好的去重效果与时间效率,并且这两方面达到了良好的平衡;基于文档指纹与页面重要性的PageRank算法与传统的PageRank算法相比,具有更高的查准率与稳定性。
刘兆军[3](2015)在《XML文档数据集聚类问题研究》文中进行了进一步梳理XML文档是典型的半结构化数据,XML是可扩展标记语言(eXtensibleMarkup Language)的英文简称。在1998年,万维网联盟W3C就开发并制定XML的标准并提出了XML格式,即XML1.0标准,并同时提出了文档定义类型DTD(Document Type Definition)标准和规范。XML数据是典型的半结构化数据,具备层次特性及动态可变特性和自述特性等半结构化数据的一般基本属性。随着计算机网络技术的发展,以XML格式为代表的半结构化数据被广泛应用于各种数据库系统中。目前,可以在网络中获得大量的XML文档数据,而如何在这些的基于XML文档类型的海量数据中挖掘出来用户关注的知识,即XML文档数据挖掘已经成为新时期数据挖掘领域研究的热点问题之一。在XML文档数据挖掘研究领域,XML文档数据集聚类问题是研究重点之一。XML文档聚类问题主要研究如何将具有相似特征的XML文档归为一簇,主要用于对具有相似特征的XML文档数据集进行数据分析。在进行XML文档数据集聚类之前,如何有效准确的衡量两篇XML文档数据或多篇XML文档数据间的相似程度(距离)是需要解决的重要问题,当考虑XML文档内容信息和领域知识后,正确的衡量XML文档数据集中各个元素的相似程度变得更加复杂。可以说,XML文档数据相似性度量算法的优劣直接影响XML文档数据集聚类结果的质量高低。本文归纳总结了目前已提出XML文档聚类问题的解决方法。首先简单介绍了XML文档聚类的核心问题,即XML文档相似性度量问题。其次从树编辑距离相似性度量方法的角度列举了相关的聚类方法。之后从信息检索相似性度量方法的角度列举了相关的聚类算法。最后列举了基于其他理论方法进行相似性度量的XML文档聚类方法。在第三章,本文提出了一种基于层次数据的XML文档聚类方法,称为CXLI算法。CXLI算法过程首先创建XML文档的线性数构表,然后根据线性结构表的信息将文档中的重复嵌套结构删除。在本文中,还提出了在考虑层数信息的前提下,XML文档各种基本编辑操作约束条件。之后,提出一种使用动态规划方法的带有XML文档层数信息文档间相似性度量方法,该方法在进行XML文档间相似性度量时,将XML文档数据的层数作为影响XML文档相似度的因素进行计算。CXLI方法可以用于计算XML文档相似度的所有应用领域中。最后,提出了基于凝聚型层次聚类思想的XML文档数据集聚类方法。计算机验证实验在人工数据集和ACM Sigmod真实数据集中进行,实验结果显示了本文提出的方法是有效的。在第四章,为了进一步提高聚类结果的正确率,提出了一种基于boosting理论的XML文档聚类方法。首先讨论了Boosting能够提高聚类质量(尤其是弱聚类算法)的基本原理。然后,提出了一个命名为ICBQ的算法用来有效的提高XML文档数据集聚类方法的聚类质量。通过实验表明,我们的方法具有很好的效率,并且具有更高的准确率,基于Boosting理论的能够有效地提高XML文档的聚类结果,实验结果表明,无论在真实数据集还是在人工生成的数据集上,使用ICQB方法都能够使得Nierman的方法、Dalamagas的方法和Flesca的方法聚类结果有明显的提高。
谢明玉[4](2015)在《基于混合索引结构的DOA下DRC数据检索技术研究》文中认为大数据时代,数据既是基础也是核心。围绕数据构建体系架构,可以解决目前许多架构在系统集成、系统扩展和数据管理等方面存在的瓶颈问题,以数据为中心的DOA系统架构随时代的需求而生。DOA存储各种各样的大数据信息,并通过数据注册中心的XML元数据文档管理这些大数据。随着这些XML元数据文档的快速增长,如何能够对这些XML元数据文档进行快速检索成为DOA下数据注册中心的第一要务,也是本论文的研究课题。XML是一种具有语义结构的标记语言,由于其特有的标记优势,已经成为各种数据信息传输、交换和存储的事实标准。由于XML文档不仅可以存储数值数据,而且可以存储文本数据;所以XML文档成为数据注册中心元数据存储的主要方式。对于这种半结构化的文档数据,本文通过改进传统向量空间检索模型的内容特征词查询,实现结构化特征词查询的方式。通过设计结构化特征词对XML元数据文档片断的权重及权重向量,实现查询与XML文档片断相似性匹配计算,从而实现准确的信息检索。鉴于数据注册中心XML元数据文档结构的多变异构性和复杂性,如何为XML元数据信息检索建立索引结构,如何在信息检索中有效利用XML元数据文档的层次结构信息是本论文首要解决的两大问题。为此,本文为实现数据注册中心下的XML元数据信息检索,具体做了如下工作:(1)研究了DRC下的XML文档节点编码模式及相应的索引结构。在DRC中,基于XML元数据文档的存储,关于XML检索技术的研究成为本文的重点。为实现高效地检索XML元数据文档的关键词,则需要对XML元数据文档建立高效的索引结构。XML节点编码模式和索引结构是XML文档检索的基础,通过研究XML文档节点编码方案,提出有效的节点编码方式,完成对XML文档节点编码。并基于这种编码方式,研究如何构建支持简单关键词检索和结构化查询的有效索引结构方案,实现对DRC下的海量元数据信息快速检索。(2)研究向量空间模型及检索处理算法。DRC下的XML文档结构多样,既有以数据为中心的结构化XML元数据文档,又有以文本为中心的半结构化XML元数据文档,或者介于两者之间的XML元数据文档。为了提高XML文档检索效率,则需要研究适合DRC下的XML文档的数据检索模型和方法。通过在传统向量空间模型分析研究的基础上,研究如何把现有的内容特征词检索扩展为支持具有结构路径约束的特征词检索,实现一种具有函数隶属关系的扩展向量空间检索模型,使其能够用于对XML信息检索进行匹配度打分排序,支持DRC下的XML文档的信息匹配与检索,并且新的检索模型能够支持内容特征词查询、标签特征词查询和结构化特征词查询。本文的创新点与研究成果有:(1)提出了一种支持DRC下XML文档多种信息检索方式的编码方案及混合索引结构。在研究现有各种编码方案的基础上,提出了基于DADG的编码方案,克服了现有编码方案存在的不足与缺点,同时对DRC下的XML文档内容特征词查询和结构化查询提供编码技术基础支持。在这种编码方案的基础上,构建了基于路径摘要索引、文本索引和元素索引的混合索引结构,节省了硬件存储空间,提高了信息检索速度,有效地支持了DRC下的XML文档信息检索。(2)提出了一种基于传统向量空间检索模型改进的函数向量空间模型及相应的查询处理算法。在新的编码模式及索引结构的支持下,通过扩展传统的向量空间模型,将传统向量空间中内容特征词概念扩展为具有结构约束的结构化特征词;并通过函数方式把传统向量空间的特征词查询和XML文档内容特征词的精确隶属关系转变为,由结构路径匹配度确定在[0,1]取值区间的一个函数关系,实现结构化特征词查询和XML文档片断的函数匹配。最后通过权重计算打分排序,返回有效的XML文档片断信息。最后,并按照此改进检索模型,设计实现了基于结构化查询的处理算法。
李红飞,姜海森[5](2014)在《基于XML技术的结构化文档编辑器研究》文中提出本文主要对以XML技术为基础的结构化文档编辑器所使用的主要技术、以及功能框架进行研究和探讨。研究结果表明:以XML技术为基础的结构化文档编辑器特性突出,适用于复杂类结构化文档的编写、样式调整、文件发布。
高学斌[6](2014)在《面向农村医疗的分布式文本检索关键技术研究》文中研究说明当前农村医疗的信息化建设还不完善,与农村常见病相关的医学数据利用率低、数据量大,如何从这些数据中准确、快速的检索到需要的数据,为农村赤脚医生和农村居民提供帮助,是农村基本医疗卫生关键技术研究的目的,而分布式文本检索技术可以解决上述问题。本文主要对分布式文本检索的关键技术展开研究,研究的关键技术主要包括:分布式检索模型、分布式创建索引、分词工具、权重计算公式等。研究分析了常用检索模型及分布式技术,设计了分布式检索模型;通过采用Hadoop框架及MapReduce编程技术,实现了分布式的创建索引;选取了合适的分词工具,并构建了合理的停用词词表和扩展词词表;经过比较分析常用的权重计算公式,改进了权重计算公式;通过对这些关键技术的研究及优化,设计开发了面向农村医疗的分布式文本检索框架,对检索框架的检索性能进行了详细的实验,并对实验结果做了的细致分析。经过实验测试,本文设计并实现的分布式文本检索框架在检索医学数据时具有很好的检索性能,不仅缩短了文本检索的时间,而且提高了文本检索的准确性,可以很好的为农村医生和农村居民提供服务。
梁英飞[7](2014)在《一种基于部分匹配的异构数据索引方法》文中进行了进一步梳理20世纪以来,信息化数据以指数规模增长,这使得人们从纷乱复杂的异构数据中迅速而有效地得到自己关注的信息变得困难重重,而索引是信息获取过程中最重要的一步。目前,结构化数据和非结构化数据的索引研究已取得重大成果,但单一类型的数据索引已无法满足用户需求,所以研究支持多种类型的数据索引已迫在眉睫。当前形势下的异构数据类型主要包含两种:一种是以关系型数据库为代表的结构化数据;另一种是以文本文档、HTMIL网页、Email等为代表的非结构化数据。结构化数据的主要查询方式为SQL,非结构化数据的主要检索方式为关键词搜索。随着数据信息化的快速推进,能同时检索多种数据类型的索引已引起人们关注。异构数据索引不同于单一类型的数据索引,它能够支持各种类型的数据检索。本文对国内外各种异构数据处理模型及其查询语言进行了详细的分析、总结,综合各个模型的优缺点,提出了一种基于关键词描述的数据模型。该模型可以较好地表示结构化数据和非结构化数据。此外,本文还提出了一种基于部分匹配的异构数据索引方法,其主要思想是预先计算并存储某些特定的查询及相应的结果。索引的构建和查询整体上遵循部分匹配思想。在构建时,充分利用剪枝及关键词计数排序策略,较大地缩短了索引构建时间;在查询时,主要依靠关键词计数并采用分层检索的方式,较大地减少了用户检索时间。实验结果表明该索引方法能够较好地解决异构数据索引问题,具有良好的性能。
温延龙[8](2012)在《XML信息检索关键技术研究》文中进行了进一步梳理随着XML技术的广泛应用,XML已成为Web上表示和交换数据的标准格式,各个领域不断涌现出大量的XML数据。如何有效检索大量的XML数据,是当前数据库与信息检索等领域中一个亟待解决的热点研究问题。传统信息检索技术在处理非结构化数据的检索上,取得了大量卓有成效的研究成果。XML数据具有半结构化特性,既有结构又有内容,给信息检索领域的研究带来了新的挑战。将数据库技术与信息检索技术巧妙结合,用于解决XML检索问题,已在研究人员中达成共识,为XML检索提供了新思路。本文在深入分析XML检索研究现状的基础上,以XML检索方式为主线,结合数据库技术与信息检索技术,对XML检索的若干关键技术进行了深入研究,包括XML关键字检索、模糊结构上下文的XML内容与结构检索、基于关系数据库的XML全文检索等内容。具体的创新和贡献如下:提出了一种基于候选片段语义的XML关键字检索方法。该方法首先根据XML文档树中节点所包含的属性类型数量以及节点的后裔节点数量选择候选节点,以候选节点为中心创建候选片段,将候选片段作为回答XML关键字检索最基本的语义单元;然后,针对候选片段建立倒排索引,在回答关键字查询时,根据XML数据集自身特点和用户的选择返回包含全部关键字的候选片段集合或存在祖先后裔关系的候选片段集合。实验结果表明以候选片段作为XML关键字检索的基本语义单元,能够为用户返回粒度适中、信息比较完整、拥有实际意义的检索结果,并且检索效率也比较理想。提出了一种模糊结构上下文的XML检索方法。该方法将查询与文档中的结构化约束条件定义为结构上下文,以结构化词项集合表示XML查询和XML文档。在上下文相似度计算方面,综合考虑了上下文之间的最大匹配部分以及各元素的层次权重、元素间的层次相似性等因素,提出了查询上下文与文档上下文相似度计算方法。为有效实现XML内容与结构检索,扩展了向量空间模型,设计了模糊结构上下文的XML内容与结构检索算法。实验结果表明,该方法在检索效率、检索结果上均有较好性能。提出了一种基于关系数据库的XML全文检索方法ReXFT。ReXFT采用基于模型映射的XML数据存储方案NXRel,能够在关系模型之上自然的体现出XML数据逻辑模型。提出了基于全文检索元素节点的XML全文索引方案,允许用户自定义全文索引路径。ReXFT以W3C推荐的XML全文检索标准作为XML全文检索提交形式,检索语法符合国际标准。综合考虑XML数据层次特性以及检索词之间的逻辑关系、距离、出现频率等因素,提出了一种基于文本覆盖密度的检索结果计分方法。实验结果表明,ReXFT可以有效处理XML全文检索。
钟敏娟[9](2012)在《基于检索结果聚类的XML伪反馈技术研究》文中研究说明随着XML应用的不断扩展,XML已经成为互联网上信息描述和信息交换的事实标准。XML数据是一种半结构化数据,它的特点是拥有不规则、可变的结构。作为一种新兴的数据格式,如何对它进行有效查询和检索,近几年来一直是数据库和信息检索领域关注的前沿研究课题。目前,在XML文档的精确查询方面取得了很多可喜的研究成果,而基于模糊查询的XML信息检索的研究却不尽人意,研究成果还不成熟。信息检索中查询质量不高的一个很重要原因就是用户往往不能准确地描述自己的查询意图,对XML文档而言,查询表达式不仅包含关键词还要包含结构信息,这对普通用户来说更具难度。在此背景下,引入反馈机制来帮助用户形成准确的查询表达式对XML信息检索具有重要意义。伪反馈不需要用户的参与而受到普遍关注,多次TREC会议表明它是一种简单且有效的查询扩展技术。它假定初始检索结果的前N篇文档是相关的,并以此进行查询扩展。本文围绕伪反馈中存在的“查询主题漂移”现象展开研究,针对用户提交的初始查询,进行有效的查询扩展,力图避免“查询主题漂移”现象,最终提高XML检索性能。在伪反馈中,有两个重要的方面需要解决:(1)如何确定相关文档集。传统伪反馈是采用初始检索结果的前N篇文档作为伪相关文档集,而事实上这N篇文档并不总与查询相关,从不相关的文档里提取扩展信息显然会产生主题漂移,造成性能下降。因此,如何在初始检索结果里确定相关文档,形成较高质量的伪相关文档集是避免“查询漂移”的首要问题。(2)在伪相关文档集里如何挑选扩展信息。对XML文档而言,扩展信息不仅要有关键词项,而且还包括结构信息。围绕这两大方面,本文具体研究了以下内容:(1)研究了XML文档的检索结果聚类。本文主要是面向文本为中心的XML数据环境,因此,聚类过程包含两大方面,其一是如何充分结合XML文档的特征,定义适合XML数据的相似性度量;其二是采用何种聚类算法实现聚类。本文首先以不同的检索结果返回粒度对相似性度量进行了研究:在以文档为返回粒度的检索结果聚类中,提出了内容和结构语义相融合的相似性度量方法CASS(ContentAnd Structure Semantics);在以元素节点为返回粒度的研究中,针对CASS的局限性在该度量方法的基础上进一步提出了基于语义的内容和结构语义相融合的相似性度量方法LSI-CASS(Latent Semantic Indexing based Content And Structure Semantics)。同时,本文还对聚类中存在的最优划分问题也进行了探索,结合文本间的最小相似度,提出了基于优化初始中心点和评价函数的k-medoid聚类算法,从而自动获取了最优的簇数。(2)基于检索结果聚类的文档排序模型研究。文档聚类之后,与用户查询相关的文档(或文档片段)在一定程度上聚簇在了一起,接下来的关键问题是如何把与用户查询相关的簇号挑选出来以及在挑选出来的相关簇中如何把相关文档(或文档片段)进一步查找出来。针对文档与元素节点两种不同的返回粒度,本文分别研究了候选簇的排序模型以及候选簇中文档(或文档片段)的排序模型。首先利用簇中心特征,提出了基于簇中心的候选簇排序模型。其次,结合XML文档的结构特性,在候选簇的文档(或文档片段)排序模型中提出了一系列的排序特征,并以此作为文档(或文档片段)排序的依据。通过两种排序模型有效地形成了较高质量的XML伪相关文档(或文档片段)集。(3)XML查询扩展研究。本文主要对面向CO(Content Only)查询的XML查询扩展进行研究,提出了基于伪反馈的XML查询扩展方法。在上述XML伪相关文档集里,一方面对词项扩展进行了研究,基于带结构的词项权值计算方法对查询词进行了扩展,有效地提高了检索系统的性能;与此同时,另一方面利用XML文档的树状模型,在扩展词项的基础上基于最大标签语义权重的结构扩展方法有效获得了完整的“内容+结构”的查询扩展表达式。本文的创新性工作体现在:(1)提出了基于检索结果聚类指导下的XML伪反馈技术路线。目前国内外基于伪反馈的XML信息检索的研究成果极少,针对XML检索结果聚类的研究还不多见,本文提出的基于检索结果聚类的XML伪反馈能充分利用聚类的相应特征来有效地解决传统伪反馈中扩展源质量不高的问题。首先在候选簇的排序模型中,文中充分利用簇标签特征,基于均衡化权值获得了较为合理的候选簇,其次,区别于传统信息检索排序机制,在候选簇的文档排序模型里充分考虑了聚类所带来的相应特征,比如文档与簇的相似度、簇的排名等因素,对文档进行了有效排序。实验数据表明该思路是行之有效的,检索结果聚类能够帮助获得较高质量的XML伪相关文档集,有效地确保了扩展源的质量。(2)针对XML文档聚类,提出了带结构语义的扩展向量空间模型,并在此基础上,提出了度量文档之间相似性的内容与结构语义相融合的相似性度量方法CASS。一方面,该方法采用内容为主、结构为辅的思路将XML文档的内容特征与结构特征有机地融合在一起,这种融合区别于现有的XML文档相似性度量方法。现有的XML文档相似性度量方法虽然也考虑了文档的内容特征和结构特征,但是却完全割裂了彼此之间的联系,尤其在同构数据集里无法获得较好的效果。另一方面,相似性度量方法中,词项的权重计算不仅从传统的词项频度出发,还考虑了XML文档的标签语义信息、标签的层次信息等反映结构语义的特征,这些特征有效地融合了XML的内容和结构双重特性,避免了当前许多同类的XML文档相似性度量方法需要用户事先指定参数的局限性,因此具有更好的灵活性和普遍性。(3)首次以元素节点为返回粒度对XML检索结果聚类进行了研究,提出了基于词项语义的内容与结构语义相融合的相似性度量方法LSI-CASS,该方法区别于以往XML文档间的相似性度量方法,一方面完全将XML文档的内容与结构特征融合在一起,另一方面还充分考虑了词项间的语义关系,利用隐含语义索引技术获取了文档内容的核心“概念”。同构数据集上的相关实验数据表明,LSI-CASS方法能获得比其他度量方法更好的聚类质量。
刘喜平[10](2010)在《XML文档搜索中的查询处理技术研究》文中研究指明由于有着可扩展性和自描述性等特点,XML格式得到了越来越多的采用,其结果是产生了大量以XML格式表示的文档。随着XML文档的大量涌现,用户迫切地需要对XML文档进行有效地查询。但是由于XML文档结构比较松散,往往存在大量的文本(尤其是在以文本为中心的XML文档中),用户难以了解XML文档的结构;而且XML查询语言比较复杂,用户亦难以掌握XML查询语言,这使得以XML数据库技术为代表的XML精确查询技术不能满足用户的需求,在此背景下,信息检索(IR)方式的XML文档搜索由于其用户友好性而受到了越来越多人的注意。目前,传统的信息检索技术比较成熟,但它们主要是针对HTML文档和文本文档,没有考虑XML文档的结构信息,无法体现XML信息检索的特点。随着XML文档的急剧增长,传统的搜索引擎已很难满足用户需求,XML信息检索将会成为下一代搜索引擎发展的重要方向之一,也将在众多行业如网络信息检索、数字图书馆等领域得到广泛的使用。本文研究了XML文档搜索中的查询处理技术,研究范围从用户提交XML查询开始,到产生最终的检索结果呈现给用户为止,研究的问题是对于用户提交的XML查询,如何有效地产生以合适的形式表示的、有意义的检索结果。在处理XML文档上的关键词或者带关键词的查询时,有两个问题非常重要:(1)XML文档中存在大量的标签,使得XML文档形成一种树状结构,于是XML文档搜索可以在一个更细的粒度上进行,即以子树或者结点为单位来匹配和返回。有效的XML文档搜索需要对XML文档中不同的结点(标签)有一个清晰的理解,如哪些部分更重要,应该返回哪些部分等。(2)XML数据模型比较复杂,XML文档中各种信息掺杂在一起,而XML检索表达式的表达能力相当有限,于是当用过于简单的表达式来查询复杂的XML文档时,往往存在歧义和语义上的模糊。有效的XML文档搜索需要对XML查询有一个深入的理解,理解查询的意图,这样才能忠实地反映出XML文档与查询之间的相关性。基于这样的出发点,本论文将语义作为核心,基于XML文档的语义来选择答案结点,通过查询语义来反映XML查询的意图,通过查询和结果语义上的相关性来对查询结果计分,围绕查询语义来返回组织良好的检索结果。我们认为,这种特点抓住了XML信息检索的关键,能够产生较好的检索效果。具体来说,研究了以下内容:(1)研究了XML文档检索中答案结点的语义推导问题。在对XML文档进行检索时,首先遇到的一个问题是,对于用户给出的查询,返回什么样的结点/检索结果是符合用户查询意图的。针对这一问题,我们分析了理想答案结点应满足的准则,以及XML文档中的结构信息、内容信息和用户查询信息与理想答案结点之间的关系。提出了根据XML结点类型和用户查询信息推导答案结点语义的方法。(2)针对当前XML文档搜索系统存在的一些缺陷,研究了XML关键词检索结果的聚类问题,提出了一个新的聚类方法,该方法的核心是答案结点与关键词查询的匹配模式。为了实现该聚类方法,我们提出了两种实现方法:Lazy方法和Eager方法,Eager方法能够保证产生与Lazy方法相同的聚类结果,但效率更高。还研究了聚类产生的簇的排序以及簇内部的检索结果的排序。(3)研究了有效的结构与内容检索(Content and Structure, CAS)查询处理问题,分析了已有的方法面临的问题,即不够灵活,有针对性地提出了一种新的CAS查询处理方法。这种方法以内容为主,结构为辅,能够较好地克服当前技术的一些问题,并特别适用于异构环境下的XML信息检索。(4)设计和开发了一个XML文档检索的原型系统XSense,它支持关键词检索和结构与内容检索。特别探索了支持XML文档搜索的索引结构,提出了一种新的XML编码结梅LCT编码,围绕LCT编码构建了XML结构和内容索引,支持各种结构查询和内容查询。本文的创新性工作体现在:(1)提出了一种新的XML检索的答案结点语义。一方面利用结点的语义,要求答案结点必须是有意义的;另一方面分析了XML查询与查询匹配之间的关系,要求在答案结点中关键词匹配之间的联系必须是有意义的。实验测试表明,与现有的答案结点语义相比,该方法能够更好地产生有意义的答案结点。(2)提出了一种新的面向XML文档搜索的结果聚类方法,以及高效的实现算法。这种聚类方法的特点是:它可以实现对XML查询的消歧,将不同语义的检索结果归类到不同的簇中;可以大大节省用户在浏览检索结果时的无用劳动;有助于用户更全面地理解检索结果集,也有助于扩展用户兴趣。大量的实验结果证明,这种聚类方法是有效的,能够产生有意义的聚类结果,而且聚类结果对于用户而言也是有帮助的。从时间效率上看,该聚类方法可以有效地实现。(3)提出了一种新的XML结构与内容检索的思路,该思路不同于其他工作的特点是:它采取了一种分解——检索——合并的思路,并且在检索中,采取以内容为主,结构为辅的思路,使得该方法具有很好的灵活性和自适应性。实验证明,该方法无论是对于同构文档还是异构文档都能取得很好的检索结果。通过本论文的研究,取得了一些重要的研究成果,这些成果丰富并推动了XML信息检索的研究,并为后续研究打下了坚实的基础。
二、基于部分匹配的XML文本文档向量检索模型(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于部分匹配的XML文本文档向量检索模型(论文提纲范文)
(1)信息过滤技术在网站信息监管中的应用与研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究背景和意义 |
1.2 信息过滤系统研究现状 |
1.3 本文研究内容和主要工作 |
1.4 论文结构 |
第二章 信息过滤相关技术 |
2.1 Web页内容提取 |
2.1.1 启发式Web页内容提取 |
2.1.2 机器学习提取Web页内容 |
2.2 中文分词最大匹配算法 |
2.2.1 设计目标 |
2.2.2 词库 |
2.2.3 中文分词算法设计 |
2.2.4 中文分词算法的实现细节 |
2.3 向量空间模型表示文本 |
2.3.1 向量空间模型 |
2.3.2 效果测试 |
2.4 特征选择和特征提取 |
2.4.1 特征选择 |
2.4.2 特征提取 |
2.5 本章小结 |
第三章 文本文档分类器 |
3.1 归纳学习方法 |
3.1.1 分类器 |
3.1.2 文本表示和特征 |
3.1.3 归纳学习的分类器 |
3.2 数据集测试 |
3.3 测试结果 |
3.4 结论 |
3.5 本章小结 |
第四章 网站信息监管功能设计 |
4.1 总体框架设计 |
4.2 训练集准备 |
4.3 数据处理 |
4.4 模型选择 |
4.4.1 RBF径向基本函数核心 |
4.4.2 交叉验证和网格搜索 |
4.5 本章小结 |
第五章 网站信息监管功能实现 |
5.1 网站信息数据收集 |
5.2 数据预处理 |
5.3 SVM支持向量机训练和测试 |
5.3.1 SVM分类器测试 |
5.3.2 SVM分类器最终测试结果 |
5.4 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
作者简介 |
致谢 |
参考文献 |
(2)基于Nutch的分布式爬虫系统的研究与优化(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景 |
1.2 课题研究现状 |
1.3 课题研究内容及意义 |
1.4 论文组织结构 |
第2章 Hadoop分布式平台和Nutch框架分析 |
2.1 Hadoop分布式平台 |
2.1.1 Hadoop分布式文件系统 |
2.1.2 Map/Reduce分布式计算模型 |
2.2 Nutch框架 |
2.2.1 Nutch工作原理 |
2.2.2 Nutch工作流程 |
2.2.3 Nutch插件机制 |
第3章 网页去重算法和网页排序算法的研究与优化 |
3.1 网页去重算法优化 |
3.1.1 基于特征码的网页去重算法分析 |
3.1.2 中文网页去重算法分析 |
3.1.3 基于加权特征句抽取的网页去重算法设计 |
3.2 网页排序算法优化 |
3.2.1 基于网页内容的排序算法分析 |
3.2.2 基于网页链接结构的排序算法分析 |
3.2.3 基于文档指纹与页面重要性的PageRank算法设计 |
第4章 分布式爬虫系统设计与实现 |
4.1 网页去重模块分析 |
4.1.1 去重模块总体设计 |
4.1.2 去重过程的Map/Reduce实现 |
4.2 网页排序模块分析 |
4.2.1 排序模块总体设计 |
4.2.2 排序过程的Map/Reduce实现 |
4.3 中文分词的实现 |
第5章 实验及结果分析 |
5.1 实验环境搭载 |
5.1.1 Hadoop环境搭建 |
5.1.2 Nutch环境搭建 |
5.2 实验结果及分析 |
5.2.1 去重算法实验及分析 |
5.2.2 排序算法实验及分析 |
5.3 实验总结 |
第6章 总结与展望 |
6.1 本文总结 |
6.2 未来展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
(3)XML文档数据集聚类问题研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 知识基础 |
1.2.1 XML 类型 |
1.2.2 XML 数据模型 |
1.2.3 树型数据结构 |
1.2.4 XML 数据模式 |
1.2.5 XML 数据特点 |
1.3 本文组织结构 |
1.4 本章小结 |
第2章 XML文档聚类理论基础 |
2.1 XML 文档相似性度量简介 |
2.2 树编辑距离度量方法 |
2.2.1 树编辑距离基本概念 |
2.2.2 树编辑距离研究现状 |
2.3 信息检索度量方法 |
2.3.1 XML 文档相似性度量信息检索方法介绍 |
2.3.2 信息检索研究现状 |
2.4 XML 相似度的其它技术 |
2.4.1 基于 XML 结构的度量方法 |
2.4.2 基于 XML 文档结构和内容度量方法 |
2.5 本章小结 |
第3章 基于层数信息的XML文档聚类 |
3.1 问题提出 |
3.1.1 相关工作 |
3.1.2 层数信息问题描述 |
3.2 考虑层数信息的 CXLI 算法 |
3.2.1 符号表示 |
3.2.2 元素属性处理 |
3.2.3 线性结构表 |
3.2.4 编辑操作约束 |
3.2.5 相似性度量与聚类 |
3.3 CXLI 算法实验结果与分析 |
3.3.1 实验环境与数据集 |
3.3.2 结果与分析 |
3.4 本章小结 |
第4章 基于BOOSTING的XML文档聚类方法 |
4.1 研究背景 |
4.2 相关工作 |
4.3 ICQB 算法 |
4.3.1 AdaBoost |
4.3.2 ICQB 算法 |
4.4 实验结果与分析 |
4.5 本章小结 |
第5章 总结与展望 |
参考文献 |
攻读博士期间发表的学术论文 |
致谢 |
(4)基于混合索引结构的DOA下DRC数据检索技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状分析 |
1.3 研究内容 |
1.4 论文创新点及成果 |
1.5 课题来源 |
1.6 论文组织架构 |
第2章 相关基础知识论述 |
2.1 DOA相关知识 |
2.1.1 DOA概念 |
2.1.2 DOA层次结构及功能 |
2.2 DRC简介 |
2.2.1 数据注册中心概念 |
2.2.2 数据注册中心层次结构 |
2.3 XML文档信息检索 |
2.3.1 信息检索的概念 |
2.3.2 XML文档信息检索 |
2.4 本章小结 |
第3章 DRC的XML索引研究 |
3.1 XML节点编码模式 |
3.1.1 基于区域的节点编码 |
3.1.2 基于路径的节点编码 |
3.1.3 基于DADG的节点编码 |
3.2 XML常见索引分析 |
3.3 DRC下的混合索引结构 |
3.3.1 合索引结构构建 |
3.3.2 基于数据活跃度的二级混合索引结构构建 |
3.4 本章小结 |
第4章 XML函数向量检索模型及查询处理算法研究 |
4.1 传统向量空间模型存在的问题分析 |
4.2 DRC下的向量空间模型研究 |
4.2.1 结构化特征词 |
4.2.2 结构化特征词的函数度量和权重计算 |
4.2.3 查询与文档片断的匹配度 |
4.3 DRC下的信息检索查询处理算法 |
4.3.1 内容特征词查询处理算法 |
4.3.2 结构化特征词查询处理算法 |
4.4 本章小结 |
第5章 实验测评 |
5.1 混合索引结构性能测评 |
5.1.1 实验准备工作 |
5.1.2 测评结果分析 |
5.2 DRC下的XML函数向量空间模型测评 |
5.2.1 实验准备工作 |
5.2.2 测评结果分析 |
结论与展望 |
致谢 |
参考文献 |
攻读学位期间取得的学术成果 |
(6)面向农村医疗的分布式文本检索关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 研究内容及特色 |
1.4 论文组织结构 |
第二章 分布式文本检索关键技术研究 |
2.1 分布式检索模型 |
2.1.1 基于语义的检索模型 |
2.1.2 基于统计的检索模型 |
2.1.3 分布式隐含语义检索模型 |
2.2 权重计算公式 |
2.2.1 局部权重计算公式 |
2.2.2 全局权重计算公式 |
2.3 分布式创建索引 |
2.3.1 创建索引 |
2.3.2 Hadoop分布式框架 |
2.3.3 MapReduce编程 |
2.4 分词工具 |
2.5 检索结果的评价指标 |
2.5.1 单个查询的评价指标 |
2.5.2 多个查询的评价指标 |
第三章 分布式文本检索框架的设计 |
3.1 框架结构 |
3.2 文档分词 |
3.3 分布式创建索引 |
3.3.1 分布式倒排索引 |
3.3.2 索引更新 |
3.4 权重计算公式改进 |
3.5 分布式隐含语义检索 |
3.5.1 分布式奇异值分解 |
3.5.2 隐含语义检索 |
3.6 结果显示 |
第四章 分布式文本检索框架的技术实现 |
4.1 分词模块 |
4.2 分布式创建索引模块 |
4.3 改进后的权重计算模块 |
4.4 分布式隐含语义检索模块 |
4.5 结果显示模块 |
第五章 测试与分析 |
5.1 实验环境搭建 |
5.1.1 Hadoop安装 |
5.1.2 mahout安装 |
5.1.3 实验环境参数 |
5.2 实验过程及结果分析 |
5.2.1 改进后的权重计算公式效果分析 |
5.2.2 分布式隐含语义检索模型性能分析 |
5.2.3 分布式创建索引性能分析 |
5.2.4 分布式文本检索框架整体性能分析 |
第六章 总结与展望 |
参考文献 |
致谢 |
作者攻读学位期间发表的学术论文目录 |
(7)一种基于部分匹配的异构数据索引方法(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景及意义 |
1.1.1 课题的背景 |
1.1.2 课题的意义 |
1.2 异构数据处理研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 主要研究内容和预期研究结果 |
1.4 本文组织结构 |
第2章 异构数据索引的相关研究 |
2.1 异构数据模型及查询语言 |
2.1.1 OEM及其查询语言 |
2.1.2 iDM及其查询语言 |
2.1.3 Triple模型及其查询语言 |
2.2 索引技术研究 |
2.2.1 非结构化数据索引 |
2.2.2 结构化数据索引 |
2.3 关键字检索相关研究 |
2.4 本章小结 |
第3章 异构数据索引构建及查询 |
3.1 研究概述 |
3.2 部分匹配概述 |
3.3 基于部分匹配的异构数据索引 |
3.3.1 数据模型 |
3.3.2 问题提出 |
3.3.3 部分匹配索引表 |
3.4 索引算法 |
3.4.1 算法提出背景 |
3.4.2 基于计数的部分匹配索引算法 |
3.5 查询处理 |
3.5.1 查询算法 |
3.5.2 查询举例 |
3.6 本章小结 |
第4章 异构数据索引实现 |
4.1 概述 |
4.2 设计目标 |
4.3 异构数据索引的体系结构 |
4.4 索引实现 |
4.4.1 索引构建过程 |
4.4.2 数据库表设计 |
4.5 本章小结 |
第5章 实验及结果分析 |
5.1 实验数据集 |
5.2 实验平台及环境 |
5.3 实验结果及分析 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(8)XML信息检索关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
第一节 研究背景与意义 |
第二节 研究内容和创新点 |
第三节 论文结构 |
第二章 相关研究基础 |
第一节 XML 基本概念 |
2.1.1 XML 简介 |
2.1.2 XML 模式 |
2.1.3 XML 数据模型 |
2.1.4 XML 节点编码 |
第二节 XML 查询与检索语言 |
2.2.1 XML 查询语言 |
2.2.2 XML 检索语言 |
第三节 本章小结 |
第三章 基于候选片段的 XML 关键字检索 |
第一节 引言 |
第二节 相关工作 |
3.2.1 XML 关键字检索 |
3.2.2 关系数据库的关键字检索 |
3.2.3 关键字检索技术的研究趋势 |
第三节 候选片段检索语义 |
3.3.1 相关概念 |
3.3.2 CAF 语义 |
第四节 检索算法 |
3.4.1 节点匹配算法 |
3.4.2 路径匹配算法 |
第五节 实验结果及分析 |
3.5.1 实验环境与数据集 |
3.5.2 检索效果 |
3.5.3 检索效率 |
第六节 本章小结 |
第四章 基于模糊结构上下文的 XML 检索 |
第一节 引言 |
第二节 相关工作 |
第三节 结构上下文相似度计算 |
4.3.1 相关概念 |
4.3.2 相似度计算 |
第四节 基于扩展向量空间模型的 XML 检索算法 |
4.4.1 相关概念 |
4.4.2 检索算法 |
第五节 实验结果及分析 |
4.5.1 实验环境与数据集 |
4.5.2 检索效果 |
4.5.3 检索效率 |
第六节 本章小结 |
第五章 基于关系数据库的 XML 全文检索 |
第一节 引言 |
第二节 相关工作 |
5.2.1 纯 XML 数据库 |
5.2.2 支持 XML 存储的关系数据库 |
第三节 ReXFT: 基于关系数据库的 XML 全文检索总体架构 |
第四节 基于关系数据库的 XML 数据存储与全文索引 |
5.4.1 NXRel: 基于关系的 XML 数据存储 |
5.4.2 XML 数据索引 |
5.4.3 XML 全文索引 |
第五节 XML 全文检索语法语义 |
5.5.1 基本检索单元 |
5.5.2 词频筛选 |
5.5.3 匹配选项 |
5.5.4 逻辑操作符 |
5.5.5 位置过滤器 |
第六节 XML 全文检索执行方案 |
第七节 XML 全文检索结果计分 |
5.7.1 相关概念 |
5.7.2 基于覆盖密度的检索结果计分 |
第八节 实验结果及分析 |
5.8.1 XML 全文检索功能覆盖 |
5.8.2 实验环境与数据集 |
5.8.3 检索效率 |
第九节 本章小结 |
第六章 总结与展望 |
第一节 研究内容总结 |
第二节 创新点和主要贡献 |
第三节 研究内容展望 |
参考文献 |
致谢 |
基本信息 |
教育背景 |
获奖情况 |
攻读博士学位期间发表论文 |
攻读博士学位期间参与的科研项目 |
攻读博士学位期间其他研究成果 |
(9)基于检索结果聚类的XML伪反馈技术研究(论文提纲范文)
摘要 |
Abstract |
1. 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状概述 |
1.3 本文的研究思路与主要研究内容 |
1.4 结构安排 |
2. XML信息检索与反馈技术 |
2.1 传统信息检索模型与性能评价 |
2.1.1 信息检索模型 |
2.1.2 检索性能评价 |
2.2 基于反馈的信息检索 |
2.2.1 相关反馈 |
2.2.2 伪反馈 |
2.2.3 隐式反馈 |
2.3 XML |
2.3.1 XML概述 |
2.3.2 XML文档的特点 |
2.3.3 XML查询模型 |
2.4 INEX评测 |
2.4.1 INEX测试集 |
2.4.2 Indri搜索引擎 |
2.5 本章小结 |
3. XML检索结果聚类 |
3.1 问题的提出 |
3.2 研究现状 |
3.3 以文档为返回粒度的XML检索结果聚类 |
3.3.1 动机 |
3.3.2 带结构语义的扩展向量空间模型 |
3.3.4 初始中心点的优化算法 |
3.3.5 实验评测 |
3.4 以元素节点为返回粒度的XML检索结果聚类 |
3.4.1 隐含语义索引模型 |
3.4.2 基于词项语义的相似性度量 |
3.4.3 基于评价函数的k-medoid簇数优化 |
3.4.4 实验分析与评价 |
3.5 本章小结 |
4. 基于聚类的XML高质量反馈文档的排序 |
4.1 问题的提出 |
4.2 研究现状 |
4.3 面向文档粒度的相关文档查找 |
4.3.1 基于均衡化权值的簇标签提取 |
4.3.2 簇标签中心词项权值计算 |
4.3.3 候选簇的排序模型 |
4.3.4 基于候选簇的文档排序模型 |
4.3.5 实验结果与分析 |
4.4 面向元素节点粒度的相关反馈文档片段查找 |
4.4.1 基于簇标签的候选簇的排序模型 |
4.4.2 基于候选簇的文档片段排序模型 |
4.4.3 实验评价与分析 |
4.5 本章小结 |
5. XML查询扩展 |
5.1 问题的提出 |
5.2 研究现状 |
5.3 XML查询扩展 |
5.3.1 基于伪反馈的关键词扩展 |
5.3.2 基于伪反馈的结构扩展 |
5.4 实验结果与分析 |
5.4.1 实验准备 |
5.4.2 实验评价与分析 |
5.5 本章小结 |
6. 结论与展望 |
参考文献 |
攻读博士期间取得的成果 |
致谢 |
(10)XML文档搜索中的查询处理技术研究(论文提纲范文)
摘要 |
Abstract |
1. 引言 |
1.1 研究意义 |
1.2 国内外研究现状概述 |
1.3 研究内容 |
1.4 结构安排 |
2. XML信息检索 |
2.1 传统信息检索的模型与评价 |
2.1.1 信息检索模型 |
2.1.2 检索性能评价 |
2.2 XML |
2.2.1 XML简介 |
2.2.2 XML模式 |
2.2.3 XML查询语言 |
2.3 XML信息检索 |
2.3.1 XML文档类型 |
2.3.2 XML信息检索与XML数据库查询 |
2.3.3 XML信息检索与HTML文档检索 |
2.3.4 XML信息检索表达式 |
2.3.5 XML信息检索的特点 |
2.4 本章小结 |
3. XML文档搜索中的答案结点语义 |
3.1 概述 |
3.2 研究现状 |
3.3 答案结点推导准则 |
3.4 XML结点语义分析 |
3.5 关键词查询的答案结点语义 |
3.6 CAS查询的答案结点语义 |
3.7 实验评价 |
3.7.1 关键词查询的答案结点推导实验 |
3.7.2 CAS查询的答案结点推导实验 |
3.8 本章小结 |
4. XML检索结果聚类 |
4.1 概述 |
4.2 研究现状 |
4.3 基于匹配模式的XML检索结果聚类 |
4.3.1 动机 |
4.3.2 匹配模式 |
4.4 有效的聚类算法 |
4.4.1 Lazy方法 |
4.4.2 Eager方法 |
4.5 簇排序和Top-k簇 |
4.6 检索结果的排序 |
4.7 实验 |
4.7.1 聚类方法的有效性 |
4.7.2 效率与可伸缩性 |
4.7.3 排序的有效性 |
4.8 本章小结 |
5. XML结构与内容检索 |
5.1 概述 |
5.2 相关工作 |
5.3 动机 |
5.4 CAS查询语言与语义 |
5.4.1 CAS查询语言 |
5.4.2 CAS查询语义 |
5.5 CAS查询处理及计分 |
5.5.1 查询分解 |
5.5.2 查询片段处理和计分 |
5.6 算法 |
5.7 实验评价 |
5.7.1 实验准备 |
5.7.2 实验方法 |
5.7.3 实验结果 |
5.8 总结 |
6. XML文档搜索原型系统 |
6.1 XSense体系结构 |
6.2 XML文档搜索系统的索引技术 |
6.2.1 设计目标 |
6.2.2 LCT编码方案 |
6.2.3 基于LCT编码的XML索引 |
6.3 XML文档搜索系统的关系存储 |
6.4 XML文档搜索原型系统运行 |
6.4.1 索引建立时间 |
6.4.2 索引大小 |
6.4.3 查询效率 |
6.5 总结 |
7. 结论与展望 |
参考文献 |
攻读博士学位期间取得成果 |
致谢 |
四、基于部分匹配的XML文本文档向量检索模型(论文参考文献)
- [1]信息过滤技术在网站信息监管中的应用与研究[D]. 宁墨. 吉林大学, 2015(06)
- [2]基于Nutch的分布式爬虫系统的研究与优化[D]. 井迪. 东北大学, 2015(01)
- [3]XML文档数据集聚类问题研究[D]. 刘兆军. 吉林大学, 2015(08)
- [4]基于混合索引结构的DOA下DRC数据检索技术研究[D]. 谢明玉. 成都理工大学, 2015(04)
- [5]基于XML技术的结构化文档编辑器研究[J]. 李红飞,姜海森. 软件, 2014(05)
- [6]面向农村医疗的分布式文本检索关键技术研究[D]. 高学斌. 北京邮电大学, 2014(04)
- [7]一种基于部分匹配的异构数据索引方法[D]. 梁英飞. 哈尔滨工程大学, 2014(03)
- [8]XML信息检索关键技术研究[D]. 温延龙. 南开大学, 2012(06)
- [9]基于检索结果聚类的XML伪反馈技术研究[D]. 钟敏娟. 江西财经大学, 2012(05)
- [10]XML文档搜索中的查询处理技术研究[D]. 刘喜平. 江西财经大学, 2010(05)