一、数据仓库及元数据管理(论文文献综述)
田晶晶[1](2021)在《基于微服务的数据交换与共享平台的研究与实现》文中研究指明智慧城市需要顺应大数据发展趋势,加快信息化方面建设。城市各级业务部门通常采用传统面向服务(SOA)架构设计完成海量数据交换任务,由于各业务系统采用的数据存储方式不同,随着业务需求增加,数据集规模增大,数据交换压力呈指数上升,对原有的数据服务架构可扩展性、性能稳定方面提出新的挑战。为了支撑智慧城市数据交换系统能够提供高效稳定的服务,避免系统模块间耦合性较高的问题,本文拟设计基于微服务的数据交换和共享平台,通过设置统一的数据接入标准,实现数据的自动采集、交换、存储,屏蔽底层数据源格式和数据源类型,通过任务调度管理配置数据交换任务调度策略,减轻数据交换带来的内存、CPU消耗,并通过元数据管理,提供血缘分析、元数据视图呈现服务,挖掘数据价值,实现“数据即资产”。主要成果如下:(1)建立一套数据交换标准,实现数据从采集、交换、清洗加工全管理流程。打破地域、数据存储、数据格式限制,为智慧城市建设提供强有力决策支持。针对异构数据源类型,提供相应的数据库读写插件,通过统一的数据交换二进制通道完成数据交换任务。(2)支持分布式任务,将调度模块与执行模块分离,通过RPC进行通信,提供多种路由策略和失败处理机制,调度器在指定触发时间选择执行器开始执行数据全量和增量数据交换任务。(3)支持数据实时推送共享,通过监控数据库Binlog文件,解析数据流写入到Kafka中,向订阅Topic的下游消费者推送数据,实现各级部门间数据互融互通。提供元数据信息管理,支持血缘分析,元数据视图呈现,可对数据库表、字段、分区进行修改。(4)对本文所设计的数据交换和共享平台的功能和性能进行测试证明,通过实验验证本系统的可行性。
谭泽华[2](2021)在《面向多源异构大数据的元数据服务管理平台的设计与实现》文中认为在多源异构大数据场景下,元数据是指数据由源系统集成到数据仓库过程中的全部信息的描述数据。其中元数据不仅包含数据的基本描述信息,还记录对数据转换来源的描述信息。而数据血缘就是记录描述数据转换来源的历史信息,它是元数据服务管理中的核心难点和挑战。由于大数据中已有组件的异构性和数据来源的多样性,导致目前元数据服务管理中还存在以下几个问题:1)现有的Hive数据血缘解析实现方案中,会存在Hive数据血缘解析与原生组件耦合性高,准确性差、精确度低的问题;2)多源异构大数据处理组件的异构性,导致不同的大数据数据处理组件的数据血缘解析难以有效统一;3)在多源异构大数据场景下,缺少以元数据管理为基础对数据内容或者分析结果的对外开放的统一管理。综上所述,本论文针对多源异构大数据的元数据服务管理中的关键问题,大数据分布式架构下数据血缘解析的难点问题展开以下三方面的工作:1、设计并实现了基于Hive的字段级数据血缘处理的优化方法,通过对原有的Hive数据血缘处理流程进行了重构和改进,实现了对Hive SQL数据血缘的独立解析能力,保证数据血缘功能和Hive数据仓库之间的低耦合;结合元数据服务,实现了对SQL中元数据信息的校验和替换,保证了数据血缘解结果的准确性和正确性。从而解决了 Hive数据血缘解析与原生组件耦合性高、准确性差、精确度低的问题。2、提出并实现了统一大数据数据血缘解析构建方法,通过对异构化大数据处理组件的数据处理流程、多样化的数据转换解决方案进行定义和抽象,将多源异构的大数据处理流程抽象为一个有向无环图的形式,以此为基础提出对应的数据血缘追寻算法。并且对于不同大数据处理组件(如:Hive、Spark)的处理流程实现了对数据血缘的统一处理和构建,以解决复杂多样的大数据组件所带来的数据血缘处理方面的挑战。3、设计并实现了面向多源异构大数据的元数据服务管理平台,实现了对多源异构元数据的统一管理,并且除支持基础元数据信息之外,还支持对数据血缘的采集与查询,便于用户对数据来源与去向进行理解分析。以多源异构元数据的统一管理为基础,支持数据模型的快速建设,通过标签化的数据模型绑定建立相应的数据模型业务场景,实现了在大数据场景下的数据标签模型,以及数据服务的统一管理。最后,该平台应用于国家重点研发计划项目“大数据征信及智能评估技术”中,验证了本文平台及方法的有效性及实用性。
殷晋,俞思伟[3](2021)在《区域医疗健康元数据管理方法及应用探讨》文中研究指明区域医疗健康数据的标准化、共享化是最大化医疗信息资源价值必然的建设道路,如何通过数据治理实现医疗健康数据价值的挖掘是亟待解决的难题。区域医疗健康数据治理面临数据标准不统一,信息互通壁垒高,元数据管理复杂度高等数据治理难题。通过元数据管理规范公共仓库元模型(Common warehouse metamodel,CWM)的元数据模型引用,并结合医疗健康业务需求来开发一个以元数据管理为核心的医疗健康大数据集成平台,实现元数据管理模型从技术探索到应用落地的建设过程。
关云昊[4](2021)在《河北财税信息管理系统的设计与实现》文中研究指明随着大数据时代的来临,河北省税务各个业务系统的数据量也在不断增长,从TB级别的数据量快速进入到PB级别的数据量,由于海量数据的出现,财税部门存在信息割据、数据凌乱、应用低效等问题。问题包括(1)数据采集问题,由于税涉及的数据源或系统比较多,数据采集使用技术比较落后,目前好多还使用dblink直接连接方式采集数据,严重影响系统性能;(2)数据共享问题,数据汇聚主要依赖部门逐层数据填报,报送效率低下,业务数据获取难、缺乏标准,数据质量低下,分析应用困难。为了解决此问题,基于河北省财税的数据资源现状,梳理出目前的需求,首先,异构数据采集困难需求,也无法满足财税对数据资源的需求。其次是缺乏数据治理的流程或手段需求,由于前期烟囱式的系统比较多,数据比较分散,并且没有统一的数据标准。然后,税收预警需求,数据分析还停留在静态数据的分析,数据实时性差。最后是数据共享需求,数据由于没有做标准化,无法对数据进行对外提供数据服务。基于如上需求进行分布式架构设计,包括数据采集、数据处理、数据治理、税收预警管理、数据共享共5大模块进行设计。系统在上线运行一段时间后表明,系统具有可靠性好、可用性好、稳定性高、并发性能高等特点,对财税海量数据形成统一的财税数据资源中心,融合异构数据,利用大数据技术支撑上层业务场景,提升财税数据的对外服务能力。推动财税数字化转型,助力服务与治理能力提升。
王璐[5](2020)在《基于元数据的自定义决策支持系统的分析设计与实现》文中研究表明随着信息技术的快速发展和互联网的普及,信息管理系统到现在已经发展的比较稳定了。但是随着各种系统的广泛应用,也产生了越来越多的数据。如何充分利用数据,进行数据分析和统计,使用户可以根据分析和统计出来的结果作为进行决策的依据,使得数据发挥出作用,就变得很重要了。决策支持系统是为解决数据分析和统计等问题而产生的,运用数据库、方法库、模型库等方法,使决策者得出相应的决策信息。目前的决策支持系统都是对已有的需求或问题设计出模型提供相应的方法或算法,得出结果,提供决策上的支持。实际中可能存在一些问题或是需求是目前没有提出来,但在未来会提出来。本文针对这样的问题提出了 一种解决方法,用户可以根据自己提出的需求或问题自定义的建立模型、选择方法及数据,对问题进行求解。用户在模型库中根据自身的需求自定义的建立模型,选择方法库中适合的方法或算法及数据,对模型进行运行实现对问题求解,还可以根据模型库中已有的模型将其进行修改或是进行组合来对问题进行求解。用户可以自定义的在方法库中添加一些数学公式类型的方法,便于在以后对问题求解的时候进行调用,同时在方法库中可以查看到方法的详细信息,便于选择合适的方法进行使用。解决问题或需求的时候需要大量相关的数据,这些数据可能来自不同的数据库或数据表等,需要将这些数据进行提取等操作。因此在本文中用户可以根据提出的问题或需求通过连接其他数据库、本地数据库或上传文件的形式自定义的获取所需要的数据,并将数据导入到自定义建立的数据表及表字段中。所需的数据的类型和格式可能由于来自不同系统的数据库而存在着差异,所以在导入数据时候要将数据类型或格式进行统一的转换。为了更好的实现对数据提取等管理,提高数据分析的准确性,我们将引入元数据的概念。元数据是描述数据的数据,可以通过元数据的机制对数据的类型格式等进行规范化的描述,实现对数据的有效利用。同时系统中不同的用户,所拥有的权限也是不同的,因此管理员可以根据用户的类型进行权限的分配。本文将元数据、方法库、模型库结合在一起,对基于元数据的自定义决策支持系统进行研究。本论文采用理论论述与实际项目相结合的方式进行研究。首先对决策支持系统、模型库、方法库、元数据概念及相关开发技术等理论进行详细的阐述;其次根据自定义的业务需求,对系统的需求进行分析,并对系统总体框架、模块功能及数据模型进行设计;最后针对基于元数据的自定义决策支持系统在人事人才中的应用进行说明。论文的最后进行了工作总结,以及展望了后续的工作。
王园[6](2020)在《面向多场景的大数据集成存储与治理系统的设计与实现》文中研究说明在科技服务业领域,构建科技咨询大数据服务平台,需要将跨应用(企业/产业、专利/文献、经济/资讯等)、异来源(网络爬虫、数据库、文件等)的多场景数据进行集成、治理、融合。在围绕该大数据平台建设过程中要解决以下问题:(1)平台需要爬取多个垂直领域的开放网页应用数据,目前的主流爬虫框架存在重复编码、不便管理的问题。(2)对多场景数据进行集成,现有的数据集成工具通用性差,无法统一数据集成流程,且在实时增量同步、数据完整性方面有待提高。(3)数据来源多种多样、质量参差不齐,且在网络、设备、存储等方面具有异构性,在明确数据含义、提升数据质量方面具有挑战性,从而阻碍了数据资产化的进程。为了解决建设科技咨询大数据平台中的上述问题,本论文围绕面向多场景的大数据集成存储与治理展开以下研究:(1)针对多网页应用的可定制爬虫的需求,设计实现了基于Kafka Connect与WebMagic的可定制的分布式网络爬虫子系统;(2)针对大数据下多个场景(网络爬虫、数据库、文件)的数据进行统一集成的需求,设计了面向多场景的统一数据集成子系统;(3)针对大数据下网络、设备、存储上具有异构特性的数据源进行统一治理需求,设计了统一数据治理子系统,实现了对异构数据源的统一接入,统一元数据获取、同步和管理,并实现基于Hive批处理系统的数据清洗和数据融合;此外系统还实现了一种基于图数据库的分类标签管理,对清洗后的数据进行标签关联。通过实验验证,爬虫子系统具有可定制性、易管理性,支持对不同网页应用的数据在无编码的情况下进行爬虫任务的定制和任务管理;数据集成子系统优化了数据集成的流程,具有通用性好、支持增量同步、数据完整性好等优点;数据治理子系统在明确业务含义和提升了数据质量方面有积极作用,促进了数据的资产化。本文实现的系统效果符合预期,具有良好的通用性和可扩展性,对多数据源场景下的大数据平台的构建有一定的借鉴意义。
秦铎[7](2020)在《货运列车安全数据一体化集成模型研究与应用》文中研究指明我国铁路货运事业发展迅猛,呈现出重载、提速的趋势,对货物运输安全性提出了更高的挑战和要求。及时有效的信息共享,专业全面的数据集成是实现货运安全的基本保障。货运安全涉及车、机、工、电、辆等多专业部门协作,信息系统分类繁杂、缺乏统一规划,数据标准不一、数据质量参差不齐,数据信息传输效率较低,存在着数据异构等信息孤岛问题。由于列车是经编组产生的,安全监管的重点是对货物运输过程管控,是围绕列车生命周期展开的,因此本文以货运列车为对象,开展安全数据集成的研究。研究重点集中在列车对象安全数据集的确定、信息模型的构建以及元数据的管理方面,并将由信息模型和元数据模型组成的一体化集成模型应用到集成平台的构建中。首先对列车生命周期过程中相关业务领域的信息系统建设现状,以及数据特点进行分析,提出当前存在的数据利用问题,进一步提出通过信息模型和元数据管理辅助数据集成的需求。其次,通过对业务领域的分析,确定列车对象安全数据集,并建立可以通用于各业务系统的货运列车对象信息模型,通过信息模型定义统一的数据视图,清晰展现数据对象之间的关联关系,进而规范数据之间的交互流转。同时,从数据本身的信息解释出发,构建元数据模型,通过元数据的管理为数据集成提供描述信息和统一标准。由信息模型和元数据模型结合形成一体化集成模型的概念,通过一体化集成模型,确保集成数据的一致性和数据的质量。最后,构建实时动态显示的列车对象安全数据的一体化集成平台,将一体化集成模型的理念应用于平台的设计中,利用信息模型指导集成过程及集成平台的数据模型建设,并通过元数据的管理对数据的内容和使用方法进行描述和规范,使得集成的数据不只是简单的物理汇聚,更重要的是统一数据的来源、明确数据的含义以及属性约束的信息,在集成的同时保证数据的正确理解、使用,实现数据的一体化集成。通过集成平台,促进列车对象安全数据的统一监测,从而在发现问题时及时将数据共享给各专业部门,保证货物运输的安全。
冼晋乾[8](2020)在《电力企业大数据运营管控系统设计与实现》文中研究说明大数据时代的到来,电力智能化高科技设备层出不穷,出现了智能抄表系统、智能在线状态监测系统,智能电力设备故障诊断系统、智能运营分析系统以及电力全景可视化大数据平台等也在逐步建成与应用,智能电网数据的规模和种类快速增长。电力传统系统已无法应对多源的数据类型,包括异构的数据、非结构化的数据等,数据量由原来的GB级别向PB级别增加,传统数据处理平台已无法处理海量的数据,传统的技术无法实时处理海量的数据,无法实时动态展现电力运营的整体状况,不能满足电力企业高速发展的需求。电力企业大数据运营管控系统建设是以支撑电力企业业务发展与创新为目标,全面引入大数据技术,包括数据处理、数据分析、数据建模、数据展现以及人工智能等核心技术,应用电科院相关业务数据与外部数据,充分发挥电科院多专业的综合优势。数据资产是电力企业管理的核心,采用前沿大数据技术,包括引入Hadoop分布式框架,HDFS分布式文件系统、HIVE数据库库、分布式离线计算、Spark实时计算以及Hbase列存储数据等大数据开源的组件,构建电力企业生态环境,为电力公司战略制定策略,为了提升电力企业在电力系统分析、电力自动化、营销、配用电等领域的综合科研能力,充分利用大数据能力在电网日常设备运行以及电力企业的运营管理中进行创新,包括业务创新和技术创新,提高电力企业市场竞争力。首先,介绍了相关技术基础知识,包括电力大数据的基本内涵,资源与管理,并进行了论述分析。其次,结合行业需求,以现阶段电力行业需求分析,可行性分析、功能需求、数据需求,依赖这些需求构建了电力大数据运营管控系统,详细的梳理了电力数据资源,提出了系统的数据支撑体系和数据共享平台建设。最后,在此基础上完成了数据运营管控系统的功能设计、核心模块设计,主要模块包括大数据中心、数据治理、运营状况监控、运营分析、全面监测、协同解决共六大功能,该系统满足了电力部门的需求。该系统已上线一段时间,经过POC测试,本系统有比较好的可靠性、稳定性、实用性以及比较好的扩展性。
黄从颉[9](2020)在《多源大数据处理与分析平台的设计与实现》文中研究说明随着互联网一直以来的高速发展,各行各业都得到了快速的发展,这也加速推动了大数据时代的到来,无论企业的大小,它们在使用数据上都面临着一个挑战,那就是企业数据量越来越大。因此需要对数据进行治理以确保容易的使用高质量数据,保证企业能更快的提取有效的数据信息。目前很多公司自行收集的数据文件都是比较原始的而且管理较为混乱,经常会以不同的结构存储在不同的存储结构中,而且这些数据文件数据体量大、数据文件多,格式杂,内容乱,数据价值难以评估,企业难以从数据中快速获取有用的信息,难以形成有效的业务应用,也无法很好的梳理和这些数据有关的业务逻辑。所以迫切需要对这些原始数据进行处理,提升数据应用价值,解决数据孤岛等问题,为后续的业务应用提供坚实的数据基础。根据现在存在的问题,本论文所提供的解决方案是多源大数据处理与分析的平台,旨在帮助企业将混乱的零散数据整理成清晰有条理可追溯的高质量数据,帮助企业梳理数据关系,挖掘数据信息。该平台是基于微服务架构的,后台采用的是Spring Cloud框架进行开发,平台的每一个功能模块都是相对独立的微服务模块,这样可以保证每一个不同的服务都是可插拔式的,保证整个系统的健壮性以及可扩展性。同时使用zuul网关进行权限认证保证服务调用的安全性。在数据处理部分主要采用的spark集群进行快速的数据处理和分析。在系统的迭代开发过程中结合Gitlab以及Jenkins进行持续集成持续部署,保证系统的迅速集成迭代部署。系统的功能点主要包括数据标准管理,数据清洗,数据集成,数据质量稽核以及元数据管理。本文将从需求分析,系统设计,系统实现与测试等方面对平台各个模块进行详细的设计和实现阐述。在整个项目的开发过程中,本人参与了平台前期的需求分析以及系统设计,之后参与了平台功能模块的后台Java代码编写,同时负责平台的持续集成持续部署等内容,后期参与了平台测试和上线部署。本论文中的项目已经上线并处于beta测试阶段,已经向部分的金融企业提供数据管理服务。目前系统能够正常为企业提供数据管理服务,同时在安全性,健壮性等方面都满足预期要求。
王少杰[10](2020)在《基于数据湖的联邦数据管理系统的设计与实现》文中研究指明近年来随着大数据、机器学习、5G等技术飞速发展,数据规模越来越大,数据量呈几何增长,数据来源和类型更加多元化。同时随着企业发展,新的业务线不断产生,根据不同业务线创建的数仓逐渐形成一个个封闭的数据中心,导致了数据多源异构的特点,这是企业目前面临的主要挑战。这些挑战为业务的长远发展带来很多问题,首先是数据的一致性与易用性问题,因为数据多源异构的特点,难以从多数据源中识别有效数据,数据的一致性也无法保障。其次是缺少完善的数据价值衡量体系,难以综合评定数据资产对业务的贡献和影响。另外,根据不同业务线建立的主题数仓,数据难以互通,形成数据孤岛,难以发掘隐藏的数据价值。本项目旨在通过数据湖的方法论,打破数据孤岛,形成数据联邦,对企业内的不同业务线、不同数仓的多源异构数据进行统一管理。经过对企业大数据发展现状的深入调研,充分了解企业需求和业务挑战,设计并实现了联邦数据管理系统。首先对企业内部广泛使用的数据源进行分析,从多源异构的数据中提取元数据,抽象出统一的元数据模型,同时对该元数据模型进行深入验证,确保对半结构化、非结构化数据以及其他数据库源的兼容,为元数据的统一管理奠定基础。然后设计并实现了数据源管理、元数据管理、统一查询系统三个模块,其中数据源管理提供数据源接入以及采集元数据信息并映射到统一元数据模型功能,元数据管理提供数据使用权限管理功能,统一查询系统基于Spark实现了数据的查询使用功能。联邦数据管理系统使得对企业多源异构数据的统一管理成为可能,实现从元数据采集、元数据模型映射、元数据管理到数据使用的规范化流程,并且提供了数据统一查询视角和使用方式,支持多源异构数据的联合查询。目前联邦数据管理系统已经上线运行,为企业用户提供了稳定可靠的服务,并且对接企业内部的大数据计算平台、报表平台等多个下游业务系统,满足了企业数据开发需求,创造了巨大的价值。
二、数据仓库及元数据管理(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、数据仓库及元数据管理(论文提纲范文)
(1)基于微服务的数据交换与共享平台的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 智慧城市现状 |
1.2.2 数据交换共享平台调研 |
1.2.3 研究中存在的问题 |
1.3 本文研究内容及创新性 |
1.4 组织架构 |
第二章 基本概念及相关技术 |
2.1 智慧城市数据特点分析 |
2.2 数据交换和共享概念 |
2.3 DataX的实现原理 |
2.4 数据共享 |
2.4.1 智慧城市数据共享现状 |
2.4.2 Flink CDC技术 |
2.5 元数据管理相关技术 |
2.5.1 数据治理概念研究 |
2.5.2 元数据管理的意义 |
2.5.3 现有管理工具调研 |
2.5.4 开源元数据管理工具Apache Atlas |
2.6 微服务技术 |
2.7 本章小结 |
第三章 需求分析 |
3.1 智慧城市应用场景 |
3.2 系统概述 |
3.3 系统功能性需求分析 |
3.4 系统非功能性需求分析 |
3.5 系统功能及流程设计 |
3.5.1 系统功能模块划分 |
3.5.2 系统工作流程设计 |
3.6 本章小结 |
第四章 数据交换与共享平台的设计 |
4.1 系统架构设计 |
4.1.1 整体架构设计 |
4.1.2 技术架构设计 |
4.2 数据库接口设计 |
4.3 系统功能模块概要设计 |
4.3.1 数据交换 |
4.3.2 数据调度 |
4.3.3 数据共享 |
4.3.4 元数据管理 |
4.3.5 数据安全 |
4.4 本章小结 |
第五章 数据交换与共享平台实现与测试 |
5.1 系统核心功能模块实现 |
5.1.1 数据交换模块 |
5.1.2 调度模块 |
5.1.3 运行模块 |
5.1.4 调度器与执行器通信 |
5.1.5 数据实时推送 |
5.1.6 数据统计 |
5.1.7 元数据管理模块 |
5.2 系统运行环境 |
5.3 系统实验验证与分析 |
5.3.1 系统功能测试 |
5.3.2 系统性能测试 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 论文展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(2)面向多源异构大数据的元数据服务管理平台的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
中英缩略词对照表 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 元数据管理国内外研究现状 |
1.2.2 数据血缘国内外研究现状 |
1.2.3 国内外研究现状小结 |
1.3 主要研究内容及创新点 |
1.3.1 主要研究内容 |
1.3.2 论文创新点 |
1.4 硕士在读期间主要工作 |
1.5 论文组织结构 |
第二章 相关技术及理论研究 |
2.1 大数据数据处理组件的研究 |
2.1.1 MapReduce计算引擎 |
2.1.2 Apache Hive数据仓库工具 |
2.1.3 Apache Spark计算引擎 |
2.2 数据血缘解析系统的研究 |
2.2.1 Reduce And Map Provenance系统 |
2.2.2 Titian系统 |
2.2.3 Apache Atlas系统 |
2.3 本章小结 |
第三章 基于HIVE的字段级数据血缘处理的优化方法研究 |
3.1 研究挑战 |
3.2 原理介绍 |
3.2.1 解析SQL原理 |
3.2.2 Hive字段级数据血缘构建 |
3.3 具体实现 |
3.3.1 SQL预处理 |
3.3.2 实现SQL解析 |
3.3.3 Hive字段级数据血缘构建实现 |
3.3.4 数据存储 |
3.4 实验分析 |
3.4.1 实验环境 |
3.4.2 实验执行 |
3.4.3 实验评估 |
3.5 本章小结 |
第四章 统一大数据数据血缘解析构建方法 |
4.1 研究挑战 |
4.2 原理介绍 |
4.2.1 处理流程的抽象 |
4.2.2 转换的分类 |
4.2.3 数据血缘的构建 |
4.3 具体实现 |
4.3.1 执行计划解析 |
4.3.2 数据血缘解析构建 |
4.3.3 数据血缘集成 |
4.4 实验分析 |
4.4.1 实验环境 |
4.4.2 实验执行 |
4.4.3 实验评估 |
4.5 本章小结 |
第五章 面向多源异构大数据的元数据服务管理平台的设计与实现 |
5.1 平台需求分析 |
5.1.1 平台业务需求 |
5.1.2 平台功能需求 |
5.2 面向多源异构大数据的元数据服务管理平台总体设计 |
5.2.1 平台整体架构设计 |
5.2.2 平台功能模块设计 |
5.3 数据库核心设计 |
5.4 核心功能模块详细设计与实现 |
5.4.1 基础元数据采集模块 |
5.4.2 数据血缘解析模块 |
5.4.3 元数据查询模块 |
5.4.4 标签管理的模块 |
5.4.5 服务数据模块 |
5.5 本章小结 |
第六章 面向多源异构大数据的元数据服务管理平台的部署与测试 |
6.1 平台部署环境 |
6.2 平台核心功能测试 |
6.2.1 基础元数据采集模块功能测试 |
6.2.2 数据血缘解析模块功能测试 |
6.2.3 元数据查询模块功能测试 |
6.2.4 标签管理模块功能测试 |
6.2.5 服务数据模块功能测试 |
6.3 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 未来展望 |
参考文献 |
致谢 |
攻读研究生期间发表的学术成果 |
(3)区域医疗健康元数据管理方法及应用探讨(论文提纲范文)
1 区域医疗健康数据治理的现状 |
2 元数据管理理论 |
3 元数据管理技术 |
4 元数据管理实践 |
4.1 元数据解析和融合 |
4.2 元数据生命周期管理 |
4.3元数据变更管理 |
5 元数据管理成效 |
6 结语 |
(4)河北财税信息管理系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 国内研究现状 |
1.2.2 国外研究现状 |
1.3 论文内容与目标 |
1.4 论文结构 |
第2章 需求分析 |
2.1 系统需求分析 |
2.1.1 数据采集管理需求分析 |
2.1.2 数据处理需求分析 |
2.1.3 数据治理需求分析 |
2.1.4 税收预警管理分析 |
2.1.5 数据共享需求分析 |
2.2 非功能性需求分析 |
2.3 本章小结 |
第3章 系统设计 |
3.1 系统架构设计 |
3.1.1 总体架构设计 |
3.1.2 技术架构设计 |
3.1.3 总体流程设计 |
3.1.4 网络拓扑结构设计 |
3.1.5 功能结构设计 |
3.2 系统功能总体设计 |
3.2.1 数据采集管理设计 |
3.2.2 数据处理设计 |
3.2.3 数据治理设计 |
3.2.4 税收预警管理设计 |
3.2.5 数据共享设计 |
3.3 数据库表结构设计 |
3.3.1 数据采集表 |
3.3.2 数据分析表 |
3.3.3 数据仓库表 |
3.3.4 监控管理表 |
3.3.5 服务管理表 |
3.3.6 日志管理表 |
3.4 本章小结 |
第4章 系统实现 |
4.1 系统功能实现 |
4.1.1 数据采集模块实现 |
4.1.2 数据处理模块实现 |
4.1.3 数据治理模块实现 |
4.1.4 数据共享模块实现 |
4.1.5 税收预警管理模块实现 |
4.2 本章小结 |
第5章 系统测试 |
5.1 测试概述 |
5.2 测试通过标准 |
5.3 测试策略 |
5.3.1 测试设计 |
5.3.2 测试控制 |
5.4 缺陷严重度描述 |
5.5 压力测试 |
5.6 本章小结 |
结论 |
参考文献 |
致谢 |
(5)基于元数据的自定义决策支持系统的分析设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作及章节安排 |
1.4 本章小结 |
第二章 相关理论知识 |
2.1 决策支持系统概述 |
2.1.1 决策支持系统的定义 |
2.1.2 决策支持系统的发展历程 |
2.1.3 决策支持系统的体系结构 |
2.2 模型库 |
2.2.1 模型和模型库的概念 |
2.2.2 模型的分类 |
2.2.3 模型库中模型的表示方式 |
2.2.4 模型库的分类 |
2.3 方法库 |
2.4 元数据 |
2.4.1 元数据的概念 |
2.4.2 元数据的分类 |
2.4.3 元数据的作用 |
2.5 系统开发技术 |
2.5.1 J2EE技术 |
2.5.2 MVC |
2.5.3 数据可视化 |
2.6 本章小结 |
第三章 系统需求分析 |
3.1 需求概述 |
3.2 功能需求 |
3.2.1 模型库管理功能需求分析 |
3.2.2 方法库管理功能需求分析 |
3.2.3 元数据管理功能需求分析 |
3.2.4 系统管理功能需求分析 |
3.3 性能需求分析 |
3.4 数据需求分析 |
3.5 本章小结 |
第四章 基于元数据的自定义决策支持系统的设计 |
4.1 系统架构设计 |
4.2 系统功能模块设计 |
4.2.1 模型库设计 |
4.2.2 方法库设计 |
4.2.3 元数据管理设计 |
4.2.4 系统管理设计 |
4.3 数据模型设计 |
4.3.1 模型库数据模型设计 |
4.3.2 方法库数据模型设计 |
4.3.3 元数据管理数据模型设计 |
4.3.4 系统管理数据模型设计 |
4.4 本章小结 |
第五章 基于元数据的自定义决策支持系统的实现 |
5.1 系统开发技术 |
5.2 系统管理 |
5.3 模型库 |
5.3.1 模型管理 |
5.3.2 模型运行 |
5.3.3 模型组合 |
5.4 方法库 |
5.5 元数据管理 |
5.5.1 数据管理 |
5.5.2 数据汲取管理 |
5.6 本章小结 |
第六章 基于元数据的自定义决策支持系统在J省人事人才中的应用 |
6.1 系统主界面 |
6.2 年度岗位数量走势分析模型 |
6.3 年度职称申报走势分析模型 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 论文工作总结 |
7.2 展望 |
致谢 |
参考文献 |
(6)面向多场景的大数据集成存储与治理系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
中英文缩略词对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状分析 |
1.2.1 网络爬虫技术发展现状 |
1.2.2 数据集成技术发展现状 |
1.2.3 数据治理技术发展现状 |
1.2.4 研究现状中存在的问题 |
1.3 论文目标及主要研究内容 |
1.3.1 定制化网络爬虫子系统的研究与实现 |
1.3.2 面向多场景的统一数据集成子系统的研究与实现 |
1.3.3 统一数据治理子系统的研究与实现 |
1.4 论文组织结构 |
第二章 相关技术和系统方案研究 |
2.1 网络爬虫相关技术和系统方案研究 |
2.1.1 WebMagic爬虫框架 |
2.1.2 Connector插件开发 |
2.1.3 XPath语言 |
2.1.4 系统技术方案及可行性分析 |
2.2 数据集成相关技术和系统方案研究 |
2.2.1 数据源变化捕获技术 |
2.2.2 Kafka Connect |
2.2.3 系统技术方案及可行性分析 |
2.3 数据治理相关技术和系统方案研究 |
2.3.1 数据湖和数据仓库 |
2.3.2 大数据仓库Hive |
2.3.3 图数据库Neo4j |
2.3.4 系统技术方案及可行性分析 |
第三章 可定制的分布式网络爬虫子系统的设计与实现 |
3.1 系统需求分析 |
3.1.1 可定制性需求 |
3.1.2 可恢复性需求 |
3.1.3 并行性需求 |
3.2 系统架构设计 |
3.2.1 模块化定制 |
3.2.2 全局URL调度 |
3.2.3 分布式运行 |
3.3 系统实现 |
3.3.1 kafka-connect-WebMagic插件的实现 |
3.3.2 爬虫管理服务模块的设计和实现 |
第四章 面向多场景的统一数据集成子系统的研究与实现 |
4.1 系统需求分析 |
4.1.1 功能性要求 |
4.1.2 非功能要求 |
4.2 系统的模块设计 |
4.3 系统的模块实现 |
4.3.1 控制台模块 |
4.3.2 管理服务模块 |
4.3.3 数据抽取、加载模块 |
4.3.4 数据处理模块 |
4.4 系统的功能优化 |
4.4.1 文件实时数据抽取 |
4.4.2 语义一致性保证方法 |
第五章 统一数据治理子系统的研究与实现 |
5.1 系统需求分析 |
5.2 系统模块设计 |
5.3 系统模块实现 |
5.3.1 数据源接入模块 |
5.3.2 数据湖管理模块 |
5.3.3 元数据管理模块 |
5.3.4 数据质量管理模块 |
5.3.5 图谱标签管理模块 |
第六章 系统部署与测试 |
6.1 系统部署 |
6.1.1 系统间集成关系 |
6.1.2 系统部署环境 |
6.2 功能测试 |
6.2.1 爬虫管理服务测试 |
6.2.2 数据同步服务测试 |
6.2.3 数据治理服务测试 |
6.3 本章小结 |
第七章 总结与展望 |
7.1 本文工作总结 |
7.1.1 定制化网络爬虫子系统的实现 |
7.1.2 统一数据集成子系统的实现 |
7.1.3 统一数据治理子系统的实现 |
7.2 本文的不足及展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(7)货运列车安全数据一体化集成模型研究与应用(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景及研究意义 |
1.1.1 选题背景 |
1.1.2 项目背景 |
1.1.3 研究意义 |
1.2 国内外研究与应用现状 |
1.2.1 国外研究与应用现状 |
1.2.2 国内研究与应用现状 |
1.3 论文组织结构与创新点 |
1.3.1 论文内容及研究路线 |
1.3.2 论文创新点 |
2 理论、方法与技术研究 |
2.1 数据集成理论相关研究 |
2.1.1 数据集成的含义 |
2.1.2 数据集成中的方法和技术 |
2.2 信息模型方法概述 |
2.2.1 信息模型定义及作用 |
2.2.2 数据集成中信息模型的应用 |
2.2.3 CIM模型设计思想和方法 |
2.3 元数据技术 |
2.3.1 元数据含义及作用 |
2.3.2 数据集成中元数据的应用 |
2.3.3 元模型 |
2.4 系统开发技术及方法 |
2.4.1 Spring MVC架构理论 |
2.4.2 Echarts可视化技术 |
3 货运列车安全信息管理现状与需求分析 |
3.1 货运列车安全数据集成业务范围界定 |
3.1.1 货运列车对象生命周期过程 |
3.1.2 货运主体角度的安全环境分析 |
3.2 货运列车安全数据来源相关系统分析 |
3.2.1 货运列车安全相关信息系统 |
3.2.2 货运列车安全系统特点分析 |
3.3 货运列车安全数据分析 |
3.3.1 货运列车安全管理数据梳理 |
3.3.2 货运列车安全数据特点分析 |
3.4 货运列车安全数据一体化集成需求分析 |
3.5 本章小结 |
4 货运列车安全数据一体化集成模型设计 |
4.1 一体化集成模型定义 |
4.1.1 一体化集成模型的结构 |
4.1.2 信息模型的作用及表示方法 |
4.1.3 元数据的作用及类别分析 |
4.2 货运列车安全数据分类 |
4.2.1 数据分类方法 |
4.2.2 数据主题域划分 |
4.2.3 数据实体划分 |
4.3 货运列车安全数据信息模型建立 |
4.3.1 主题域信息模型 |
4.3.2 细分主题域信息模型 |
4.3.3 对象信息模型 |
4.4 货运列车安全元数据模型建立 |
4.4.1 元数据管理元模型 |
4.4.2 技术元数据模型 |
4.4.3 业务元数据模型 |
4.4.4 管理元数据模型 |
4.5 货运列车一体化集成模型建模结果及作用 |
4.5.1 一体化集成模型建模结果 |
4.5.2 基于一体化集成模型的数据访问过程 |
4.6 本章小结 |
5 货运列车安全数据集成平台设计与原型系统实现 |
5.1 系统设计 |
5.1.1 总体架构 |
5.1.2 系统功能架构 |
5.1.3 系统实现环境 |
5.2 信息模型的物理实现 |
5.2.1 信息模型的数据库映射 |
5.2.2 信息模型的数据源表记录映射 |
5.3 元数据模型的物理实现 |
5.3.1 元数据采集标准化过程 |
5.3.2 标准化后的元数据采集与存储 |
5.4 核心功能模块设计与实现 |
5.4.1 货运列车安全数据综合视图 |
5.4.2 基于元数据的数据查询 |
5.4.3 后台元数据管理功能 |
5.5 本章小结 |
6 工作总结与展望 |
6.1 工作总结 |
6.2 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(8)电力企业大数据运营管控系统设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 国内现状研究 |
1.2.2 国外现状研究 |
1.3 研究范围与研究内容 |
第二章 系统关键技术分析 |
2.1 Hadoop技术 |
2.2 数据仓库 |
2.3 采集技术ETL |
2.4 分布式计算技术 |
2.5 本章小结 |
第三章 大数据运营管控系统需求分析 |
3.1 系统功能需求分析 |
3.1.1 系统总体用例分析 |
3.1.2 大数据中心模块需求分析 |
3.1.3 数据治理模块需求分析 |
3.1.4 运营状况监控模块需求分析 |
3.1.5 运营分析模块需求分析 |
3.1.6 全面监测模块需求分析 |
3.1.7 协同解决功能模块需求分析 |
3.2 非功能性需求分析 |
3.2.1 响应性能 |
3.2.2 可运维性 |
3.2.3 安全性能 |
3.2.4 平台性能 |
3.2.5 接入性能 |
3.2.6 查询性能 |
3.3 本章小结 |
第四章 大数据运营管控系统功能设计与实现 |
4.1 系统架构设计 |
4.1.1 技术架构 |
4.1.2 数据架构 |
4.1.3 物理部署架构 |
4.2 物理数据库设计 |
4.3 系统功能详细设计与实现 |
4.3.1 大数据中心模块设计与实现 |
4.3.2 数据治理模块设计与实现 |
4.3.3 运营状况监控模块设计与实现 |
4.3.4 运营分析模块设计与实现 |
4.3.5 全面监测模块设计与实现 |
4.3.6 协同解决模块设计与实现 |
4.4 本章小结 |
第五章 系统测试 |
5.1 系统测试环境 |
5.2 测试概述 |
5.3 测试通过标准 |
5.4 测试策略 |
5.5 缺陷严重度描述 |
5.6 本章小结 |
结论与展望 |
结论 |
展望 |
参考文献 |
致谢 |
(9)多源大数据处理与分析平台的设计与实现(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 论文研究背景 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文的主要内容 |
1.4 论文的意义 |
1.5 论文的组织结构 |
2 关键技术介绍 |
2.1 微服务架构 |
2.2 Spring Cloud框架 |
2.3 Hive |
2.4 Sentinel框架 |
2.5 MySQL |
2.6 Vue.js |
2.7 本章小结 |
3 系统需求分析 |
3.1 系统概述 |
3.2 系统功能性需求分析 |
3.2.1 数据标准与配置管理 |
3.2.2 数据处理与分析 |
3.2.3 个人信息管理 |
3.2.4 元数据管理 |
3.3 系统非功能性需求分析 |
3.3.1 系统健壮性 |
3.3.2 系统可维护性和可扩展性 |
3.3.3 系统易用性 |
3.3.4 系统安全性 |
3.4 本章小节 |
4 系统概要设计 |
4.1 系统架构设计 |
4.2 系统功能模块设计 |
4.3 系统数据库设计 |
4.3.1 MySQL数据库结构设计 |
4.3.2 数据仓库设计 |
4.4 本章小节 |
5 系统详细设计与实现 |
5.1 数据标准与配置管理模块 |
5.1.1 数据标准管理模块 |
5.1.2 清洗规则定义模块 |
5.1.3 质检规则定义模块 |
5.1.4 数据源配置模块 |
5.2 数据处理与分析模块 |
5.2.1 数据清洗模块 |
5.2.2 数据集成模块 |
5.2.3 数据检索模块 |
5.2.4 质量稽核模块 |
5.3 个人信息管理模块 |
5.3.1 账户信息管理模块 |
5.3.2 账户订阅管理模块 |
5.3.3 子账号管理模块 |
5.4 元数据管理模块 |
5.5 基于HyperLogLog的大数据去重 |
5.6 本章小节 |
6 系统测试 |
6.1 测试环境 |
6.2 功能性测试 |
6.3 非功能性测试 |
6.3.1 系统性能测试 |
6.3.2 系统安全测试 |
6.3.3 算法测试 |
6.4 本章小结 |
7 结论 |
7.1 总结 |
7.2 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(10)基于数据湖的联邦数据管理系统的设计与实现(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 课题背景和意义 |
1.2 国内外研究现状 |
1.3 研究目标和内容 |
1.4 论文组织结构 |
1.5 本章小结 |
2 系统相关技术 |
2.1 后台开发相关技术 |
2.1.1 Spring Boot |
2.1.2 My Batis |
2.1.3 Redis |
2.1.4 Mysql |
2.2 大数据相关技术 |
2.2.1 Spark |
2.2.2 Hive |
2.2.3 HBase |
2.2.4 Kafka |
2.3 本章小结 |
3 系统需求分析 |
3.1 系统概述 |
3.2 系统功能需求 |
3.2.1 数据源管理需求分析 |
3.2.2 元数据管理需求分析 |
3.2.3 统一查询系统需求分析 |
3.3 系统非功能需求 |
3.4 本章小结 |
4 系统概要设计 |
4.1 系统总体设计 |
4.1.1 系统架构设计 |
4.1.2 统一元数据模型设计 |
4.2 系统功能模块设计 |
4.3 系统数据库设计 |
4.3.1 数据源管理系统数据库设计 |
4.3.2 元数据管理系统数据库设计 |
4.3.3 统一查询系统数据库设计 |
4.4 本章小结 |
5 系统详细设计与实现 |
5.1 数据源管理 |
5.1.1 元数据注册 |
5.1.2 元数据更新 |
5.2 元数据管理 |
5.2.1 数据管理 |
5.2.2 数据权限申请 |
5.2.3 申请审批 |
5.2.4 数据检索 |
5.2.5 数据价值 |
5.3 统一查询系统 |
5.4 本章小结 |
6 系统测试 |
6.1 数据源管理模块 |
6.2 元数据管理模块 |
6.3 统一查询模块 |
6.4 性能测试 |
6.5 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
作者简历 |
学位论文数据集 |
四、数据仓库及元数据管理(论文参考文献)
- [1]基于微服务的数据交换与共享平台的研究与实现[D]. 田晶晶. 北京邮电大学, 2021(01)
- [2]面向多源异构大数据的元数据服务管理平台的设计与实现[D]. 谭泽华. 北京邮电大学, 2021(01)
- [3]区域医疗健康元数据管理方法及应用探讨[J]. 殷晋,俞思伟. 中国数字医学, 2021(05)
- [4]河北财税信息管理系统的设计与实现[D]. 关云昊. 燕山大学, 2021(01)
- [5]基于元数据的自定义决策支持系统的分析设计与实现[D]. 王璐. 南昌大学, 2020(01)
- [6]面向多场景的大数据集成存储与治理系统的设计与实现[D]. 王园. 北京邮电大学, 2020(05)
- [7]货运列车安全数据一体化集成模型研究与应用[D]. 秦铎. 北京交通大学, 2020(03)
- [8]电力企业大数据运营管控系统设计与实现[D]. 冼晋乾. 广东工业大学, 2020(02)
- [9]多源大数据处理与分析平台的设计与实现[D]. 黄从颉. 北京交通大学, 2020(03)
- [10]基于数据湖的联邦数据管理系统的设计与实现[D]. 王少杰. 北京交通大学, 2020(03)