设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>计算机毕业设计 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于Hadoop的集群部署与管理系统的设计与实现 毕业论文
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

目  录
前  言 1
第一章 概  述 2
1.1 项目背景及意义 2
1.2 Hadoop产生背景概括 2
1.3 HControl系统的技术优势和应用价值 4
1.3.1 HControl系统的技术优势 4
1.3.2 HContorl系统的应用价值 5
1.4 本文主要研究的工作 6
1.5 本文的组织结构 6
第二章 技术综述 8
2.1 Hadoop相关系统 8
2.1.1 分布式文件系统HDFS 8
2.1.2 分布式计算框架MapReduce 9
2.1.3 分布式资源管理框架YARN 10
2.1.4 分布式数据库HBase 10
2.1.5 数据仓库Hive 11
2.2 研究现状分析Puppet 11
2.2.1 Puppet 概述 11
2.2.2 Puppet 框架 12
2.2.3 Puppet 资源 13
2.2.4 Puppet 模块 15
2.3 Kerberos网络认证协议 16
2.4 Metrics集群监控系统 16
2.5 本章小结 17
第三章 Hadoop集群部署与管理系统的分析与设计 18
3.1 HC系统需求分析 18
3.1.1 系统功用分析和流程分析 18
3.1.2 功能性需求分析 21
3.1.3 外部接口需求分析 25
3.2 HControl系统架构设计和模块设计 26
3.2.1 总体架构设计 26
3.2.2 配置接口框架设计 27
3.2.3 配置接口框架设计 28
3.2.4 Hadoop组件模块设计 31
3.2.5 安全模块设计 37
3.2.6 监控模块设计 37
3.3 HControl系统负载均衡设计 38
3.4 本章小结 39
第四章 HControl部署与管理系统的实现 40
4.1 HControl系统目录结构 40
4.2 配置接口框架实现 40
4.2.1 默认配置接口的实现 40
4.2.2 加载配置接口的实现 41
4.3 集群部署模块的实现 42
4.3.1 部署网络环境的实现 42
4.3.2 部署时间一致性服务的实现 43
4.3.3 应用配置到节点的实现 45
4.3.3 应用配置到节点的实现 47
4.4 实验与分析Hadoop组件模块的实现 49
4.4.1 总清单文件的实现 49
4.4.2 自定义函数的实现 50
4.4.3 模块资源管理的实现 51
4.4.4 模块资源管理的实现 52
4.5 本章小结 52
4.6 监控模块的实现 54
4.7 系统性能测试 56
4.8 本章小结 57
第五章 总结与展望 58
5.1 本文总结 58
5.2 后续工作展望 58
参考文献 59
致    谢 61
摘  要
今天,随着大数据(Big Data)时代的来临,Hadoop也吸引了越来越多的关注,在各行各业中得到越来越广泛的应用。Hadoop是由Apache基金会所开发的大数据分布式系统基础架构,最核心的设计就是:HDFS、MapReduce和YARN。HDFS提供海量的数据存储, MapReduce提供海量的数据计算,YARN提供集群资源的管理。Hadoop生态日渐增长,其分布式系统也日益庞大,庞大集群系统的维护和监控管理也越来越重要。
HControl是基于Apache社区Ambari为基础的大云大数据Hadoop分布式生态系统管理工具,实现集群部署、服务/进程启停、参数配置、集群/主机/服务/进程监控告警等功能的全自动化。集成了Hadoop整个生态圈及周边服务:HDFS、YARN、Mapreduce2、Spark、Tez、Metrics、Hive、HBase、Sqoop2、ZooKeeper、Kafka、Kerberos、NTP、Ranger、LDAP。
关键词:大数据,分布式,Ambari,Hadoop,HControl
前  言
今天,大数据已经引起了各界的高度关注。像互联网应用、科学数据处理、商业智能数据等各行业都在产生海量数据,如何处理和存储这些海量数据成为亟待解决的问题。Hadoop提供了一个可靠的共享存储和分析系统,由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。其核心组件有:Hdfs、Yarn、MapReduce;Hadoop广义上是指一个生态圈,泛指大数据技术相关的开源组件或产品,如HDFS、Yarn、HBase、Hive、Spark、Pig、Zookeeper、Kafka、Flume、Phoenix、Sqoop。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 Grep一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。
部署并管理一个庞大的Hadoop集群并不是一件轻松的工作,这主要是因为Hadoop相关系统的众多配置参数以及成百上千台服务器的集群规模。因此,如何快速自动化地构建可用的Hadoop集群成为值得研究的重要课题。
本文对Hadoop生态圈相关系统进行了深入的研究,并对比分析现有部署管理技术,最终设计和实现了Hadoop集群的部署与管理系统HControl,该系统旨在自动化地部署Hadoop相关系统、管理集群节点角色、修改配置参数、启动停止系统服务并监控系统运行状态。











  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于Python的在线自主考试系 基于腾讯云的个人知识库管理系统 基于Android的酒店预定系统
基于matlab变频器控制交流电 基于微信小程序的家校联动平台管理 基于时频分析与自适应滤波技术的多
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!