本科生毕业论文(设计)开题报告表
论文(设计)名称
|
基于 Hadoop 的分布式云存储系统设计与实现
|
论文(设计)来
源
|
生产(社会)
实际
|
论文(设计)
类型
|
省内课题
|
指导教师
|
|
学生姓名
|
|
学号
|
|
班级
|
|
一、研究或设计的目的和意义:
随着网络技术的飞速发展,提别是移动互联网、物联网等的发展,数据呈现出了爆发式的增长,我们已经步入了海量数据的时代。特别是传统的管理方式已经不能再继续满足当前的存储状态。云存储技术的飞速发展,使得云存储成为了一种新型的数据存储解决方案。越来越多的开发者和企业都将数据迁移到云端平台上,这样不仅仅可以降低数据管理和运维成本,并且还能减轻海量数据的冲击。
随着网络的飞速发展,人与人之间虽然都看似一个独立个体,但实际上每个人之间都或多或少的有着共性,他们都会喜欢某一类东西,因此推荐能够帮助用户在没有明确需求或者信息量巨大时解决信息过载的问题,为用户提供感兴趣的文件。在当今时代,共享已经
成为了人们日常,随处可见的东西都有共享二字,可以促使用户构建一个共享资源的平台。
|
二、研究或设计的国内外现状和发展趋势:
随着互联网技术的高速发展,国外推出了 Box,Dropbox、Icoud、Onedrive 等较为成熟的网盘服务,国内互联网企业也推出了,例如百度网盘、阿里云盘、360 云盘等云存储系统,并且这些系统的功能也相对全面,并且操作简单,因此受到了大量用户的欢迎。综合研究这些各大网盘,可以得出其大致功能都是相似的,都是用户通过网络登录系统,然后用户可以方便的完成上传、下载、分享和删除文件等功能,并且某些网盘软件,还提供了独特的分享功能和分组功能,并且还适应当下的共享主题。
百度网盘:是百度推出的一项云存储服务,目前已经覆盖了主流的 PC 和手机操作系统。起主要功能有超大空间,文件在线浏览,视频播放,在线解压等功能
阿里云盘:是阿里巴巴全球资深技术团队打造的一款个人网盘,主要功能是速度快, 够安全,并且易于分享,同时还能为用户提供智能相册等服务。
例如在国际上,Yahoo 公司赞助了自由开源基金会 Apache 的项目 Hadoop。Hadoop 采用了 Google 在存储和管理海量数据方面的思想。Hadoop 作为当下最流行的的开源大数据框架,每天都能吸引着成千上万开发人员的目光,于是在许多国际系统中都能看到 Hadoop 的身影。我们所熟悉的 Youtube、Facebook 都采用了这种技术。再看国内,百度、淘宝也不例外。淘宝在每年双十一的时候,都有海量的订单,但是他们能够在短时间内对这些订单,能够有清晰的数据,其使用的也是基于 Hadoop 平台的 Flink 框架。
Hadoop 在可伸缩性、健壮性、计算性能和成本上都具有着很好的又是,此外,Hadoopp 是免费开源,这样也就吸引了大量的开发一起使用,并且维护,所以其才成为当前互联网企业主流的大数据平台。
但是这些网盘,都存在着一个很大的问题,就是需要下载相应的软件,登陆之后,才能进行文件的下载,这样的话就会存在一定的局限性。在当今这个飞速发展的时代,人们已经熟悉了便捷化的操作,例如各种网页,可以不用多余的下载软件,就能使用到软件。因此,网站的开发也步入人们的眼帘。
现在国内的百度云盘,可谓是占据很大的市场,其不仅仅是讲这些需求做到了极致,
|
与此同时还开发出众多的功能,如好友、讨论组文件共享、还加入在线查看解压包、将 word 转 Pdf 等功能,丰富了百度网盘的多样性。虽然它已经做得这么完美,但是还有问题没有得到解决,因为百度网盘是企业开发的软件,其目的就是为了给企业带来价值,于是百度网盘有了非会员限速,非会员许多新功能都无法使用的弊端。
与此同时,阿里巴巴也针对这些弊端开发了阿里云盘,但是其功能多样性目前还处在健全阶段,没有百度云盘多样,但值得一提的是,阿里云盘斌没有会员功能,所有的用户都是一样的,没有什么下载限速一说
基于 Hadoop 的分布式云存储系统,就是取其精华去其糟粕,同时还在此基础上加入一
些新的模板,例如推荐功能。
|
三、主要研究或设计内容,需要解决的关键问题和思路: 一、主要研究或设计内容
该设计主要是以 Hadoop 为设计对象,主要研究文件的类型与大小。通过对文件的类型进行分析,分析其中的大致共性,例如哪些用户偏向这类型的文件,与此同时也通过这些类型的文件,计算出用户与用户之间的相似性,从而到达改文件系统的多功能性。
二、需要解决的关键问题
分布式云存储系统,就是确保用户上传的海量文件完整,也即是可能在此过程中某台服务器怠机了,但已经能为用户提供完整的上传下载功能;除此之外,还能为用户推荐可能感兴趣的共享文件。
三、思路
基于 Hadoop 的分布式云存储系统的主要流程如下:首先用户自己将自己需要保存的文件上传到该平台,并且采用分布式的方式存储该文件,从而确保文件的稳定性以及完整性。用户上传成功之后,让用于自主选择是否愿意共享文件,让其他用户也能下载到该文件, 如果愿意用户愿意,将会继续让用户选择该文件对应的类型以及标签,然后平台根据数据分析算法将为下载该共享文件的用户推荐出相关的文件,从而到达改文件系统的多功能性。
|
四、完成毕业设计(论文)所必须具备的工作条件及解决的办法: 硬件:PC
操作系统:Win10、Linux
开发工具:Idea、PyCharm、VScode、VM Ware、MySQL
开发语言:Java、Python、HTML、CSS、Javascript、SQL
|
五、工作的主要阶段、进度与时间安排:
第一周至第三周:收集资料,查阅文献,对课题进行调研,进行文献综述、程序模块设计需求分析的撰写;完成开题报告,拟定毕业论文提纲;
第四周至第六周:对毕业设计进行设计、环境搭建、代码编写、调试;对论文材料进行补充,完成论文初稿并提交;
第七周至第九周:根据指导老师反馈意见进行论文修改,完成论文第二稿并提交; 第十周:根据指导老师的反馈意见对论文进行修改,完成论文定稿、打印装订、上交
等工作。
|
六、阅读的主要参考文献及资料名称:
[1] 周万珍, 曹 迪, 许云峰, et al. 推荐系统研究综述[J]. 河北科技大学学报, 2020, 41(1):12.
[2] 邹振宇. 基于 HDFS 的云存储系统的实现与优化[D]. 中国科学技术大学, 2016. [3] 吴梦潇. 基于 HADOOP 的分布式云平台搜索系统设计与实现[D]. 湖南大学,
2016.
|
[4] 衣然. 基于 HDFS 的云存储关键技术研究[D]. 广西大学, 2015. [5] 陈蕊. 基于 HDFS 的云存储系统设计与实现[J]. 2014.
[6] 杨萌萌. 基于 HDFS 的结构化数据存储和查询方法研究[D]. 山东大学, 2014. [7] 董昌坤. 基于 HDFS 的分布式云存储系统的设计与实现. 北京邮电大学, 2013. [8] 王红艳, 郑岩. 云存储之Hadoop 分布式文件系统研究及实践[J]. 高性能计算技
术, 2012(3):7.
[9] 杨坤. 基于 Hadoop 的云存储系统客户端的设计与实现[D]. 华中科技大学, 2012.
[10] 许维龙, 张彦, 朱洪亮,等. 基于HDFS 的数据备份系统的设计与实现[J]. 信息网络安全, 2012(10):5.
[11] 杨岳湘, 邓文平, 邓劲生,等. 基于云存储的网盘系统架构及关键技术研究[J]. 电信科学, 2012, 28(10):5.
[12] 黄晓云. 基于HDFS 的云存储服务系统研究[D]. 大连海事大学, 2010.
[13] 曹宁, 吴中海, 刘宏志,等. HDFS 下载效率的优化[J]. 计算机应用, 2010(8):7.
[14] 邰建华. Hadoop 平台下的海量数据存储技术研究[D]. 东北石油大学.
[15] 杜勇. 基于 HDFS 的云数据备份系统的设计与实现[D]. 吉林大学.
七、指导教师意见和建议:
该生通过查找文献资料和调研,并通过细致的修改,较好的完成了开题报告。下一步要求按照开题报告的时间节点,按时保质完成毕业设计(论文)的各项任务。选题符合专业要求,难易适中,学生通过努力可以完成论文写作,同意开题。