目录
1 开发背景
1.1开发背景与意义
1.2 开发环境与工具
2 可行性分析
2.1 可行性分析
2.2 需求可行性
2.3 技术可行性
2.4 操作可行性
2.5经济可行性
3 系统总体设计
3.1 总体设计方案
3.2 基础数据准备
3.3 环境准备
3.4 软件准备
4 系统详细设计
4.1 安装前准备
4.2 Hadoop集群安装
5 创建表结构
5.1 分析需求
5.2 创建数据库
5.3 创建t_user表
5.4 创建t_movie表
5.5 创建t_rating表
5.6 导入数据
6 分析各年评分最高的电影类型
6.1 分析思路
6.2 完整SQL
目录
1 开发背景
1.1开发背景与意义
1.2 开发环境与工具
2 可行性分析
2.1 可行性分析
2.2 需求可行性
2.3 技术可行性
2.4 操作可行性
2.5经济可行性
3 系统总体设计
3.1 总体设计方案
3.2 基础数据准备
3.3 环境准备
3.4 软件准备
4 系统详细设计
4.1 安装前准备
4.2 Hadoop集群安装
5 创建表结构
5.1 分析需求
5.2 创建数据库
5.3 创建t_user表
5.4 创建t_movie表
5.5 创建t_rating表
5.6 导入数据
6 分析各年评分最高的电影类型
6.1 分析思路
6.2 完整SQL
1 开发背景
1.1开发背景与意义
随着时代的发展,数据无时无刻不在产生,如何高效、稳定、可靠的存储数据,如何从庞大的数据库中提取想要的数据,如何利用这些技术和数据为我们的生活提供帮助成为研究这个课题的背景。
通过摩尔定律我们可以知道相同性能的计算机设备变的便宜并且性能将越来越好;其次,互联网技术的发展使企业和普通群众在使用计算机时获得了极大的便利;第三,一大波从事互联网领域的企业获得了巨大的成功,这使得各国政府大力推行计算机与互联网的发展。互联网的便利性,使得越来越多的线下服务转化为线上服务,公司可以接收到的数据越来越多。
在很多领域里面,在现在这个时代下面,大多数公司和用户使用时产生的数据太多了,数据量太大了。用原有的技术去做,有种捉襟见肘的感觉,要么在性能上面,要么在速度上面遇到了瓶颈,这个时候需要新的技术来解决,我们能想到的,比如用高并发,1M的数据单机来处理就够了,如果1000M数据,一台机子一个节点就可能做不了。
随着2003年谷歌发布的三篇论文《分布式存储、分布式计算、分布式查询的问题,通过大量普通机器连接成一个超级计算器,可以在极短的时间内快速处理收到的大量数据,这使企业将传统数据处理的方式推翻,意味着更少的决策失误和更大的利润,对普通民众来说可以享受的更快的服务质量和办事效率,由于现在大量的企业决策与服务提供需要依靠大数据技术支撑,并且大数据带来的经济效益已经大于开发成本。