毕业设计(论文)
译文及原稿
译文题目:
|
大数据时空分析的新方法:在首尔地铁交通数据中的应用
|
|
|
原稿题目:
|
A new approach to the space–time analysis of big data:
|
|
application to subway traffic data in Seoul
|
原稿出处:
|
Kwang-Yul Kim,Chae-Young Lim,Eunice J. Kim. A new approach to the space–time analysis of big data: application to subway traffic data in Seoul[J]. Journal of Big Data,2018,5.
|
大数据时空分析的新方法:在首尔地铁交通数据中的应用
金光宇,林财永,尤妮丝·金
1首尔国立大学地球与环境科学学院
2首尔国立大学统计系
摘要:一种流行的大数据形式是时空测量。循环平稳经验正交函数( CSEOF )分析是一种解释大数据集中变异性时空结构的有效和有价值的技术。CSEOF分析被证明是理解变异性时空结构的有力工具,当数据显示出周期性的时间统计数据时。例如,CSEOF分析应用于2010 - 2017年期间韩国首尔地铁2号线每小时的客流量。第一种模式代表地铁乘客的每周周期,占总可变性的大部分(约97 % )。相应的负荷向量显示了典型的地铁乘客每周的模式,这是时间和地铁站位置的函数。相关的主成分时间序列显示,每年每周活动幅度有两次显著下降;这些减少与两个主要节日有关——农历新年和秋季节日(韩国称之为中秋节)。第二种和第三种模式代表一周内的每日对比,与节假日前后的额外休假相关。第四种模式呈现出有趣的上升趋势,这代表除了周三以外,平日地铁乘客数量普遍减少,周末增加。
关键词:CSEOF分析;时空分析;大数据分析
引言
生活在数字时代,我们已经增加并积累了很多关于人类活动的精确位置信息。举几个例子,针对物流和人力运输的道路和空中交通分析,通过社交网络服务( SNS )按地点对关键词进行趋势分析,实时监控支付服务。了解复杂系统的时空结构是大数据分析的一个重要方面。此外,在理解地球科学时,时空域是分析变异性的基础,理解变异性的时空结构是一个重要的科学目标。例子包括PM10浓度(粒径小于10微米的颗粒物质)、降水、CO2浓度、积雪、风速和风向以及太阳辐射,所有这些都表现出强烈的时空变异性。
深度学习工具的开发和实施旨在从大量数据中识别模式,时空过程就是一个例子,通过深度学习或多层次分解可以了解其非线性数据生成机制。有许多例子表明,时空结构的可变性为理解和解释数据以及预测趋势提供了有价值的信息。例如,了解公交系统使用的时空模式对公交运营至关重要,例如调整服务间隔,以减少大量乘客造成中断的机会,并为舒适的乘客制定改进的运营计划。在首尔,智能卡数据已经被用来分析旅行时间、旅行次数和不同交通工具的日变化规律。纽约市的公交乘客量也已经通过聚类分析进行了分析,其中聚类显示出明显的公交乘客日行为。使用几趟公交的智能卡数据,按不同维度分析了新加坡、日本科池市和澳大利亚[布里斯班的每日乘客时空密度、候车和上车乘客人数以及列车轨迹。佩尔蒂埃等人对公共交通中使用的智能卡数据进行了全面审查。这些早期的研究利用了简单的汇总统计数据,或者对空间和时间变异性进行了单独的分析。为了理解变异性的时空结构,莫伦斯等人使用了聚类分析和主成分分析( PCA )和切斯基斯塔尔、邢先生等人分别使用鲁棒PCA技术将公路交通数据分解为低等级交通矩阵加上几个剩余交通矩阵。
虽然简单的统计分析和传统的空间分析是有用的工具,但是这些分析技术在解释组合的空间和时间结构方面肯定是有限的。通常时空变异性有一个特定的进化方向。例如,交通流在空间和时间上表现出特定的方向。也就是说,交通流量的可变性是空间和时间的函数。因此,有必要同时检查空间和时间的可变性,以便了解空间和时间变化的方向。传统的空间或时间数据分析技术并不是为了解决空间-时间可变性及其方向性,对空间可变性和时间可变性的单独分析往往会导致对空间-时间可变性本质的误解。基于循环平稳性假设的分析正在成为气候学、电气工程和信号处理[的一个新的研究趋势。
在本研究中,循环平稳经验正交函数( CSEOF )技术是一种有效的时空分析工具。CSEOF技术应用于首尔地铁2号线的乘客数据,目的是分析地铁乘客的时空变异性。“数据”和“方法”部分介绍了数据的描述和分析方法。分析结果显示在“结果”部分,然后在“讨论”和“结论”部分进行讨论和总结。
数据
所使用的数据代表首尔地铁公司存档的每小时地铁乘客数;它们存储在Excel (或CSV )文件中。该数据集包含2010年1月至2017年3月期间韩国首尔地铁2号线(也称为绿线)每小时的上下车人数。地铁2号线有50个车站由首尔地铁公司管理。因此,分析的数据总规模为50个车站×24小时×2647天,包括上下客。我们分析上下车乘客的时空结构,以了解地铁乘客数量作为时间和空间(车站)函数的典型周变化。
方法
在本研究中,我们特别感兴趣的是识别地铁乘客数据的时空特征函数,即地铁乘客随地铁站和一周时间变化的不同模式。由于地铁乘客数据的统计特性(均值和协方差)几乎是周期性的,具有明显的周周期,我们假设这些数据属于循环平稳随机变量的范畴。因此,一种称为循环平稳经验正交函数( CSEOF )分析的时空分析技术被用来识别地铁乘客数据的特征函数。
讨论
首尔是一个拥有1000万人口和1.7万人口密度的大都市。