目录
一、项目背景 1
二、分析的经济逻辑与方法 1
三、分析结果 4
3.1. 基站层面的分析结果 4
3.2. 用户层面的分析结果 12
四、结论 15
一、项目背景
据工信部调查,截止 2020 年 3 月末,全国三家基础电信企业的移动电话用户总数
达 15.9 亿户,移动电话基站总数达 852.3 万个1。在如此高的普及率下,由于人机交互产生大量数据,其中手机信令数据是比较重要的一部分:基站会定时记录用户的地理位置,如距离用户最近的基站会每隔两小时会进行一次记录;而由于人的移动,在一段时间区间内,我们可能会观测到不同基站记录的频次。例如一个月内,个体 A 在 1 号基站被记录 10 次,在 2 号基站被记录 30 次……在此条件下,可获得关于个体的频次分布, 显然不同个体的分布存在显著差异。而由于这一记录的分布来自用户的移动,因此通过数据可挖掘个体移动信息,从而反映例如经济景气、城市人群流动性、居民的居住与出行特征等经济现象。
对基站位置作出散点图不难发现,数据的覆盖范围为上海市。注意到,原始数据中不包含单条信令的时间戳,而是用户月度在单个基站的观测总数,难以从微观上分析用户单日的行为特征,或区分工作地与居住地。但是原始数据的大数据量对于从宏观上分析上海市各个区域的经济特征提供了充分的信息,因此本研究着重于对已有的手机信令数据进行可视化展示,找出手机信令集中的热点地区;以及分区统计,尝试分析手机信令信息与各区经济指标、产业划分的联系。
由于原始数据中不包含基站所属的行政区划信息,首当其冲的一步是需要根据各个基站的经纬度,获得其所属的区划信息。这里使用 R 中的 rgdal 包对互联网上获得的全国县级行政区划边界数据2进行了预处理(代码见 code/shanghai_map.R),运用 python的 shapely 包中实现的地理围栏算法获得了基站经纬度的对应区划( 代码见
code/geo_fencing.py)。