目录
1. 课题背景及意义 2
2. 技术路线 3
3. 数据采集 4
3.1 爬虫流程 4
3.2 反反爬虫 5
3.3 异步 6
3.4 CI/CD 6
4. 数据清洗 6
4.1 数据清洗 6
4.2 数据保存 9
4.3 结果一览 10
5. 数据加工与大数据分析算法 10
5.1 词频计算 10
5.2 频繁模式挖掘 11
5.3 聚类算法 12
6. 可视化 13
6.1 技术栈选取 13
6.2 直接数据可视化展示 13
6.3 大数据分析算法结果 16
7. 结果论证 19
7.1 结论一 20
7.2 结论二 20
7.3 结论三 20
1.课题背景及意义
当下大龄剩男剩女数量日益增加, “催婚”和“婚姻”成为社会关注和网上热议的热门话题。近五年来25-39岁的单身人口数量逐年递增,适婚年龄段人口的性别比也在持续攀升,或将有超3000万青年男性成为剩男。这意味着一面“恐催婚”,一面“结婚难”已然成为当下年轻人面临的现状。
据珍爱网网络调问卷查调查显示,现在的年轻人其实并不是绝对的不婚主义者,反而多数人是期待爱情降临的,但是,这并不代表着年轻人愿意随意恋爱和结婚。尽管婚恋难是不争的事实,但多数青年仍然愿意等待而不是将就,将有无感觉、是否有感情和今后的婚姻质量放在了重要位置,择偶更看对方的能力,宁缺毋滥是多数青年男女的共识。
现在的年轻人婚恋更重视内在的匹配度、心灵的契合度以及性格与认知的契合度,这是婚姻品质的基本保证,但客观上也无疑增加了婚恋的成本和成功的难度,年轻人结婚难的问题已经迫在眉睫。
所以我们决定利用大数据对目前主流婚恋网站上的数据进行清洗汇总并以可视化的方式展现出来,以便得出一些输入的理论和结论来解释目前的问题,并为未来提出更加具体的婚恋问题解决方案提供一个较为基础的数据支撑。