目录
目录
一、研究背景与目的
二、实习招聘信息数据的获取与说明
三、文本聚类提取技能要求
(一)职位描述文本的预处理
1.分句
2.分词
去除停用词指过滤文本中的特殊字符和对文本含义无意义的词语。例如
(二)文本预处理效果
(三)文本聚类
3.NMF 聚类
(四)聚类方法的比较
1.聚类效果
四、文本聚类量化技能要求
(一)专业技能关键词与薪资的关系
(二)文本聚类量化技能要求
五、技能与薪资的回归分析
六、结论
基于Python的文本聚类的对实习僧网站的实习岗位大数据分析
一、研究背景与目的
网上对爬取招聘网站并对爬取的数据进行分析的技术博客多如牛毛,但对爬取的数据进行分析仅集中在分析薪资与地域、学历要求、工作年限、行业、公司规模等十分容易量化因素的关系,从职位描述中提取对应聘者的技能要求等少之又少,但技能因素是求职者评估自己是否能胜任一个岗位的重要因素,与其求职的准备、选择息息相关。
本文通过爬取实习僧网站“数据分析”一职的实习信息,对“职位描述”的文本进行预处理、分句,使用文本聚类的方式提取每条实习信息中其中的描述专业技能的句子,并对其描述的专业技能进行量化,从而探究专业技能对薪资的影响。本文所述的方法还可用于提取其他岗位、其他要求等,为大学生提供最直接、最真实的岗位信息,从而使他们对感兴趣的职业有所了解,对他们的学习方向提供建议,使其和能更明确地为求职作准备。