采用jieba库的posseg函数对剩余有效文本数据进行词性分析课程论文+源码及数据-毕业作品网站

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

首　页

机械毕业设计

电子电气毕业设计

计算机毕业设计

土木工程毕业设计

视觉传达毕业设计

理工论文

文科论文

毕设资料

帮助中心

设计流程

您现在所在的位置：首页 >>计算机毕业设计 >> 文章内容

我们提供全套毕业设计和毕业论文服务，联系微信号：biyezuopinvvp QQ：1015083682

采用jieba库的posseg函数对剩余有效文本数据进行词性分析课程论文+源码及数据

文章来源：www.biyezuopin.vip 发布者：毕业作品网站

采用jieba库的posseg函数对剩余有效文本数据进行词性分析
目录
一、实验流程说明 1
1. 读取原始数据文件 1
2. 数据清洗 2
（1）去停用词 2
（2）去除特殊符号 2
（3）去除异常文本 2
3. 保存处理后数据并生成tfidf矩阵 2
4. 聚类 2
1. 层次聚类 2
（1）采用主成分分析方法PCA对tfidf矩阵进行降维； 2
（2）调用AgglomerativeClustering库函数实现对数据的层次聚类； 2
（3）给聚类结果的簇贴标签以描述每个簇对应文本的中心话题； 2
（4）输出聚类结果的二维图像及运行时间。 2
2. K-均值聚类 3
（1）使用PCA方法降维； 3
（2）调用KMeans库函数对降维后数据进行K-均值聚类； 3
（3）给聚类结果的簇贴标签以描述每个簇对应文本的中心话题； 3
（4）调用matplotlib绘制聚类结果二维图像，并确定各类中心点。 3
一、所用模型与方法 3
1. 层次聚类 3
（1）方法介绍 3
（2）算法流程[2] 5
（3）函数详解 5
2. K-均值聚类 6
（1）模型介绍 6
（2）算法流程[3] 7
(1) 从样本中随机选取k个样本点作为初始的均值向量{μ1,μ2,⋯,μk} 7
(2) 循环以下几步直到达到停止条件： 7
（3）函数详解[4] 7
三、实验结果分析 8
一、实验流程说明
1.读取原始数据文件
采用pandas库可以直接读取.csv数据文件，并查看数据各方面信息。
2.数据清洗
（1）去停用词
根据网上常用的停用词库，使用jieba库中lcut函数分割文本，逐词判断并删除文本中停用词，同时采用jieba库的posseg函数对剩余有效文本数据进行词性分析，进一步筛选文本。
（2）去除特殊符号
调用pandas库函数去掉问题中’？’、标点符号、特殊符号等。
（3）去除异常文本
使用pandas库清理文本中空行、重复数据、仅含字母和数字的文本以及问题中小于三个字的行。
3.保存处理后数据并生成tfidf矩阵
将处理后的文本数据按照初始顺序保存为.txt文件并输出所有统计词语的字典形式；调用sklearn库的TfidfVectorizer函数生成文本数据对应的tfidf矩阵。
4.聚类
本次实验采用两种不同聚类方式，包括层次聚类与K-均值聚类，均可实现文本聚类目标。
1.层次聚类
（1）采用主成分分析方法PCA对tfidf矩阵进行降维；
（2）调用AgglomerativeClustering库函数实现对数据的层次聚类；
（3）给聚类结果的簇贴标签以描述每个簇对应文本的中心话题；
（4）输出聚类结果的二维图像及运行时间。
2.K-均值聚类
（1）使用PCA方法降维；
（2）调用KMeans库函数对降维后数据进行K-均值聚类；
（3）给聚类结果的簇贴标签以描述每个簇对应文本的中心话题；
（4）调用matplotlib绘制聚类结果二维图像，并确定各类中心点。

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：基于Python的发票OCR-数字识别的简单实现课程论文+项目源码	下一篇文章：基于Python实现的图形绘制系统课程论文+项目源码+系统说明书+演示视频

本类最新文章

基于深度卷积网络的图像去噪研究 …	SSL VPN加密算法研究毕业 …	基于SVM-BP-CNN混合模型 …
基于自监督和对比学习的实体链指方 …	基于Springboot+Vue …	基于Springboot+Vue …

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!