设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>计算机毕业设计 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于Python+JavaScript的面向文本分析的交互式主题建模可视化分析系统 毕业论文+项目源码及数据
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

面向文本分析的交互式主题建模
目录
面向文本分析的交互式主题建模 1
一、绪论 2
1.1 本课题的研究背景和意义 2
1.1.1 主题模型的发展及研究现状 2
1.1.2 目前存在的问题 3
1.1.3 本课题的研究意义 3
1.2 研究内容和主要工作 3
1.3 本文的组织结构 3
二、核心算法 3
2.1 文本预处理 4
2.2 大型语料库的内存优化 6
2.3 UMAP 数据降维&可视化 7
三、系统设计与实现 9
3.1 系统介绍及流程图 9
3.2 后端实现过程 10
3.2.1 框架介绍 10
3.2.2 数据库 ORM 映射类 10
3.2.3 Pydantic 模型类 12
3.2.4 TextPreprocessing 文本预处理类 12
3.2.5 SSNMFTopicModel 非负矩阵分解类 12
3.2.6 TopicModelTrainingTask 训练任务类 12
3.2.7 Web API 接口 13
3.3 前端实现过程 16
3.3.1 框架介绍 16
3.3.2 介绍界面 16
3.3.3 Bilibili 视频评论爬虫界面 17
3.3.4 语料库查看/选择界面 18
3.3.5 侧边栏主控制界面 19
3.3.6 右侧训练状态 Tab 19
3.3.7 词云图 Tab 19
3.3.8 NMF 迭代误差折线图 Tab 20
3.3.9 主题聚类可视化 Tab 20
3.3.10 文档详细信息抽屉 22
3.3.11 主题详细信息抽屉 23
3.3.12 用户交互 23
3.3.13 新文档主题分布预测 29
四、算法定量分析及比较 29
4.1 性能及收敛速度 30
4.2 多次运行的一致性 30
五、使用案例 31
5.1 Bilibili 视频评论数据 31
5.2 外卖用户评价数据 39
5.3 新冠病毒新闻数据 44
六、总结及展望 47
摘要
在机器学习和自然语言处理领域中,主题模型(Topic Model)是在一系列文档中发现抽象主题的一种统计模型,并被广泛地应用于文本文档集合的分析。近年来,各种主题建模技术,特别是概率图建模技术,取得了显著的进展,其中隐含狄利克雷分布(LDA)等最先进的技术已经成功地应用于可视化文本分析。然而,大多数基于概率模型的方法在多次运行的一致性和经验收敛性方面存在缺陷。此外,由于公式和算法的复杂性,LDA 无法轻易合并各种类型的用户交互和反馈。本课题的主要目的是设计一个主题模型可视化分析系统,使用非负矩阵分解的方法对文本进行主题建模,将训练过程和结果实时地可视化呈现给用户,并以半监督模式为核心,设计一系列用户交互方式,达到基于用户驱动的文本主题模型交互优化。在经过若干次模型交互优化后,如果用户对当前训练的主题模型感到满意了,便可以使用此模型来对语料库之外的新文档进行拟合,从而得到新文档的主题分布预测。本系统采用 Web 技术,后端算法和接口使用 Python 语言和 FastAPI Web 框架编写,前端界面使用 React&Ant Design 框架编写。本系统中收录了现实网络上多种类型的语料库(中/英文文本、社交用户短文本、新闻长文本),并提供了一个 Bilibili 网站的视频评论爬取工具,用户可以选择自己感兴趣的视频并爬取该视频下的评论,然后对其进行主题建模分析。最后,通过对这些实际语料库进行主题建模,执行相应的用户交互优化主题模型,并对其结果进行对比、分析,发现该系统在运行效率、多次运行的结果一致性方面明显要优于 LDA 算法,并且用户交互确实能够表达出用户的意图,并对主题模型的结果有改进优化的效果。
关键词:自然语言处理,文本分析,数据可视化,交互式聚类,主题模型,半监督,非负矩阵分解(NMF)























  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于Python的在线自主考试系 基于腾讯云的个人知识库管理系统 基于Android的酒店预定系统
基于matlab变频器控制交流电 基于微信小程序的家校联动平台管理 基于时频分析与自适应滤波技术的多
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!