设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>计算机毕业设计 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于Python实现的新技术在Visual Question Answering中的应用 课程论文+项目源码
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

新技术在 Visual Question Answering中的应用
摘要
Visual Question Answer (VQA) 是对视觉图像的自然语言问答,作为视觉理解 (Visual Understanding) 的一个研究方向,连接着视觉和语言。问题的格式是给定一张图片,并提出关于这张图片的问题,获得该问题的回答。
使用了BOW词袋模型和Word To Vector单词矩阵化的技术来分别处理label和输入的单词向量,及LSTM网络和Attention机制,VIS+LSTM网络结构,搭建了VQA问题的新模型。在我们的模型中,拥有3个LSTM网络分别处理:文本,图像,文本和图像。在可视化输出结果中,正确回答在Top5回答中的可能性很高。
关键词: BOW     Word To Vector LSTM Attention VIS+LSTM VQA
目录
1 问题说明 1
1.1 问题背景 1
2 问题分析 1
3 猜想 1
4 模型的建立 1
4.1 模型概述 3
4.1.1 数据集的使用 3
4.2 VGG19模型 3
4.2.1 VGG19 效果分析 3
4.2.2 VGG19 参数分析 3
4.3 LSTM 模型 3
4.3.1 LSTM 效果分析 3
4.3.2 LSTM 参数分析 3
4.4 Word To Vector 模型 3
4.4.1 Word To Vector 效果分析 3
4.5 综合模型分析 4
5 模型的效果 4
6 模型的提升 5
引用 6
1 问题说明
1.1问题背景
Visual Question Answer (VQA) 是对视觉图像的自然语言问答,作为视觉理解 (Visual Understanding) 的一个研究方向,连接着视觉和语言,模型需要在理解图像的基础上,根据具体的问题然后做出回答。
随着深度学习的不断发展,我们对于VQA问题的解答也有了飞跃。从早期的VIS+LSTM模型[1]和它的变种VIS+双向LSTM网络,到目前兴起的attention机制[2],还有诸如外链知识库和Word To Vector的发展,无疑都大大推动了我们的研究。本文将使用包括但不仅仅是以上的几种思路,设计我们自己的VQA模型,其中的创新之处在于,我们同时运用了多种新技术,使用了在不同维度上的感受器分别感受空间和实体,并将其巧妙地融合在一起。
2 问题分析
解决VQA问题需要NLP+CV的共同合作才能完成,因此我们的主体框架仍然紧紧围绕视觉感知+自然语言处理的方向。
其中,我们使用一个训练好的VGG19网络作为视觉感受器,并使用LSTM网络处理我们的问题。在LSTM处理之前,我们会使用Word To Vector的模型,使用维基百科的句子训练词向量,并建立字典,将每个英文单词映射到一个300维的向量空间。
我们目前拥有的数据集是一个非常大型的数据集COCO-QA,它的训练集有80000多张图片,测试集有80000多张图片,验证集也有40000多张图片,每张图片有数量不等的问题,每个问题有10个回答,并且标注了每个回答的信心程度。
3 猜想
我们猜想LSTM网络最后一个输出层的结果包含的问题的信息可以很好地生成空间感受器和类别感受器,用于给图像加入attention机制。这个attention我们加载到了图像进入VGG19网络后输出的第一个全连接层前面的那个池化层上。我们希望这两个感受器能够感受到我们想要的物品和空间位置信息。







  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于VUE+SpringBoot 基于JSP+SSM的物流快递管理 基于JSP+SSM+MySQL的
基于JSP+SSM的图书借阅管理 基于JSP+SSH的网上宠物交易 基于VUE+SSM+MySQL的
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!