设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>计算机毕业设计 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于INLA算法的贝叶斯推断及应用 毕业论文+源码及数据
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

基于 INLA 算法的贝叶斯推断及应用

目 录


摘要 iv

ABSTRACT(英文摘要) iv

第一章 序言 1

§1.1  研究背景 1

§1.2  国内外研究现状 2

§1.3  本文主要内容 2

第二章 预备内容 4

§2.1  贝叶斯方法 4

2.1.1 贝叶斯方法定义 4

2.1.2 先验分布的选取 5

§2.2  Logistic 回归模型 6

2.2.1 广义线性模型 6

2.2.2 logit 链接函数 6

§2.3  数据介绍 6

§2.4  数据可视化与预处理 7

第三章 马尔科夫链蒙特卡洛方法 (MCMC) 9

§3.1  蒙特卡洛积分 9

§3.2  马尔科夫链 10

§3.3  Metropolis­Hastings 算法 10

第四章 集成嵌套拉普拉斯近似 (INLA) 方法 12

§4.1  拉普拉斯近似 12

§4.2  隐高斯模型 13

§4.3  高斯马尔科夫随机场 (GMRF) 14

4.3.1 有向图和无向图 14

4.3.2 高斯马尔科夫随机场 14

§4.4  集成嵌套拉普拉斯近似 15

第五章 实证分析与预测 19

§5.1  Logistic 回归建模 19

§5.2  基于 MCMC 方法的贝叶斯推断 19

§5.3  基于 INLA 方法的贝叶斯推断 21

第六章 INLA 方法与 MCMC 方法对比 23

§6.1  INLA 方法与 MCMC 方法对比 23

6.1.1 参数估计结果对比 23

6.1.2 DIC 值对比 24

6.1.3 运行时间对比 24

§6.2  预测结果对比 25

6.2.1 各指标值对比 26

6.2.2 各曲线图对比 27

第七章 总结与展望 28

参考文献 28

附录 A   附录 33

§A.1  R 代码 33

§A.2  SAS 代码 36

致谢 38


表 2.1

数据变量介绍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

表 2.1

Variables introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

表 2.2

各变量统计特征. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

表 2.2

Summary of variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

表 2.3

划分数据集. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

表 2.3

Partition dataset. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

表 2.4

标准化训练集. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

表 2.4

Standardize training set.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

表 5.1

MCMC 方法­运行结果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

表 5.1

Result of MCMC method. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

表 5.2

MCMC 方法­区间估计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

表 5.2

Interval estimation using MCMC method. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

表 5.3

MCMC 方法­参数估计标准误. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

表 5.3

Estimation standard error using MCMC method. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

表 5.4

INLA 运行结果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

表 5.4

Result of INLA method. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

表 6.1

INLA 方法与 MCMC 方法运行结果对比. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

表 6.1

Comparison of INLA method and MCMC method results. . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

表 6.2

INLA 方法与 MCMC 方法的 DIC 值. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

表 6.2

DIC value of INLA method and MCMC method. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

表 6.3

INLA 方法与 MCMC 方法的运行时间. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

表 6.3

Runtime of INLA method and MCMC method. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

表 6.4

混淆矩阵组成. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

表 6.4

Composition of confusion matrix. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

表 6.5

各方法混淆矩阵. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

表 6.5

Confusion matrices of each method. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

表 6.6

模型评价指标比较. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

表 6.6

Comparison of model evaluation indices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26


摘 要

在贝叶斯理论中,我们将参数视为随机变量并具备先验分布,将先验与现有数据的似然结合得到后验分布并进行参数推断,因此计算后验分布的积分是关键。然而实证中的后验分布往往是高维的,使得传统计算方法无法得到理想结果。随着近代计算机科学的发展,马尔科夫链蒙特卡洛 (MCMC) 方法产生,MCMC 方法通过构造马尔科夫链,使其收敛后的平稳分布为待积后验分布,得到后验分布的经验样本,进而可以准确的得到参数估计。然而, 当前的世界已经逐步进入了大数据的时代,数据在时间和空间上的结构复杂性大大增加了

MCMC 方法的时间成本,这也限制了 MCMC 方法在实际中的应用。

在此之前,拉普拉斯近似也可以计算后验积分,对被积函数在峰值点进行二阶泰勒展开  并作高斯近似,以得到被积函数的积分近似。但随着 MCMC 方法出现,此方法逐渐失去了关注度。本文引用 Rue 等基于拉普拉斯近似提出的进行贝叶斯推断的新方法——集成嵌套拉普拉斯近似 (INLA) 方法。INLA 方法作用于属于高斯马尔科夫随机场的隐高斯模型,将拉普拉斯近似与数值积分结合,超参数分布近似使用拉普拉斯近似,再利用数值积分得到参  数的后验边际,进而做出较为精确的推断,且运算效率远高于 MCMC 方法。

本文使用预测研究生录取的数据集,建立 Logistic 回归模型,并对参数分别进行基于

MCMC 和 INLA 方法的贝叶斯推断。使用 SAS 和 R 分别完成 MCMC 方法和 INLA 方法的实现,并从参数估计结果、运行时间和 DIC 值三个方面对两种方法进行比较。结果显示 INLA 方法可以得到精确的参数估计,且在运行时间方面明显优于 MCMC 方法,这说明了 INLA 方法对参数的贝叶斯推断有十分理想的效果,对 MCMC 方法也有很好的的替代性。本文最后使用参数估计结果代入模型对测试集进行预测,同时使用 KNN、随机森林和 XGboost 三种机器学习算法建模,并从混淆矩阵、衍生指标 (准确率、Kappa 值和 AUC 值等) 和曲线

(ROC 曲线、提升图等) 三个方面对比模型预测效果,结果显示基于 INLA 方法估计参数的

Logistic      回归模型具备较好的预测效果,并不逊于这三种机器学习算法。

关键词: INLA,MCMC,拉普拉斯近似,Logistic 回归,DIC,机器学习


Abstract

In Bayesian theory, we treat the parameters that have a prior distribution as random variables. The inference of parameters is based on posterior distribution, which is obtained by combining likelihood from existing data and prior. Therefore,  the key is to calculate the integral of poste­  rior distribution. However, in the past, statistical analysis based on the Bayes theorem was often daunting as the posterior distribution is often in a space of high dimension. With the development of modern computer science, for many years, Bayesian inference has relied upon Markov chain Monte Carlo method to compute the posterior distribution. The MCMC method constructs a Markov chain so that the stationary distribution of this chain when converged is the posterior distribution, then we get empirical samples of posterior, which can accurately obtain the estimates of parameters. However, with the advent of big data era, the structural complexity of data in time and space has greatly increased the time cost of MCMC method, which also limits its application.

Before that, there is a Laplace approximation method that can also calculate posterior integral, by performing a second­order Taylor expansion of integrand at the peak point and make a Gaussian approximation to obtain an integral approximation of the integrand. However, with the emergence of MCMC method, this method gradually lost focus. This paper cites a novel approach for Bayesian inference proposed by Rue et al: the integrated nested Laplace approximation (INLA) method. The INLA method focuses on latent Gaussian model that can be expressed as latent Gaussian Markov random fields (GMRF). It combines the Laplace approximation with numerical integration. The ap­ proximation of hyperparameter distribution uses the Laplace approximation, and we use numerical integration to obtain the posterior marginal distribution for further inference of parameters, which


基于 INLA 算法的贝叶斯推断及应用

is more efficient than the MCMC method.

In this paper, we use a dataset for prediction of Graduate Admissions to establish a Logistic regression model, and perform Bayesian inference for the parameters based on MCMC and INLA method respectively. Use SAS and R to complete the implementation of MCMC and INLA method respectively, and compare the two methods from parameter estimation results, program running time and DIC value. The result shows that the INLA method can obtain an accurate parameter estimation, and is significantly better than the MCMC method in terms of running time. This shows that the INLA method can be regarded as a valid alternative to the MCMC method. Finally, we model a Logistic regression using the parameter estimation results from INLA method to forecast the test set. Furthermore, we use three machine learning algorithms (KNN, random forest and XGboost) to model and forecast, and compare these four methods from derived indicators (accuracy rate, Kappa value and AUC value, etc.) calculated from confusion matrix and curves (ROC curve, lifting chart, etc.). Results show that the Logistic regression model with parameters estimated by INLA method also has good predictive effect, which is not inferior to these three machine learning algorithms.

Key Words: INLA, MCMC, Logistic regression, DIC, Machine Learning

















  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于Python的在线自主考试系 基于腾讯云的个人知识库管理系统 基于Android的酒店预定系统
基于matlab变频器控制交流电 基于微信小程序的家校联动平台管理 基于时频分析与自适应滤波技术的多
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!