基因云馆新一代信息数据库

知识决定起点,智慧带来突破,欢迎使用新一代生物学、医学数据库。

云馆首页 > 资源列表 > 资源详情

蒙特卡洛预测

开发时间:2008-12-11 10:44:50   

蒙特卡罗方法又称统计模拟法、随机抽样技术,是一种随机模拟方法,以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。  此方法使用随机抽样法抽取样本,对随机抽样的基因表达谱和生物通路信息进行必要的筛选和数学计算,得到通路对之间的分值,利用包含多个决策树的分类器——随机森林,预测潜在关键基因通路对,通过多次蒙特卡洛交叉验证,优化预测结果。

蒙特卡罗分析法(Monte Carlo method)(统计模拟法),是一种采用随机抽样(Random Sampling)统计来估算结果的计算方法。由于计算结果的精确度很大程度上取决于抽取样本的数量,一般需要大量的样本数据,因此在没有计算机的时代并没有受到重视。


第二次世界大战时期,匈牙利美藉数学家约翰·冯·诺伊曼(John von Neumann,1903.12.28—1957.02.08)(现代电子计算机创始人之一)在研究中子的实验中采用了随机抽样统计的手法,因为当时随机数的想法来自掷色子及轮盘等赌博用具,所以就形象地用摩洛哥的赌城蒙特卡罗来命名这种计算方法。


如今,蒙特卡罗分析法被应用于各个领域,如求解函数的定积分,运输流量分析,人口流动分析,股票市场波动的预测,量子力学分析等等。


1蒙特卡罗方法的基本思想与解题步骤


蒙特卡罗方法也称随机模拟法、随机抽样技术或统计试验法,其基本思想是:为了求解数学、物理、工程技术或生产管理等方面的问题,首先建立一个与求解有关的概率模型或随机过程,使它的参数等于所求问题的解,然后通过对模型或过程的观察或抽样试验来计算所求参数的统计特征,最后给出所求解的近似值。

概率统计是蒙特卡罗方法的理论基础,其基本手段是随机抽样或随机变量抽样,对于那些难以进行的或条件不满足的试验而言,是一种极好的替代方法。

蒙特卡罗方法可以解决随机性问题和确定性问题,求解确定性问题的基本步骤如下:

(1)建立一个与求解有关的概率模型,使求解为所构建模型的概率分布或数学期望;

(2)对模型进行随机抽样观察,即产生随机变量;

(3)用算术平均数作为所求解的近似平均值,给出所求解的统计估计值的方差或标准差,即解的精度。


2伪随机数的产生


利用蒙特卡罗方法模拟一个实际问题,需要用到各种随机变量,因此随机数的产生非常重要。

在计算机上的产生随机数的方法有三类:

(l)把已有的随机数表输入机器;

(2)用物理方法产生真正的随机数;

(3)用数学方法产生伪随机数。

利用数学方法产生随机数具有占用内存小,产生速度快,便于重复,不受计算机条件限制等优点,因而被大量使用。因利用数学方法产生的随机数是根据确定的递推公式计算的,存在周期现象,不满足真正随机数的要求,这种随机数称为伪随机数。在实际应用中,只要伪随机数能通过一系列统计检验,我们还是可以把它当做“真正”的随机数来应用。产生随机数的数学方法,最常应用的有:

(1)同余法。其中,乘同余法和混合同余法能够产生周期长且统计性质优的数值序列,因而应用也最广。

(2)平方取中法。当位数较少时,产生的伪随机数偏于零的较多,位数越来越多时,偏于零的就会越来越少。

(3)易位指令加法。方法简便,速度较快,其所产生的随机数随机性一般较好,但周期不定,且通常很短;随着初选值的不同,所产生的随机数序列长度也有很大差异。


3随机数的检验


随机数的统计检验,就是根据(O,1)上均匀总体简单子样的性质来研究所产生的随机数序列的相应性质,进行比较鉴别,视其差异显著与否,决定取舍。如果所产生的伪随机数经过各类检验,其差异均不显著,我们即接受其为均匀总体随机数的子样。需要指出的是,若所产生的伪随机数序列通过某种随机性检验,只是说它与随机数的性质和规律不矛盾,我们不能拒绝它,并不是说它们已经具有随机数的性质与规律。因此检验所产生的伪随机数序列时,所通过的检验越多,随机数序列就越靠得住。

随机数的检验方法有:

(1)参数检验,检验其分布参数的观察值与理论值的差异显著性。

(2)均匀性检验,又称频率检验,意在检验伪随机数的经验频率与理论频率的差异是否显著。

(3)独立性检验,即检验所产生的伪随机数的独立性和统计相关是否异常,包括相关关系检验和联列表检验等。

(4)组合规律检测,按随机数出现的先后次序,根据一定的规律组合,检验其组合的观察值与理值是否有显著差异,包括距离检验和配套检验等。

(5)游程检验,把随机数序列按一定的规则进行分类,分为正负游程检验和升降游程检验等。


4随机变量抽样


在得到(0,1)上均匀分布的随机数序列之后,需给出概率模型中不同分布随机变量的抽样方法,才能进行蒙特卡罗模拟。

常用的抽样方法有:

(1)离散型随机变量抽样;

(2)连续性随机变量抽样,又分为直接抽样、变换抽样、舍选抽样、复合抽样、近似值抽样等。


5蒙特卡罗模拟结果的统计与处理


对于一个具体问题,通过建立概率模型,产生随机数以及对概率模型所进行的随机抽样试验,即得到所需要的模拟结果。蒙特卡罗方法最终以算术平均数作为所求解的近似平均数,并对其精度即方差或标准差进行计算。


6计算机模拟研究


20世纪60年代以来,利用计算机模拟研究生物群体的变化过程己经广泛开展起来,己有的研究结果表明,利用这种方法研究植物遗传育种的理论与实践问题,不仅可行,而且可靠。

众所周知,植物遗传育种工作主要在田间进行,对其进行研究会受到试验材料、试验规模、试验条件等人物力因素的限制;而蒙特卡罗模拟的内容和范围可以人工设定,不受自然条件的限制,因而受到植物遗传育种学家的广泛关注。

利用计算机模拟植物遗传育种时,为保证模拟结果的准确可靠,需注意改进模拟方法。首先,所建立的遗传模型必须准确可靠;其次必须利用能产生周期长且统计性质优的伪随机数产生方法;最后还要选用合适的计算机语言,运用程序设计技巧,设计出高效率的计算机模拟算法,以减少机器占用内存和提高机器运转效率



联系方式

山东省济南市 高新区 崇华路359号 三庆世纪财富中心C1115室

电话: 0531-88819269

E-mail: product@genelibs.com

微信公众号

关注微信订阅号,实时查看信息,关注医学生物学动态。