类型预测
使用一个数据集,其中包含已知样本,创建一个模型
(也称为 类预测 or 量词)
可以用来预测未知样本的类.
单击所需的算法
- 决策树 (Breiman et al .,1984) 构建 Classification And R外出 T雷斯.
它是通过递归分割
特征空间为一组非重叠区域,然后预测
最可能的因变量的值在每个地区. A
分类或回归树代表一组嵌套的if - then条件
用于预测分类(或连续依赖)变量的依赖
基于特征变量的观测 值。车很容易受到 过度拟合,因此不常用的微阵列数据.
- K-nearest-neighbors(法) 将一个未知样本分配
其表型标签最频繁在k最近表示
已知样本(Golub和Slonim et al .,1999)。在GenePattern,分析师可以
选择一个权重因子的“选票”最近的邻居。例如,一个
可能选票分量之间的距离的倒数的邻居。
- 概率神经网络(对) 计算的概率
一个未知样本属于一个给定的一组已知表型类
(陆et al .,2005;Specht,1990)。每个已知样本的贡献 未知的表型类示例遵循一个高斯分布。
对可以视为Gaussian-weighted法分类器——已知的样本
接近未知样本对预测类有更大的影响力
未知的样本.
对不是GenePattern公共服务器上. 对模块需要Windows操作系统。使用对GenePattern服务器和安装Windows机器上对模块.
- 支持向量机(SVM) 是专为多个类分类
(里夫金et al .,2003)。创建一个二进制算法支持向量机分类器 通过计算每个类分离的最大利润超平面 给定类的所有其他类;也就是说,最大的超平面 距离最近的数据点。然后二元分类器 结合 成一个多级classfier。对于一个未知的示例,指定的类 是最大的利润.
- 加权表决 (Slonim et al .,2000)将一个未知样本 使用一个简单的加权投票方案. 每个基因的分类器“投票” 表型类未知的样本。一个基因的投票权重 通过它的表达与区分 表型类的训练数据集.
参考文献
Breiman,L。弗里德曼,j . H.、Olshen r.,和石头,c . j . 1984. 分类和回归树.沃兹沃思,布鲁克斯/科尔先进 书籍、软件、蒙特利CA
Golub,顶替Slonim,位Tamayo,P.、Huard C.、Gaasenbeek M.、Mesirov大通科勒,H.Loh,M.唐宁,jrCaligiuri,硕士布卢姆菲尔德,西里尔·戴彼第1999年,着陆器,静电的.癌症的分子分类:类发现和预测的基因表达.科学286:531 - 537.
陆,J.男孩旁边,G.Miska,电子艺界、Alvarez-Saavedra E.、羊肉、J.派克,D.Sweet-Cordero,.艾伯特,文学士Mak,相对湿度Ferrando,.唐宁,jr杰克,T.霍维茨,H.R.2005年,Golub顶替.微rna表达档案分类人类癌症.自然435:834 - 838
里夫金,R.穆克吉,年代.Tamayo,P.、Ramaswamy年代.,从Yeang安吉洛,M.帝国,M.小山,T.着陆器,静电的Golub,顶替、Mesirov大通2003.多级分子癌症分类的分析方法.暹罗审查45(4):706 - 723.
Slonim,位Tamayo,P.、Mesirov大通Golub,顶替2000年登陆,静电的.类使用基因表达数据预测和发现.在第四届国际会议的程序计算分子生物学(RECOMB).ACM出版社,纽约.263 - 263页
Specht,d . f . 1990.概率神经网络.神经网络3(1):109 - 118.爱思唯尔的科学有限公司,圣路易.