类型预测

使用一个数据集,其中包含已知样本,创建一个模型 (也称为 类预测 or 量词) 可以用来预测未知样本的类.

单击所需的算法

决策树 　(Breiman et al .,1984) 　　构建 Classification And R外出 T雷斯. 它是通过递归分割特征空间为一组非重叠区域,然后预测最可能的因变量的值在每个地区. A 分类或回归树代表一组嵌套的if - then条件用于预测分类(或连续依赖)变量的依赖基于特征变量的观测　　值。车很容易受到　　过度拟合,因此不常用的微阵列数据.
K-nearest-neighbors(法) 将一个未知样本分配其表型标签最频繁在k最近表示已知样本(Golub和Slonim et al .,1999)。在GenePattern,分析师可以选择一个权重因子的“选票”最近的邻居。例如,一个可能选票分量之间的距离的倒数的邻居。
概率神经网络(对) 计算的概率一个未知样本属于一个给定的一组已知表型类　　(陆et al .,2005;Specht,1990)。每个已知样本的贡献　　未知的表型类示例遵循一个高斯分布。对可以视为Gaussian-weighted法分类器——已知的样本接近未知样本对预测类有更大的影响力未知的样本.

对不是GenePattern公共服务器上. 对模块需要Windows操作系统。使用对GenePattern服务器和安装Windows机器上对模块.
支持向量机(SVM) 是专为多个类分类　　(里夫金et al .,2003)。创建一个二进制算法支持向量机分类器　　通过计算每个类分离的最大利润超平面　　给定类的所有其他类;也就是说,最大的超平面　　距离最近的数据点。然后二元分类器　　结合　　成一个多级classfier。对于一个未知的示例,指定的类　　是最大的利润.
加权表决 　(Slonim et al .,2000)将一个未知样本　　使用一个简单的加权投票方案. 每个基因的分类器“投票” 　　表型类未知的样本。一个基因的投票权重　　通过它的表达与区分　　表型类的训练数据集.

参考文献

　　Breiman,L。弗里德曼,j . H.、Olshen r.,和石头,c . j . 1984.　　分类和回归树.沃兹沃思,布鲁克斯/科尔先进　　书籍、软件、蒙特利CA

Golub,顶替Slonim,位Tamayo,P.、Huard C.、Gaasenbeek M.、Mesirov大通科勒,H.Loh,M.唐宁,jrCaligiuri,硕士布卢姆菲尔德,西里尔·戴彼第1999年,着陆器,静电的.癌症的分子分类:类发现和预测的基因表达.科学286:531 - 537.

陆,J.男孩旁边,G.Miska,电子艺界、Alvarez-Saavedra E.、羊肉、J.派克,D.Sweet-Cordero,.艾伯特,文学士Mak,相对湿度Ferrando,.唐宁,jr杰克,T.霍维茨,H.R.2005年,Golub顶替.微rna表达档案分类人类癌症.自然435:834 - 838

里夫金,R.穆克吉,年代.Tamayo,P.、Ramaswamy年代.,从Yeang安吉洛,M.帝国,M.小山,T.着陆器,静电的Golub,顶替、Mesirov大通2003.多级分子癌症分类的分析方法.暹罗审查45(4):706 - 723.

Slonim,位Tamayo,P.、Mesirov大通Golub,顶替2000年登陆,静电的.类使用基因表达数据预测和发现.在第四届国际会议的程序计算分子生物学(RECOMB).ACM出版社,纽约.263 - 263页

Specht,d . f . 1990.概率神经网络.神经网络3(1):109 - 118.爱思唯尔的科学有限公司,圣路易.