· 返回首页 · 联系我们 · English
 
 
     
 
教学科研
 科研论文
 教材专著
 能力测试
 科研活动
 
基因芯片研究组 2005-4-2

第二军医大学卫生统计学教研室基因芯片数据分析研究组成立于2002年,是一个专门从事基因芯片数据分析的学术团体,由统计学、数学和计算机专业人才组成。本研究组欢迎与各科研机构进行合作研究。
  贺
  佳:021-25070418hejia63@yahoo.comhejia@smmu.edu.cn
  贺宪民021-25070419hxmine@hotmail.com
  吴  75125(内线),wucheng_wu@sina.com
  孙亚林:75125(内线),swinel@soho.com

  
随着人类基因组计划的发展,编码人类全部染色体的约3-4万条基因被发现,人类基因组计划由此进入后基因组时代,研究重点由发现基因转向探索基因的功能,由此产生了用于基因功能分析的新技术和新方法。生物芯片技术是20世纪90年代发展起来的一项前沿生物技术(基因芯片是生物芯片中发展最早和最成熟的技术),它从根本上改变了生物学和生物技术的观念和效率。生物学中大规模、高通量处理技术的出现也对数据的分析信息的提取提出新的挑战,如微阵列数据的标准化,样本和基因间距离的度量,差异表达基因的检测以及样本和基因的分类(包括监督和非监督算法)等。
  
研究组主要研究内容包括:
  
1.数据的标准化方法
  
1)常见序列内和序列间的偏倚处理方法,如“看家基因”法,总值归一化法,中值归一化法,均值归一化法,参照样本归一化法。
  
2)强度依存偏倚的处理,如局部加权回归方法(LOWESS, locally weighted linear regression analysis)和数据变换法。
  
3)空间偏倚的处理,如分组标准化法。
  
2.差异表达基因的检测方法
  
使用基于随机方差模型的t检验和F检验的方法。
  
3.微阵列数据的分类分析方法
  
3.1非监督算法
  (
1)系统聚类(Hierarchical Clustering)包括凝聚法(Agglomerative Approach)和分裂法(Divisive Approach
  (
2)分割聚类(Partitioning Clustering)包括k-means法和k-medoids
  
3)自组织图(SOMSelf-Organizing Maps
  4)模糊聚类(Fuzzy Clustering
  
5)主成分分析(PCAprincipal component analysis
  
6)多维标度分析(MDSmulti-dimensional scaling analysis
  
3.2 监督算法
  
1)判别分析(Discriminant Analysis
  
2k最临近分类法(k-Nearest Neighbor Classifiers
  
3)分类树算法(Classification Tree Algorithm
  
4SVMsSupport Vector Machines
  
5)人工神经网络(ANNsArtificial Neural Networks
  
6)贝叶斯分类和贝叶斯网络(Bayesian Classification and Bayesian networks
  
4.分类方法性能的评价
  
1)精确性评价,如留取(Holdout Method)和交叉验证(Cross-validation)方法
  
2)稳健性评价,如扰动法
  
3)模型的计算速度
  
4)数据量变化时的可伸缩性
  
5)结果的可解释性
  附件:
  
1.实例分析
  
1)基本数据(图1-图3)。
  
2)高表达基因和低表达基因的图示(图4)。
  
3)差异表达基因的检测(部分,表1)。
  
4)基因聚类(图5)。
  
5)样本聚类(图6)。
  
6)分两类时基因在各样本的平均表达水平(图7-图8)。
  
7)基因表达图谱(压缩,图9


  图1  基本数据-experiment descriptor                                               2  基本数据-filter log ratio


  图3  基本数据-gene identifier                                                              4  散点图示高低表达基

1  差异表达基因的检测(部分)

 

Parametric p-value

Geom mean of ratios in class 1 : Cell-line

Geom mean of ratios in class 2 : Tissue

Fold difference of geom means

Unique id

Clone

GB acc

1

3.1e-06

0.736

13.185

0.056

6105

289600

"N76738, N59268"

2

6.2e-06

1.023

3.247

0.315

4241

377671

"AA056036, AA055979"

3

6.9e-06

0.94

3.732

0.252

8696

298590

"W04362, N74271"

4

8.2e-06

0.979

12.463

0.079

476

162772

"H27638, H27557"

5

8.4e-06

1.327

10.749

0.123

5057

62165

T41107

6

1.38e-05

1.349

0.361

3.737

9304

415570

"W78806, W80705"

7

1.52e-05

0.911

0.356

2.559

7304

488677

"AA045955, AA045776"

8

2.23e-05

0.601

1.617

0.372

8926

345032

"W76319, W72293"

9

2.53e-05

1.284

0.334

3.844

9260

380574

"AA053877, AA054221"

10

2.96e-05

0.924

0.456

2.026

7322

488963

"AA056934, AA045539"

11

3.87e-05

0.856

76.689

0.011

8335

241204

H91475

12

3.89e-05

1.286

18.265

0.07

9462

429925

"AA033869, AA034057"

13

4.11e-05

1.005

0.497

2.022

1441

345600

"W76387, W72015"

14

4.27e-05

0.775

0.097

7.99

4837

488785

"AA046172, AA046046"

15

4.36e-05

1.253

30.646

0.041

3902

343328

"W68070, W67447"

16

4.91e-05

1.171

0.323

3.625

6088

287569

"N78351, N62122"

17

5.04e-05

1.238

41.425

0.03

1154

293298

"N92095, N64851"

18

5.3e-05

1.512

0.695

2.176

192

120707

T95670

19

5.39e-05

0.93

16.981

0.055

5105

79444

"T60017, T59946"

20

5.95e-05

1.054

8.295

0.127

4015

358129

"W95318, W94583"


  图5  基因聚类                             6  样品聚类


  图7  两类基因在各样本上的平均表达图谱        8  两类基因在各样本上的平均表达水平

  
9  基因表达图谱(压缩)
  2.基因芯片数据分析综述
  
1)微阵列数据中常用的分类分析方法
  (
2cDNA微阵列数据处理中常用的统计分析方法

 
     
 
 
  数字资源 | 友情链接 | 联系我们
 
COPYRIGHT © 2006-2010 第二军医大学卫生统计学教研室 hejia@smmu.edu.cn
地址:上海市翔殷路800号 邮编:200433 电话:021-81871441
 
技术支持:网络信息中心