维普资讯
复里亏提(医学版)F dn u a Unv J i Me si d c 19 6
乳腺癌基因芯片数据分析蒋锋峻定高赵耐 青(复旦大学公共卫生学院卫生统计与社会医学教研室上海 203 ) 0 0 2
【摘要】目的以乳腺癌病人的表达谱芯片数据为基础, 探寻乳腺癌复发的相关基因。方法对标化芯片数据进行缺失值处理后,分别用单因素 C X回归模型和综合了聚类及多因素 C X回归的综合法来筛选兴趣基因, O O 然后通过兴趣基因对病人做样品聚类,以灵敏度、特异度、约登指数和 K pa . i法评价分类效果,后结合 a l Me r n e最文献和蛋白质数据库探寻乳腺癌复发的相关基因。结果出的 1 5个 P<0 0 1的基因预测效果最差。结论 .0为进一步的生物学研究提供待选基因。
综合法筛出的 3 O个 P<0 0, 1的基因对乳腺癌病人复
发状况的预测效果最佳;因素 C X回归筛出的 1 2个 P<0 0单 O 0, 1的基因的预测效果较差;因素 C X回归筛单 0综合法筛选得到的 3 O个基因可用来评价病人的预后状况,
【关键词】乳腺癌;基因芯片;聚类分析; C X回归模型 O 【中国图书馆分类法分类号】 R 779 022 1 3 ., 1,
M ir a r y Da a An l ssf rBr a tCa c r c o r a t a y i o e s n e
JANG D n— n, AO J n Z AO Na qn I igf g G u, H i ig e—( eat e tfHel ttt s n oil d c e d o u l at F d nU i ri h nh i 0 0 2 C ia D p rm n o a t S ii d Sc i n,S m lfP bi Hel h a sca a Me i o c h, ua nv syS a g a 0 3, kn ) e t 2
【 bt c】 P ro T uy h ras ra d ee bs n pe i ol o r s c . A s at ups os d ee pe e t ns a d n ee xr s n r i f mbe ta r e t t l - le g e o g e so p f s r e a nc r ai t wi iee t l i l ucme . M eh d F rt, nv r t OX ges nmo e wa sd e t n s t df r
n i c to s p e h f cn ao to s i l u iai eC sy a r rsi d l sue e o t n ls h co ra aa t eette p tn i e e . eo dy a ne rt to o oe f oa ayi temirary d t O sl h oe t g n S c n l, n itg ae meh c mp sd o s c l a s d d c se dmut ait O l tra li r e 0X n y iwa l ri u, e men lse to s p l dt ls u n v a a a s s s c r o tTh nK— a sc tr l s ao a e d u meh wa pi c— d a e O as y t e r l s i ain o a i t . e s i i, p cf i, u e’ n e d Ka ln M ee n l s r i h ea e s u t fp t n s S n i vt s e i ct Yo d n Si d x a p a i a ay i we e f p t o e t y i y n r s
ue Oe au t h e e lce ydf rn to s Reut Th 0g n ( sd t v aet e n s et b i ee t l g se d f meh, d sl s e3 e e P<0. 1 sl t yte s 0 )e ce b h e ditgae to rome e t e rdcig te rlp i aino ains Th 0 e e (< 0 ne rtdmeh p f r db s d e wh np e it h ea s s u t fp t t, e1 2 g n P n e t o e s .
0 ) yu i r t C X a a s r r dw lwhete1 ee( 1 b n ai e O n yip f me e i h 5gn P<0 0 1 b nvr t C X aa s v a l s o e l l s .0 )yu i ieO l i aa n yse f me wos, p r r d rt o C n lso s Th 0 g n eet y te itg ae to, s ei l h e e o cu in e 3 e e slce b h ne t meh s d r d d ep ca y te g n l s whc r s i e u yteoh rt t o s aewo tyo rh r x e me t t&e8ter ut i weea opc d o t te
womeh h l k b h d,r rh f u te p r n s oa ss h e lS f e i so i o ra . f c a r y m r
【 e w r】 be tac; m c a a; c s r n yi C xr r s n oe Ky o s r sc e d a n r ior y l t a s; O ge i d l r r u e al s e so m
乳腺癌是西方女性的高发肿瘤。在我国发病率
系统研究乳腺癌预后的相关基因提供了技术保证, 从而成为乳腺癌研究领域的一种常规技术。如何对芯片产生的海量数据进行分析,获得以
也逐年升高,其在京、、等沿海发达地区,中尤津沪其以上海最高,9 7年发病率为 4/0万,女性恶 19 91居性肿瘤的首位…。 目前具有相同症状及病理类型的患者经过相同治疗后,预后上存在极大差别。这说明当前乳腺在
有效的生物学信息来指导后续研究是乳腺癌研究的重点和难点。我们利用 C rts hio等 j供的数据, s提 综合运用聚类和 C X回归模型两种方法来筛选乳 O腺癌复发的相关基因。为了克服多重比较导致假阳性增大的危险,研究对 P值进行了控制。该芯片本数据包括 9 9个病人的乳腺癌样品的 7 5 60个探针,
癌的分类标准有待提高,时提示病人内在的基因同表达对病人的预后具有重要意义。基因芯片能同时
检测数千个基因的表达,了解病人特异的表达谱,为通讯作者 E ma: qh o h d n in z a@smu e u c l
维普资讯
10 7
复旦学报 (医学版 ) 2 0 0 5年 3月,2 2 3 ()
其数据矩阵为 9 9×760并且已知 9 5, 9个病人的其他信息如复发与否、发时间和失访时间等。复
由表 1~3可见以 3为指标作分类,女其预测效果最佳、 2次之, , y1最差。表 1 Y 1为指标聚类后结果
材料和方法缺失值的处理对缺失少于 13的标化探针数/据(即至少有 6 6个病人有该探针数据 ) 745个共 7探针进行缺失值处理。74 5个探针中 44 4个无 7 0
Ta Cls e e u t y Y l b1 u
tr r s lsb iT h p e i d st t s oft e p t e ts e r d e ct a u h a in. . . . . . . . . . . . . . . . . . . . . . . .——
.
. .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
—
—
Th e l t tso t n era a u f i t s a p es
N trlpe o ea s:rl tr1 1 P 1
Re pe l s: ar tr2 1sP 1 l 1 1
S n,r ̄
No das: t r pe0Rea s: lpe 1
4 3
5 4
1 96 2
2 63 7
4 59 9
任何缺失,其他 30 1个则有不同程度的缺失。而 7 将30 1探针分别作为应变量, 0 7个 444个探针为待选自变量,用 S利 AS软件用多元逐步回归法填充缺失值,采用前进法,选标准 a=0 0 1控制模型变人 .0,量个数。
S niv y (5 cni c i e a es i t 9% o f e en r 1 ti d tv ) n S eic y( 5 cni c it v1 pc i t 9% o d e ne a fi f e r ) nY u e’ n e od n Sid x
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新人文社科乳腺癌基因芯片数据分析全文阅读和word下载服务。
相关推荐: