暂时没有内容信息显示
请先在网站后台添加数据记录。
搜索

版权所有:上海四叶草罕见病家庭关爱中心          备案号: 沪ICP备18002607号           网站建设:中企动力北二分

武田

编号
关键字

奕真生物

编号
关键字

络仁

编号
关键字

赛诺菲

编号
关键字

爱可泰隆

编号
关键字

合作方:

Tel: 16621798075         E-mail:public@cord.org.cn

ICORD

编号
关键字

罕见病联盟

编号
关键字

微公益

编号
关键字

滴滴公益

编号
关键字

国家儿童医学中心

编号
关键字

资助方:

业务

郭一然:罕见单基因病的NGS数据分析与变异解读

分类:
国际罕日
浏览量
【摘要】:
在2017年2月28日——第十届国际罕见病日到来之际,罕见病发展中心(CORD)作为国际罕见病日中国区官方合作伙伴,特别推出罕见病日专稿系列。这些文章的作者有医学专家、医药企业负责人、基因检测公司、患者组织等利益相关方,通过这些专家老师各自独特的视角,带我们走进“罕见的世界”。今天,为大家带来的是美国费城儿童医院研究科学家郭一然老师的文章。

编者按:

在2017年2月28日——第十届国际罕见病日到来之际,罕见病发展中心(CORD)作为国际罕见病日中国区官方合作伙伴,特别推出罕见病日专稿系列。这些文章的作者有医学专家、医药企业负责人、基因检测公司、患者组织等利益相关方,通过这些专家老师各自独特的视角,带我们走进“罕见的世界”。今天,为大家带来的是美国费城儿童医院研究科学家郭一然老师的文章。

------------------------

 

 

郭一然,费城儿童医院研究科学家,资深人类遗传学、医学遗传学及生物信息分析专家,攻读博士期间曾以主要成员或负责人的身份参与了多个基因组课题,包括炎黄一号、蚕类基因组、大熊猫基因组及丹麦200人外显子项目等。在费城儿童医院应用基因组学中心接受博士后培训期间,主要工作是独立开发基于海量样本的遗传关联分析流程,在此基础上对人类复杂性状与疾病进行研究,鉴定出多个显著相关基因。随后作为的助理研究员以及研究科学家,主要负责“千种罕见遗传疾病测序计划”,并鉴定ACD、MRPS7、TUBB4A等多个与罕见单基因病相关的新基因,发表文章50余篇。获得多项奖励,包括Davis基金会16万5千美元资助,进行神经性厌食症的遗传学研究。

5年前的我从未意识到,科研与临床间的区别竟然如此之大;5年的从业经验也让我体会到,至少在罕见病诊断领域,科研与临床间的鸿沟在快速缩小。罕见病给科研与临床的碰撞创造了绝佳的机会,各领域专家汇集到一起经常迸发出思想的火花。我从博士研究生阶段开始进行基因组学、遗传学和生物信息学科研工作,10年间逐渐形成了自己的思维框架与工作模式。

近几年与临床医生沟通后,我对临床工作的初步印象是,它最接近患者的现实世界,需要严格遵循专家共识与操作规范,并把安全性、可靠性与及时性放在最重要的位置。生命科学研究则着重探索与创新,并且随着近些年相关学科的发展,也越来越鼓励跳出已有框架:“跨界”。再者,科研的时效性虽然较强,但某些项目由于种种原因可能会需要不停地排错,战线拉的比较长,还可能需要返工----把之前几天、几周甚至几个月的结果推翻,重新来过。

以罕见病的遗传诊断为例,一方面,我们很可能需要借助科研领域最新的理论与技术开展工作,因为随着检测技术的快速迭代,每个月都有新的致病基因被鉴定出来,而且OMIM6(在线人类孟德尔遗传数据库)更是每天都有更新。另一方面,这些科研发现是否具有广泛的、可靠的临床意义,是医生们、也是患者们最关心的问题。

2015年初的时候,在工作中比较困扰我的一个问题是,大部分罕见病家系都较小(当然,再小的家系也比单一患者的“孤例”容易分析),而且通过全外显子组测序(WES)、对照某个基因-疾病数据库(如HGMD7目前最新的2016年第4季度专业版)后,如果已知致病基因内未发现突变,那么该家系就有可能会成为暂时的“悬案”:即明明强烈怀疑这是罕见单基因病,但我们就是无法找到致病基因突变。

对这种家系,根据一系列规则与条件,例如由计算变异特征得出、根据生物学功能实验推断、以及借助群体遗传学频率信息估计,通常情况下我们能找出一个候选遗传变异列表,即致病突变有可能存在于这个列表中。接下来如何确定这个列表中的每个变异是否具有致病性8、是否可以导致该疾病,就成为很棘手的问题:我们可以查阅文献推测基因功能及其与疾病的关联关系,但出于成本考虑,无论是干实验(如蛋白质突变的计算机模拟)还是湿实验(体外模型、模式生物等等生物学功能表征)都不可能立刻展开。

2015年3月,我正好参加了美国医学遗传学与基因组学会ACMG9在美国犹他州盐湖城举办的年度临床遗传学大会10(AMCG),其中一个报告吸引了我的注意:贝勒-霍普金斯孟德尔基因组学中心建立的GeneMatcher11(基因配对网),致力于链接全世界对相同基因感兴趣的临床医生与科研人员。

GeneMatcher的一种最简化应用是,将上文说到的基因列表全部输入,如果此前也有人输入过相同的一个或几个基因,那么GeneMatcher就会通过电子邮件告诉我对方的联系信息,便于彼此合作。这个功能看似简单但却可以解决许多实际问题,特别是当某个科研实验室专门研究某种基因/蛋白的功能但缺乏临床数据支持,而某个医生在病人的基因组数据里发现了这个基因上的变异但缺乏对其功能的了解时,GeneMatcher就可以将此二者真正地链接起来。

这无论对罕见病的诊断、对科研成果的发表、还是对后期潜在治疗方法或药物的开发都具有十分重要的意义。另外一种情况是,多个实验室同时在某种罕见病中发现了某个基因或某些彼此相关基因里的变异,大家可以通过GeneMatcher汇集病例,从而提高研究结果的可信度与文章发表的可能性及影响力。

此后出现的Matchmaker Exchange12更是将GeneMatcher及全球另外6个具有相似功能的数据库全部纳入其中(称为“会员组织”),并部分采用7个额外数据库的内容(称为“参与单位”),形成可以互相访问的网络并实现数据共享。

 

图片来自http://www.matchmakerexchange.org/

 

在本职工作之余,近两年我还参与了一些中国的罕见病相关工作。2015年底,随着媒体上围绕“林林”病情所展开的讨论13,罕见病逐渐进入公众视野,我也有幸参与了部分数据分析工作。几乎同时,由多方聚力、北京中日友好医院顾卫红教授担任总协调人的“中文人类表型标准用语联盟”CHPO14成立。HPO旨在为人类疾病中出现的表型异常提供标准化的词汇表,并为今后的精准医学及基因诊断的智能化、自动化奠定基础15。

作为HPO中文化版本的CHPO则对中国的罕见病事业及精准医疗战略都具有非凡的意义,而我也有幸在CHPO项目中负责翻译一部分头或颈部的异常。2016年底,“遗传诊断大师”微信群成立,我先加入其中,后来成为群主。该群由全国各地乃至全世界的遗传学、医学专业人士组成,旨在交流遗传诊断、遗传咨询以及临床遗传学方面的信息与业界最新进展,并经常有专业的罕见病、遗传病病例讨论,以及会议、报告的实时直播。

下面,结合最近几年的体会,我打算提出几个与罕见病相关的议题,供大家思考、探讨。

1.     罕见病、单基因病、孟德尔病、罕见单基因病、遗传病。

这几个概念之间既有联系,又有区别;经常替换使用,又容易造成混淆。罕见病,顾名思义,在人群中应该不常见。但究竟罕见到什么程度,各国、各机构定义不同16。单基因病则通常由单个基因中的突变导致(染色体畸变是否属于此类疾病?)。孟德尔病,遵从等位基因分离的孟德尔遗传规律的疾病(也包括CNV、结构变异、乃至染色体畸变)。罕见单基因病,既罕见,又由单个基因的突变导致(是否存在罕见的多基因/多因素疾病?是否存在常见的单基因病?)。遗传病,即遗传因素在致病机理中占据主导地位(二型糖尿病、心脑血管疾病等家族聚集性较强的复杂常见病算不算遗传病?)线粒体疾病、受到遗传印记和动态突变影响的疾病又该如何归类?

2.     基因检测技术的现状以及未来发展。

基因检测极大地推动了罕见病的准确诊断。而在基因检测的上游,从一代测序(Sanger),二代测序(NGS17),到三代测序(以PacBio为代表18),再到四代测序(纳米孔等),我们在最近40年中经历了世界科技史上屈指可数的超摩尔定律发展阶段。DNA序列的读取越来越快、越来越准,所需成本也越来越低:华大发布BGI SEQ19,Illumina发布NovaSeq20,PacBio发布Sequel21,Oxford Nanopore/MiniIon22便携测序仪等蓄势待发就是明证。然而,至少在目前,Sanger方法仍然是验证基因组变异的金标准,而基因芯片/微阵列等“传统”技术也仍然在基因检测领域占有一席之地。二代、三代甚至四代的高分辨率技术是否会在未来取代这些传统技术?将新技术推广到临床应用会面对哪些挑战?

3.     数据分析与变异解读。

伴随高分辨率基因检测新技术而来的,是数据分析与变异解读方面的新情况,机遇与挑战并存。测序产生的海量基因组数据已经使得不少临床医生望而却步,基因组变异的致病性确认也越来越需要邀请专业“遗传解读师”的参与。最近,由世界最大出版社“施普林格-自然”出版、上海复旦大学王向东教授等主编的新书《临床生物信息学应用》23就在这方面有详细阐述。在全世界范围内,目前基于WES的罕见单基因病遗传诊断率总体上不超过40%,即一半多的病例仍属于“悬案”。另有研究指出,定期对这些悬案进行重新分析,可以将诊断率提高10个百分点24。

可以想见,随着基因组测序数据的积累以及生物学功能研究的发展,越来越多的基因被赋予生理/病理功能,而这些基因中的变异也就越来越多地与特定疾病联系起来。既然如此,那么患者/消费者及医疗机构以外的第三方检测机构是否可以推出这样的服务,对已经测序但暂时没有定论的病例,特别是带有致病性不明的突变(VOUS)的病例,承诺提供有限或无限的更新解读?这里面存在很多需要考虑的问题,比如遗传诊断具有时效性(经由产前诊断发现的严重遗传病很可能会导致人为的妊娠终止)。

再比如,某些报道出来的科研进展并不一定可靠,而根据不可靠的文献进行遗传咨询、变异解读则是很危险的。我们可以考虑这样的情况,发表文章时(通常是大规模测序计划开始以前的上世纪90年代或更早)作者在某种疾病D中发现了某个基因变异V,并且在某个控制组C(健康人群)中没有发现该变异,于是将V报道为与D相关或导致D发生。然而在近几年才建立起的大规模基因组数据库(如ExAC25/gnomAD26)中搜索后我们发现,V在某地区,如东亚国家的普通人群中的频率(如0.1%)显著高于D的发病率(如0.001%),因此V很可能不是导致D的变异。

究其原因,有可能是当时的控制组C样本量不够(目前的ExAC已经达到6万人级别),也有可能是实验条件不足所导致的“假阳性”,即报道中的患者并不携带变异V。另一种科研报道不可靠的来源是,文献出版界于21世纪初兴起的开放获取27(open access)潮流在客观上催生出一些低质量科学、医学期刊,阅读文献的时候一定要仔细甄别。

在不远的未来,生命科学大数据(基因组、基因表达及转录组、表观基因组、代谢组、宏基因组及微生物组、蛋白质组等)、人工智能/统计学习(经由大规模数据共享而实现;从简单的分类器到类似阿尔法狗、IBM Watson的深度学习)、电子医疗/健康档案(表型规范化,HPO/CHPO等)、生物医药背景知识等都将有机聚合,形成真正的个体化精准医学(Alphabet、微软、苹果、阿里、百度、腾讯等IT巨头都不约而同地瞄准了这个领域,其中也包括中国的碳云智能)。

2017年2月2日的《自然》杂志更是刊登了美国斯坦福大学研究人员撰写的一篇论文,我个人认为标题可以翻译为“深度神经网络在皮肤癌分类方面已经达到皮肤病专家的水平”28。人工智能的表现拥有足够多的数据以后,人工智能最终是否可以取代病理师,甚至取代医生?具体到罕见病基因诊断方面,计算机最终是否能够取代遗传诊断师?

4.     新技术的作用阶段:婚前、孕前、着床前、产前、新生儿。

近年来生物医学领域的新技术层出不穷,对罕见病而言,中国的华大基因、贝瑞和康、嘉宝仁和、百迈客等机构已经逐步在实现:在婚前和孕前为患者或家属提供咨询、制定方案、评估风险;着床前(PGS/PGD及辅助生殖技术)和产前(NIPT等非侵入性技术)对遗传病提供更有效地监控;新生儿阶段的筛查则为早检测、早发现、早治疗提供可能,也为以后的疾病管理提供分子遗传学基础。在其中的某个阶段,在生物医学伦理规范的框架下,是否可以使用基因编辑(CRISPR)手段人为地降低罕见病的发病可能性?(2017年2月14日,美国国家科学院NAS与美国国家医学院NAM联合撰写报告,允许在严格的监管下对严重疾病患者的生殖系细胞或早期胚胎细胞利用基因编辑手段开展临床试验29)

5.     罕见病在世界,罕见病在中国。

在日常工作中以及罕见病相关的微信群里,我经常能体会到这个领域的国际交流愈发频繁,特别是经过类似GeneMatcher11的配对,世界各地的研究人员和临床医生能够站在相同的平台上进行合作。OMIM6、HGMD7、GeneReviews30等基因-疾病关联数据库、美国纽约哥伦比亚大学教授/北京希望组首席科学家王凯博士及团队31编写的AnnoVar32/Phenolyzer33/InterVar34等遗传变异分析软件等也是全世界通用。

同时,在罕见病方面,中国也有自己的国情。在以中国国家罕见病注册系统35为代表的政府动议项目、以中国罕见病发展中心1为代表的罕见病公益团体与病友组织、以北京协和医学院黄尚志教授为代表的医学遗传学临床与科研精英们、以华大基因下属分支和众多“华创”为代表的第三方临床检验机构,以及广大医务工作者的共同努力下,社会公众已经对罕见病不再陌生。如何进一步推动罕见病科学普及,如何构建当前形势下的遗传咨询培训体系,如何完善罕见病伦理规范并实现立法36,如果规范基因检测和遗传诊断市场,如何建立中国人特有的遗传变异谱(囊获尽可能多的中国人基因组数据37,类似于ExAC25/gnomAD26),如何更高效地引进孤儿药,如何设计与罕见病相关的医疗保障制度等等,都是值得深入研究的问题。

在罕见病、遗传病事业方面,中国更具有独特的优势。中国经济水平的快速提升,使得近年来基因检测及相关领域倍受资本青睐。在人才方面,中国有本土培养的医学遗传学专家学者、留学归来报效祖国的精英、还有借助国家资助被派往全球的优秀中青年访问学者群体。中国人口基数大、罕见病例多,这也为医学遗传学科研提供了宝贵的样本资源。

几个小时前我观看了在苏州举行的中国遗传学会遗传咨询分会2017年会的微信视频直播,其中包含许多罕见病事业相关的内容。包括中国科学院院士、上海交通大学贺林教授、美国辛辛那提儿童医院黄涛生教授、美国哈佛大学沈亦平教授在内的多位大咖进行了精彩的演讲与讨论。

贺林院士提到利用互联网/移动端平台等操作模式进行遗传变异解读交流/交易,以及“中国优先”。在罕见病和医学遗传学方面,中国过去落后于世界先进水平,随后奋起直追,并通过举办遗传咨询短期培训班、汉化英语资源(CHPO14、ACMG变异解读指南8、GeneReviews30等)的过程快速提升了相关人员的整体水平。希望在不久的将来,中国能参与相关国际通用标准的制定、国际通用数据库的共管38,最终建立自己的标准、指南、体系、数据库,并推广到全球。

本领域发展速度过快,每天都有新的动向,因此本文也是几经修改、争取能够包含尽量多的最新内容。虽然如此,以上仍只是我的一家之言,难免偏颇。欢迎大家批评指正,谢谢!

 

注释及参考文献(所有网页均在2017年2月18日访问可用)

1.  http://www.hanjianbing.org/(中国罕见病发展中心官方网站)

2. http://www.chop.edu/(美国费城儿童医院官方网站)

3. http://caglab.org/(美国费城儿童医院应用基因组学中心官方网站)

4.http://www.research.chop.edu/chop-research-institute-publications/press-releases/childrens-hospital-philadelphia-and-bgi-announce

5.http://www.ncbi.nlm.nih.gov/sites/myncbi/1Fa6eeFrrmf/bibliography/41433298/public/?sort=date&direction=descending(PubMed上我个人的发表文章列表)

6. http://omim.org/(由美国约翰·霍普金斯大学运营的在线人类孟德尔遗传数据库,包括权威的基因-单基因疾病联系信息,每日更新)

7.     http://www.hgmd.org/(生命科学公司Qiagen旗下、由英国Cardiff大学维护的人类遗传疾病基因突变数据库,每季度更新)

8.     2015年,美国医学遗传学与基因组学会ACMG联合分子病理学会AMP在GeneticsIn Medicine上专门发表了基因组序列变异的解读标准与指南,免费全文见http://www.nature.com/gim/journal/v17/n5/full/gim201530a.html;中国解放军总医院王秋菊教授团队等也已经获得原版授权,并且目前已经接近完成中文版的翻译工作,具体见http://acmg.cbgc.org.cn/。关于基因组序列变异的解读,此处可以展开成一篇独立的文章

9.  http://www.acmg.net/(美国医学遗传学与基因组学的行业协会)

10.  http://ww4.aievolution.com/acm1501/index.cfm?do=cnt.page&pg=1018

11.   http://genematcher.org/

12.   http://www.matchmakerexchange.org/

13.   http://www.229andme.com/article/719

14.   http://www.chinahpo.org/;在非英语国家里,中国是第一个100%完成HPO翻译工作的国家

 15.  http://human-phenotype-ontology.github.io/

16.美国在2002年通过的罕见病法案中将罕见病定义为美国总人口中患病人数少于20万人,或每1500人中患病者不超过1人的疾病http://www.gpo.gov/fdsys/pkg/PLAW-107publ280/html/PLAW-107publ280.htm;欧盟则在2004年将罕见病定义为每1万人中不超过5人罹患且威胁生命或慢性致残的疾病http://ec.europa.eu/health/ph_information/documents/ev20040705_rd05_en.pdf据笔者所知,到目前为止中国尚未对罕见病进行官方定义,但在2016年9月23日的“2016年第五届中国罕见病高峰论坛”上,罕见病发展中心(CORD)主任黄如方先生作为主办方代表在开幕式上正式发布《中国罕见病参考名录》,其中包括147种罕见病http://www.hanjianbing.org/content/details_12_3240.html

17. http://www.seq500.com/portal/hot/ngs.shtml

18. http://www.grandomics.com/blog/?id=29

19.http://www.genomeweb.com/sequencing/bgi-launches-new-desktop-sequencer-china-registers-larger-version-cfda

20. http://www.genomeweb.com/sequencing/illumina-unveils-new-high-throughput-sequencing-instrument-jp-morgan

21. http://www.genomeweb.com/business-news/pacbio-launches-higher-throughput-lower-cost-single-molecule-sequencing-system

22.http://www.genomeweb.com/sequencing/uk-dutch-teams-sequence-human-genomes-oxford-nanopores-minion

23.  http://www.springer.com/us/book/9789401775410

24.科研论文见http://www.nature.com/gim/journal/v19/n2/abs/gim201688a.html;媒体报道见http://www.genomeweb.com/sequencing/reanalysis-clinical-exome-data-over-time-could-yield-new-diagnoses

25.     http://exac.broadinstitute.org/;包含6万个人类全外显子组测序WES数据的大型数据库,其基因组变异的频率信息可以用于筛选导致罕见病或与罕见病相关的突变

26.     http://gnomad.broadinstitute.org/;类似于ExAC,但数据量更大,包含12万6千个人类全外显子组及1万5千个人类全基因组的测序数据

27.     http://baike.baidu.com/view/798036.htm;也称开放存取。该话题涉及学术出版界、学术界及论文评审、作者贡献等等诸多问题。可以单独开篇

28.    http://www.nature.com/nature/journal/v542/n7639/full/nature21056.html

29.    http://www.nap.edu/catalog/24623/human-genome-editing-science-ethics-and-governance

30. http://www.ncbi.nlm.nih.gov/books/NBK1116/;专门针对遗传类疾病,为医生提供与临床相关并且医学上可操作的信息的在线定点照护资源。其内容格式类似于标准的学术期刊,包括诊断、管理与患者/家属的遗传咨询

31.  http://wglab.org/(王凯教授的实验室官方网站)

32.   遗传变异注释软件,官方网站为http://annovar.openbioinformatics.org/,学术论文在线发表于2010年9月的核酸研究http://academic.oup.com/nar/article/38/16/e164/1749458/ANNOVAR-functional-annotation-of-genetic-variants

33. 基因型-表型关联分析软件,官方网站为http://phenolyzer.wglab.org/,学术论文在线发表于2015年7月的自然方法学http://www.nature.com/nmeth/journal/v12/n9/full/nmeth.3484.html

34.遗传变异解读软件,官方网站为http://github.com/WGLab/InterVar,学术论文在线发表于2017年1月美国人类遗传学杂志http://www.cell.com/ajhg/fulltext/S0002-9297(17)30004-6

35.     http://www.nrdrs.org/(国家罕见病注册系统官方网站)

36.比如要考虑放开二胎政策对某些遗传病患者家庭的影响;另见2016年初Quest/Athena Diagnostics被诉其基因诊断结果导致患儿死亡的报道http://www.genomeweb.com/molecular-diagnostics/mothers-negligence-suit-against-quests-athena-could-broadly-impact-genetic;中文报道见http://www.biodiscover.com/news/industry/173710.html

37.中国“十三五”国家科技创新规划,专栏10先进高效生物技术中提出,在生物资源利用技术方面,要聚焦战略生物资源的整合、挖掘与利用,推进人类遗传资源的系统整合与深度利用研究,构建国家战略生物资源库和信息服务平台,扩大资源储备,加强开发共享,掌握利用和开发的主动权,为生物产业可持续发展提供资源保障。专栏14人口健康技术中提出,在精准医学关键技术方面,要把握生物技术和信息技术融合发展机遇,建立百万健康人群和重点疾病病人的前瞻队列,建立多层次精准医疗知识库体系和国家生物医学大数据共享平台,重点攻克新一代基因测序技术、组学研究和大数据融合分析技术等精准医疗核心关键技术,开发一批重大疾病早期筛查、分子分型、个体化治疗、疗效预测及监控等精准化应用解决方案和决策支持系统,推动医学诊疗模式变革。在生殖健康及出生缺陷防控方面,要解决我国出生缺陷防控、不孕不育和避孕节育等方面的突出问题,建立覆盖全国的育龄人口和出生人口队列,建立国家级生物信息和样本资源库,研发一批基层适宜技术和创新产品,全面提升出生缺陷防控科技水平,保障育龄人口生殖健康,提高出生人口素质。专栏24科技资源共享服务中提出,在生物(种质)资源与实验材料共享服务平台方面,要重点加强实验动物、标准物质、科研试剂、特殊人类遗传资源、基因、细胞、微生物菌种、植物种质、动物种质、岩矿化石标本、生物标本等资源的收集、整理、保藏工作,提高资源质量,提升资源保障能力和服务水平。http://www.gov.cn/zhengce/content/2016-08/08/content_5098072.htm

38.从2016年起,OMIM网站频繁跳出窗口,鼓励使用者捐款。完整捐赠人列表在http://www.omim.org/donors