科学网：大数据，新希望——点亮生命“优美时代”

时间:2020-04-08 00:54:01
浏览:162
来源:世界杯买球盘口网址app

2019年对于吴双（假名）而言是最难过的一年。年头，本以为是一场普通伤风引起的咳嗽，却未曾意料到在3个月后，竟被诊断为中央型肺腺癌第四期，纵隔淋巴转移，伴远端肾上腺转移。

“拿到诊断陈诉的那一刻，我没有掉一滴眼泪。”说这句话的时候，吴双转头看向窗外，居心将视线避开了记者的眼光，但眼角却渗透出晶莹的泪水。

吴双，41岁，是一位都市职业女性。她告诉《科学新闻》，患病后，她和家人跑遍了北京多家知名的三甲医院，实验过靶向药物、化疗、中药等措施，但病情都没有获得缓解。“我还特地花了一万多块钱做了肿瘤基因检测，很遗憾，陈诉显示是没有可用药的基因突变。”

没有相应的“可用药”，又不能通过手术和放疗举行努力干预，这在临床上就意味着只能“盲”用药，即只能实验使用临床上常用的一些药物举行治疗，再定期评价治疗效果。但通常盲用药物治疗的效果只能“听天由命”，而在医院，像吴双这样的患者是大多数。

“即便能检测到相应的基因突变，靶向药物对差别患者的疗效也并不相同。”中国工程院院士、中国医学科学院肿瘤医院主任医师孙燕表现，肿瘤的发生是多基因团结“发力”的效果，虽然通过基因检测等手段可以获得海量的数据，但现有的认识仍集中在个体基因与治疗肿瘤的关系，好比携带了致病性突变的BRCA1/2基因与乳腺癌、卵巢癌的关系，突变的EGFR基因与肺癌的关系等。“可是否还会有其他基因的到场，每个基因发挥的作用如何，我们不得而知。”

其实，孙燕的这种困惑，也正是现在肿瘤领域最让人“头疼”的难题。对此，中国科学院盘算技术研究所高性能盘算机研究中心主任谭灼烁在接受《科学新闻》采访时表现，当前，生物医学大数据的规模和发生速度远远超出了普通规模盘算机的处置惩罚能力，亟需超算助力科学家从多维、立体、融合的数据中探索出纪律，从而更准确地辅助疾病的诊断和治疗。

大数据是基础战略资源

事实上，自人类基因组计划启动以来，以下一代测序技术（NGS）和质谱技术（MS）为代表的各种组学技术获得了飞速生长，再加上传统的显微镜技术、生化方法、免疫组织化学方法、生理体征检测和临床影像拍摄技术等数据源的聚集，使得海量生物医学数据正出现指数级增长态势。

“这些生物医学大数据是国家基础战略资源也是重要资产。”中国医学科学院医学信息研究所副所长钱庆告诉《科学新闻》，生物医学大数据主要包罗以下特征：一是数量大、庞大性高。例如，现在单个样本的人类基因组和转录组测序数据量划分凌驾了100GB和30GB。二是内容与类型富厚。不仅包罗临床数据、生物组学数据，还包罗医药研发与治理数据、医疗保险数据、行为与情绪数据等。三是存储疏散。医学数据与信息往往存储在差别机构所建立的数据库中，具有异地、异构的特点。四是时效性强。好比医学检测时间、影像数据的时间函数、医学文献的半衰期等，均是反映相关数据时效特征的重要指标。五是私密性。生物医学数据不行制止地会涉及有关病人的姓名、年事、病情等隐私内容。

也就是说，国家级样本库与数据中心应当负担起大数据基础建设的重要任务，建设百万级中国人群基础表型的基因组多样性数据，作为临床基因组学研究的基线。因此，对样本和数据的治理、生产、调理、处置惩罚、使用都需要相关部门的投入和计划，以保证数据的质量控制、使用效率和宁静性。从久远来看，这也为未来临床研究提供了尺度和对照数据，不仅能大大节约研究经费，同时也能提高研究质量。也就是说，工业化的获取、生产与治理，才气保证生物医学大数据能够作为国家基础战略资源。

生物医学大数据已经赋能临床

不行否认，即便尚未引入信息科学的大型工具，这些大数据也赋予了医生和临床科研人员更多、更细致的维度去相识疾病发生生长历程，大大拓展了医学研究的深度和广度。

停止2014年3月，美国人类基因组研究中心（NHGRI）基因组测序和全基因组关联性分析（GWAS）目录有3961条人类疾病相关的单核苷酸多态性（SNP）信息记载在案，涉及571种疾病。而到2016年9月，NHGRI-GWAS目录中的疾病相关SNP信息已经增长至24218条。

“可以说，现在对一些明确的、单基因突变引起的疾病，基因组测序已经能实现精准诊断，资助临床更好地域分差别疾病、施以更恰当治疗。”北京大学第三医院病理科分子病理实验室武睿博士向《科学新闻》表现，21-三体综合征、新生儿遗传耳聋基因筛查等都是测序技术在临床的良好应用。

“我们还可以通过与检测药物浓度崎岖、效应强弱有关的药物代谢酶、转运体和受体的突变基因，调整给药剂量或治疗方案。”山东大学齐鲁医院临床药理研究所教授郭瑞臣在接受《科学新闻》采访时说。

此外，生物医学大数据现在也在肿瘤精准诊疗、优生优育、病原微生物检测、疾病易感人群预防等方面发挥着作用。

亟需从数据中挖掘纪律

“可是，对于庞大的、多基因改变引起的疾病，我们尚不能有效地解读患者的生命数据信息，更谈不上对这些疾病举行精准诊断、个体化治疗和疗效检测。”武睿表现，除部门听从于孟德尔遗传定律的单基因遗传病外，多数疾病的发病往往涉及多重的分子生物学机制，并同时受到情况或个体行为等外部因素的影响。

以癌症患者为例，绝大多数突变都具有“个体特异性”，除了个体基因（例如EGFR等），同一个基因内，在差别患者中能找到相同突变的可能性微乎其微。不外，若从数据出现的网络调控模型来看，特定信号通路上的关键节点基因，只管发生了差别突变，但驱动的下游细胞内事件可能是相同的。

而现在生物医学专家习惯性地将基因组数据与已有的知识体系举行“核对”（俗称“查字典”），虽然这种方式在一定水平上解决了相应问题，可是并没有将多维数据举行系统整合与分析，自然也无法从数据里挖掘出更底层的知识和纪律。

“这就需要我们有将生物学、医学相关学科的知识转化为数学模型的能力。”中国科学院盘算技术研究所副研究员、中国科学院盘算机研究所西部高等技术研究院常务副院长张春明向《科学新闻》表现，应充实使用现有的生物医学数据，引入系统科学理论和视角，通过设计新的算法挖掘数据之间的相关关系，为解决现有的问题寻找新的路径。最终，以生物医学大数据推动生物医学研究由原来的假设驱动向数据驱动的方式转变。

这也是全球规模内亟待解决的难题。

“究竟，由于科学研究越来越专业化，学科门槛也越来越高，因此各个学科之间的壁垒事实上是越来越森严，而且现有的科研评价体系也倒霉于开展交织研究。”华中科技大学生命科学与技术学院教授薛宇对《科学新闻》直言，现在我们对生物医学大数据的应用还处于很是低级的阶段。

高质量数据才气成就“算法”

不外，要想从纷繁庞大的数据中探索出纪律，并非易事。数据质量首当其冲。遗憾的是，我国生物医学大数据的现状并不乐观。数据的存储疏散、碎片化，尺度多样化，数据库建设低水平重复，数据质量乱七八糟、汇交共享机制不完善等问题，使得种种数据很难有效融合。

“而且，差别检测机构从业人员的专业，仪器型号和设置、质控体系的设置等都市影响数据的质量及可比性。”神州医疗高级副总裁、SNOMED International全球治理委员会董事弓孟春接受《科学新闻》采访时表现，海内外现行的检测平台缺乏相互质控验证，参比文库不完整，测序技术缺乏测序分析准确性的统一尺度，这就很难准确地建设基因数据与临床信息相对应的数据库。

这一点也获得零氪科技首席数据科学家阮耀平的认同。他告诉《科学新闻》，现在，每家基因检测公司虽各有特色，但参考的基因组数据库和医学数据库主要来自外洋，而且测序方法与解读尺度都纷歧样，这势必会影响效果的可靠性与可通用性。

采访中，多位受访专家也向记者表现，数据宁静性更是他们体贴的话题。

“生物医学大数据蕴含了极其富厚的信息和知识，是关乎国家连续生长、人类生存与康健的重要战略资源。”中南大学盘算机学院院长王建新表现，使用生物医学大数据一定要掩护个体的隐私，对数据举行清洗。

但同时，王建新也强调，不要因为宁静问题而把数据锁死，而应加大基因组数据加密和共享技术的开发力度，以便在保证研究协同的情况下，制止患者隐私的泄露。

“我国也在逐步完善各方面的体系和机制建设，但还需加速执法法例的建设脚步。”钱庆建议还要健全伦理羁系和审查机制，切实做到事前审批、事中监视和事后跟踪，规范生物医学研究和应用运动，从而推动科学技术的良性生长。

此外，数据的规范收罗和尺度化也是掣肘数据融合的关键因素。

“只有在差别信息系统之间的互操作性得以保证，信息共享才具有实际意义。而要实现互操作性就需要对数据结构、文件花样、传输尺度、接口协议及语义控制等举行统一。”弓孟春表现，如果没有统一，谈生物医学数据的共享及使用，则纯属“蜃楼海市”。

这一点，钱庆也很是赞同。他表现，生物医学大数据的应用生长，尺度是前提，质量是保障。“我们有须要引入适宜的国际尺度，并联合我国详细情况举行革新和优化以实现尺度的当地化。在政策部门的牵头下，推动建设一批国家尺度、行业尺度与团体尺度，并配有相应的执行与监视治理。”

弓孟春提醒，让数据大规模脱离发生这些数据并负有羁系责任的医疗机构显然是有庞大风险的。“但现有的医学信息学技术体系可以保证在每家医疗机构的内部对数据举行治理，而各家机构甚至各个国家之间执行通用的数据模型、语义控制及质量控制尺度，这将进一步支持真实世界研究，为临床诊疗及政策决议提供真实世界证据。”

从假设驱动到数据驱动离不开“算力”

那么，即便有了高质量的生物医学大数据，有了相应的算法，就一定能探索出疾病的发生生长纪律么？

谭灼烁给出的谜底是否认的。他表现，光有数据和算法还远远不够，必须要有强有力的算力支持。他举例到，已往单一零星的数据，只需要在普通服务器上用简朴法式处置惩罚和统计就可以；现在是多维海量的大数据，为相识决庞大生物医学问题，要用多维海量的PB级（1PB=106GB）大数据对生命举行建模，那就要设计庞大的算法，而算法的庞大度和盘算量远远凌驾了普通服务器所能处置惩罚的规模，亟需高性能的算力资源支撑。

采访中，记者相识到，中国科学院盘算技术研究所高性能盘算机研究中心（原国家智能盘算机研究开发中心）一直以来都将生命科学数据处置惩罚作为研制高性能盘算机的关键应用牵引之一。

“大数据的焦点是使用数据的价值，而机械学习是使用数据价值的关键技术，对于大数据而言，机械学习是不行或缺的。相反，对于机械学习而言，数据越多越可能提升模型的准确性。”中国科学院院士、中国科学院合成生物学重点实验室主任赵国屏说。

这在谭灼烁看来，势必会发生一门新型交织学科——盘算医学。“它致力于生长定量方法，通过应用数学、工程学和盘算科学来智能化明白人类疾病的机理，并基于工业化的数据、算法、算力及生物医学技术体系为医学服务提供新洞见。”

文章开头提到的吴双，最后选择借助中国科学院盘算技术研究所—哲源图灵达尔文实验室的数据分析方法，该分析效果建议医生接纳一种可能的治疗方案。现在，经由这一方案的治疗，吴双体内已经没有影像可见的肿瘤，血液肿瘤指标也回落至正常水平，生活逐步恢复平静。

“未来，在盘算医学的引领下，临床医务事情者除了准确引导治疗方案的实施，更要集中气力在全程临床治理上，包罗个性化药物副作用治理、术后治理、康复方案治理、突发事件治理、预后治理、随访、准确界说个体化康复指标等。”图灵达尔文实验室主任牛钢表现，未来谁能处置惩罚大数据，谁就能在临床医学的生长偏向上“扛大旗”。