《英国医学杂志》中国特辑(四):探寻中国医学研究“大数据”的蓝海
2018/3/25 中国医学论坛报

    

    

     在过去的十年中,医学领域中产生、采集和储存的数据量呈现几何级增长;分析和解读这些数据的能力也快速增长。“大数据”与新兴技术的结合能够给医疗实践、医疗模式和卫生政策带来巨大变化、吸引了广泛的关注;全世界的医学实践者、研究者、政策制定者及工业界都对医疗大数据投注了巨大的热情。

     我国人口庞大、具备全国统一的医疗卫生保障体系,这些都为发展健康医疗大数据提供了优势。北京大学健康医疗大数据研究中心的张路霞教授、中山大学附属第一医院临床研究中心王海波研究员、以及北京大学医学部主任詹启敏院士等在《中国的大数据与医学研究》一文中详细论述了什么是“大数据”:由海量(volume)、高速(velocity)、多样(variety)、真实(veracity)和价值(value)构成的“5V" 权威定义。

     文章指出了促进健康大数据在医疗领域的运用是我国重要的国家战略。我国正在从国家层面全面推动健康医疗大数据的应用,以推动健康医疗模式的深刻变化,激发深化医药卫生体制改革的动力和活力,提升健康医疗服务效率和质量,扩大资源供给,满足人民群众多层次、多样化的健康需求,有利于培育新的业态和经济增长点。

     目前有很多国家支撑的正在进行的重要项目,比如国家卫计委启动的“健康医疗大数据中心与产业园建设试点”、科技部启动的国家重点研发计划“精准医学研究”重点专项等。除了政府引导的研究项目以外,中国的医学研究团队和机构也已经启动了数据共享学术项目。

     为了更好地应用健康大数据,需要解决不同医疗机构间的有效数据交互、构建更符合我国临床实践的医学术语体系、系统性改善对于人群的随访、改善数据质量、并尽快就保护个人隐私和数据安全出台相关政策法规。

    

     张路霞教授

     1. “高速”和“多样”是大数据更为重要的特征

     “大数据”的5V特征是由海量(volume)、高速(velocity)、多样(variety)、真实(veracity)和价值(value)构成的“5V”权威定义。对于医务人员来说,大数据的“海量”比较直观,但实际上数据的大小是一个相对的概念,仅仅以数量的大小评估大数据是不准确的,而“高速”和“多样”是大数据更为重要的特征。

     “高速”是指数据提取、处理和分析的速度。2016年我们课题组在在新英格兰医学杂志发表了一篇文章,涉及到上千万患者变量的分析;即使变量构成并不复杂,但在当时的数据处理情况下,即便对于计算程序做小的改动、也需要10余小时才能算出来结果,像这样的处理速度就不能满足我们的需求了。

     “多样”是指大数据的来源广泛,医疗大数据的来源主要包括:1)行业监管性数据和医疗保险数据;2)常规人口统计和重大疾病监测数据;3)真实世界数据,包括电子医疗档案(EMR)或电子健康档案(EHR),医学影像和健康体检数据等;4)研究数据,来自临床试验或队列研究等(包括生物学标志物和多组学信息);5)登记系统(器械,操作,疾病);6)移动医疗设备;7)患者自我报告的数据。

     谈到“真实”,北京大学的鄂维南院士说过一句话:“没有数据是完美的,但是所有数据都是有用的。”我觉得这是回答健康医疗大数据真实性的一个比较好的答案。首先,强调“真实”对于大数据很重要;高质量的数据有助于提升数据分析结果的准确性。但是对于海量的数据而言,很难达到百分之百的准确。因此,在实际应用中,需要结合数据库的具体特点进行斟酌,本着“扬长避短”的原则挖掘数据价值。

     此外,基于大数据的分析还具有“规律自现”的特点。如同之前提到的,我们在研究中应用了国家的病案首页数据库。初期的顾虑是,虽然研究纳入的都是三级医院的数据,但由于医疗水平的异质性、很难做到所有诊断均是准确的。但当汇集上千万患者的数据时,我们观察到一个特别清晰的趋势;这个趋势符合结合医学知识的预判、也与其他国家的研究一致。因此,当数据量大到一定程度的时候,“噪音”会在一定程度上抵消,大数据规律自现的特点就会呈现。

     2. 汇集数据不是大数据的最终目的

     与大数据相关的另一个重要概念是,汇集数据并非我们的最终目的。基于数据进行分析与解读、提取信息、并基于此进行决策,这些才是大数据的最终目标。因此,为了充分挖掘大数据的“价值”,需要不断地发展新兴技术和分析方法(如机器学习中的深度学习、增强学习等);并且评估新生成信息的临床效果、并将其转化为临床实践,我认为这才是健康医疗大数据的最终目的。

     3.大数据在中国的发展兼具优势与挑战

     促进大数据在医疗领域的应用已经成为我国的重要战略。中国正在充分利用大数据的力量;我国庞大的人口基数为开展相关研究提供了优势,我国公民统一的身份证号为整合不同来源的数据提供了有力保障。但在具体实践中,也需要在保障数据安全和个人隐私方面,加强相关政策法规的的建设;同时,需要强调健康医疗大数据的伦理问题,尽快建立利用健康医疗大数据的伦理审批准则和流程。除此之外,我国发展健康医疗大数据还面临其他诸多挑战,包括有效的数据交互、相关标准和术语体系建立等,也有待多方进行沟通、共同改善解决。

     4. 医疗大数据事业亟需医疗从业人员积极参与

     最后,我们热切呼吁医疗从业人员积极参与健康医疗大数据事业。因为数据的产生、相关成果应用场景均与医疗从业人员相关;而与其他领域相比,医疗又具有相对较高的专业壁垒。因此,为了真正促进健康医疗大数据的落地发展,亟需对于行业有深刻认知的医疗从业人员积极参与。

     我国从国家层面正在全面推动健康医疗大数据的应用;这一举措将在不久的将来对医学研究、医疗实践和医疗行业的发展产生深远的影响。在各行各业对于健康医疗大数据热情高涨的态势下,我们呼吁遵行“博学之,审问之,慎思之,明辨之,笃行之”的古训,以严谨求实的态度挖掘大数据内在价值,以医学问题为驱动切实推动领域发展,给我国健康医疗模式带来深刻的变化。

     往期精彩The BMJ创刊170年首邀“中国专辑” 聚焦中国医学研究新方向

     《英国医学杂志》中国特辑(一):降低个人卫生支出占比,缓解人群就医经济负担

     《英国医学杂志》中国特辑(二):科学、公正的高质量指南是战胜疾病的有力武器

    http://weixin.100md.com
返回 中国医学论坛报 返回首页 返回百拇医药