新闻中心

您现在的位置: 中科恒业 >> 新闻中心 >> 市场动态 >> 新闻详情 >>

健康体检数据平台如何建设?


近年来,随着我国人群健康意 识的提升,综合医院普遍设置了 健康体检(管理)中心,完成了 大量的健康体检工作,积累了丰 富的健康体检数据资料[1-2]。与电 子病历等医疗数据利用度低的情 况相同[3],健康体检数据同样存在 “数据丰富但信息匮乏”的问题。 以西部战区总医院为例,不同类型 人群的体检数据分别存储于5个以 上不同的体检信息管理系统,即 数据具有多源属性;相同体检项目 数据,在不同的体检信息管理系统 中字段属性并不统一,即数据具有 异构属性。同时,健康体检资料既 有结构化数据,又有非结构化数 据。因此,如何将这些多源异构的 数据资源转变为数据资产,已成为 健康体检数据应用的障碍。目前, 大型综合医院信息化已逐步从医疗 信息化技术体系向医疗数据技术体 系演变,医疗数据平台或临床数据 中心成为医院信息化建设的最关键 内容之一[4-5]。考虑健康体检业务 较为单一,且体检数据包含有绝大 多数临床诊疗数据类型,因此笔者 提出:将健康体检数据作为研究对 象,探讨体检数据平台中卫生信息 标准、数据治理、数据质控、数据 建模、数据应用等关键技术,形成 可推广应用的模式,为建设医疗信 息互联互通的医疗数据平台或临床 数据中心提供技术储备。 


1. 健康体检数据平台建设目标


参照国内先进医院临床大数 据中心[6]、专病数据库等建设经 验[7],引入医疗健康人工智能、医 院数据治理等先进理念,结合笔者 所在医院健康体检数据现状和应用 需要,提出如下健康体检数据平台 建设目标:


(1)构建可视化数据资产中 心。采集不同体检信息管理系统中 的体检数据,形成数据资产中心, 通过数据资产中心可以浏览整个数 据平台的数据资产全貌,包括数据 量、数据分布、非结构化文本数据 分类及数量、字典标准化处理量、 结构化变量提取量等信息。


(2)建立术语字典标准化体 系。在体检数据平台的建设过程 中,对于非标准化数据进行标准概 念的自动映射,实现医学字典的自 动标准化和归一化,再通过人工审 核和修正,在大大减少人工对照工 作量的同时,确保字典对照的准确 性,将院内不同标准的字典映射至 符合医院需求的标准数据集。


(3)建立数据质量管理系 统。按照不同的业务数据类型,制 定不同的质控规则;从数据的完整 性、有效性、一致性等多个维度对 不同的字段设置校验规则。规则设置 完成之后,实现自动实时运行,并 自动生成完整的数据质量报告,使 数据质量管理实现常态化运行。 (4)构建临床信息与知识图 谱的融合推理与决策模型。基于智 能交互技术、因果性医学知识图谱 自动生成等关键技术,构建临床数 据向医疗知识转化的融合分析和自 动推理模型,基于体检知识图谱、 医生规则知识库、临床信息深度学 习,建立广义的体检多源异构知识 及多模临床信息,构建融合推理与 决策模型。


2.健康体检数据平台建设整体框架


在全面遵循卫生行业数据标准 规范和确保医疗数据隐私安全的基 础上,健康体检数据平台主要包括 3个部分:①体检数据采集;②体 检数据治理;③体检数据服务。


3.健康体检数据平台建设关键技术


为实现健康体检数据平台建设目标,按照建设整体框架,需 要开展快速医疗保健互操作性资 源(Fast Health Interoperability  Resources,FHIR)[8]体检数据交 换标准、自然语言处理(Natural  Language Processing,NLP)多源 异构体检数据采集、基于机器学习 的智能化体检数据治理、基于知识 图谱的体检数据质控、体检数据建 模等关键技术研究,实现体检档案 的规范化、标准化、智能化。


3.1 FHIR的体检数据交换标准方案研究


纳入全部健康体检项目,同 时考虑不同体检系统引起的数据项 记录方式和标识方式的差异,全面 调研健康体检资料数据项,实现基 于FHIR的体检数据交换标准的统 一管理。为实现兼容来自不同体检 系统的体检数据,参考相关的国家 标准、卫生行业标准、地方标准、 军队标准等制定健康数据元统一编 码方案,设计基于FHIR的体检数 据交换标准,以结构良好、表现力 强的数据模型和简单、高效的数据 交换机制解决互操作问题。FHIR 的体检数据交换标准方案应考虑遵 循如下原则:


①重用性和可组合:FHIR定义 的资源是高度可组合的,允许更多 的资源通过引用和重用,构建复杂 的结构。


②可伸缩性:将FHIR API与 REST结合,确保所有事物都是无 状态的,消除对“粘性”会话的需 求,支持水平可伸缩。


③性能:FHIR定义的资源适合 在网络上进行交换,除了JSON和 XML标准格式外,还提供其他优 化的数据格式,提高复杂事物处理 中的性能。


④可用性:FHIR定义的资源应 容易被技术专家和非技术人员理解。


⑤数据保真度:FHIR是强类 型的,可以内置临床术语链接和验 证。此外,JSON和XML文档可以在 语法上进行验证,也可以根据一组业 务规则进行验证,有助于提高数据保 真度,实现语义互操作。


⑥可实现性:FHIR使用行业标 准、通用标记和数据交换技术,容易 理解和实施,目的是在全域医疗数据 交换环境下,更利于被广泛应用。


3.2 自然语言处理多源异构的体检数据采集研究


健康体检数据主要 包含患者的基本信息、临床诊断、 超声检查报告、CT检查报告、X线 检查报告等。各类检查报告属于非 结构化或半结构化的文本数据,采 用无监督学习、监督式学习、迁移 学习等机器学习方法建立针对中文 医学文本的分层式自然语言处理技 术,对各类检查报告进行信息抽 取、结构化转换以及标准化处理, 包括分词、词性标记、命名实体识 别、句法分析、确信度分类、时序 解析、关联抽取、词义解析、扩展 消歧、变量匹配等环节,标注医学 文本,建立医学术语网络。研究基 于自然语言处理的多源异构的体检 数据采集,将医院医疗业务系统中 的数据,通过自然语义处理技术, 结合医疗专业术语的语义结构, 将医疗语义信息从原始的自然语 言表达,扩展分析为结构化的KeyValue模式,为后续的应用、挖 掘、机器学习提供基础数据支持。


3.3 基于机器学习的智能体检数据治理技术研究


体检数据治理主要 包括数据标准管理、元数据管理、 数据质量管理、数据资产管理、数 据安全管理,各模块协同运营,确 保大数据平台数据的一致、安全、 有效、规范。根据数据治理功能及 操作流程,研究提出基于机器学习 的智能体检数据治理功能模块。本 项目已初步提出数据治理功能模块,包括数据标准管理模块、元数 据管理模块、数据质量管理模块、 数据资产管理模块、数据安全管理 模块等。


数据治理需要持续完成数据采 集、清洗、转换、分类等基础性工 作,需要采用机器学习方法提高数 据治理效率。利用医学术语自动 标准化治理模型,引入机器学习 算法(包括线性回归、Logistic回 归、线性判别分析、朴素贝叶斯、 KNN、随机森林等),实现数据 自动归一标准化过程。建立数据治 理标准体系,解决难共享、不开放 的体制和技术难题,构建基于机器 学习智能体检数据治理平台。


3.4 基于知识图谱的体检数据质控规则库研究 


基于知识图谱的体检 数据质控规则库研究,将传统知识 图谱构建方法与主动学习相融合, 进一步提高知识图谱质量,并降低 构建成本,研究基于人机协作的知 识图谱构建技术、知识图谱融合以 及质量控制技术,并为体检知识图 谱的进一步研究提供结构化的语义 支持。基于人机协作知识图谱构建 的主动学习算法设计和实体关系抽 取框架研发是数据质控重要的研究 内容。


监控引擎负责执行监控脚本并 产生监控结果,监控引擎是一个可 供调度程序定时执行的存储过程, 部署在一个具有读取其他业务库的 数据库用户下。研究拟采用自感知 的知识获取方法和双向知识更新方 法进行质控规则知识库的生成与更 新。自感知的知识获取方法利用频 繁项集挖掘的方法找到频繁谓词作 为关键属性,利用表示学习进行知 识识别与连接,使知识库能自感知 需要的知识,并能从大量网络数据 中获得准确的、有价值的知识。双 向知识更新方法通过本体扩展自上 向下扩充知识库范围,设计新的抽 取器抽取相关知识;通过自感知的 抽取器自底向上抽取新的实例、属 性和关系,结合这两个方面实现双 向知识更新。通过人机结合提高集 成准确性和质量评价,设计各种类 型的众包任务和应用,将置信度较 低的抽取结果整合到这些任务和应 用中,通过用户的反馈对所建立的 知识图谱进行修正。


3.5 体检数据建模算法的研究采集


大量体检者体检指标,对数据进行 清理、分类、整理,为体检指标关 联性提供自动化模型,以期将该数 据模型用于体检等相关应用,实现 体检数据类应用的可计算化。正确 率和误差是检验数据模型的关键, 运用学习训练数据针对体检指标构 建神经网络模型,采用BPNN神经 网络等算法,构建体检指标关联模 型,将算法预测结果与临床医生预 测结果进行比对。运用测试对照组 的数据对模型进行验证。


4.小结


为提升患者服务品质和医院诊 疗水平,综合医院普遍将“医疗 健康大数据中心”列入本单位的 “十四五”建设规划。医疗健康大 数据中心的建设是一项系统工程, 如何分步骤、科学有效地实施是亟 需解决的现实问题。本研究初步提 出了综合医院健康体检数据平台建 设方案,将包含有绝大多数临床诊 疗数据类型的健康体检资料作为研 究对象,探讨了健康体检数据平台 建设中卫生信息标准、数据治理、 数据质控、数据建模、数据应用等 关键技术,可为建设“医疗健康大 数据中心”提供技术储备。


参考文献


[1] 王继伟,王苓,董家凡,等.军民融合体检信息系统的研发与应用[J].中国数字医学,2019,14(8):74-76. 


[2]王文翠,汪洋,秦芳.依托信息系统开创健康管理新局面[J].中国数字医学, 2016,11(5):117-119. 


[3]吴燕秋,黎美秀,丁元杰,等.面向临床科研的全院级医疗大数据平台建设与数据治理实践探索[J].中华医学科研管 理杂志,2021,34(2):81-86. 


[4]张靓,杨志清,王海星,等.基于Hadoop的医疗科研大数据平台的构建与应用[J]. 中国数字医学,2020,15(10):82-84. 


[5]温煜,唐丹,徐双平,等.基于大数据架构的医院数据中心管理[J].中国数字医 学, 2018,13(12):15-16,5. 


[6]朱明宇.临床科研大数据平台研究 [J].中国数字医学, 2020,15(7):17-18,35. 


[7]朱梦婷,陈明,王慈勇,等肿瘤大数据中心和单病种科研平台建设及应用[J]. 中国数字医学,2021,16(1):100-103. 


[8]王雪梅,刘敏超,季磊等.基于FHIR的病案首页信息化模型建立[J].中国数字医学,2018,13(6):43-46.

来源:网络

声明:该文章系我网转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。图文版权归原作者所有,如有侵权,请联系我们处理,本站不承担任何的内容或图片侵权责任。