
《卫生健康数据库管理与应用》(订购)
主 编:胡永华
北京大学医学出版社
公共卫生专业博士学位的培养是我国公共卫生学位教育的重要组成部分,教材是其中的重要环节。由北京大学主编的公共卫生博士(Doctor of public health, DrPH)系列教材建设明晰了公共卫生专业学位博士与科学学位博士研究生教育的区分度,重点关注公共卫生的现场环节、实践环节和应用环节,第一批出版了包括《卫生健康数据库管理与应用》在内的8部教材。
内容简介
本书为北京大学公共卫生应用型博士研究生系列教材之一。本书总结和提炼了管理型数据库、医疗健康过程相关数据库、组学数据库、研究型数据库等不同内容数据在实际研究、应用中所面临的数据管理的公共问题。用两章内容(第二章和第三章)分别基于实际数据,对医学数据库的基本操作、复杂处理进行详细讲解;接下来的第四至第八章分别介绍了管理型数据库、医疗健康过程相关数据库、组学数据库、研究型数据库和医学文献数据库,其中每章都对各类数据中的典型数据库和应用给出实例;最后两章则分别以综合应用和基础技能巩固熟练为基本目标,基于实际案例进行简要阐述。
作者简介

胡永华,教授,博士生导师,北京大学临床医学高等研究院医学信息学中心常务副主任,历任北京大学公共卫生学院院长,流行病与卫生统计学系主任,北京大学预防医学培训部主任,北京大学营养与保健食品评价中心主任,艾滋病预防研究中心主任,教育部流行病学重点实验室主任,中华预防医学会常委、预防医学教育研究会副主任委员、亚太地区公共卫生科学理事会中国区域主任、《中国公共卫生杂志》副主编、《中华公共卫生卫生管理杂志》副主编及国内多家杂志的编委。长期从事遗传流行病学研究与流行病学方法学研究,主持多项国家级项目,主编多本公共卫生相关教材,发表论文250余篇。曾获得中华预防医学会科学技术奖(2023年)、北京市科技进步奖等。
编者名单

丛书序
三年新冠疫情防控经历再次证明,公共卫生不仅关系公众的健康和健康中国战略目标的实现,更关系着经济社会发展、公共安全和国际政治格局的变化。公共卫生学院是公共卫生专业人才培养基地和科技创新重要发源地,对健全我国公共卫生服务体系和提升公共卫生服务能力至关重要。2020年6月2日,习近平总书记在专家学者座谈会上提出“要建设一批高水平公共卫生学院,着力培养能解决病原学鉴定、疫情形势研判和传播规律研究、现场流行病学调查、实验室检测等实际问题的人才”,要培养一批能够“一锤定音”和“顶天立地”的应用型公共卫生人才。公共卫生博士专业学位教育就是在这样的背景下应运而生的。北京大学和西安交通大学早在2017年就开始了公共卫生专业博士学位的培养试点工作,进行了积极有益的尝试。国家教育部、卫生健康委员会于2020年启动了高层次应用型公共卫生人才培养创新项目,全国10所公共卫生学院和国家疾病预防控制中心经过公平竞争进入了该项目。我国公共卫生专业博士培养工作也正式进入了实践阶段。
公共卫生教育是职业教育(professional education),是“干中学”(learning by doing)的专业,是应用型很强的专业。所以,公共卫生专业博士学位的培养就成为我国公共卫生学位教育的重要组成部分。公共卫生教育改革发展的关键环节是针对教育需求和教学对象,关注课程设置、教材建设、教学实践和师资队伍建设。而教材建设就是其中重要的环节之一。本次由北京大学主导的公共卫生博士(doctor of public health,DrPH)系列教材建设,一个突出的特点就是明晰了与科学学位博士研究生教育的区分度,重点关注公共卫生的现场环节、实践环节和应用环节。第一批出版了8部教材,包括《中国公共卫生》《传染病预防与控制》《重大慢性病预防与控制》《公共卫生实施性研究》《医学科学研究设计》《卫生健康数据库管理与应用》《卫生政策评估》和《循证公共卫生》。教材由一批年富力强的中青年教师骨干和特邀的经验丰富的疾控专家共同编写,相信能够给如火如荼的公共卫生体系改革和高水平公共卫生学院建设带来一缕春风。
作为第一批“吃螃蟹”的人,难免出现这样那样的问题,但是我们毕竟走出了坚实的第一步。希望我们的教材在教学实践中不断完善,在专业学位博士研究生培养中发挥积极的作用。
是为序。
北京大学公共卫生学院
李立明
2024年5月20日
本书前言
数据库技术是19世纪人类最伟大的创新之一。自1970年Codd提出关系数据理论作为标志,关系数据库的研究及应用迅速扩展到世界范围内。所有有数据应用需求的领域都有关系数据库管理技术的应用实践,因此人类在出行、就医、通信、金融、交流等日常生活的体验也有了质的提升。
到目前为止,深度学习、大语言模型等人工智能相关技术的发展和应用已经有了长足的进展。从其所依赖的数据基础观察,这些技术所需要的音频、视频、图像等数据类型虽然已经比10年前有了类型上的长足扩展,但对这些海量数据的有效管理仍基于关系数据库的基础理论。在如此海量、多源、异质的数据上进行有效的检索,仍然需要在工具或平台的核心层提供基于关系数据库管理系统的索引以及基于索引的查询乃至查询优化。
医学数据库作为医学研究、应用、管理、临床研究及实践、疾病预防与控制等环节所产生、积累的数据库,其所包含的内容目前已经非常丰富、广泛而深入。医学相关的从业人员,从不同实际需求角度考察,都有越来越迫切的需求,即掌握基本的关系数据库技术,面对大量、种类繁多、来源各异的数据,实现数据的有效融合、管理和处理,为进一步的数据分析提供高质量的数据保障。
针对这一需求,我们总结和提炼了管理型数据库、医疗健康过程相关数据库、组学数据库、研究型数据库等不同内容数据在实际研究、应用中所面临的数据管理的公共问题。用两章内容(第二章和第三章)分别基于实际数据,对医学数据库的基本操作、复杂处理进行详细讲解;接下来的第四至第八章分别介绍了管理型数据库、医疗健康过程相关数据库、组学数据库、研究型数据库和医学文献数据库,其中每章都对各类数据中的典型数据库和应用给出实例;最后两章则分别以综合应用和基础技能巩固熟练为基本目标,基于实际案例进行简要阐述。各章具体内容简要介绍如下。
各章介绍
第一章从医学数据库的发展阶段、特点、应用领域以及医学数据库应用的方法、流程和技术进行了概述,同时给出了基于内容的医学数据库分类,即:研究型数据库、管理型数据库、组学数据库、医学文献数据库等。
第二章以病案首页数据、空气污染数据和大气数据为实例,介绍了如何在SAS,RSQLite 以及 SQL Server数据库管理系统中,完成数据库设计、表设计、新建数据库、新建表、导入数据、导出数据等数据管理的基本操作。
第三章基于第二章的内容,讨论如何在已有数据表之上,进行单表查询或多表关联查询,生成包含用户所需的观测及变量的数据表,包括如何选行(观测)、选列(变量),以及如何对变量进行简单的变换(包括类型转换、取子串、取子项等)、计算,以及涉及分组的聚集查询等。紧接着,对涉及多表的关联查询、嵌套查询进行基于实例的说明。
第四章所述管理型数据是指主要用于管理目的(而非研究目的)而常规收集的信息。政府部门和其他组织通常在提供服务期间用于注册、交易和保存记录时收集此类数据。例如,保险、基层公共卫生服务、出生和死亡登记、医院就诊,以及实验室检查或药房买药等重要记录都是管理型数据。本章分别就管理型数据库的特点、常见管理型数据库进行简要说明后,对利用管理型数据库开展研究的典型实例以及利用管理型数据库开展研究需要注意的问题进行了详细讲解。
第五章医疗健康过程相关数据库是指临床医疗服务或公共卫生监测过程中产生的数据,通过手动采集或自动监测的方式,长期、连续、系统地收集生理参数、患病人数、空气质量等健康相关信息,为临床诊疗方案和公共卫生决策的制订、完善和评价提供依据。根据采集指标的不同,医疗健康过程相关数据库可分为针对人群健康信息的重症医学数据库、可穿戴设备数据库、传染病监测数据库、交通流量数据库,以及针对健康相关因素的空气质量监测数据库等。本章节重点介绍重症医学数据库和环境监测数据库两类具有代表性的医疗健康过程相关数据库。
第六章组学数据库,多组学通常包括在脱氧核糖核酸(DNA)复制、转录、翻译、翻译后修饰的过程中产生的全部基因(基因组学)、基因表达的广泛变化(表观遗传组学)、核糖核酸(RNA,转录组学)和蛋白质(蛋白质组学),以及下游的小分子代谢产物(代谢组学)。本章简要介绍组学数据的价值、常见的组学数据库,并以基因组学数据库应用为例,呈现组学数据利用的常规步骤,以期为初学者提供入门参考。
第七章研究型数据库,构建研究型数据库是对庞大、繁杂的真实世界数据进行规范化梳理整合而转换为科研数据的过程,该过程通过数据清洗和逻辑核查等操作使得科研数据具有较高的质量,保证了后续数据分析、结果解释等过程的顺利进行。本章主要围绕研究型数据库的定义、特点、构建标准等内容进行详细介绍,并对目前较成熟的数据平台,重点包括中国慢性病前瞻性研究(China Kadoorie Biobank,CKB)、英国生物银行(UK Biobank,UKB)研究以及美国国家健康与营养调查(National Health and Nutrition Examination Survey,NHANES)进行简要介绍。
第八章医学文献数据库,侧重针对二次医学文献数据库提供一些可用的有效方法,使读者在二次文献检索结果的基础上,利用已有的文献重要性度量指标,快速分析挖掘出重要的文献推荐列表,使得研究者能够将精力集中在应该阅读的重要文献上。主要讨论了如何在数据库管理技术的支持下,以医学数据库检索结果数据为基础,关联其他相关数据,生成定制化三次文献,为研究者提供有效的重要文献检索和综合分析方法。
第九章分别以气象、空气污染和病案首页融合,异质多来源病案首页数据融合,以及基因组数据的数据库存储设计三个应用,作为具体应用场景,以R作为数据预处理的工具,SQL Server数据库管理系统作为数据库管理平台,简述各应用实现的环节和步骤,为方便读者掌握医学数据库应用的整个流程提供范例。
第十章最后,为了增强实践应用能力,巩固读者对前述内容的掌握,第十章分别就如何从数据源进行数据获取,并实现数据导入,在多个关联数据上进行合并,以及导出合并数据等基础性应用问题,以及更复杂的数据库数据管理相关问题,包括批量导入、多表关联、全文检索、视图定义以及XML数据如何存入数据库、关系数据如何发布为XML格式的数据等内容,基于实例给出了解决这些问题的流程和步骤。
本教材源于编者在卫生健康数据库教学和科研实践方面的丰富经验,各位编者在编写过程中倾注了大量的心血,融入了独到的见解和心得。由于编者能力所限,不足之处在所难免,敬请专家读者批评指正。
编写教材是一个协作和分享的过程。衷心感谢参与教材编写、审核和校对工作的所有专家、编者和出版社的支持与协助。在此,也要感谢北京大学公共卫生学院的吴俊慧、罗颜、陈毓铭和孟祥龙4位同学在组稿工作中的辛勤付出。另外,本教材在编写过程中,参考了许多其他相关教材和有关论著,吸收了许多专家同仁的观点,但为了行文方便,不便一一注明。书后所附参考文献是本书重点参考的论著。在此,特向在本书中引用和参考的已注明和未注明的教材、专著、文章的作者表示诚挚的谢意。
胡永华
2024年7月
本书目录

来源:北京大学医学出版社
|