?й??
首 页
学术资源
学科服务
服务项目
联系我们
今天是:

公共卫生学术热点追踪

Nature:人工智能赋能传染病流行病学建模研究

来源:2026-02-06

  人工智能正在重塑当代科学研究的方方面面,传染病流行病学领域也将迎来类似的变革。人工智能指机器和计算机系统展现出的智能行为,自20世纪50年代起便成为科研热点。近十年来,人工智能研究范式发生了根本性转变,从早期的逻辑推理方法转向以深度学习为代表的数据驱动方法。该篇文章对人工智能及相关数据科学方法采取宽泛定义,囊括机器学习、概率理论、数值优化以及大规模计算领域的前沿进展。 

  传染病流行病学致力于探究传染病的发生根源、传播机制以及防控策略。作为一门高度交叉的学科,数学、计算和统计建模构成其方法论基石,定量模型为从地方到全球各层级的公共卫生决策提供关键支撑。虽然人工智能在临床医学领域的应用成果斐然,如辅助诊断、个体风险评估和临床决策支持等,但其在传染病流行病学中的应用案例仍相对匮乏——这一现象折射出人工智能在人群健康研究(包括非传染性疾病)中整体渗透率不足的现实。然而,实现公共健康的实质性改善需要从个体和群体两个维度综合施策,并充分考虑二者的交互影响。新一代人工智能技术通过打通公共健康与个体健康的数据壁垒,有望革新传染病防控模式,推动实施更加精准、公平、有效的干预策略。 

  人工智能在传染病流行病学领域的应用相对滞后,其根本原因在于难以获取训练和评估高参数量人工智能/机器学习模型所需的大规模、标准化且具有代表性的数据集。不过,新一代人工智能技术在小样本条件下的表现正日趋优异。以基于微调或迁移学习的大型预训练网络为例,无需数月的初始训练期或TB级海量数据即可达到卓越性能;而自监督学习领域的突破性进展,更是为各类流行病学问题的零样本学习开辟了新路径。 

  该研究聚焦两大核心议题:其一,系统阐述人工智能的既有成就和未来突破将如何重塑传染病建模关键问题的解决路径。新兴人工智能技术不仅能优化异构数据源的采集与融合,还可嵌入政策制定与决策体系,全面提升人群健康管理水平。其二,深入剖析人工智能在传染病流行病学应用中的社会伦理维度,着重探讨其在公共卫生领域的可解释性、安全保障和问责机制,并为该学科充分发挥人工智能技术优势提供战略性建议。 

  人工智能破解流行病学核心难题 

  疫情初期面临的首要挑战是精准评估病原体的致病性和流行潜能,这涉及一系列关键参数的估算:病死率、续发间隔与世代间隔、传播能力和疫情增长速率,以及不同场景下感染网络结构和传播异质性的推断。传统流行病学研究主要依赖观察性数据(如病例对照研究、队列研究或入户调查)来解答这些问题。然而,受限于研究规模和数据采集的非标准化,这些方法对真实传播过程的刻画往往存在系统性偏差,难以反映疫情全貌。实际传播链和感染场所常常扑朔迷离(个体可能频繁出入多个场所、接触大量人群,其中不乏无症状感染者),这极大限制了仅依靠观察数据精确测定潜伏期或传播强度等核心参数的可能性。此外,漏报、数据删失、截断效应、非随机缺失以及报告质量参差不齐等问题也严重影响数据质量。 

  贝叶斯数据增强方法在处理缺失数据的参数推断方面已展现出显著优势,而人工智能技术则进一步提升了此类模型的可扩展性和推断精度(见图1a)。特别值得关注的是基于标准化流变分推断的近似贝叶斯方法,它巧妙地将采样问题转化为优化问题,可借助基于梯度的深度学习技术高效求解。这套技术体系使得快速精准的参数推断成为可能,在应急决策等时间敏感场景下尤其具有实用价值。 

    

  由于完整重构疫情传播链条极其困难,基于模型的分析主要依托常规收集的聚合数据,如病例数、住院数或死亡数等。机理性和半机理性疾病传播模型在假设检验以及传播力、毒力等关键流行病学参数的不确定性估计中发挥着核心作用。这类模型虽能深刻揭示传播机制并构建反事实情景分析,但因数值方法复杂、高维参数空间推断困难,计算代价往往十分高昂。深度生成建模的突破性进展显示,通过生成模型代理或变分推断(表1)可显著提升推断效率。计算速度的飞跃为构建更复杂、更贴近现实的模型开辟了广阔空间,包括探索个体传播异质性与群体流行特征之间的内在联系。人工智能加速技术有望将模型运算周期从数周压缩至数小时,极大提升政策制定与模型迭代的响应速度(表1)。 

  疫情态势感知与趋势预测 

  传染病疫情期间,干预策略的制定与实施时机取决于对当前疫情规模的准确把握和未来发展趋势的可靠预判。公共卫生监测体系持续报告的病例、住院和死亡数据时间序列,构成了政策决策的核心依据。流行病学数据集虽可能涵盖人口学特征(种族、年龄等)、临床表现、空间分布和病原体基因组等多维信息,但其本质仍是定量时序数据,可运用统计时间序列分析、现代机器学习算法、前沿深度学习模型乃至新兴基础模型等多元化方法进行分析(表1)。 

  监测数据本身并不能直接反映特定时刻的实际感染规模,也难以准确预示疫情的演变轨迹。流行病学监测数据几乎无一例外地存在噪声干扰,并受制于多重偏倚:报告偏倚(如时变报告延迟)、检测偏倚(如检测资源定向投放或特定人群检测意愿差异)以及抽样偏倚(如偏向医疗可及性较好的人群)。举例而言,表面上的疫情下降趋势可能仅是报告行为时变性或检测能力萎缩造成的假象。这些数据质量问题极易导致防控措施失当或贻误战机。 

  现有的实时预测技术致力于校正这些系统性偏倚,实现对疫情现状的稳健评估。然而,从充满噪声且残缺不全的数据中筛选出既具备良好泛化能力又能精准刻画复杂模式的最优预测模型,仍是一项艰巨挑战。一种可行策略是从庞大的模型库中遴选合适模型,并通过技术手段抑制过拟合或参数冗余(图1a)。近期研究表明,集成学习方法在提升实时预测和前瞻性预报精度方面成效显著,为构建多样化模型体系提供了成功范例。大流行期间,全球多个研究团队竞相开展疫情预测并进行系统评估,有力推动了服务于公共卫生决策的标准化、规范化预测模型体系的快速成熟。 

  大型深度神经网络构建的基础模型开辟了时序监测数据分析的全新范式,实现了对传统方法的超越。这类基础模型需在跨领域的海量时序数据(数千亿数据点)上完成预训练,由此习得的模式赋予其在全新监测数据上卓越的零样本泛化能力。模型通过约束拟合函数的合理性,确保了不确定性的精确量化。尽管人工智能模型在不确定性的严格度量方面曾长期存在短板,但近期深度学习研究在激活函数设计、集成学习和保形预测等技术路线上取得的突破,为不确定性量化开辟了新的前景。 

  疾病传播机制的数学建模 

  传染病建模传统上依托机理性模型,将疾病传播过程抽象为简化而明确的数学体系。典型代表包括易感-感染-康复(SIR)数学方程组和基于个体/主体的模型。后者通过构建传播仿真系统,赋予每个主体特定的属性集和事件序列。基于个体的模型在与高质量数据充分拟合后,能够深刻揭示传播机理并量化评估干预效果。然而,由于缺乏解析形式,基于主体模型的参数推断难度远超传统统计方法。人工智能技术正通过深度神经网络驱动的创新近似方法,为高效参数推断开辟新路径。以变分贝叶斯推断为例,新一代神经网络架构已能够驾驭大规模动态主体模型。在缺乏人工智能支撑的情况下,超大规模主体模型的推断几乎不可能实现——参数空间维度过高,采样或仿真过程极其耗时。变分推断等基于梯度的优化方法为破解这一计算瓶颈提供了可行方案。 

    1   人工智能赋能传染病流行病学的创新方法、潜在影响及技术成熟度评估 

  动力学仓室模型是数学流行病学的核心工具,SIR模型作为其典型代表,将人群划分为有限的几个流行病学状态(仓室)。SIR动力学模型虽易于数据拟合,但在刻画个体行为与群体动态之间的复杂关联时往往力不从心。基于分支过程、偏微分方程或自激发Hawkes过程的新型建模范式正崭露头角,这些方法在数学本质上存在深刻的内在联系。如前文所述,基础时序模型可通过先验约束函数空间,将约束条件融入既定机理模型框架(即半机理模型),从而确保模型预测符合流行病学基本规律。尽管如此,模型假设偏差仍可能导致系统性误差。借助这些技术路线,人工智能模型不仅能在现有机理框架下达到前所未有的预测精度,更能挖掘潜在的复杂传播机制,推动传染病模型理论的革新。 

  图神经网络(GNN)作为处理离散结构数据的前沿技术(图1b),为传染病动态的深度解析和精准预测开辟了全新路径。图结构在传染病流行病学研究中无处不在:个体与群体间的疾病传播接触网络、刻画病原体进化历程的系统发育树、解析健康行为(口罩佩戴、疫苗接种等)的社交信息网络,以及追踪信息传播与社会影响力的复杂网络。依托其强大的关系建模能力,图神经网络在多项实际应用中取得突破性进展:精准预测区域大流行疫情走势、前瞻性预报流感样疾病暴发、基于网络信息流实时监测疫苗接种动态。 

  图神经网络还在拓展传统动力学仓室模型方面展现独特优势,能够精细刻画离散地理单元间的复杂时空耦合关系。通过实现全模型组件的可微分化,图神经网络赋能基于主体的建模框架,使复杂系统的联合推断成为可能。展望未来,图基础模型有望习得具有高度可迁移性的通用图表征,实现对未知图结构的零样本泛化,从而打通数据富集区与匮乏区之间的知识壁垒。鉴于图上诸多关键离散问题属于NP困难范畴(以现有算法无法在多项式时间内求得最优解),传统上只能依赖启发式方法。图神经网络引入的梯度下降等连续优化技术,为这类离散难题的高效求解提供了革命性工具。 

  免疫基因组学的智能化革命 

  疾病防控体系的快速响应依赖于对新发人畜共患病原体及已知病原体新变异株的及时识别。基因组监测虽是掌握病原体遗传多样性的基石,但传统上需要通过繁重的实验工作才能阐明其流行病学特征和致病表型。人工智能模型正在颠覆这一传统范式:直接以基因序列为输入,深度挖掘病原体蛋白质组信息。这一技术突破为基因组数据到蛋白质结构和病原体表型的高通量预测搭建了桥梁,不仅能快速完成新表型的初步评估,更能大幅减少实验验证的工作量(图1c)。尽管从小样本标注数据向大规模未标注数据的推广仍存在挑战,但最新的交叉预测策略在提升下游分析精度方面已初见成效。 

  基因组人工智能模型的应用版图正在快速扩展:病毒谱系的智能分类、病原体时空溯源与传播路径重构、传播力等关键表型的定量预测、免疫逃逸与扩散潜能评估,以及宿主特异性分析与跨物种溢出风险预警。此外,人工智能还显著提升了系统发育推断的精度,为感染过程的精细重建提供了有力支撑。 

  人工智能不仅能从基因序列预测复杂多维表型,更能推演宿主群体中流行病原体的进化轨迹,前瞻性识别潜在的免疫逃逸变异株。以全球健康威胁最大的呼吸道病毒为例,新冠病毒和流感病毒通过复制过程中的随机突变不断积累遗传变异,在自然选择压力下演化出规避宿主既有抗体免疫的能力(图1c)。人工智能驱动的变异株预测技术为研发前瞻性疫苗、单克隆抗体和抗病毒药物提供了关键指引,与蛋白质单体及复合物三维结构精准预测技术的突破性进展形成协同。 

  然而,决定变异株全球或区域流行优势的因素错综复杂,不仅涉及病原体自身的进化动力学,还深受人群行为模式、交叉免疫背景、气候环境变化以及既往病原体暴露史等多重因素的交互影响。忽视这种系统复杂性而单纯依赖人工智能模型,极易产生预测偏差。近期研究的重要发现印证了这一点:流行病学参数对新冠病毒变异株传播趋势的预测能力显著优于单纯基于进化和免疫学机制的模型。 

  基于序列分析的人工智能技术正在开启病原体多样性探索的新纪元。宏基因组学和宏转录组学技术的突破性应用,使RNA病毒谱系的发现呈现爆炸式增长,极大拓展了研究者们对动物宿主病毒组的认知边界。这些新发现的病毒中,部分具有跨物种传播至人类的潜在风险,或可能与其他病原体产生协同致病效应。分子系统发育学作为研究病毒多样性的核心工具,融合了生物学、统计学和计算科学的前沿方法。概率编程框架下的变分贝叶斯推断有望实现系统发育重建在计算规模上的革命性突破。更为重要的是,机器学习与人工智能模型正在革新基于基因组数据的跨物种溢出风险评估体系,为新发传染病的早期预警提供强有力的技术支撑。 

    

  人工智能驱动的多源数据融合 

  数据科学与代表性抽样策略 

  大流行虽然催生了疫情期间大规模跨学科数据采集能力的跨越式发展,但数据匮乏和地理分布失衡依然是制约全球流行病学研究的关键瓶颈(图2)。这些问题不仅加剧了种族健康不平等,还直接影响公共卫生决策的科学性。尤其是诊断检测资源(含基因分型能力)的地域分配严重失衡,导致采样系统性偏倚,严重削弱了数据的代表性和应用价值。决定数据洞察力的关键不在于数据规模,而在于数据质量(涵盖采样设计的科学性和样本代表性)——这一大数据悖论深刻影响着关键流行病学参数推断、疫情精准预测和新发传染病应急响应能力。 

  在全球传染病数据基础设施持续升级、传播驱动因素多维数据(涵盖社会经济指标、人口普查信息、卫星遥感气候环境数据等,见图2)加速融合的背景下,人工智能在提升监测体系成本效益、纠正数据代表性偏差方面展现出巨大潜力。主动学习和贝叶斯优化等前沿技术(表1)可指导构建自适应监测策略,基于实时数据动态优化采样方案(如智能选择下一批检测地点、重点人群或入境航班),精准服务特定流行病学问题。这些方法在基因组监测等高成本数据采集场景中价值尤为突出。 

  然而,建立疫情检测-追踪-监测全链条自适应体系仍面临诸多挑战:数据采集周期、处理时效性以及向可执行策略转化的时间窗口等因素相互制约。只有实现计算模型与监测实践的深度融合,人工智能才能真正发挥其应用价值。随着传播机制相关数据集的开放共享,人工智能有望在缺乏高精度流行病学数据的条件下,仍能准确预测疾病的时空分布格局。 

  整合新型数据源 

  新兴数据源与数字化工具的爆发式增长正在深刻变革传染病疫情建模方法体系。以英国COVID-19大流行为例,国家医疗服务体系推出的COVID-19追踪应用下载量突破2100万,实现了暴露风险实时预警和密接者管理的智能化。移动应用已成为采集个体行为数据的关键渠道,为公共卫生干预策略的制定与优化提供了前所未有的微观数据支撑。研究证实,数字化接触者追踪能够以极低的成本实现传播链的快速阻断,在应对传播速度快、早期症状隐匿的病原体时优势尤为突出。更重要的是,这些应用能够实时捕捉传播力与接触模式(距离、时长)的动态关联,精准刻画不同时期、不同变异株的传播特征差异。 

  个体移动轨迹的大规模汇聚已成为技术现实,这一革命性数据源正在全面提升传染病数学模型的预测精度和决策价值。该技术不仅能够精准把握突发公共卫生事件中的人群流动态势,还能量化分析特定场所的人流聚集模式。COVID-19大流行期间,多源智能手机位置数据被广泛应用于监测人群行为演变,实时评估公共卫生措施效果和风险感知响应。尽管数据治理框架和隐私保护聚合算法能够有效保障个人身份匿名性,但防范敏感信息泄露、避免算法偏见固化仍是亟待攻克的技术难题。当前,病原体在易感-感染-康复网络中的传播机理已有成熟的数学刻画,但如何将经典流行病学理论与新型数据源有机融合,特别是在面对高度动态化、结构复杂的接触网络时突破简单的模式识别,仍需深入探索。图神经网络技术(详见前文)为打通高保真流行病学模型与海量异构数据提供了关键技术路径。 

  通过深度整合多层级疾病活动指标——涵盖污水病原体监测、人群血清学调查、症候群监测网络、数字健康平台、可穿戴设备生理参数(心率变异性、活动强度、睡眠质量)以及社交接触网络拓扑——可显著提升疫情早期预警、实时追踪和远期健康影响评估能力。以长新冠综合征为例,智能传感器通过分析睡眠结构和运动模式的细微变化,能够实现亚临床期的早期识别。强化学习算法已成功应用于资源受限条件下的机场检疫策略优化。展望未来,融合图像识别、自然语言处理、语音分析等技术的多模态人工智能,将在个体精准医疗和群体健康管理的双重维度上展现巨大应用潜力。 

  共识基因组序列之外,宏基因组学和深度测序原始数据中蕴藏的遗传多样性信息正成为解析疾病传播机制和评估跨物种溢出风险的关键资源。新一代AI/ML算法通过深度挖掘病原体基因组突变积累规律,实现了三大突破:精准推算感染时间窗、识别流行病学关联病例的分子标签、重构传播链的方向性。COVID-19大流行见证了病原体基因组学的历史性跨越——数据规模从以往疫情的千级样本跃升至千万级规模。应对这一挑战,国际科学界构建了高通量基因组分析平台,为未来大流行的快速响应奠定了坚实的技术基础。 

  全球气候系统的深刻变化正在重塑传染病的流行版图。登革热、霍乱等气候敏感型传染病的地理扩散和发病强度显著增加,亟需人工智能技术提供精准的态势感知和预测能力。通过将历史气候数据、实时监测信息和未来气候情景深度融入流行病学模型架构,不仅能够阐明疫情演变的核心驱动机制,更能大幅提升短期预警和长期趋势预测的准确性。值得关注的是,融合物理机理与人工智能的新一代气候模型在中短期天气预报领域取得了革命性进展。这一技术突破将从根本上提升研究者们评估气候变化健康影响的能力——无论是宿主-媒介生态位迁移带来的直接影响,还是人类活动模式重构导致的间接效应,都将得到更精准的量化评估。 

  人工智能驱动的疾病建模支撑政策决策 

  公共卫生决策的智能化转型 

  新发病原体引发国际卫生危机时,各国面临横跨卫生、经济、教育、社会保障等多部门的复杂决策挑战,需要精准施策以遏制疫情蔓延。当今世界高度互联,国际旅行便利、城市人口密集,疫情可在数周内从局部暴发演变为全球大流行。决策者必须在信息高度不确定的条件下权衡利弊,既要确保防控措施的最大效力,又要将潜在的负面影响和连锁反应降至最低。构建通用化决策支持系统的人工智能技术为这一难题提供了破解之道。可以预见,先进人工智能的深度应用将从根本上重塑公共卫生决策机制,革新数据解读和模型应用的传统范式。 

  传染病建模专家与政策制定者的协同机制已日趋成熟,通过科学咨询委员会等制度化渠道,实现政策需求与技术供给的精准对接。然而,时效性始终是核心挑战:决策层面对海量数据和模型输出时,往往因缺乏针对性的精炼解读而难以快速形成决策依据;建模团队则需应对日益复杂的多维度问题,在模糊的目标导向下构建精准模型(图3)。疫情的指数级扩散特性决定了决策窗口极其有限,必须基于实时可得的最优证据果断施策。人工智能正成为加速模型迭代、支撑敏捷决策的核心引擎。新一代机器学习算法将模型运算时间压缩数个量级,使多情景推演和不确定性量化分析成为常态。大语言模型(LLM)更能根据决策者认知偏好,将复杂的定量分析转化为直观的决策建议——毕竟,并非所有人都擅长解读统计图表。 

  马尔可夫决策过程与强化学习为融合多源数据流、预测模型群和专家知识库构建了严密的理论框架,实现疫情应对的科学决策和敏捷响应(图3)。这一突破得益于模型计算效率的革命性提升(详见疾病传播机制建模章节)。强化学习在应对跨国疫情扩散方面展现独特优势,但其应用前提是清晰界定决策目标和评价体系,精确量化不同干预策略的成本收益(该技术在机器人控制和策略博弈领域已取得成功)。如何将动态演变、难以量化的公共卫生目标嵌入柔性模型架构,并有机融合人类专家的经验判断,将开辟科学-社会-政策深度融合的新格局。因此,在下一次全球大流行到来之前,亟需决策部门、社会各界和科学共同体通力合作,构建值得公众信赖、经得起考验的社会-技术决策支撑体系。 

  当前的强化学习模型(或其他决策算法)能否以足够的确定性重构和预测疫情轨迹以供实际应用,仍是一个开放性问题,其答案将取决于可用数据的质量和时效性。干预措施带来的非预期后果,如耐药性进化或因感知高感染风险而产生的行为改变,尚未在决策框架部署前被系统地纳入疫情模型。评估干预措施成本仍面临挑战,因为这些措施通常组合部署,且经常随时间或地点变化。纳入这种异质性需要人工智能和因果推断方面的更好方法,包括模拟试验,以及使用融合观察性和因果信息与模拟的混合模型,形成能够回答反事实问题的因果数字孪生 

  人工智能工具开发的伦理考量 

  支持探索人工智能如何改进传染病预防和控制的科学努力具有充分的伦理理由。这些改进可以挽救生命并减轻传染病负担。然而,人工智能工具的成功和恰当部署将关键取决于对核心伦理挑战的综合识别、仔细分析和解决。其中一些挑战在人工智能的所有领域和应用场景中都很常见,如对透明度、问责制、公平性、隐私保护以及避免加深现有不平等的关切。 

   

  在大流行防范与应对场景下,人工智能工具用于传染病防控还面临更为特殊的伦理挑战。首要问题是如何确保数据采集、存储和共享的公平正义,特别是保护历史上承受传染病沉重负担的弱势群体权益,尤其是中低收入国家民众。这些伦理困境并非人工智能技术本身所特有,而是源于传染病监测体系的固有问题及其对贫困和边缘化社区的差异化影响。一个核心议题是:当某些社区承担公共卫生干预措施时——这些措施虽有益于全球健康,却可能造成当地利益受损(如隐私权被侵犯、行动自由受限)——国际社会应承担何种补偿责任?另一个关键考量是人工智能技术能否公平地为各国公共卫生部门所用,这涉及更深层的能力建设议题。实现人工智能的普惠可及,需要通过国际合作促进专业知识转移,确保计算资源的公平分配。值得深思的是:人工智能能否成为减轻防控措施对弱势群体负面影响的有力工具? 

  第二类伦理议题聚焦于人工智能在公共卫生政策全流程中的规范应用。新冠疫情大流行的深刻教训表明,每项政策决策都蕴含着价值取向和道德判断:疫苗分配的优先级如何确定?为控制传播可在多大程度上限制个人自由?数字化接触者追踪应保持何种隐私保护水平?这些价值判断必须经过充分论证、透明决策并建立问责机制。人工智能的引入使数据驱动决策的可解释性、公平性和问责制需求更加凸显。 

  人工智能应当赋能而非替代地方自主决策权,技术手段永远无法完全量化干预措施的利弊得失。建立公众信任的核心在于:政策制定过程必须充分吸纳公众参与,整合公共卫生和临床一线的专业见解。值得注意的是,公共卫生实践与人工智能技术研发(如环境监测、污水病原体检测等新型数据源)存在深度耦合关系。这引发了一系列深层次问题:在全球卫生紧急状态下,如何平衡科学研究与应急响应的关系?如何确保研究活动的伦理合规性?这些都需要国际社会的深入探讨和制度创新。 

  公共卫生传播 

  网络虚假信息(以及旨在欺骗和误导受众的恶意信息传播)严重威胁着疫情防控策略的实施效果。世界卫生组织在大流行期间强调了打击虚假信息的重要性,并制定了监测和报告网络虚假信息的行动计划。人工智能可用于识别和应对虚假信息,赋能有效的公共卫生传播¹¹。鉴于现代网络传播涵盖文本、图像、音频和视频等多种形式,具有海量、高速、多样的特点,传统统计方法已无法胜任数字数据动态分析;人工智能工具将支持从数字领域分析和综合准确可靠的健康信息。 

  生成式人工智能模型能够实时洞察公共卫生相关信息,追踪疫情期间公众情绪变化,评估公众采纳和遵守公共卫生措施的可能性,从而补充传统调查方法的不足。有学者提出在基于个体的疫情模型中,通过基于大语言模型的生成智能体纳入公众反馈,使模型能够学习公众对疫情事件的认知和行为反应。研究人员运用自然语言处理技术分析社交媒体上虚假信息暴露和疫苗怀疑论信息传播数据,评估这些信息对疫苗犹豫的影响。然而,从定量数据中提取疫苗犹豫背后的复杂原因仍充满挑战。 

  使用人工智能支持公共卫生传播存在多重风险。必须高度重视避免或减少偏见,这些偏见通常分为数据驱动偏见、算法偏见和人为偏见。人工智能算法依赖大规模训练数据集,但生物医学数据集历史上排除了某些人群,包括女性和少数族裔。偏见可能导致伦理错误或误解。人工智能聊天机器人在提供健康建议方面的公众接受度较低,存在损害公众对公共卫生信息信任的风险。另一个风险涉及大语言模型产生虚假信息的倾向,通常被称为人工智能幻觉,但原则性统计方法在系统识别这些问题方面显示出前景。 

  数据开放共享与模型可解释性 

  疾病结局关联的开放生物学数据已成为推动医学突破的核心引擎,在个体精准医疗层面取得显著成效。非传染性疾病研究领域已形成相对成熟的数据生态:依托政府主导、科研长期资助和产学研深度协作,基于国家级数字健康平台的开放数据库体系日臻完善。这些集中化数据资源的调用必须遵循严格的安全协议和伦理规范。同时,基于敏感数据训练的人工智能模型在发布前,必须建立多层次安全防护体系和风险管控机制。 

  传染病建模面临的数据困境更为严峻:数据源高度分散、标准各异,跨国监测数据的融合互通仍是制约全球疫情防控的关键瓶颈。世界卫生组织在最新数字健康战略中将数据互联互通提升至优先议程,数字健康基础设施的完善正为人工智能应用开辟新天地。前沿研究显示,融合光学字符识别、自然语言处理和大语言模型的智能工具链,能够从PDF报告、新闻通稿、疫情简报等异构数据源中高效精准地提取结构化信息。这一技术革新将深刻改变传统流行病学研究范式:不仅优化医学文献荟萃分析流程,更能支撑基于标准化数据库的跨国协同研究。大语言模型还为系统综述等耗时的基础研究工作提供了智能化解决方案,大幅提升文献检索和知识整合效率。 

  科技巨头陆续开源的大规模基础模型正成为学术界的宝贵资产。这些模型经过严格的算法审计和安全评估,可作为传染病流行病学专用模型的训练基座。以检索增强生成技术为代表的微调策略,不仅提升了模型在垂直领域的性能表现,更能在确保数据安全的前提下,从机构私有数据中挖掘深层洞察。这种预训练-微调范式将成为传染病人工智能应用的主流技术路线。 

  跨境敏感数据、多模态信息与新型人工智能模型的安全融合,以及人工智能计算的绿色可持续发展,亟需系统性解决方案。疫情监测网络需要通过集中式或分布式计算架构实现安全互联,构建兼容复杂数据共享协议的隐私保护和治理体系。联邦学习提供了创新范式:各节点在本地完成模型训练,无需暴露原始数据,仅将参数更新汇聚至中央服务器迭代优化。然而,多数据库协同带来的技术复杂性和管理成本不容忽视。更重要的是,必须遵循国际标准确保数据资产的规范化管理——FAIR原则(可发现、可访问、可互操作、可复用)为跨平台数据流通奠定了基础。 

  健康数据的科学利用需要严格的伦理框架,非洲研究实践为全球提供了重要借鉴。人工智能应用的成功取决于社会信任基础:数据贡献者相信其付出将惠及自身和社会整体。值得注意的是,数据壁垒不仅存在于医疗领域,人群流动轨迹等行为数据多为商业机构掌控,其开放共享面临利益博弈。 

  算法可解释性是人工智能应用的核心要求——预测逻辑必须对决策者和公众透明可审。传统机理模型基于明确的科学原理,具有天然的可解释性;而深度学习基础模型缺乏清晰的归纳逻辑,呈现黑箱特征。尽管可解释人工智能的量化评估体系初具雏形,传染病领域也有探索性实践,但行业标准和规范指南仍付之阙如。因果推断方法与机器学习的融合代表了未来发展方向。 

  人工智能在传染病建模的内在局限 

  当前人工智能技术在传染病建模应用中存在三大根本性制约。其一,模型可解释性不足严重限制了对传播机理的深层认识,削弱了超越训练数据的泛化能力。其二,通用大模型(如对话式人工智能)缺乏流行病学专业模块,难以准确回答专业问题或进行专业传播。整合垂直领域模型与通用基础模型,构建“智能流行病学助手”是可行路径。其三,先进人工智能模型的训练成本高昂且集中于少数科技巨头,依赖事后微调的模式既缺乏时效性,也加剧了技术鸿沟,不利于全球公平防疫。 

  人工智能赋能传染病流行病学的战略建议 

  人工智能的潜在风险已获广泛关注,但其推动科学范式变革的能力已成共识。从历史维度看,它是传染病流行病学领域数理统计与计算科学传统的创新延续,既能优化既有研究方法,更有望催生颠覆性新范式。关键技术突破包括超大规模基础模型预训练、少样本高效学习算法等,核心在于将生物学规律深度融入模型架构,这一理念已在其他科学领域初见成效。 

  人工智能造福公共卫生的前提是数据开放共享、公平可及及完善伦理治理。当前传染病监测数据“孤岛化”问题仍突出,制约模型创新,但现有公开数据已能支撑初步应用。医疗健康领域模型标准更高,因果机制理解直接影响决策,模型偏差可能引发医疗事故,因此建立科学评估基准体系至关重要。研究者呼吁深化基础研究、完善数据治理、评估算法偏见等。 

  传染病流行病学机理建模与AI技术仍平行发展,客观评估AI价值需考量全生命周期成本。简约AI方法未必优于经典模型,其向政策转化需权衡多元因素,价值实现关键在于展现明确可持续的比较优势。当前亟需提升AI模型透明度,构建开放专业数据资源库,未来更需科研界、决策层等紧密协同,验证AI优化政策、增进健康的实际效用。 

 

  原文出处:Kraemer MUG, Tsui JL, Chang SY, Lytras S, Khurana MP, Vanderslott S, Bajaj S, Scheidwasser N, Curran-Sebastian JL, Semenova E, Zhang M, Unwin HJT, Watson OJ, Mills C, Dasgupta A, Ferretti L, Scarpino SV, Koua E, Morgan O, Tegally H, Paquet U, Moutsianas L, Fraser C, Ferguson NM, Topol EJ, Duchêne DA, Stadler T, Kingori P, Parker MJ, Dominici F, Shadbolt N, Suchard MA, Ratmann O, Flaxman S, Holmes EC, Gomez-Rodriguez M, Schölkopf B, Donnelly CA, Pybus OG, Cauchemez S, Bhatt S. Artificial intelligence for modelling infectious disease epidemics. Nature. 2025 Feb;638(8051):623-635. doi: 10.1038/s41586-024-08564-w. Epub 2025 Feb 19. PMID: 39972226; PMCID: PMC11987553. 

  链接:https://pubmed.ncbi.nlm.nih.gov/39972226/