如何通过急救医疗服务数据中的匹配算法揭示真实患者数量

改进急救医疗服务数据中的患者层面推断

急救医疗系统（EMS）每次响应都会生成大量数据，为公共卫生研究和医疗保健系统规划创造了宝贵的机会。然而，研究人员面临一个根本的方法论挑战：数据是按EMS响应而非患者接触组织的。当多个EMS单位响应同一患者时，这种基于响应的结构可能导致患者负担估计过高，并影响研究的有效性。一项发表在《急诊医学年鉴》上的开创性研究解决了这一关键的数据质量问题，提出了一种创新的匹配方法，有望改变研究人员分析EMS数据集的方式。

理解数据挑战

国家急救医疗服务信息系统（NEMSIS）代表了美国最大的EMS数据集合，是伤害流行病学、医疗保健利用研究和系统性能评估的重要资源。公共发布数据集包含每年数百万次EMS响应的详细信息，包括时间戳、患者人口统计信息、地理坐标和临床评估。这些丰富的信息使研究人员能够调查创伤性伤害的时间趋势、评估响应时间指标并描述不同地理区域中由EMS系统服务的患者群体。

尽管其有用性，NEMSIS数据存在固有限制，使患者层面的分析复杂化。当一名严重受伤的患者需要多辆救护车的资源或当多个EMS单位在一个单一事件现场集结时，每个单位都会生成一条独立的响应记录。这种以响应为中心的组织方式意味着研究患者结果或计算疾病负担的研究人员可能会无意中多次计数同一个患者。这种过度计数问题的规模直到研究人员开始系统地检查这些重复记录的频率和特征才被知晓。

其影响不仅限于简单的计数错误。流行病学研究调查患者特征与结果之间的关联依赖于准确的分母数据来计算发病率和患病率。如果重复记录导致患者接触次数增加，最终的效果估计可能有偏差，可能导致对风险因素、治疗效果或社区医疗需求的错误结论。

研究设计和方法

研究人员进行了一项横断面研究，使用2024年纽约市的EMS响应数据，特别关注与袭击相关的响应。选择这一人群是因为袭击患者经常需要多个EMS资源，特别是在伤势严重或需要执法协调的情况下。该研究旨在确定NEMSIS数据中现成的变量是否可以可靠地识别对应同一患者接触的记录。

分析方法采用了一种匹配算法，将共享五个关键变量相同值的EMS响应链接起来：911呼叫的时间戳、患者年龄、患者性别、患者种族/民族以及患者被发现的地理位置（经度和纬度）。所有五个变量都匹配的响应被分类为表示同一患者接触。这一标准合乎逻辑，因为两个合法响应不太可能在同一地点和时间发生且具有相同的demographic特征。

为了验证这种匹配策略，研究人员进行了敏感性分析，比较了各种匹配变量组合。他们系统地从匹配标准中移除个别变量，以评估更简单的匹配算法是否能达到相当的性能。这种方法使团队能够识别出准确去重所需的最小数据元素，同时保持高灵敏度和特异性，以检测真正的重复记录。

主要发现

分析包括2024年纽约市袭击相关呼叫期间的32,202次EMS响应。在这32,202次响应中，5,143条记录在所有五个变量上与其他响应匹配，表明它们可能是由多个EMS单位记录的同一患者接触。这一发现相当于估计有26,451次独特的患者接触，比原始响应计数减少了18%。这种去重效果的规模对疾病负担计算和医疗资源规划具有重大意义。

匹配算法在所有测试排列中表现出色。当匹配五个变量的完整集时，该方法正确识别了所有真正的重复响应，达到了100%的敏感性。更重要的是，使用四个或更少变量的更简单匹配算法也实现了完美的敏感性。这表明研究人员可以在地理坐标不可用或时间戳精度有限时使用变量子集，而不会牺牲检测重复记录的能力。

特异性范围从91.3%到98.6%，具体取决于所使用的匹配变量组合。匹配911呼叫时间、患者年龄、患者性别和种族/民族的组合达到了最高的特异性98.6%，正确排除了98.6%的非真正重复接触记录。更简单算法的特异性略低，反映了减少匹配所需数据量与接受少量假阳性分类之间的权衡。

值得注意的是，研究发现仅使用人口统计学变量而不包括时间信息的匹配算法表现明显不如包含911呼叫时间戳的算法。这一观察结果强调了时间维度在区分同一地点发生的独立患者接触与单个患者的真正重复响应中的重要性。

对EMS研究和公共卫生监测的影响

从基于响应的EMS数据中准确识别患者层面事件的能力对公共卫生研究和医疗保健系统管理的多个领域具有重要意义。对于伤害流行病学，精确的患者计数使攻击相关发病率的计算更加准确，有助于资源分配和预防计划的定位。当多次EMS响应错误地计为不同的患者时，社区级别的发病率会显得过高，可能误代表人际暴力的真实负担。

医疗保健系统规划者可以从去重的患者计数中受益，以预测救护车运输量、急诊科滞留需求和医院收治需求。如果在纽约市袭击队列中观察到的18%的减少适用于其他患者群体或地理区域，则现有的利用预测可能需要重新校准。在高呼叫量环境中资源有限的EMS机构尤其可以从了解真实的患者接触频率而不是原始响应计数中受益。

研究方法还促进了关于EMS数据质量改进措施的持续讨论。随着NEMSIS实施标准逐步扩展在EMS接触期间收集的变量，但各机构之间的标准化仍不完整。使用常见变量的匹配算法的有效性表明，研究人员可以通过分析方法解决数据质量问题，而无需等待所有EMS系统的完全标准化。

专家评论和研究局限性

虽然这些发现代表了EMS研究方法的重要进展，但在解释这些结果时仍需考虑几个局限性。该研究仅集中在一年内某个大都市区的袭击相关EMS响应。将其推广到其他患者群体、地理环境或时间周期需要实证验证。具有不同操作特性和患者数量的农村EMS系统可能表现出不同的单个患者多单位响应模式。

匹配方法假设真正的重复记录在所有匹配变量上具有完全相同的值。任何这些变量中的测量误差都可能导致真正的重复记录被遗漏，从而使敏感性低于理论上的100%。相反，在高容量城市环境中，人口组成可能相似的附近地点，真正的患者接触可能巧合地在多个变量上匹配。

研究者承认，他们定义的重复记录的金标准（匹配所有五个变量）尚未通过医疗记录审查或直接患者随访独立验证。没有确认的真实数据，敏感性和特异性的估计代表相对性能指标，而不是绝对准确性指标。未来结合医院记录或创伤登记数据的研究可以更有力地验证匹配算法的真实性能特征。

此外，该研究考察了EMS响应而非患者转运。一些重复记录可能反映了多个单位响应但只有一个单位将患者运送到医疗机构的情况。专门研究患者结果或医院分析的研究人员应考虑这些响应级别的重复记录与转运级别事件的关系。

结论

这项验证研究表明，使用911呼叫时间和患者特征的相对简单的匹配算法可以有效地识别重复的EMS响应记录，从而从NEMSIS公共发布数据集中更准确地推断患者层面的信息。在所有测试变量组合中，敏感性达到100%，特异性超过91%，研究人员现在有了经过验证的方法工具，可以解决长期以来困扰基于EMS的流行病学研究的基本数据质量问题。

实际影响是巨大的。对于经常需要多单位EMS响应的条件（如创伤、心脏骤停和物质过量），疾病负担估计现在可以更准确地计算。医疗保健系统规划者可以制定更可靠的利用预测，伤害预防研究人员可以更准确地描述高危人群。随着EMS数据范围的扩大并越来越多地与医院记录和人口健康登记数据集成，能够实现准确患者层面分析的方法进步将变得越来越有价值。

未来的研究应在不同的患者群体、地理环境和EMS系统配置中验证这些匹配算法。研究响应级别重复记录与患者结果之间的关系将进一步明确这种去重方法的适当应用。NEMSIS公共发布数据集是了解美国紧急医疗服务提供情况的宝贵资源；确保研究人员可以从该数据库中提取准确的患者层面见解将最大限度地提高其对循证医疗保健改进的贡献。

资金和披露

本研究使用了国家急救医疗服务信息系统公共发布数据集的数据。出版时未提供特定的资金信息。作者报告了与此研究无关的利益冲突。

如何通过急救医疗服务数据中的匹配算法揭示真实患者数量

改进急救医疗服务数据中的患者层面推断

理解数据挑战

研究设计和方法

主要发现

对EMS研究和公共卫生监测的影响

专家评论和研究局限性

结论

资金和披露

Comments

发表回复取消回复

改进急救医疗服务数据中的患者层面推断

理解数据挑战

研究设计和方法

主要发现

对EMS研究和公共卫生监测的影响

专家评论和研究局限性

结论

资金和披露

Comments

发表回复 取消回复

发表回复取消回复