本系列第二部分:“采用现代方法汇总、清理和转换临床数据”
如今,从事临床数据管理的任何人都知道,汇总来自多个来源的研究数据有多么困难。每个来源通常使用自己独特的列名、列顺序和数据类型组合来表示其收集的研究数据。
此外,数据本身也是异构的。不同的研究来源对常见研究数据元素的描述不同。例如,访问信息可能被描述为访问或事件,而该字段中包含的值可能从“访问 1”到“v1”或“Visit01”不等,适用于同一临床诊疗。这种程度的可变性使下游数据分析和数据清理变得复杂。
因此,许多数据管理团队已转向研究数据制表模型 (SDTM),该模型旨在支持数据分析以整合源数据。一些数据管理员认为,如果您无论如何都必须将数据转换为 SDTM,为什么不尽快这样做呢?这样,研究团队就可以使用合并后的数据来支持数据协调和清理,以及生成近期可交付成果,例如 DMC 表格列表和图表。
不幸的是,生成 SDTM 数据也很困难。尽管一些团队声称已经实现 白俄罗斯赌博数据 了将原始数据输入 SDTM 的自动化过程,但通常只有大约 70% 的 SDTM 变量可以自动生成。生成剩余的 30% 则需要编程技能和人类艺术。最后,使用 SDTM 模型需要时间,因为需要进行大量转换。当必须上传更改后的数据时,这一点可以再次感受到,因为必须在开始数据清理之前对其进行转换,从而导致延迟。
随着数据集大小和数据源数量的增长,完成原始到 SDTM 转换所需的时间从几分钟增加到几小时或几天。
SDTM Lite:效果更好,但不是万能药
许多团队通过使用“SDTM Minus”(一种类似 SDTM 的数据模型,而不是全功能 SDTM)来支持数据清理,从而缓解了延迟。但即便如此,所需的大量数据操作也会导致数据清理活动延迟。
当他们正在进行的大型试验在 C 级高管的密切关注下接近关键分析日期并且团队需要修复源数据问题时,会发生什么?在大型研究中,需要花时间从 EDC 中提取数据,将其加载到服务器,重新运行 SDTM 程序,重新运行验证,然后将数据带回数据管理团队。并且每个步骤都需要沟通,这只会增加时间线。因此,数据管理团队无法立即在其数据清理数据模型中看到微小的源数据变化。相反,他们必须等待(通常要等待几天)才能生成类似 SDTM 的数据集,之后他们需要确认源更改已按预期传递并修复了问题。