R中的生存分析

R 编程语言中的生存分析处理特定时间事件的预测。它处理在指定时间内发生的有趣事件，并且它的失败会产生审查观察，即不完整的观察。

R 编程语言中的生存分析

生物科学是生存分析最重要的应用，我们可以在其中预测生物的时间，例如。当它们乘以大小等时。

用于进行生存分析的方法：

有两种方法可用于在 R 编程语言中执行生存分析：

Kaplan-Meier 方法
Cox 比例风险模型

卡普兰-迈耶法

Kaplan-Meier 方法用于使用 Kaplan-Meier 估计器对截断或删失数据进行生存分布。这是一个非参数统计，它允许我们估计生存函数，因此不基于潜在的概率分布。 Kaplan-Meier 估计值基于治疗后存活一定时间的患者总数中的患者数量（每个患者作为一行数据）。（这是事件）。

我们用公式表示 Kaplan-Meier函数：

这里S(t)表示生命比t长的概率ti （至少发生了一个事件）， di表示在时间ti发生的事件（例如死亡）的数量， ni表示存活到时间ti

例子：

我们将使用 Survival 包进行分析。使用预加载在生存包中的Lung数据集，该数据集包含来自 North Central 癌症治疗组的 228 名晚期肺癌患者的数据，基于 10 个特征。数据集包含缺失值，因此假设在构建模型之前在您身边完成缺失值处理。

R

# Installing package
install.packages("survival")
 
# Loading package
library(survival)
 
# Dataset information
?lung
 
# Fitting the survival model
Survival_Function = survfit(Surv(lung$time,
                                 lung$status == 2)~1)
Survival_Function
 
# Plotting the function
plot(Survival_Function)

R

# Installing package
install.packages("survival")
 
# Loading package
library(survival)
 
# Dataset information
?lung
 
# Fitting the Cox model
Cox_mod <- coxph(Surv(lung$time,
                      lung$status == 2)~., data = lung)
 
# Summarizing the model
summary(Cox_mod)
 
# Fitting survfit()
Cox <- survfit(Cox_mod)
 
# Plotting the function
plot(Cox)

在这里，我们对“时间”和“状态”感兴趣，因为它们在分析中起着重要作用。时间代表患者的生存时间。由于患者存活，我们将他们的状态视为死亡或未死亡（审查）。

Surv()函数将两次和状态作为输入，并创建一个对象作为survfir()函数的输入。我们在survfit()函数中传递 ~1 以确保我们告诉函数根据生存对象拟合模型并产生中断。

survfit()创建生存曲线并打印值的数量、事件的数量（患有癌症的人）、中位时间和 95% 置信区间。该图提供以下输出：

这里，x 轴指定“天数”，y 轴指定“生存概率”。虚线是上置信区间和下置信区间。

我们还有显示预期误差幅度的置信区间，即在存活 200 天的天数内，置信区间上限达到 0.76 或 76%，然后下降到0.60 或 60% 。

Cox 比例风险模型

它是一种回归模型，用于衡量瞬时死亡风险，比 Kaplan-Meier 估计量更难说明。它由风险函数h(t)组成，它描述了在特定时间t之前事件或风险h （例如生存）的概率。危险函数考虑协变量（回归中的自变量）来比较患者组的生存率。
它不假设潜在的概率分布，但它假设我们比较的患者组的危害随着时间的推移是恒定的，因此它被称为“比例风险模型”。

例子：

我们将使用 Survival 包进行分析。使用预加载在生存包中的Lung数据集，该数据集包含来自 North Central 癌症治疗组的 228 名晚期肺癌患者的数据，基于 10 个特征。数据集包含缺失值，因此假设在构建模型之前在您身边完成缺失值处理。我们将使用 cox 比例风险函数coxph()来构建模型。

R

# Installing package
install.packages("survival")
 
# Loading package
library(survival)
 
# Dataset information
?lung
 
# Fitting the Cox model
Cox_mod <- coxph(Surv(lung$time,
                      lung$status == 2)~., data = lung)
 
# Summarizing the model
summary(Cox_mod)
 
# Fitting survfit()
Cox <- survfit(Cox_mod)
 
# Plotting the function
plot(Cox)

Cox_mod 输出类似于回归模型。有一些重要的特征，如年龄、性别、ph.ecog 和 wt。损失。该图提供以下输出：

这里，x 轴指定“天数”，y 轴指定“生存概率”。虚线是上置信区间和下置信区间。与 Kaplan-Meier 图相比，Cox 图的初始值较高，较高的值较低，因为 Cox 图中有更多变量。

我们还有显示预期误差幅度的置信区间，即在存活 200 天的天数内，置信区间上限达到0.82 或 82% ，然后下降到0.70 或 70%。

注意： Cox 模型比 Kaplan-Meier 提供更好的结果，因为它的数据和特征最不稳定。 Cox 模型对于较低的值也较高，反之亦然，即随着时间的增加急剧下降。