原文出处:
对比用的数据集是C50包中自带的churn数据,它是用来预测顾客流失的数据集,其中样本量为3333个,变量数为20个 。 为不平衡数据,没有缺失值存在 。 对比基本步骤是用10重交叉检验,将数据随机分为10份,用9份训练决策树,用1份来检验结果。循环后求出10个预测准确度的均值 。 然后在外面再套一个100次大循环,产生三个决策树算法各100个准确率。最后绘制为提琴图,从图中可以观察到C5 . 0的表现最好,而party次之,rpart的效果最差。在本例实验中最大的差距虽然不过0.02,但如果放在kaggle的数据挖掘比赛中,就相当于是一百位名次的差距了。 生成代码如下: C5.0算法相对于C4 . 5有如下几点改进:
(C50)()()(reshape2)()(churn)rate.c <- rate.r <-rate.p<- (0,100)for (j in 1:100) { num <- (1:10,(churnTrain),=T) res.c <- res.r <-res.p<- (0,=(2,2,10)) for ( i in 1:10) { train <- churnTrain[num!=i, ] test <- churnTrain[num==i, ] model.c <- C5.0(churn~.,=train) pre <- (model.c,test[,-20]) res.c[,,i] <- ((pre,test[ ,20])) model.p <-ctree(churn~.,=train) pre <- (model.p,test[,-20]) res.p[,,i] <- ((pre,test[ ,20])) model.r <- (churn~.,=train) pre <- (model.r,test[,-20],type='class') res.r[,,i] <- ((pre,test[ ,20])) } table.c <- (res.c,MARGIN=(1,2),) rate.c[j] <- ((table.c))/sum(table.c) table.p <- (res.p,MARGIN=(1,2),) rate.p[j] <- ((table.p))/sum(table.p) table.r <- (res.r,MARGIN=(1,2),) rate.r[j] <- ((table.r))/sum(table.r)} <- (c50=rate.c,=rate.r,=rate.p)data.melt <- melt() p <- (data.melt,aes(variable,value,color=variable))p + geom_point(position='jitter')+ geom_violin(alpha=0.4)
- 速度显著加快
- 内存使用减少
- 生成树模型更为简洁
- 支持boosting方法
- 支持加权和成本矩阵
- 支持变量筛选