本文对Kaggle中的Titanic事故中乘客遇难情况进行了相应的分析和可视化采用逻辑回归对他们的遇难情况进行了预测。最后得到的预测结果不算很好但是本文大致是一个较为完整的数据分析和预测流程。
建立模型时我们需要的特征往往都是数值型因此我们需要将对相应属性转换为one-hot编码表示首先我们打印出数据集的前5行看看哪些特征需要进行转换
将模型中每个特征的系数打印出来分析可以看到头等舱可以很好的提升获救率而三等舱与获救率则有着明显的负相关女性与获救率之间则有着明显的正相关等。
之前我们直接在测试集上进行了预测为了优化模型我们可以首先在一部分训练集上进行预测与真实的情况进行对比采用sklearn里的交叉预测模块进行分析
在这之后为了提高预测准确率还需要进行更进一步的特征工程的工作并且采用多模型融合也可能可以提高预测的准确率。本文在补全未知数据时采用了较为简单的方法尤其时对年龄的补全采用了所有数据的平均值作为缺失年龄的补全值这样的做法可能并不科学另外对于PassengerId、Name和Ticket的信息没有进行有效的利用在这些方面进一步深挖也许可以提高预测的准确率。