# Kaggle **Repository Path**: pluto0930/Kaggle ## Basic Information - **Project Name**: Kaggle - **Description**: kaggle案例实践 - **Primary Language**: HTML - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-11-15 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Kaggle案例练习 + 1 Titanic获救预测:

特征工程:对现有特征进行一些混合运算来获得i性能特征。例如名字长度、家庭成员数。

特征选择:运用sklearn中的feature_selection模块。特征选择有四类方法,过滤法,嵌入法,包装法,降维法。这里使用过滤法,按照方差选出5个最佳特征并做图。

模型训练:选择线性回归、SVM、随机森林进行训练,其中线性回归准确率78%,随机森林79%。经过调参可提升模型表现。 + 2 Bag of Words Meets Bags of Popcorn:

对影评进行情感分类,分词、去停词、提取词干后,用词袋模型、TFIDF模型分别进行特征提取,将文档转换为向量形式。除此之外,也尝试Word2vec模型训练词向量。最后用SVM、MNB模型训练。 + 3 House price

数据预处理:将类别型数据转换为one-hot encoding,对数据进行“无量纲化”使其满足正态分布。对缺失的数据,用平均值填满。

运用随机森林模型、决策树模型,对比之下,随机森林的结果优于决策树。