# Kaggle
**Repository Path**: pluto0930/Kaggle
## Basic Information
- **Project Name**: Kaggle
- **Description**: kaggle案例实践
- **Primary Language**: HTML
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-11-15
- **Last Updated**: 2020-12-19
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# Kaggle案例练习
+ 1 Titanic获救预测:
特征工程:对现有特征进行一些混合运算来获得i性能特征。例如名字长度、家庭成员数。
特征选择:运用sklearn中的feature_selection模块。特征选择有四类方法,过滤法,嵌入法,包装法,降维法。这里使用过滤法,按照方差选出5个最佳特征并做图。
模型训练:选择线性回归、SVM、随机森林进行训练,其中线性回归准确率78%,随机森林79%。经过调参可提升模型表现。
+ 2 Bag of Words Meets Bags of Popcorn:
对影评进行情感分类,分词、去停词、提取词干后,用词袋模型、TFIDF模型分别进行特征提取,将文档转换为向量形式。除此之外,也尝试Word2vec模型训练词向量。最后用SVM、MNB模型训练。
+ 3 House price
数据预处理:将类别型数据转换为one-hot encoding,对数据进行“无量纲化”使其满足正态分布。对缺失的数据,用平均值填满。
运用随机森林模型、决策树模型,对比之下,随机森林的结果优于决策树。