博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
泰坦尼克号 预处理
阅读量:6643 次
发布时间:2019-06-25

本文共 320 字,大约阅读时间需要 1 分钟。

参考:https://www.kaggle.com/startupsci/titanic-data-science-solutions

 

哪些特征是分类特征:

哪些特征是数字类型的:

哪些特征是混合类型

哪些特征可能包含错误或者手误:

哪些特征包含空格,null 或空值

 

各个特征的数据类型是什么

数字类型的特征的分布式怎样的

分类特征的分布

 

基于以上分析的假设:

关联性

 

确定性:

 修改

创造:

我们还可以加入自己的猜想:

 

 检验相关性:

类似这样

在这个阶段,我们只能在没有任何空值的特性上这样做。

 

 可视化数据来分析

 未完待续

 

转载于:https://www.cnblogs.com/bafenqingnian/p/9011109.html

你可能感兴趣的文章
CentOS-5安装配置PowerDNS服务器
查看>>
记载今天的一次经验,
查看>>
FormView 显示、更新、插入、删除数据库操作[ASP.NET源代码](一)
查看>>
IIS连接127.0.0.1要输入用户名密码的解决办法
查看>>
Linux 内核中container_of的理解
查看>>
GET和POST两种基本请求方法的区别
查看>>
Android NDK开发三:java和C\C++交互
查看>>
Azure 网站的新增功能:可配置的环境变量
查看>>
微软开放技术热烈祝贺开源社成立!
查看>>
Download all Apple open source OS X files at once
查看>>
Objective-C点语法
查看>>
iOS应用程序状态切换相关
查看>>
理解AngularJS生命周期:利用ng-repeat动态解析自定义directive
查看>>
Programming Ability Test学习 1029. 旧键盘(20)
查看>>
控制器
查看>>
一些小问题
查看>>
使用python实现往手机发短信(基于twilio)
查看>>
Ubuntu开启Samba服务器,实现文件共享
查看>>
unity编程心得
查看>>
第十篇 javascript基础语法
查看>>