Skip to content

Files

Failed to load latest commit information.

Latest commit

 Cannot retrieve latest commit at this time.

History

History
 
 

flowchart

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

Sklearn 快速入门教程

Regression 回归

大致浏览一下回归:

分类大致的图

考虑下面 == 如果样本的数据量 >= 100k

考虑下面 == 如果样本的数据量 < 100k 并且 少数特征是重要

Lasso 和 ElasticNet 项目案例

考虑下面 == 如果样本的数据量 < 100k 并且 少数特征是不重要

ridge-regression 项目案例

SVR(kernel='linear') 项目案例

考虑下面 == 如果无效

EnsembleRegressors-RandomForestRegressor 项目案例

EnsembleRegressors-AdaBoostRegressor 项目案例

SVR(kernel='rbf') 项目案例

Classification 分类

大致浏览一下分类:

分类大致的图

判断 数据样本条数是否小于 100k, yes 的话,采用 Linear SVC

如果上面的 Linear SVC 模型不 work

那么继续判断 样本数据是否是文本数据

如果 k-近邻算法不 work ,采用 SVC 或者 Ensemble Classifiers 算法

回到最初的问题上,数据样本条数是否小于 100k, no 的话,采用 SGD Classifier 算法(随机梯度下降)

如果 SGD 不 work 的话,采用 kernel approximation

Clustering 聚类

大致浏览一下聚类:

聚类大致的图

Dimensionality Reduction 降维

大致浏览一下降维:

降维大致的图

Randomized PCA 项目案例

考虑下面 == 无效 并且 如果样本的数据量 < 10k

考虑下面 == 无效 并且 如果样本的数据量 >= 10k

考虑下面 == 无效 并且 无效