大致浏览一下回归:
考虑下面 == 如果样本的数据量 >= 100k
考虑下面 == 如果样本的数据量 < 100k 并且 少数特征是重要
考虑下面 == 如果样本的数据量 < 100k 并且 少数特征是不重要
考虑下面 == 如果无效
EnsembleRegressors-RandomForestRegressor 项目案例
EnsembleRegressors-AdaBoostRegressor 项目案例
大致浏览一下分类:
判断 数据样本条数是否小于 100k, yes 的话,采用 Linear SVC
如果上面的 Linear SVC 模型不 work
那么继续判断 样本数据是否是文本数据
-
如果 yes,采用朴素贝叶斯模型 Naive Bayes 的项目案例
-
如果 no,采用 k-近邻分类算法 KNeighbors Classifier 的项目案例 和 Nearest Neighbors regression 项目案例
如果 k-近邻算法不 work ,采用 SVC 或者 Ensemble Classifiers 算法
-
Ensemblle Classifiers 的项目案例分为了两部分来弄 随机森林:面部补全 和 使用 AdaBoost 的决策树回归
回到最初的问题上,数据样本条数是否小于 100k, no 的话,采用 SGD Classifier 算法(随机梯度下降)
如果 SGD 不 work 的话,采用 kernel approximation
大致浏览一下聚类:
大致浏览一下降维:
考虑下面 == 无效 并且 如果样本的数据量 < 10k
考虑下面 == 无效 并且 如果样本的数据量 >= 10k
考虑下面 == 无效 并且 无效