机器学习
-
机器学习之数据标准化
本文将具体介绍,当我们的数据导入到代码里时,数据有的可能是中文、数字、时间等等,对于计算机来说肯定十分头大,数据还会有缺失、不统一等问题,所以需要对数据进行标准化,也叫特征工程。 这样的好处主要有两个,一是可以提升模型的精度,二是可以提升模型的收敛速度 一、归一化 \ 标准化 sklearn的preprocessing提供了可以满足需求的归一化方法 1.1 …
-
机器学习之朴素贝叶斯算法
朴素贝叶斯为根据贝叶斯定理,假设每个特征之间相互独立,然后根据每个特征值所属的概率最大的分类相加,最后得出哪个分类的概率可能性最大,就把预测的数据划分到那个类别下,对实现原理感兴趣的小伙伴,可以翻翻其他的博主的文章看看。 附上本人测试的代码,如下, # -*- coding:utf-8 -*- # 导入科学计算工具 import numpy as np # …
-
机器学习之决策树分类器
决策树,当下比较流行的有三种分类器, C4.5, ID3, CART, 不过大同小异,主要的区别就是选择的目标函数不同,ID3使用的是信息增益,C4.5使用信息增益率,CART使用的是Gini系数。 ,具体的原理就不说了,去翻翻别的博主吧,下面给出本人测试的小demo,帮助各位学者更快入手。 # -*- coding:utf-8 -*-from sklear…
-
机器学习-模型保存和加载
下面介绍训练好的AI模型如何保存和加载,分为机器学习和深度学习两种略微有所区别,因为深度学习要保存整个网络结构,所以略微不同 1.机器学习模型保存方式一使用python自带的pickle import picklef = open(‘saved_model/rfc.pickle’,’wb’) pickle.dump(rfc,f) #参数1为训练好的模型 f.…
-
机器学习分类算法之KNN算法
KNN算法为按距离进行分类的,对于已知的分类,根据欧式距离,最靠近那个分类就被预测为那个分类。 本文只是简单展示一下实现代码,具体的特征和分类,还得自己根据实际场景去调整。 在开始之前注意看看导入的包是否都存在,如不存在的化,请先安装相应的包 # -*- coding:utf-8 -*- import numpy as np from sklearn imp…
-
机器学习-分类算法-逻辑回归
# -*- coding: utf-8 -*- “”” Spyder Editor This is a temporary script file. “”” import matplotlib.pyplot as plt import numpy as np from sklearn.model_selection import train_test_s…
-
机器学习之 PCA
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作…
-
机器学习之-奇异值分解(SVD)原理详解及推导
转载 http://blog.csdn.net/zhongkejingwang/article/details/43053513 在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The S…
-
持久化机器学习模型(joblib方式)
import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression from sklearn.preprocessing import PolynomialFeatures from sklearn.externals imp…
-
机器学习项目清单
总共有八个步骤: 首先你要有一个要解决的问题 获取解决问题需要的数据 探索数据,对数据有一个清楚的理解 预处理数据以便更好地输入给机器学习算法 探索不同的模型并且找到最好的那个 调整你的模型参数,并将这些参数组合成一个更好的解决方案 展示你的结果 对你的系统进行上线、监控和维护 1 规范化问题:Frame the Problem and Look at th…