机器学习
-
【机器学习工程师】学习路径
机器学习路径将带你学会使用 Numpy,Scipy,Pandas,Scikit-learn,Matplotlib 等开源工具,完成从数据清理、数据分析、模型构建,到最终的预测评估及可视化呈现。 路径既包含了机器学习算法的基础知识,又融合了大量的实战操作,还覆盖了深度学习的有趣样例,将为你了解并掌握一定的机器学习技能提供动力。 Linux 基础入门 Vim编辑…
-
过去5年最受欢迎机器学习论文+代码速查
… 过去5年最受欢迎机器学习论文+代码速查 新智元编译 来源:paperswithcode.com 编辑:肖琴 【新智元导读】Papers with Code网站将ArXiv上的最新机器学习论文与GitHub上的代码联系起来。这个项目索引了大约5万篇论文和1万个GitHub库,你可以按标题关键词查询,也可以按流行程度、GitHub星星数排列“热门研究”,…
-
python大战机器学习——集成学习
集成学习是通过构建并结合多个学习器来完成学习任务。其工作流程为: 1)先产生一组“个体学习器”。在分类问题中,个体学习器也称为基类分类器 2)再使用某种策略将它们结合起来。 通常使用一种或者多种已有的学习算法从训练数据中产生个体学习器。通常选取个体学习器的准则是: 1)个体学习器要有一定的准确性,预测能力不能太差 2)…
-
python大战机器学习——人工神经网络
人工神经网络是有一系列简单的单元相互紧密联系构成的,每个单元有一定数量的实数输入和唯一的实数输出。神经网络的一个重要的用途就是接受和处理传感器产生的复杂的输入并进行自适应性的学习,是一种模式匹配算法,通常用于解决分类和回归问题。 常用的人工神经网络算法包括:感知机神经网络(Perceptron Neural Nerwork)、反向传播网络(Back …
-
机器学习(西瓜书)——模型评估与选择
1、评估标准 1)经验误差 :训练集上产生的误差 2)泛化误差:对新样本进行预测产生的误差 3)过拟合:经验误差很小甚至为零,泛化误差很大(模型训练的很复杂,几乎涵盖了训练集中所有的样本点) 4)欠拟合:与过拟合相反 一般模型的泛化误差越小越好 2、评估方法 1)留出法:采用分层采样的方式留出验证集 2)交叉验证法:将数据集均分k…
-
python大战机器学习——数据降维
注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容 降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1、主成分分析(PCA) 将n维样本X通过投影矩阵W,转换为K维矩阵Z 输入:样本集D,低维空间d 输出:投影矩阵W 算法步骤: 1)对所有样本进行中心化…
-
python大战机器学习——半监督学习
半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法 1、生成式半监督学习 优点:方法简单,容易实现。通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好 缺点:假设的生成式模型必须与真实数据分布吻合。如果不吻合则可能效果很差。而如何给出与真实数据分布吻合的生成式…
-
python大战机器学习——支持向量机
支持向量机(Support Vector Machine,SVM)的基本模型是定义在特征空间上间隔最大的线性分类器。它是一种二类分类模型,当采用了核技巧之后,支持向量机可以用于非线性分类。 1)线性可分支持向量机(也称硬间隔支持向量机):当训练数据线性可分是,通过硬间隔最大化,学得一个线性可分支持向量机 2)线性支持向量机(也称为软间隔支持向量机…
-
python大战机器学习——数据预处理
数据预处理的常用流程: 1)去除唯一属性 2)处理缺失值 3)属性编码 4)数据标准化、正则化 5)特征选择 6)主成分分析 1、去除唯一属性 如id属性,是唯一属性,直接去除就好 2、处理缺失值 (1)直接使用含有缺失值的特征 如决策树算法就可以直接使用含有缺失值的特征 (2)删除含有缺失值的特征…
-
机器学习中减弱不同图像数据色调及颜色深浅差异
关键词:消除不同图像数据色调差异/消除颜色深浅差异/病理/机器学习/深度学习/人工智能 机器学习训练图像数据时可能会因为图像数据之间的颜色深浅,色调等影响训练和预测结果,本方法可以减弱颜色深浅/色调不同对训练造成的影响 本栗子用到的是彩色图片 import numpy as np import cv2 import histomicstk as htk ro…