机器学习项目清单

2023年4月12日下午9:49 • 机器学习

yizhihongxing

总共有八个步骤：

首先你要有一个要解决的问题
获取解决问题需要的数据
探索数据，对数据有一个清楚的理解
预处理数据以便更好地输入给机器学习算法
探索不同的模型并且找到最好的那个
调整你的模型参数，并将这些参数组合成一个更好的解决方案
展示你的结果
对你的系统进行上线、监控和维护

1 规范化问题：Frame the Problem and Look at the Big Picture

用商业术语来定义你的目标
您的解决方案将如何使用？
如果有的话，目前的解决方案/方法是什么？
你如何规范化这个问题（有监督/无监督，在线/离线）？
模型的效果如何测量？
模型测量的指标是否与业务目标（原文为business objective）保持一致？
达到业务目标所需的最低模型性能是多少？
类似的问题有哪些？你可以重复使用他们的经验或工具吗？
是不是人类专长的问题？
你如何人工手动解决这个问题？
列出目前为止，你或其他人所做出的假设
如果可能的话，验证假设

2 获取数据：Get the Data

列出你需要的数据和你需要的数据量
查找并记录可以获取该数据的位置
检查这些数据需要多少空间
检查法律义务，并在必要时获得授权
获取访问权限
创建一个有足够的存储空间的工作区（可以简单理解为计算机上的文件夹）
获取数据
将数据转换为您可以轻松操作的格式（不要更改数据本身）
确保删除或保护敏感信息（例如：使用匿名）
检查数据的大小和类型（时间序列，样本，地理信息等）
抽样出一个测试集，放在一边，不要管它

注意：尽可能自动化获取数据，这样您可以轻松获取最新的数据

3 探索数据：Explore the Data

为探索数据创建一份数据副本（如果需要，可将其抽样为可管理的大小）
在Jupyter notebook上以记录您的数据探索过程
研究每个属性及其特征
- 名字
- 类型：分类，int / float，有界/无界，文本，结构化等
- 丢失数据的百分比
- 噪音和噪音类型（随机，异常值，舍入误差等）
- 对任务的有用性
- 数据分布的类型（高斯分布，均匀分布，对数分布等）
对于有监督学习任务，确定标签值
可视化数据
研究样本属性之间的关系
思考如何手动解决这个问题
确定您可能想要应用的数据转换
确认可能有用的额外数据
将你学到的东西记录下来

注意：尝试从领域专家那里获取这些步骤的见解

4 数据预处理：Prepare the Data

数据清理
- 根据需要，修复或删除异常值
- 补全异常值（利用零、均值、中位数等）或者删掉此行（或者列）
特征选择
- 删除对任务无用的属性
适当的特征工程
- 对连续特征离散化处理
- 分解特征（例如，分类，日期/时间等）
- 添加有希望的特征转换（例如，log（x），sqrt（x），x ^ 2等）
- 将特征聚合成新的特征
特征缩放：对特征进行归一化或标准化处理

注意：

在数据副本上进行处理（保持原始数据集的完整）
对所有数据转换的函数编写代码，原因有五：
- 可以在下次获取新数据集时轻松处理数据
- 可以在未来的项目中应用这些转换
- 对测试集进行预处理
- 在解决方案生效后清理并准备新的数据实例
- 轻松地将预处理选择作为超参数来处理

5 列出可能的模型：Short-List Promising Models

使用标准参数训练不同类别的快速模型（例如，线性，朴素贝叶斯，SVM，随机森林，神经网络等）
测量并比较他们的性能
- 对于每个模型，使用N折交叉验证并计算N折性能的均值和标准差
分析每种算法的重要变量
分析模型产生的错误类型
- 人们用什么数据来避免这些错误？
快速进行特征选择和特征工程
对前面五个步骤进行一两次更快的迭代
简短列出前三到五个最有希望的模型，特别是不同类型的错误的模型

注意：

如果数据很大，您可能需要抽取较小的训练集，以便在合理的时间内训练不同的模型（在复杂模型中要特别注意，如大型神经网络或随机森林）
再次尝试，尽可能自动执行这些步骤

6 模型调整：Fine-Tune the System

使用交叉验证对超参数进行微调
- 将数据转换选择视为超参数，特别是当您不确定转换是否合适时（例如，是否应该用零或中位数替换缺失的值？或者只是删除指定行？）
- 当探索的超参数值很少，首选利用网格搜索上进行随机搜索。如果训练时间很长，您可能更喜欢贝叶斯优化方法（例如，使用高斯过程先验，请参考[Practical Bayesian optimization of machine learning algorithms）。
尝试集成方法。结合你最好的几个模型往往会比单独更好
一旦你对你的最终模型充满信心，在测试集上运行以检测泛化误差

注意：

在此步骤，您需要使用尽可能多的数据，特别是在您微调结束的时候
一如既往地自动化你所能做的事

7 展示你的方案：Present Your Solution

记录下你所做的事情
创建一个不错的演示
- 确保首先突出重点。
解释您的解决方案为何能够达到业务目标
不要忘记提出你一路注意到的有趣观点
- 描述什么工作是有效的，什么没效
- 列出您的假设和模型系统的局限性
确保您关键的研究结果通过美观的可视化或易于记忆的陈述进行传达（例如，“收入中位数是房价的头号预测指标”）

8 上线：Launch!

准备好生产环境下的解决方案（插入数据输入，编写单元测试等）
编写监控代码，定期检查系统的实时性能，并在性能下降时时触发警报
- 小心模型缓慢的退化：随着数据的发展，模型往往会“腐烂”。
- 衡量吸能可能需要人工流程（例如，通过众包服务）。
- 同时监控您输入的数据质量（例如发送随机值的故障传感器，或其他团队的输出过时）。这对于在线学习系统尤为重要。
定期在新的数据上模型重新训练（尽可能自动化）

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习项目清单 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

机器学习：单元线性回归（python简单实现）

上一篇 2023年4月12日

持久化机器学习模型（joblib方式）

下一篇 2023年4月12日

pytorch下的lib库源码阅读笔记（1）

置顶：将pytorch clone到本地，查看initial commit，已经是麻雀虽小五脏俱全了，非常适合作为学习模板。 2017年12月7日01:24:15 2017-10-25 17:51 参考了知乎问题如何有效地阅读PyTorch的源代码？相关回答按照构建顺序来阅读代码是很聪明的方法。 1，TH中最核心的是THStorage、THTen…

PyTorch 2023年4月8日
000
caffe IDE 开发环境配置

这篇博文主要记录caffe开发环境的种种。在直接使用caffe的时候，需要对数据做格式转换。然后配置一个网络格式的描述文件即可进行训练。但是在做预测和格式转化的时候，我们需要将Caffe当作一个sdk那样来使用。这里我主要解决配置IDE。这里我选用的是nsight，因为装好cuda之后，这个编辑器就自带了。代码我选用caffe/examples/mni…

Caffe 2023年4月6日
000
tensorflow

TensorFlow学习之四

摘要：本文主要对tf的一些常用概念与方法进行描述。 1、tensorflow的基本运作为了快速的熟悉TensorFlow编程，下面从一段简单的代码开始： import tensorflow as tf #定义‘符号’变量，也称为占位符 a = tf.placeholder(“float”) b = tf.placeholder(“float”) y =…

2023年4月8日
000
win7 配置微软的深度学习caffe win7 配置微软的深度学习caffe

官方下载： https://github.com/Microsoft/caffe 然后直接修改caffe目录下的windows目录下的项目的props文件配置支持哪些特性，然后直接打开vs的项目编译即可完成，怎一个爽字了得（nuget自动处理依赖问题） (1)注意修改python的绑定为true, (2)matlab的绑定为true, (3)usecu…

Caffe 2023年4月6日
000
PyTorch

深度学习Pytorch(一)

深度学习Pytorch(一) 前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境： conda remove -n pytorch –all 一、安装Pytorch 下载Anaconda 打开Anaconda Prompt 创建一个Pytorch环境： conda create -n pytorch python=3.9 激活Pytorch环…

2023年4月5日
000
目标检测

目标检测之RefineDet

RefineDet 一、相关背景中科院自动化所最新成果，CVPR 2018 《Single-Shot Refinement Neural Network for Object Detection》在VOC2007测试集上，图像输入512*512时，map为81.8%，速度为24fps。论文链接：http…

2023年4月5日
000
编译caffe-gpu-cuda及cudnn-tar 下载地址

y下载 https://github.com/BVLC/caffe https://github.com/BVLC/caffe/archive/master.zip gcc　　 caffe安装有2个问题：1，镜像系统类型，版本要求2，是否使用cudnn(gpu) caffe要调用cudnn部分文件编译 (如用，cuda cudnn版本要求) ubuntu…

Caffe 2023年4月7日
000
PyTorch

pytorch高阶OP操作where，gather

一、where 1）torch.where(condition, x, y) # condition是条件，满足条件就返回x，不满足就返回y 2）特点，相比for循环的优点是：可以布置在GPU上运行二、gather 1）官方解释：根据指定的维度和索引值来筛选值 2）举例

2023年4月8日
000

合作推广

合作推广

返回顶部