机器学习

  • 如何解决机器学习中数据不均匀问题

      不平衡程度相同(即正负样本比例类似)的两个问题,解决的难易程度也可能不同,因为问题难易程度还取决于我们所拥有数据有多大。比如在预测微博互动数的问题中,虽然数据不平衡,但每个档位的数据量都很大——最少的类别也有几万个样本,这样的问题通常比较容易解决;而在癌症诊断的场景中,因为患癌症的人本来就很少,所以数据不但不平衡,样本数还非常少,这样的问题就非常棘手。综…

    机器学习 2023年4月11日
    00
  • 《机器学习Python实现_01_线性模型_线性回归_正则化(Lasso,Ridge,ElasticNet)》

    一.过拟合 建模的目的是让模型学习到数据的一般性规律,但有时候可能会学过头,学到一些噪声数据的特性,虽然模型可以在训练集上取得好的表现,但在测试集上结果往往会变差,这时称模型陷入了过拟合,接下来造一些伪数据进行演示: import os os.chdir(‘../’) from ml_models.linear_model import * import n…

    机器学习 2023年4月11日
    00
  • 【机器学习】HMM模型原理及其实战

    隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:1. 隐含状态 S、2. 可观测状态 O、3. 初始状态概率矩阵 π、4. 隐含状态转移概率矩阵 A、5. 观测状…

    机器学习 2023年4月11日
    00
  • 机器学习第一练(铁达尼号罹难者预测)

      之前一直觉得这个机器学习就是把一堆数据扔给机器(代码)然后它能产生出新的神奇来,不过很多事情只有做了才能了解它大概是个什么东西   首先去Kaggle上找数据,一般数据挖掘这块,基本上至少有一个训练集和一个测试集, 下载这个train和test文件,是不是觉得很熟悉,这跟KNIME做决策树,贝叶斯的数据挖掘的流程很相似 网站上还有关于数据的一个解释,显示…

    机器学习 2023年4月11日
    00
  • 机器学习第三练:为慈善机构寻找捐助者

      这个任务同样是在Jupyter Notebook中完成, 项目目的是通过前面的所有特征列,当然去掉序号列,然后预测最后一列,收入’income’,究竟是大于50K,还是小于等于50K.   第一步,探索数据,像探索性统计里经常涉及到的频数,均值,众数或者众位数相关的计算,我们通过这些统计指标,使用python来看一下数据的大概情况 这块主要还是涉及pan…

    机器学习 2023年4月11日
    00
  • 机器学习:处理非平衡数据集的办法

           所谓类别不平衡问题就是分类任务中不同类别的训练案例数目差别极其大的情况。不是一般性,我们在这里讨论二分类问题中正例个数远远少于反例的情形。常见的处理非平衡数据集的办法主要有:   1.阈值移动(Threshold Moving):       通常我们预测类别的方法是学习得到正例概率$P$,如果:\begin{equation}\frac{P}…

    机器学习 2023年4月11日
    00
  • 机器学习004-Markov Property

    Markov property: 在一连串随机事件中,事件的概率只和当前状态有关,而与前面的事件无关。 Markov chain: 满足Markov property的随机模型 条件随机场 条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可…

    机器学习 2023年4月11日
    00
  • 机器学习练习(二)-机器学习的四大应用领域

    一·数据挖掘   数据挖掘主要是应用于大数据领域,利用机器学习的模型来挖掘数据中的潜在价值。发现数据之间的关系。比如根据房价的变化预测房价,根据天气信息预测天气等。会应用经典的回归类问题。   传统的监督学习,或者非监督学习,或者与深度学习相结合的方式。 二·计算机视觉   让机器像人一样看世界,看到图像,视频等媒体。会把图像进行识别,分类。图中的是动物,还…

    机器学习 2023年4月11日
    00
  • 机器学习模型评估指标总结

     常用机器学习算法包括分类、回归、聚类等几大类型,以下针对不同模型总结其评估指标 一、分类模型 常见的分类模型包括:逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等,模型评估指标包括以下几种: (1)二分类问题   (a)混淆矩阵     准确率A:预测正确个数占总数的比例     精准率P:正例样本中有多少被预测正确了     召回率R:预测的正例样本中有…

    机器学习 2023年4月11日
    00
  • 《机器学习》(西瓜书)笔记(3)–线性模型

    第三章    线性模型 3.1  基本形式 线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即 一般用向量形式写成 ,其中 w 和 b 学得之后, 模型就得以确定。     3.2  线性回归 对离散属性的处理: 若属性值间存在序关系,可通过连续化将其转化为连续值,例如二值属性“身高”的取值“高”“矮”可转化为 {1.0,…

    机器学习 2023年4月11日
    00
合作推广
合作推广
分享本页
返回顶部