机器学习
-
python机器学习工具包
1. scikit-learn: Machine Learning in Python scikit-learn是一个基于NumPy, SciPy, Matplotlib的开源机器学习工具包,主要涵盖分类,回归和聚类算法, 例如SVM, 逻辑回归,朴素贝叶斯,随机森林,k-means等算法,代码和文档都非常不错,在许多Python项 目中都有应用。 官方主页…
-
机器学习|我们在UCL找到了一个糖尿病数据集,用机器学习预测糖尿病(一)
作者:Susan Li 编译:袁雪瑶、吴双、姜范波 根据美国疾病控制预防中心的数据,现在美国1/7的成年人患有糖尿病。但是到2050年,这个比例将会快速增长至高达1/3。我们在UCL机器学习数据库里一个糖尿病数据集,希望可以通过这一数据集,了解如何利用机器学习来帮助我们预测糖尿病,让我们开始吧! https://github.com/su…
-
机器学习|我们在UCL找到了一个糖尿病数据集,用机器学习预测糖尿病(二)
逻辑回归: 逻辑回归是最常用的分类算法之一。 from sklearn.linear_model import LogisticRegression logreg=LogisticRegression().fit(x_train,y_train) print(“Training set score:{:.3f}”.format(logreg.score(x_…
-
机器学习|我们在UCL找到了一个糖尿病数据集,用机器学习预测糖尿病(三)
梯度提升: from sklearn.ensemble import GradientBoostingClassifier gb=GradientBoostingClassifier(random_state=0) gb.fit(x_train,y_train) print(“Accuracy on training set:{:.3f}”.format(g…
-
基于scikit-learn包实现机器学习之KNN(K近邻)-完整示例
基于scikit-learn包实现机器学习之KNN(K近邻) scikit-learn(简称sklearn)是目前最受欢迎,也是功能最强大的一个用于机器学习的Python库件。它广泛地支持各种分类、聚类以及回归分析方法比如支持向量机、随机森林、DBSCAN等等,由于其强大的功能、优异的拓展性以及易用性,目前受到了很多数据科学从业者…
-
机器学习中常用评估指标
评估指标 Evaluation metrics 可以说明模型的性能,辨别模型的结果。 我们建立一个模型后,计算指标,从指标获取反馈,再继续改进模型,直到达到理想的准确度。在预测之前检查模型的准确度至关重要,而不应该建立一个模型后,就直接将模型应用到看不到的数据上。 今天先来简单介绍几种回归和分类常用的评估方法。 回归 均方误差: 其中D为数据分布,p为概率…
-
机器学习|k-近邻(KNN)算法改进约会网站的配对效果
使用Python实现k-近邻算法的一般流程为: 1、收集数据:提供文本文件 2、准备数据:使用Python解析文本文件,预处理 3、分析数据:可视化处理 4、训练算法:此步骤不适用与k——近邻算法 5、测试算法:使用海伦提供的部分数据作为测试样本。测试样本与非测试样本的区别在于:测试样本是已经完成分类的数据,如果预测分类与实际类别不一样,则标记为一个错误。 …
-
机器学习|基于SVM的鸢尾花数据集分类实现
iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set。iris包含150个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表。通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特…
-
机器学习工程师 – Udacity 项目2: 为CharityML寻找捐献者
开始在这个项目中,你将使用1994年美国人口普查收集的数据,选用几个监督学习算法以准确地建模被调查者的收入。然后,你将根据初步结果从中选择出最佳的候选算法,并进一步优化该算法以最好地建模这些数据。你的目标是建立一个能够准确地预测被调查者年收入是否超过50000美元的模型。这种类型的任务会出现在那些依赖于捐款而存在的非营利性组织。了解人群的收入情况可以帮助一个…
-
机器学习工程师 – Udacity 项目 0: 预测你的下一道世界料理
第一步. 下载并导入数据 1.1 数据集:https://www.kaggle.com/c/whats-cooking/data 1.2 加载数据 # 导入依赖库 import json import codecs import pandas as pd import numpy as np import matplotlib.pyplot as plt %…