译-机器学习的十大误解

Pedro Domingos
Professor of computer science at U. Washington and author of “The Master Algorithm”. pedrodomingos.org

机器学习过去一直是幕后：亚马逊挖掘你的点击和购买数据来进行推荐，谷歌对搜索查询进行挖掘从而去做广告投放，而脸书会挖掘社交网络来选择展示给你的内容。但是现在机器学习已经成为了新闻头条，处在激烈讨论的浪口风尖。学习算法可以驾驶汽车、翻译演讲，甚至赢得知识比赛（Jeopardy）! 那么什么是机器学习可以做的，什么是不可以做的呢？它们是否会成为隐私、工作甚至人类种群的终结的开端呢？这不断增长的关注很收欢迎，因为机器学习必将是塑造未来的主要推动力，我们需要去掌握这项技术。不幸的是，关于机器学习是存在几个误解的，讲清楚这些是我们的第一步工作。所以，来快速看一下这些主要误解吧：

机器学习仅仅是数据总结. 而实际上，机器学习的主要目的是预测未来. 知道你过去已经看过的电影仅仅是帮助预测出你将来可能会喜欢的电影. 你的信用记录是你是否会准时还款的指导. 如同机器人科学家，学习算法会构想出假设、不断改进，在预测正确时相信他们. 学习算法还没有科学家那么聪明，但是他们要快上数百万倍.

学习算法仅仅会发现事件对之间的关联(correlations). 这是在媒体对机器学习的报道中所反映出来的印象. 在一个著名的例子中，谷歌搜索“flu”是流感爆发的早期信号. 这挺不错的，但大多数机器学习算法是能够发现更加丰富的形式的知识，比如说如果一个痣有不规则的形状和颜色并且在增长，那么它可能会是皮肤癌.

机器学习仅能够发现关联，不能发现因果关系. 实际上，机器学习的最流行的类型之一就包含了尝试不同的行动观察相应的后果——因果发现的本质. 例如，电商网站可以尝试不同的方式呈现商品并选择那个会产生最大购买量的去部署. 你可能已经参与到了数千个这样的实验中而不自知. 因果关系可以在一些实验无法进行的场景中发现，而计算机的做法就是去看过去的数据.

机器学习不能够预测未见的事件，aka 黑天鹅事件. 如果某件事从未发现，那么预测它出现的概率肯定是 0——不是 0 能是什么呢？相反，机器学习是一门以高准确率预测罕见事件的艺术. 如果 A 是 B 的致因，而 B 又是 C 的致因，那么 A 可以导致 C 发生，即使我们之前没有看见这个境况出现. 每天，垃圾邮件过滤器正确标注垃圾邮件. 如 2008 年次贷危机这样的黑天鹅事件实际上是已经被广泛预测出来——当然不是那时候银行使用的一些问题很大的风险模型.

数据越多，越可能产生模式幻觉. 假设，NSA 有更多的通话记录，就越可能将一个无辜群众当做是潜在的恐怖分子，因为他偶然地匹配到了一个恐怖分子发现规则. 挖掘同一实体的更多属性可以增加幻觉的风险，但是机器学习专家非常擅长将其降到最低. 另外，挖掘同样的属性集的更多的实体会降低这样的风险，因为从中学到的规则将会有更强的支持. 一些学习算法可以找到包含多个实体的模式，这样可以提升模型的健壮性：一个在拍摄 NY City Hall 的人并不一定是疑犯，另一个购买了大量的硝酸铵的人也不一定可疑；但是如果这两个存在在一个紧密的电话联系中，可能 FBI 需要去看看，确保这不是一个爆炸点.

机器学习忽视已有知识. 机器学习已经渗透进入的领域内专家怀疑地看待他们已经知道的一些机器学习算法的“空盘”观点. 真实的知识是推理和实验的长期过程的结果，这个你不可能通过运行一个通用的算法进行模仿. 但是不是所有的学习算法是从一个空盘开始的，一些算法使用数据去提炼已有的知识，这个可以是非常精妙的，当然会是依照机器可以理解的方式进行编码.

机器学到的模型对人类来说难以理解. 这是一种自然的顾虑. 如果一个学习算法是黑盒，我们如何才能相信它做出的推荐？一些类型的模型实际上是很难理解的，如代表着机器学习取得最显著成功（识别油管视频的猫）的深度神经网络. 但是其他的方法确实是可以理解的，比如上面提到的诊断皮肤癌的规则.

所有这些误解是悲观的，就是说他们假设了机器学习比它实际表现更为受限. 但是也有一些乐观的误解：

更简单的模型更加准确. 这个信念有时候会和奥卡姆剃刀等同起来，但是剃刀法则仅仅是说倾向于更简单的解释，而不是原因. 他们受到欢迎仅仅是他们更加容易被理解、记忆和推理. 有些时候与数据一致的最简单假设对预测来说想较复杂的模型不够准确. 某些最为强大的学习算法输出的模型看起来是不必要的复杂精密——有时候在他们已经完美地拟合数据后还在持续增加——但是这就是他们能够击败那些相对简单的模型的原因.

计算机发现的模式可以被当做权威规则使用. 如果一个学习算法输出了皮肤癌诊断的规则并且这个规则特别准确（就是能够完全准确地预测出是否确诊），但这不是说你就要相信这些规则. 因为数据中的微小的变化就可能使得算法导出一个非常不同的——但是同样准确度——规则. 只有那些可信的规则而不是数据中的随机变化可以被用作相应的权威规则，而不是仅仅是可以用来预测的工具.

机器学习将很快达到超人智能. 从 AI 发展的日常新闻中，很容易得到计算机在视觉、听觉和推理上已经达到了人类的水准，很快就将超越人类. 我们已经走过了人工智能的前 50 年，机器学习是人工智能的近期成功的主要原因，但是我们还有很长的路要走. 计算机可以做很多专门的任务，但是他们仍旧没有常识的概念，也没有人真正知道如何去教会他们这些.

所以你已经知道这些误解. 机器学习比我们想像的要强大且弱小. 如何构建出这些是人类的任务——前提就是我们对其已经有了一个准确的认知.

文／Not_GOD（简书作者）
原文链接：http://www.jianshu.com/p/ef76ecd3986c
著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：译-机器学习的十大误解 - Python技术站