轻松看懂机器学习十大常用算法

来源：联合早报中文网作者：邵湖心更新时间：2020-09-03 07:44:04阅读：

本篇文章2330字，读完约6分钟

雷锋。com:原作者杨，发表在作者的个人博客上。雷锋。(公开号码:雷锋。com)被授权发布。本文中的视频来自youtube，可以在科学地上网后观看。

通过这篇文章，我们可以对最大似然法的常用算法有一个常识性的理解。没有代码，没有复杂的理论推导，也就是说，来说明这些算法是什么以及它们是如何应用的。例子主要是分类问题。

每个算法都看过几个视频，选出最清晰、最有趣的，这对科普来说很方便。

未来，我们将有时间深入分析单个算法。

今天的算法如下:

决策图表

随机森林算法

逻辑返回

svm

朴素贝叶斯

k最近邻算法

k均值算法

Adaboost算法

神经网络

马尔可夫

1.决策树根据某些特征进行分类，每个节点都会问一个问题。经过判断，数据分为两类，然后继续提问。这些问题是从现有数据中了解到的。当输入新数据时，可以根据树上的问题将数据分成适当的叶子。

2.随机森林

从源数据中随机选择数据，形成若干子集

S矩阵是源数据，有1-n条数据，b c是特征，最后一列C是类别

从s随机生成m个子矩阵

m个子集得到m个决策树

将新的数据放入这些M棵树中，得到M个分类结果，计数看哪个类被预测为具有最大的数目，并将这个类作为最终的预测结果

3.逻辑返回

当预测目标是概率时，值范围需要大于或等于0且小于或等于1。这时，简单的线性模型做不到这一点，因为当定义域不在一定范围内时，其取值范围也超过了规定范围。

因此，此时需要这种形状的模型会更好

那么你是如何得到这样一个模型的呢？

此模型需要满足两个条件:大于或等于0和小于或等于1

大于或等于0的模型可以选择绝对值和平方值。这里使用指数函数，它必须大于0

除法用于小于或等于1，分子本身，分母本身加上1，必须小于1

再次进行变形，得到logistic回归模型

相应的系数可以通过计算源数据获得

最后，得到逻辑图

4.svm

支持向量机

为了分离这两个类并得到一个超平面，最佳超平面是最大化这两个类的边界，而边界是超平面和最近点之间的距离，如下图所示，z2>z1，所以绿色超平面更好

这个超平面表示为一个线性方程。线上的一个类大于或等于1，另一个类小于或等于-1

点到面的距离是根据图中的公式计算的

因此，总利润率的表达式如下。目标是最大化这个裕度，所以它需要最小化分母，这变成了一个优化问题

给一个板栗，三个点，找到最佳超平面，并定义权重向量= (2，3)-(1，1)

得到权重向量为(a，2a)，将两个点代入方程，将(2，3)代入另一个值= 1，将(1，1)代入另一个值=-1，求解a和截距w0的值，然后得到超平面的表达式。

找到A后，代入(A，2a)得到支持向量

将α和w0代入超平面的方程是支持向量机

5 .朴素贝叶斯

给出一个在自然语言处理中的应用实例

给出一段文字，回到情感分类。本段的态度是积极的还是消极的

为了解决这个问题，你只能看一些单词

本文将仅由一些单词及其计数来表示

最初的问题是:给你一个词，它属于哪一类

通过贝叶斯规则，它成为一个相对简单和容易的问题

问题变成了，这个句子出现在这个类别中的概率是多少？当然，不要忘记公式中的另外两个概率

栗子:爱情这个词出现在阳性情况下的概率是0.1，出现在阴性情况下的概率是0.001

6.k最近邻居

k最近的邻居

当给定一个新数据时，最接近它的K个点中的哪一个有更多的类别，该数据属于哪一个类别

栗色:为了区分猫和狗，根据爪子和声音这两个特征来判断，圆圈和三角形是已知的分类，那么这颗星代表哪一个类别

当k = 3时，由这三条线连接的点是最近的三个点，所以有更多的圆，所以这颗星属于猫

7.k-均值

我想把一组数据分成三类，大的粉红色值和小的黄色值

最快乐的事情是首先初始化，最简单的3，2，1被选为每个类的初始值

在剩余的数据中，每个距离都是从三个初始值计算出来的，然后分类到最接近它的初始值的类别中

分类后，计算每一类的平均值作为新一轮的中心点

经过几轮后，分组不再改变，可以停止

8.adaboost算法

Adaboost是bosting的方法之一

Bosting是将几个分类效果不好的分类器组合起来，得到一个更好的分类器。

下面，左决策树和右决策树不是很有效，但是把相同的数据放入其中，并将两个结果相加将会增加可信度

Adaboost的栗子，在手写识别中，可以捕捉到画板上的许多特征，比如起点的方向，起点和终点之间的距离，等等

训练时，你会得到每个特征的权重。例如，2和3的开头非常相似。这个特征在分类中起着很小的作用，它的权重会更小

这个α角是高度可识别的，并且这个特征的权重将会更大。最终的预测结果是综合考虑这些特征的结果

9.神经网络

神经网络适用于至少可分为两类的输入

神经网络由几层神经元及其连接组成

第一层是输入层，最后一层是输出层

隐藏层和输出层都有自己的分类器

输入被输入到网络中，被激活，计算出的分数被传送到下一层，后面的神经层被激活。最后，输出层节点上的分数代表属于不同类别的分数。下面的例子表明分类结果是1类

相同的输入被传输到不同的节点，并且由于它们的节点具有不同的权重和偏差而获得不同的结果

这也称为前向传播

10.马尔可夫

马尔可夫链由状态和转移组成

栗子，根据这句话“敏捷的棕色狐狸跳过懒惰的狗”，要马尔可夫链

第一步，首先将每个单词设置为一个状态，然后计算状态之间的转换概率

这是用一句话计算出来的概率。当你使用大量的文本来做统计时，你会得到一个较大的状态转移矩阵，比如后面可以连接的单词，以及相应的概率

在生活中，键盘输入法的替代结果是相同的原理，并且模型会更先进

标题：轻松看懂机器学习十大常用算法

地址：http://www.6st8.com/zbxw/5374.html

免责声明：联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等，本篇的部分内容来自于网络，不为其真实性负责，只为传播网络信息为目的，非商业用途，如有异议请及时联系btr2018@163.com，联合早报中文网的小编将予以删除。

上一篇：专访AAAI主席Subbarao：不要忘了，曾经少有人看好神经网络

下一篇：孙陶然：《孙子兵法》的四条战略原则

相关推荐

漫画平台咚漫：引入海外资源开拓海外市场

谷歌宣布推出智能摄像头 GoPro股价应声下跌6%

丹麦研究人员发现治疗1型糖尿病胰岛素的方法

永辉超市回应腾讯入股传闻仅处于商业合作商谈阶段

Paypal联合创始人蒂尔在维也纳晚婚结婚对象竟是他

vivo X9s硬件配置 vivoX9s参数怎么样？

中兴通讯独家中标中国联通物联网HSS 用户规模达4600万

三星S9/S9+渲染视频曝光保留3.5mm耳机插孔

多起诉讼接踵而至，Uber麻烦升级 | 11月30日坏消息榜

阿里与京东“互怼”折射变革才开始

轻松看懂机器学习十大常用算法

联合早报中文网热文榜

联合早报中文网最新资讯

金风科技预计上半年净利变为下降因与苹果公司合同延迟交割

打破壁垒 GET2017共建全球教育与科技盛会

爱立信与切尔西足球俱乐部结为合作伙伴进一步提升观赛体验

首先将AI应用在安全上的Deep Instinct，刚完成B轮3200万美元融资

游戏成为年轻人群体中的“毒瘤” 导致国家经济下滑

联合早报中文网简介

轻松看懂机器学习十大常用算法

联合早报中文网热文榜

联合早报中文网最新资讯

金风科技预计上半年净利变为下降 因与苹果公司合同延迟交割

打破壁垒 GET2017共建全球教育与科技盛会

爱立信与切尔西足球俱乐部结为合作伙伴 进一步提升观赛体验

首先将AI应用在安全上的Deep Instinct，刚完成B轮3200万美元融资

游戏成为年轻人群体中的“毒瘤” 导致国家经济下滑

联合早报中文网简介

金风科技预计上半年净利变为下降因与苹果公司合同延迟交割

爱立信与切尔西足球俱乐部结为合作伙伴进一步提升观赛体验