新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 轻松看懂机器学习十大常用算法

轻松看懂机器学习十大常用算法

来源:联合早报中文网作者:邵湖心更新时间:2020-09-03 07:44:04阅读:

本篇文章2330字,读完约6分钟

雷锋。com:原作者杨,发表在作者的个人博客上。雷锋。(公开号码:雷锋。com)被授权发布。本文中的视频来自youtube,可以在科学地上网后观看。

通过这篇文章,我们可以对最大似然法的常用算法有一个常识性的理解。没有代码,没有复杂的理论推导,也就是说,来说明这些算法是什么以及它们是如何应用的。例子主要是分类问题。

每个算法都看过几个视频,选出最清晰、最有趣的,这对科普来说很方便。

未来,我们将有时间深入分析单个算法。

今天的算法如下:

决策图表

随机森林算法

逻辑返回

svm

朴素贝叶斯

k最近邻算法

k均值算法

Adaboost算法

神经网络

马尔可夫

1.决策树根据某些特征进行分类,每个节点都会问一个问题。经过判断,数据分为两类,然后继续提问。这些问题是从现有数据中了解到的。当输入新数据时,可以根据树上的问题将数据分成适当的叶子。

2.随机森林

从源数据中随机选择数据,形成若干子集

S矩阵是源数据,有1-n条数据,b c是特征,最后一列C是类别

从s随机生成m个子矩阵

m个子集得到m个决策树

将新的数据放入这些M棵树中,得到M个分类结果,计数看哪个类被预测为具有最大的数目,并将这个类作为最终的预测结果

3.逻辑返回

当预测目标是概率时,值范围需要大于或等于0且小于或等于1。这时,简单的线性模型做不到这一点,因为当定义域不在一定范围内时,其取值范围也超过了规定范围。

因此,此时需要这种形状的模型会更好

那么你是如何得到这样一个模型的呢?

此模型需要满足两个条件:大于或等于0和小于或等于1

大于或等于0的模型可以选择绝对值和平方值。这里使用指数函数,它必须大于0

除法用于小于或等于1,分子本身,分母本身加上1,必须小于1

再次进行变形,得到logistic回归模型

相应的系数可以通过计算源数据获得

最后,得到逻辑图

4.svm

支持向量机

为了分离这两个类并得到一个超平面,最佳超平面是最大化这两个类的边界,而边界是超平面和最近点之间的距离,如下图所示,z2>z1,所以绿色超平面更好

这个超平面表示为一个线性方程。线上的一个类大于或等于1,另一个类小于或等于-1

点到面的距离是根据图中的公式计算的

因此,总利润率的表达式如下。目标是最大化这个裕度,所以它需要最小化分母,这变成了一个优化问题

给一个板栗,三个点,找到最佳超平面,并定义权重向量= (2,3)-(1,1)

得到权重向量为(a,2a),将两个点代入方程,将(2,3)代入另一个值= 1,将(1,1)代入另一个值=-1,求解a和截距w0的值,然后得到超平面的表达式。

找到A后,代入(A,2a)得到支持向量

将α和w0代入超平面的方程是支持向量机

5 .朴素贝叶斯

给出一个在自然语言处理中的应用实例

给出一段文字,回到情感分类。本段的态度是积极的还是消极的

为了解决这个问题,你只能看一些单词

本文将仅由一些单词及其计数来表示

最初的问题是:给你一个词,它属于哪一类

通过贝叶斯规则,它成为一个相对简单和容易的问题

问题变成了,这个句子出现在这个类别中的概率是多少?当然,不要忘记公式中的另外两个概率

栗子:爱情这个词出现在阳性情况下的概率是0.1,出现在阴性情况下的概率是0.001

6.k最近邻居

k最近的邻居

当给定一个新数据时,最接近它的K个点中的哪一个有更多的类别,该数据属于哪一个类别

栗色:为了区分猫和狗,根据爪子和声音这两个特征来判断,圆圈和三角形是已知的分类,那么这颗星代表哪一个类别

当k = 3时,由这三条线连接的点是最近的三个点,所以有更多的圆,所以这颗星属于猫

7.k-均值

我想把一组数据分成三类,大的粉红色值和小的黄色值

最快乐的事情是首先初始化,最简单的3,2,1被选为每个类的初始值

在剩余的数据中,每个距离都是从三个初始值计算出来的,然后分类到最接近它的初始值的类别中

分类后,计算每一类的平均值作为新一轮的中心点

经过几轮后,分组不再改变,可以停止

8.adaboost算法

Adaboost是bosting的方法之一

Bosting是将几个分类效果不好的分类器组合起来,得到一个更好的分类器。

下面,左决策树和右决策树不是很有效,但是把相同的数据放入其中,并将两个结果相加将会增加可信度

Adaboost的栗子,在手写识别中,可以捕捉到画板上的许多特征,比如起点的方向,起点和终点之间的距离,等等

训练时,你会得到每个特征的权重。例如,2和3的开头非常相似。这个特征在分类中起着很小的作用,它的权重会更小

这个α角是高度可识别的,并且这个特征的权重将会更大。最终的预测结果是综合考虑这些特征的结果

9.神经网络

神经网络适用于至少可分为两类的输入

神经网络由几层神经元及其连接组成

第一层是输入层,最后一层是输出层

隐藏层和输出层都有自己的分类器

输入被输入到网络中,被激活,计算出的分数被传送到下一层,后面的神经层被激活。最后,输出层节点上的分数代表属于不同类别的分数。下面的例子表明分类结果是1类

相同的输入被传输到不同的节点,并且由于它们的节点具有不同的权重和偏差而获得不同的结果

这也称为前向传播

10.马尔可夫

马尔可夫链由状态和转移组成

栗子,根据这句话“敏捷的棕色狐狸跳过懒惰的狗”,要马尔可夫链

第一步,首先将每个单词设置为一个状态,然后计算状态之间的转换概率

这是用一句话计算出来的概率。当你使用大量的文本来做统计时,你会得到一个较大的状态转移矩阵,比如后面可以连接的单词,以及相应的概率

在生活中,键盘输入法的替代结果是相同的原理,并且模型会更先进

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:轻松看懂机器学习十大常用算法

地址:http://www.6st8.com/zbxw/5374.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部