二维特征分类的基础 您所在的位置:网站首页 二维特征空间的定义 二维特征分类的基础

二维特征分类的基础

2024-02-18 09:50| 来源: 网络整理| 查看: 265

1.分类问题不要用回归来做

67bb9de57b67c2c064c6e0b53e920267.png

正确做法:

e407197263c9ded62ed11ef70c8757b8.png Generative Model:(几率模型)

生成模型:无穷样本->概率密度模型->产生模型->预测

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)=P(X,Y)/P(X)作为预测的模型。这样的方法之所以成为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。用于随机生成的观察值建模,特别是在给定某些隐藏参数情况下。典型的生成模型有:朴素贝叶斯法、马尔科夫模型、高斯混合模型。这种方法一般建立在统计学和Bayes理论的基础之上。

朴素贝叶斯分类:

6c94301d402681a0b442473f972501b0.png

7012a5c60a0f7234ef50f6f74ece0b83.png

示例:假设训练集中有79只水系的宝可梦,61只一般系的宝可梦。

05292db6c19b3fa9e6092780ad98def6.png

每一个宝可梦都是用一堆feature(向量)【这里只用防御力和特殊防御力表示】来表示。挑选出x=海龟那么它属于水系的概率是多少呢?海龟不在training data中哈。

15257fb002107d4b1fad6ffdab1329f3.png

要从training data 中估测呀,比如这里用的高斯分布。

15060d4c22841a0d1a21c8e7b27c0d0b.png

高斯分布的结果几率由两方面组成:

44e5c1554c505296a327d89623715a7b.png

那么通过训练集sample79次就可以找出来训练集高斯分布的两个参数,则对于新的new x 带入就可以得到正比于预测几率的结果了,这个结果这里就叫做几率了。

528751a41224c3e6ba646d55b7150eea.png

那么这两个参数如何找呢?通过最大似然估计法:每一个高斯分布都可以sampled出来79个点,但是他们的可能性是不一样的。一个高斯分布sampled出来79个点的几率相乘总几率是

(因为79个数据是独立同分布的), 让其最大即所得

caad37267461bb035fbb844e6a81c8d1.png

如何计算的:

a5e5e5abde30ecb28042ddc9103c58a6.png

通过上面方法,宝可梦情景的两个分类问题的两个高斯分布系数就有了:

b332dd8ac0aeb136b07d8065c5abd770.png

接下来概率分布的各项都生成了,就可以做分类预测了:

6fa2c2e9747582ee7fd72d25da6908ba.png

老师做的结果来说,二维分的不好,但是宝可梦是7维特征可分的。

c1421cd033a7c4cc5663619f0d9a414d.png

tips: less params

155711b409c5a3c33abfa121634ab97c.png

这样的技巧会让高斯分布生成linear model,但是对于7维的feature这样操作,准确率到了73%。

e14143f9c18abe0fa434295c71c0f89c.png

几率模型范式:

86b4e46dbca5d0ecd1fdc126ee67b0a4.png

对某个x的几率,其实就是它的各个feature产生的几率之积,至于分布可以选用不同的数学分布模型:

e03046d900d8589ff674cf070f875845.png

神奇的数学推导:

c318c77e80bcdde0f672e1d6f0635012.png

具体推到省略得到:

464124f57f3fc13dbfe26adef2ec5944.png

上面的公式推导真是看到了数学之美,但是我们做了一大堆实际上就为了找到w,b。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有