Jun的个人随笔

  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

决策树专题

发表于 2019-07-27 更新于 2019-07-28 分类于 机器学习

决策树的构建过程构建步骤如下: 将所有的特征看成一个一个的节点 遍历每个特征的每一种分割方式,找到最好的分割点;将数据划分为不同的子节点,eg:N1,N2…;计算划分之后所有子节点的“纯度”信息; 对第二步产生的分割,选择出最优的特征以及最优的划分方式;得出最终的子节点:N1,N2…Nm; 对子节 ...

阅读全文 »

马尔可夫模型

发表于 2019-07-26 更新于 2019-07-29 分类于 机器学习

知识背景马尔可夫链马尔可夫过程是满足无后效性的随机过程。假设一个随机过程中,$tn$时刻的状态$x_n$的条件分布,仅仅与其前一个状态$x{n-1}$有关,即$P(xn|x_1,x_2,…x{n-1})=P(xn|x{n-1})$,则将其称为马尔可夫过程,时间和状态的取值都是离散的马尔可夫过程也称为 ...

阅读全文 »

主题模型专题

发表于 2019-07-25 分类于 机器学习

主题模型产生背景基于词袋模型或N-gram模型的文本表示模型有一个明显的缺陷,就是无法识别出两个不同的词或词组具有相同的主题。因此,需要一种技术能够将具有相同主题的词或词组映射到同一维度上去,于是产生了主题模型。 假设有K个主题,我们就把任意文章表示成一个K维的主题向量,其中向量的每一维代表一个主题 ...

阅读全文 »

朴素贝叶斯专题

发表于 2019-07-24 更新于 2019-08-05 分类于 机器学习

朴素贝叶斯算法“朴素”的含义朴素贝叶斯模型(Naive Bayesian Model)朴素的含义:建立在两个前提假设上: 特征之间相互独立 每个特征同等重要 然而这种属性独立性假设在实际情况中很难成立,但朴素贝叶斯仍能取得较好的效果原因在于: (1)对于分类任务来说,只要各类别的条件概率排序正确 ...

阅读全文 »

概率图模型概述

发表于 2019-07-23 分类于 机器学习

概率图概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中有向边表示单向的依赖,无向边表示相互依赖关系。 概率图模型分为贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)两大类 ...

阅读全文 »

高斯混合模型

发表于 2019-07-22 分类于 机器学习

高斯混合模型高斯混合模型(Gaussian Mixed Model,GMM)是一种常见的聚类算法,与K均值算法类似,同样使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都符合高斯分布(又叫正态分布)。 高斯混合模型的核心思想高斯混合模型的核心思想是,假设数据可以看作多个高斯分布中生成出来的。 ...

阅读全文 »

K均值聚类

发表于 2019-07-22 分类于 机器学习

K均值的基本思想k均值是最基础和最常用的聚类算法。它的基本思想是通过迭代方式寻找K个簇(cluster)的一种划分方案,使得聚类结果对应的代价函数最小。代价函数可以定义为各个样本距离所属簇中心点的误差平方和: J(c,\mu) = \sum_{i=1}^{M}||x_i-\mu_{c_i}||^2 ...

阅读全文 »

Word2Vec知识简述

发表于 2019-07-08 更新于 2019-07-11 分类于 深度学习

背景谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW(Continues Bag of Words)和Skip-gram。 负采样(Negative Sample)和层次softmax(Hierarchi ...

阅读全文 »

特征工程知识点整理概述(二)

发表于 2019-07-07 分类于 机器学习

文本表示文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。 词袋模型(Bag of Words)最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向 ...

阅读全文 »

特征工程知识点整理概述(一)

发表于 2019-07-06 更新于 2019-07-07 分类于 机器学习

特征归一化为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。 数值类型特征常用归一化方法最常用的方法主要有以下两种: (1)线性函数归一化 (Min-Max Scaling) 它对原始数据进行线性变换,使结果映射到$[0,1]$的范围,实现对原始数据的等比缩放 ...

阅读全文 »
1234

NI,JUN

33 日志
6 分类
50 标签
GitHub E-Mail
© 2022 NI,JUN
由 Hexo 强力驱动 v3.9.0
|
主题 – NexT.Gemini v7.2.0