决策树的构建过程构建步骤如下: 将所有的特征看成一个一个的节点 遍历每个特征的每一种分割方式,找到最好的分割点;将数据划分为不同的子节点,eg:N1,N2…;计算划分之后所有子节点的“纯度”信息; 对第二步产生的分割,选择出最优的特征以及最优的划分方式;得出最终的子节点:N1,N2…Nm; 对子节 ...
Word2Vec知识简述
背景谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW(Continues Bag of Words)和Skip-gram。 负采样(Negative Sample)和层次softmax(Hierarchi ...
特征工程知识点整理概述(二)
文本表示文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。 词袋模型(Bag of Words)最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向 ...
特征工程知识点整理概述(一)
特征归一化为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。 数值类型特征常用归一化方法最常用的方法主要有以下两种: (1)线性函数归一化 (Min-Max Scaling) 它对原始数据进行线性变换,使结果映射到$[0,1]$的范围,实现对原始数据的等比缩放 ...