TF-IDF定义TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。 TF-IDF的主要思想TF-IDF是一 ...
Attention机制整理
Attention的定义与作用按照Stanford大学课件上的描述,attention的通用定义如下: 给定一组向量集合values,以及一个向量query,attention机制是一种根据该query计算values的加权求和的机制。 attention的重点就是这个集合values中的每个va ...
MapReduce原理与排序应用
1. MapReduce工作机制MapReduce执行总流程 MapReduce Framework如上图所示。 JobTracker: 初始化作业,分配作业,与TaskManager通信,协调整个作业的执行 TaskTracker: 保持与JobTracker的通信,执行map或者reduce任 ...
经典笔试——找到数组第k大或第k小的数
1. 问题在未排序的数组中找到第k个最大的元素,找到数组排序后的第k个最大的元素。 示例: 输入: [3,2,3,1,2,4,5,5,6] 和 k=4 输出:4 2. 解题思路类快速排序思想,找到数组中元素的位置,当分界点的索引为k-1的时候,它就是第k大元素,第k小的数只需找(组数长度+1-k)大 ...
支持向量机(SVM)原理与推导
1. 支持向量机的原理Support Vector Machine (SVM)是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分隔超平面的线形分类器。(间隔最大是它有别于感知机),通过该超平面实现对未知样本集的分类。 当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性 ...