- 前言:
因为参加了某竞赛,选择了nlp方向的题目,以此为一个契机来学习一下ml方向的芝士。
TF-IDF算法
- 作用: 关键字提取
- 概念:
- 语料库:指大量的文本,通常经过整理,具有既定格式与标记。
- TF(Text Frequency)词频:即一个词在文章中出现的频率,公式如下:
- IDF(Inverse Document Frequency) 逆文档频率:即一个词的IDF大小与它的常见程度成反比。
- 算法:
- TF-IDF = TF*IDF
- 可以发现,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
Comments | 0 条评论