• 前言: 因为参加了某竞赛,选择了nlp方向的题目,以此为一个契机来学习一下ml方向的芝士。

TF-IDF算法

  1. 作用: 关键字提取
  2. 概念:
  • 语料库:指大量的文本,通常经过整理,具有既定格式与标记。
  • TF(Text Frequency)词频:即一个词在文章中出现的频率,公式如下:

image.png

  • IDF(Inverse Document Frequency) 逆文档频率:即一个词的IDF大小与它的常见程度成反比。 image.png
  1. 算法:
  • TF-IDF = TF*IDF
  • 可以发现,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

一只蒟蒻的嘤嘤怪QAQ~