Что скрывается под аббревиатурой LSI?
Если объяснять простым языком, LSI – это способ определения тематики текста и группировки текстов по тематичности. Метод основан на анализе взаимосвязей между коллекцией документов и терминами (словами), которые в них содержатся.
Каковы основные принципы LSI?
Текст представляется в виде «мешка слов»: то есть, порядок слов в и их близость друг к другу значения не имеют.
Документ относится к той или иной тематике/группе на основании терминов (слов), которые в нем содержатся и частоты этих терминов (количества раз, которые они встречаются в документе).
Каждое слово имеет единственное значение. Это не совсем корректное допущение, но оно необходимо для построения модели.