Dado um grande número de documentos (N), determinar pares “quase iguais”
Demasiados documentos para se compararem todos os pares
Muitas partes de um documento podem aparecer por outra ordem noutro
Documentos são tão grandes ou número elevado que não cabem em memória
Reduzir a dimensão dos conjuntos
mantendo a informação essencial à determinação de distância entre eles
Reduzir o tempo de cálculo da distância e/ou reduzir os pares a que se tem de aplicar essa distância
Last updated 4 years ago