Conjuntos Grandes e Gigantes

Objetivo

Dado um grande número de documentos (N), determinar pares “quase iguais”

Problemas

Demasiados documentos para se compararem todos os pares

Muitas partes de um documento podem aparecer por outra ordem noutro

Documentos são tão grandes ou número elevado que não cabem em memória

Solução

  1. Reduzir a dimensão dos conjuntos

    1. mantendo a informação essencial à determinação de distância entre eles

  2. Reduzir o tempo de cálculo da distância e/ou reduzir os pares a que se tem de aplicar essa distância

Last updated