Conversão dos documentos em conjuntos

Criação dos conjuntos representativos

O objetivo desta primeira etapa é criar os conjuntos representativos dos documentos

A informação relevante a reter depende obviamente do tipo de documento

Sem perda de generalidade, consideraremos documentos constituídos por palavras

ou para sermos mais precisos, sequências de caracteres

A aplicação a outro tipo de documentos pode fazer-se adaptando o apresentado para sequências de caracteres

Por exemplo, no caso de imagens pode considerar-se como equivalente à palavra o valor de cada pixel (valor inteiro ou triplo RGB)

Soluções

As soluções mais simples são:

conjunto de palavras que ocorrem no documento
conjunto das palavras “importantes”

Ambas sofrem do mesmo problema:

não preservam informação sobre a ordem de ocorrência

A ordem de ocorrência pode ser tida em conta utilizando sequências de palavras (ou de caracteres), ideia na base dos

também conhecidos por k-shingles
ou simplesmente Shingles

Shingles

Um k-shingle (ou k-grama) para um documento é uma sequência de k símbolos que aparecem no documento

Os símbolos podem ser caracteres, palavras ou outra informação, dependendo da aplicação

Assume-se que documentos que têm muitos Shingles em comum são semelhantes

Utilizando Shingles, um documento D é representado pelo conjunto dos seus k-gramas C = S(D)

Similaridade

Representando um documento Di pelo seu conjunto de k-shingles Ci=S(D_i)

Uma medida natural de similaridade é a similaridade de Jaccard

calculada com base nos conjuntos de Shingles representativos dos documentos

Escolha de k

A escolha de k não é trivial

Deve escolher-se k suficientemente grande para evitar que a maioria dos documentos tenha a maioria dos Shingles

evitando desta forma que a generalidade dos documentos sejam representados pelo mesmo conjunto

Na prática:

k = 5 é bom para documentos curtos
k = 10 é mais adequado para documentos longos

Representação binária

Para simplificar cálculo de interseção e união, os documentos podem ser representado por um vetor de zeros e uns no espaço de kgramas (vetor binário)

Nesta representação a interseção e união são operações de bits (AND e OR)

Os vetores de um conjunto de documentos formam uma matriz

PreviousAbordagem probabilística NextCálculo das Assinaturas

Last updated 4 years ago

hashtagCriação dos conjuntos representativos

hashtagSoluções

hashtagShingles

hashtagSimilaridade

hashtagEscolha de k

hashtagRepresentação binária