Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
  • Métodos Probabilísticos para Engenharia Informática
  • Probabilidades Condicionais Independentes
    • Conceitos Básicos
    • Teoria Clássica
    • Abordagem Frequencista
    • Teoria Axiomática de Probabilidade
    • Probabilidades Condicionais
    • Independência
    • Experiências de Bernoulli
  • Variáveis Aleatórias
    • Conceito de variável aleatória
    • Caracterização - Parte 1
    • Variáveis aleatórias contínuas
    • Caracterização - Parte 2
  • Distribuições
    • Distribuições
    • Bernoulli
    • Binomial
    • Geométrica
    • Poisson
    • Uniforme
    • Normal
    • Exponencial
  • Variáveis Aleatórias
    • Variáveis aleatórias multidimensionais
    • Vector aleatório
    • Caracterização
  • Esperança matemática
    • Extensão das definições
    • Correlação
    • Independência
    • Covariância
    • Coeficiente de correlação
  • Soma e Combinação Linear de Variáveis Aleatórias
    • Média
    • Variância
    • Função de distribuição
    • Combinações lineares
  • Funções de variáveis aleatórias
    • Funções de v.a. múltiplas
    • Expectância funções de v.a.
    • Momentos de funções
    • Média
  • Situações Limite
    • Situações Limite
    • Markov e Chebyshev
    • Lei dos Grandes Números
    • Teorema do Limite Central
  • Cadeias de Markov
    • Processos estocásticos
    • Estados
    • Matriz de transição
    • Representação gráfica da cadeia
    • Vetor estado
    • Equação de Chapman-Kolmogorov
  • Terminologia
    • Tipos de estados
      • Estados comunicantes
      • Estado recorrente
      • Estado transiente
      • Estado periódico
      • Estado absorvente
    • Equilíbrio
    • Matriz/ Processo regular
    • Cadeia ergódica
  • Cadeias com estados absorventes
    • Cadeias com estados absorventes
  • Forma canónica da matriz de transição
    • Forma canónica da matriz de transição
    • Forma canónica
  • Situação Limite
    • Situação limite
    • Matriz fundamental
    • Tempo médio até absorção
    • Probabilidade de absorção
  • PageRank
    • Os primeiros motores de procura
    • Random surfers / Passeios aleatórios
    • Definição
    • Calculo
    • Forma matricial
    • Limite
    • Problems reais
    • Problemas do Page Rank
  • Geração de Números Aleatórios
    • Motivação
    • Geradores
    • Algoritmos congruenciais
    • Como escolher os parâmetros ?
    • Outros algoritmos congruenciais
  • Transformações
    • Transformações simples
    • Métodos
    • Método da Transformação (Inversa)
    • Método de procura numa tabela
    • Métodos baseados em Rejeição
  • Algoritmos específicos para distribuição mais comuns (discretas)
    • Técnicas especiais Obter Binomial
  • Funções de dispersão
    • Motivação
    • Função de dispersão
    • Hash Code
    • Funções de dispersão / Hash functions
    • Colisões
    • Propriedades
    • Método da Divisão
    • Método da Multiplicação
    • Função de dispersão de uma sequência de caracteres
    • Problemas
    • Funções de dispersão universais
    • Método de Carter Wegman
    • Método da Matriz
    • Como ter n funções de dispersão ?
    • Funções de dispersão criptográficas
  • Solução Probabilística do Problema da Pertença a um Conjunto
    • Definição do problema
    • Conjuntos de grandes dimensões
    • Generalizando …
    • Ideia base
  • Filtros de Bloom
    • Definição
    • Ausência de falsos negativos
    • Inicialização
    • Utilização
    • Erros
    • Parâmetros
    • Implementação
    • Falsos positivos e falsos negativos
      • Probabilidades para um bit
      • Após aplicar k funções de dispersão
      • Após inserir m elementos
      • Probabilidade de falsos positivos
    • Efeito de k na Pfp
    • Determinação de n
    • Filtros de Bloom
    • Filtros de Contagem
    • Obtenção da multiplicidade
    • Problemas
  • Similaridade
    • Generalizando
    • Definição do Problema
      • Solução ingénua
    • Distância
    • Conjuntos Grandes e Gigantes
    • Abordagem probabilística
      • Conversão dos documentos em conjuntos
      • Cálculo das Assinaturas
      • Determinação de pares candidatos
      • Análise do LSH
Powered by GitBook
On this page
  • Criação dos conjuntos representativos
  • Soluções
  • Shingles
  • Similaridade
  • Representação binária
  1. Similaridade
  2. Abordagem probabilística

Conversão dos documentos em conjuntos

Criação dos conjuntos representativos

O objetivo desta primeira etapa é criar os conjuntos representativos dos documentos

  • A informação relevante a reter depende obviamente do tipo de documento

Sem perda de generalidade, consideraremos documentos constituídos por palavras

  • ou para sermos mais precisos, sequências de caracteres

A aplicação a outro tipo de documentos pode fazer-se adaptando o apresentado para sequências de caracteres

  • Por exemplo, no caso de imagens pode considerar-se como equivalente à palavra o valor de cada pixel (valor inteiro ou triplo RGB)

Soluções

As soluções mais simples são:

  1. conjunto de palavras que ocorrem no documento

  2. conjunto das palavras “importantes”

Ambas sofrem do mesmo problema:

  • não preservam informação sobre a ordem de ocorrência

A ordem de ocorrência pode ser tida em conta utilizando sequências de palavras (ou de caracteres), ideia na base dos

  • também conhecidos por k-shingles

  • ou simplesmente Shingles

Shingles

Um k-shingle (ou k-grama) para um documento é uma sequência de k símbolos que aparecem no documento

Os símbolos podem ser caracteres, palavras ou outra informação, dependendo da aplicação

Assume-se que documentos que têm muitos Shingles em comum são semelhantes

Utilizando Shingles, um documento D é representado pelo conjunto dos seus k-gramas C = S(D)

Similaridade

Representando um documento Di pelo seu conjunto de k-shingles Ci=S(D_i)

Uma medida natural de similaridade é a similaridade de Jaccard

  • calculada com base nos conjuntos de Shingles representativos dos documentos

Escolha de k

A escolha de k não é trivial

Deve escolher-se k suficientemente grande para evitar que a maioria dos documentos tenha a maioria dos Shingles

  • evitando desta forma que a generalidade dos documentos sejam representados pelo mesmo conjunto

Na prática:

  • k = 5 é bom para documentos curtos

  • k = 10 é mais adequado para documentos longos

Representação binária

Para simplificar cálculo de interseção e união, os documentos podem ser representado por um vetor de zeros e uns no espaço de kgramas (vetor binário)

Nesta representação a interseção e união são operações de bits (AND e OR)

Os vetores de um conjunto de documentos formam uma matriz

PreviousAbordagem probabilísticaNextCálculo das Assinaturas

Last updated 3 years ago