Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
  • Métodos Probabilísticos para Engenharia Informática
  • Probabilidades Condicionais Independentes
    • Conceitos Básicos
    • Teoria Clássica
    • Abordagem Frequencista
    • Teoria Axiomática de Probabilidade
    • Probabilidades Condicionais
    • Independência
    • Experiências de Bernoulli
  • Variáveis Aleatórias
    • Conceito de variável aleatória
    • Caracterização - Parte 1
    • Variáveis aleatórias contínuas
    • Caracterização - Parte 2
  • Distribuições
    • Distribuições
    • Bernoulli
    • Binomial
    • Geométrica
    • Poisson
    • Uniforme
    • Normal
    • Exponencial
  • Variáveis Aleatórias
    • Variáveis aleatórias multidimensionais
    • Vector aleatório
    • Caracterização
  • Esperança matemática
    • Extensão das definições
    • Correlação
    • Independência
    • Covariância
    • Coeficiente de correlação
  • Soma e Combinação Linear de Variáveis Aleatórias
    • Média
    • Variância
    • Função de distribuição
    • Combinações lineares
  • Funções de variáveis aleatórias
    • Funções de v.a. múltiplas
    • Expectância funções de v.a.
    • Momentos de funções
    • Média
  • Situações Limite
    • Situações Limite
    • Markov e Chebyshev
    • Lei dos Grandes Números
    • Teorema do Limite Central
  • Cadeias de Markov
    • Processos estocásticos
    • Estados
    • Matriz de transição
    • Representação gráfica da cadeia
    • Vetor estado
    • Equação de Chapman-Kolmogorov
  • Terminologia
    • Tipos de estados
      • Estados comunicantes
      • Estado recorrente
      • Estado transiente
      • Estado periódico
      • Estado absorvente
    • Equilíbrio
    • Matriz/ Processo regular
    • Cadeia ergódica
  • Cadeias com estados absorventes
    • Cadeias com estados absorventes
  • Forma canónica da matriz de transição
    • Forma canónica da matriz de transição
    • Forma canónica
  • Situação Limite
    • Situação limite
    • Matriz fundamental
    • Tempo médio até absorção
    • Probabilidade de absorção
  • PageRank
    • Os primeiros motores de procura
    • Random surfers / Passeios aleatórios
    • Definição
    • Calculo
    • Forma matricial
    • Limite
    • Problems reais
    • Problemas do Page Rank
  • Geração de Números Aleatórios
    • Motivação
    • Geradores
    • Algoritmos congruenciais
    • Como escolher os parâmetros ?
    • Outros algoritmos congruenciais
  • Transformações
    • Transformações simples
    • Métodos
    • Método da Transformação (Inversa)
    • Método de procura numa tabela
    • Métodos baseados em Rejeição
  • Algoritmos específicos para distribuição mais comuns (discretas)
    • Técnicas especiais Obter Binomial
  • Funções de dispersão
    • Motivação
    • Função de dispersão
    • Hash Code
    • Funções de dispersão / Hash functions
    • Colisões
    • Propriedades
    • Método da Divisão
    • Método da Multiplicação
    • Função de dispersão de uma sequência de caracteres
    • Problemas
    • Funções de dispersão universais
    • Método de Carter Wegman
    • Método da Matriz
    • Como ter n funções de dispersão ?
    • Funções de dispersão criptográficas
  • Solução Probabilística do Problema da Pertença a um Conjunto
    • Definição do problema
    • Conjuntos de grandes dimensões
    • Generalizando …
    • Ideia base
  • Filtros de Bloom
    • Definição
    • Ausência de falsos negativos
    • Inicialização
    • Utilização
    • Erros
    • Parâmetros
    • Implementação
    • Falsos positivos e falsos negativos
      • Probabilidades para um bit
      • Após aplicar k funções de dispersão
      • Após inserir m elementos
      • Probabilidade de falsos positivos
    • Efeito de k na Pfp
    • Determinação de n
    • Filtros de Bloom
    • Filtros de Contagem
    • Obtenção da multiplicidade
    • Problemas
  • Similaridade
    • Generalizando
    • Definição do Problema
      • Solução ingénua
    • Distância
    • Conjuntos Grandes e Gigantes
    • Abordagem probabilística
      • Conversão dos documentos em conjuntos
      • Cálculo das Assinaturas
      • Determinação de pares candidatos
      • Análise do LSH
Powered by GitBook
On this page
  • Segundo o MinHash
  • Ideia base do método LSH
  • LSH aplicado à matriz de MinHash
  • Na prática
  1. Similaridade
  2. Abordagem probabilística

Determinação de pares candidatos

Mesmo com a redução drástica obtida com as assinaturas, ter de comparar todos os pares é algo que tem de ser evitado

Precisamos de reduzir o número de pares a comparar

O nosso objetivo é encontrar documentos com similaridade, de Jaccard, superior a um determinado limiar

Segundo o MinHash

Selecionar um limiar de semelhança s (0 < s < 1)

As colunas x e y da matriz de assinaturas são um par candidato se as suas assinaturas concordarem em pelo menos uma fração s das suas linhas

  • M (i, x) = M (i, y) para pelo menos a fração s valores de i

Espera-se que os documentos x e y tenham a mesma similaridade (de Jaccard) que as suas assinatura

Ideia base do método LSH

Objectivo: Encontrar documentos com similaridade de Jaccard de pelo menos s

  • Para um determinado limiar, por exemplo s = 0.8

Ideia base:

  • Utilizar uma função de dispersão f(x,y) que indica se x e y constituem um par candidato

    • Par de elementos cuja similaridade tem de ser avaliada

  • Aplicar a função às colunas da matriz de assinaturas

    • Cada par de colunas que resultam no mesmo valor da função de dispersão é um par candidato

LSH aplicado à matriz de MinHash

Grande ideia: Aplicar funções de dispersão às colunas da matriz várias vezes

Fazer com que (apenas) colunas similares tenham elevada probabilidade de terem o mesmo hash code

Pares candidatos são aqueles que resultam no mesmo hash code

Na prática

Na prática aplica-se a cada coluna várias funções de dispersão

Divide-se a matriz de assinaturas em b bandas

  • de r linhas

Aplica-se a função de dispersão a cada banda

  • Que mapeia numa de k posições

Pares candidatos são mapeados para a mesma posição pela função de dispersão para pelo menos uma das bandas

PreviousCálculo das AssinaturasNextAnálise do LSH

Last updated 3 years ago