Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
  • Métodos Probabilísticos para Engenharia Informática
  • Probabilidades Condicionais Independentes
    • Conceitos Básicos
    • Teoria Clássica
    • Abordagem Frequencista
    • Teoria Axiomática de Probabilidade
    • Probabilidades Condicionais
    • Independência
    • Experiências de Bernoulli
  • Variáveis Aleatórias
    • Conceito de variável aleatória
    • Caracterização - Parte 1
    • Variáveis aleatórias contínuas
    • Caracterização - Parte 2
  • Distribuições
    • Distribuições
    • Bernoulli
    • Binomial
    • Geométrica
    • Poisson
    • Uniforme
    • Normal
    • Exponencial
  • Variáveis Aleatórias
    • Variáveis aleatórias multidimensionais
    • Vector aleatório
    • Caracterização
  • Esperança matemática
    • Extensão das definições
    • Correlação
    • Independência
    • Covariância
    • Coeficiente de correlação
  • Soma e Combinação Linear de Variáveis Aleatórias
    • Média
    • Variância
    • Função de distribuição
    • Combinações lineares
  • Funções de variáveis aleatórias
    • Funções de v.a. múltiplas
    • Expectância funções de v.a.
    • Momentos de funções
    • Média
  • Situações Limite
    • Situações Limite
    • Markov e Chebyshev
    • Lei dos Grandes Números
    • Teorema do Limite Central
  • Cadeias de Markov
    • Processos estocásticos
    • Estados
    • Matriz de transição
    • Representação gráfica da cadeia
    • Vetor estado
    • Equação de Chapman-Kolmogorov
  • Terminologia
    • Tipos de estados
      • Estados comunicantes
      • Estado recorrente
      • Estado transiente
      • Estado periódico
      • Estado absorvente
    • Equilíbrio
    • Matriz/ Processo regular
    • Cadeia ergódica
  • Cadeias com estados absorventes
    • Cadeias com estados absorventes
  • Forma canónica da matriz de transição
    • Forma canónica da matriz de transição
    • Forma canónica
  • Situação Limite
    • Situação limite
    • Matriz fundamental
    • Tempo médio até absorção
    • Probabilidade de absorção
  • PageRank
    • Os primeiros motores de procura
    • Random surfers / Passeios aleatórios
    • Definição
    • Calculo
    • Forma matricial
    • Limite
    • Problems reais
    • Problemas do Page Rank
  • Geração de Números Aleatórios
    • Motivação
    • Geradores
    • Algoritmos congruenciais
    • Como escolher os parâmetros ?
    • Outros algoritmos congruenciais
  • Transformações
    • Transformações simples
    • Métodos
    • Método da Transformação (Inversa)
    • Método de procura numa tabela
    • Métodos baseados em Rejeição
  • Algoritmos específicos para distribuição mais comuns (discretas)
    • Técnicas especiais Obter Binomial
  • Funções de dispersão
    • Motivação
    • Função de dispersão
    • Hash Code
    • Funções de dispersão / Hash functions
    • Colisões
    • Propriedades
    • Método da Divisão
    • Método da Multiplicação
    • Função de dispersão de uma sequência de caracteres
    • Problemas
    • Funções de dispersão universais
    • Método de Carter Wegman
    • Método da Matriz
    • Como ter n funções de dispersão ?
    • Funções de dispersão criptográficas
  • Solução Probabilística do Problema da Pertença a um Conjunto
    • Definição do problema
    • Conjuntos de grandes dimensões
    • Generalizando …
    • Ideia base
  • Filtros de Bloom
    • Definição
    • Ausência de falsos negativos
    • Inicialização
    • Utilização
    • Erros
    • Parâmetros
    • Implementação
    • Falsos positivos e falsos negativos
      • Probabilidades para um bit
      • Após aplicar k funções de dispersão
      • Após inserir m elementos
      • Probabilidade de falsos positivos
    • Efeito de k na Pfp
    • Determinação de n
    • Filtros de Bloom
    • Filtros de Contagem
    • Obtenção da multiplicidade
    • Problemas
  • Similaridade
    • Generalizando
    • Definição do Problema
      • Solução ingénua
    • Distância
    • Conjuntos Grandes e Gigantes
    • Abordagem probabilística
      • Conversão dos documentos em conjuntos
      • Cálculo das Assinaturas
      • Determinação de pares candidatos
      • Análise do LSH
Powered by GitBook
On this page
  • Análise do processo
  • Exemplo de aplicação
  • Caso 1: sim(C1 , C2 ) =0.8
  • Caso 1: sim(C1 , C2 ) =0.3
  • Otimização do processo
  1. Similaridade
  2. Abordagem probabilística

Análise do LSH

Análise do processo

Assumimos que:

  • existem posições (buckets) suficientes para que as colunas não sejam suscetíveis de mapeamento para a mesma posição a menos que sejam idênticas num banda específica

Em consequência, assumimos que “mesma posição” significa “idêntico nessa banda”

Esta simplificação é necessária apenas para simplificar a análise, não para a correção do algoritmo

Exemplo de aplicação

100 000 documentos (=> 100 000 colunas de M)

Assinaturas de 100 inteiros (linhas)

Com b = 20 bandas de r = 5 inteiros/banda

Objetivo: encontrar pares de documentos que apresentem s ≥ 0.8

Caso 1: sim(C1 , C2 ) =0.8

Vejamos primeiro o que acontecerá a dois documentos com similaridade elevada (0.8)

Probabilidade de C1 , C2 idênticas numa banda específica:

  • J^r = (0.8)^5 = 0.329

Probabilidade C1 , C2 não serem semelhantes em todas as 20 bandas:

  • (1 − 0.328)^20 = 0.00035

  • Cerca de 1/3000 dos pares de colunas semelhantes a 80% são falsos negativos

Encontraríamos 99.97% de pares de documentos verdadeiramente semelhantes

Caso 1: sim(C1 , C2 ) =0.3

Considerando agora documentos com baixa similaridade sim(C1 ,C2 ) = 0.3

Probabilidade de C1 , C2 idênticas numa banda específica:

  • J^r = (0.3)^5 = 0.00243

Probabilidade C1 , C2 não serem semelhantes em todas as 20 bandas:

  • 1−(1−0.00243)20 = 0.0474

Aproximadamente 4.74% pares de documentos com similaridade de 0.3% acabam como pares candidatos, aparecendo como falsos positivos

Otimização do processo

A aplicação do LSH obriga a um compromisso entre os falsos positivos e falsos negativos

Este compromisso pode ser efetuado através de:

  1. número de funções de dispersão, que resultam no número de linhas da matriz de assinaturas

  2. número de bandas

  3. número de linhas por banda

PreviousDeterminação de pares candidatos

Last updated 3 years ago