Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
Notes - MIECT
Métodos Probabilísticos p/ Engenharia Informática
  • Métodos Probabilísticos para Engenharia Informática
  • Probabilidades Condicionais Independentes
    • Conceitos Básicos
    • Teoria Clássica
    • Abordagem Frequencista
    • Teoria Axiomática de Probabilidade
    • Probabilidades Condicionais
    • Independência
    • Experiências de Bernoulli
  • Variáveis Aleatórias
    • Conceito de variável aleatória
    • Caracterização - Parte 1
    • Variáveis aleatórias contínuas
    • Caracterização - Parte 2
  • Distribuições
    • Distribuições
    • Bernoulli
    • Binomial
    • Geométrica
    • Poisson
    • Uniforme
    • Normal
    • Exponencial
  • Variáveis Aleatórias
    • Variáveis aleatórias multidimensionais
    • Vector aleatório
    • Caracterização
  • Esperança matemática
    • Extensão das definições
    • Correlação
    • Independência
    • Covariância
    • Coeficiente de correlação
  • Soma e Combinação Linear de Variáveis Aleatórias
    • Média
    • Variância
    • Função de distribuição
    • Combinações lineares
  • Funções de variáveis aleatórias
    • Funções de v.a. múltiplas
    • Expectância funções de v.a.
    • Momentos de funções
    • Média
  • Situações Limite
    • Situações Limite
    • Markov e Chebyshev
    • Lei dos Grandes Números
    • Teorema do Limite Central
  • Cadeias de Markov
    • Processos estocásticos
    • Estados
    • Matriz de transição
    • Representação gráfica da cadeia
    • Vetor estado
    • Equação de Chapman-Kolmogorov
  • Terminologia
    • Tipos de estados
      • Estados comunicantes
      • Estado recorrente
      • Estado transiente
      • Estado periódico
      • Estado absorvente
    • Equilíbrio
    • Matriz/ Processo regular
    • Cadeia ergódica
  • Cadeias com estados absorventes
    • Cadeias com estados absorventes
  • Forma canónica da matriz de transição
    • Forma canónica da matriz de transição
    • Forma canónica
  • Situação Limite
    • Situação limite
    • Matriz fundamental
    • Tempo médio até absorção
    • Probabilidade de absorção
  • PageRank
    • Os primeiros motores de procura
    • Random surfers / Passeios aleatórios
    • Definição
    • Calculo
    • Forma matricial
    • Limite
    • Problems reais
    • Problemas do Page Rank
  • Geração de Números Aleatórios
    • Motivação
    • Geradores
    • Algoritmos congruenciais
    • Como escolher os parâmetros ?
    • Outros algoritmos congruenciais
  • Transformações
    • Transformações simples
    • Métodos
    • Método da Transformação (Inversa)
    • Método de procura numa tabela
    • Métodos baseados em Rejeição
  • Algoritmos específicos para distribuição mais comuns (discretas)
    • Técnicas especiais Obter Binomial
  • Funções de dispersão
    • Motivação
    • Função de dispersão
    • Hash Code
    • Funções de dispersão / Hash functions
    • Colisões
    • Propriedades
    • Método da Divisão
    • Método da Multiplicação
    • Função de dispersão de uma sequência de caracteres
    • Problemas
    • Funções de dispersão universais
    • Método de Carter Wegman
    • Método da Matriz
    • Como ter n funções de dispersão ?
    • Funções de dispersão criptográficas
  • Solução Probabilística do Problema da Pertença a um Conjunto
    • Definição do problema
    • Conjuntos de grandes dimensões
    • Generalizando …
    • Ideia base
  • Filtros de Bloom
    • Definição
    • Ausência de falsos negativos
    • Inicialização
    • Utilização
    • Erros
    • Parâmetros
    • Implementação
    • Falsos positivos e falsos negativos
      • Probabilidades para um bit
      • Após aplicar k funções de dispersão
      • Após inserir m elementos
      • Probabilidade de falsos positivos
    • Efeito de k na Pfp
    • Determinação de n
    • Filtros de Bloom
    • Filtros de Contagem
    • Obtenção da multiplicidade
    • Problemas
  • Similaridade
    • Generalizando
    • Definição do Problema
      • Solução ingénua
    • Distância
    • Conjuntos Grandes e Gigantes
    • Abordagem probabilística
      • Conversão dos documentos em conjuntos
      • Cálculo das Assinaturas
      • Determinação de pares candidatos
      • Análise do LSH
Powered by GitBook
On this page
  • Falsos Positivos
  • Redução de falso positivos
  • Valor ótimo de k
  • Minimização
  • k ótimo
  1. Filtros de Bloom

Efeito de k na Pfp

Falsos Positivos

Adicionando mais funções não diminui obrigatoriamente essa probabilidade

Decresce até um certo valor de k

Depois aumenta, porquê ?

Redução de falso positivos

FP podem ser reduzidos aumentando o tamanho do vetor B

  • neste caso à custa de mais memória

  • o efeito da relação n/m é ilustrado na figura

Também podem ser reduzidos aumentando o número de funções de dispersão

  • mas apenas até certo valor

Valor ótimo de k

É possível determinar o número de funções de dispersão que minimiza a probabilidade de falsos positivos

Para facilitar os cálculos minimiza-se ln(Pfp)

Aplicando ln() a Ppf = ( 1 - a^k )^k

temos ln(Ppf) = k * ln( 1 - a^k )

Minimização

Derivando, em ordem a k e igualando a zero

  • (1 - a^k) * ln(1 - a^k) - a^k * ln(a^k) = 0

Que tem por solução

  • a^k = 1/2

k ótimo

O valor ótimo de k pode ser obtido aplicando logaritmos e resolvendo em ordem a k:

  • K_ótimo = ln(1/2) / ln(a)

Substituindo o valor de a temos

  • K_ótimo = ln(1/2) / ( m * ln( 1 - 1/n ) )

Aproximando ln(1 − 1/n) pelo primeiro termo da série de Taylor (−1/n)

  • K_ótimo ~= ( n * ln(2) ) / m

Na prática utiliza-se o inteiro mais próximo

PreviousProbabilidade de falsos positivosNextDeterminação de n

Last updated 3 years ago