1001Ferramentas
🔡 Calculadoras

Calculadora de Frequencia Bigramas PT BR

Mostra frequencia tipica dos bigramas mais comuns em portugues brasileiro corpus tipico.

Frequência de bigramas em português brasileiro

Um bigrama é uma sequência de duas letras consecutivas extraídas de um texto. A frequência relativa de cada par é calculada como f(xy) = ocorrências(xy) / total_bigramas, em que o denominador é o número de pares de letras sobrepostos no corpus. Para uma cadeia de tamanho n existem exatamente n - 1 bigramas.

No português brasileiro, os bigramas mais frequentes refletem a preferência da língua por sílabas abertas e terminações vocálicas. O top dez costuma incluir “ar”, “es”, “de”, “os”, “do”, “ra”, “te”, “to”, “na” e “as”, calibrados pelo Corpus Brasileiro Câmara Cascudo e outras coleções de referência.

Aplicações

As estatísticas de bigramas são a espinha dorsal dos modelos clássicos de n-gramas usados em PLN, no autocompletar e na predição de texto dos smartphones, na correção de OCR e na criptoanálise estatística. Também servem como atributos em identificação de língua e atribuição de autoria.

Perguntas frequentes

Por que os bigramas são mais úteis que letras isoladas? Letras isoladas capturam apenas a frequência marginal; os bigramas capturam contexto local e estrutura silábica, melhorando muito a identificação de língua e a predição.

Os bigramas atravessam fronteiras de palavra? Depende do tokenizador. Extratores que respeitam espaços restringem aos pares dentro da palavra; extratores em nível de caractere incluem pares espaço-letra, úteis para detecção de prefixos.

Como ficam as letras acentuadas? Os corpora modernos do português brasileiro mantêm acentos (á, é, ç) como caracteres distintos, pois neutralizá-los fundiria bigramas fonologicamente diferentes.

Ferramentas Relacionadas