1001Ferramentas
📊 Calculadoras

Calculadora frequencia de palavras pela lei de Zipf

Calcula a frequencia relativa estimada de uma palavra em um corpus segundo a lei de Zipf (1/rank) a partir do ranking da palavra no idioma escolhido.

Lei de Zipf: frequência ∝ 1/rank — 100 palavras mais frequentes cobrem ~50% de qualquer texto

A lei de Zipf diz que a frequência de uma palavra é inversamente proporcional ao seu rank: a 2ª palavra aparece metade do que a 1ª, a 10ª aproximadamente um décimo e assim por diante. Fórmula: f(rank) ≈ C / rank, com C ≈ 0,1 × N para um corpus de N tokens. Limites práticos de cobertura: as 100 lemmas mais frequentes cobrem ~50% do texto corrente, 1.000 cobrem ~80% e 5.000 cobrem ~95%. Corpora específicos distorcem a constante — em estoniano, "ja" ("e") sozinha responde por cerca de 5% dos tokens, muito acima do previsto por Zipf.

Aplicações

Priorização de vocabulário em Anki e outros SRS, ordenação de listas de palavras em currículos de idiomas, criação de materiais de comprehensible input, estimativa de cobertura lexical de um texto e ajuste de suavização em modelos de linguagem n-gram ou transformer.

Perguntas frequentes

Zipf vale para todos os idiomas? A inclinação fica próxima de -1 na maioria, mas idiomas aglutinativos (finlandês, turco) achatam a curva porque a flexão multiplica formas.

Lemma ou forma de superfície? Os números acima são para lemmas; contar formas infladas exige 2 a 5× mais palavras para a mesma cobertura.

Por que a curva quebra na cauda? Hapax legomena (palavras que aparecem só uma vez) dominam a cauda longa; a modificação de Mandelbrot soma uma constante ao denominador para ajustar melhor.

Que tamanho de corpus preciso? 1M de tokens estabiliza os 5.000 primeiros ranks; recomendam-se 10M+ para listas de frequência de nível acadêmico.

Ferramentas Relacionadas