Legge di Zipf

La legge di Zipf è una legge empirica, formulata utilizzando la statistica matematica, che prende il nome dal linguista George Kingsley Zipf, che per primo la propose.

La legge di Zipf stabilisce che, dato un ampio campione di parole utilizzate, la frequenza di qualsiasi parola è inversamente proporzionale al suo rango nella tabella delle frequenze. Quindi la parola numero n ha una frequenza proporzionale a 1/n.

Così la parola più frequente sarà circa il doppio della seconda parola più frequente, tre volte più frequente della terza parola più frequente, ecc. Ad esempio, in un campione di parole in lingua inglese, la parola più frequente, "the", rappresenta quasi il 7% di tutte le parole (69.971 su poco più di 1 milione). Secondo la legge di Zipf, la parola "di", al secondo posto, rappresenta poco più del 3,5% delle parole (36.411 occorrenze), seguita da "e" (28.852). Sono necessarie solo circa 135 parole per rappresentare la metà del campione di parole di un vasto campione.

La stessa relazione si verifica in molte altre classifiche, non correlate alla lingua, come le classifiche della popolazione delle città in vari paesi, le dimensioni delle società, le classifiche dei redditi, ecc. La comparsa della distribuzione in classifiche delle città per popolazione è stata notata per la prima volta da Felix Auerbach nel 1913.

Non si sa perché la legge di Zipf vale per la maggior parte delle lingue.


AlegsaOnline.com - 2020 / 2021 - License CC3