Web Analytics
Privacy Policy Cookie Policy Terms and Conditions Legge di Benford - Wikipedia

Legge di Benford

Da Wikipedia, l'enciclopedia libera.

La variabile casuale di Benford meglio nota come legge di Benford o legge della prima cifra descrive la probabilità che un numero presente in molte raccolte di dati reali (p.es. popolazione dei comuni, quotazione delle azioni, costanti fisiche o matematiche, numero di strade esistenti nelle località) cominci con una data cifra, p.es. "1", che secondo questa variabile casuale discreta dovrebbe essere nel 30,1% dei casi la prima cifra.

P(n) = log10(n + 1) − log10(n) = log10(1 + 1 / n)
prima cifra     prime due cifre
n     P(x=n)      n     P(x=n)
1     30,1%      10      4,1%
2     17,6%      11      3,8%
3     12,5%      12      3,5%
4      9,7%      13      3,2%
5      7,9%      14      3,0%
6      6,7%      ...     ...
7      5,8%      etc.   
8      5,1%      ...
9      4,6%      99      0,4%
Diagramma a torta della distribuzione della prima cifra
Ingrandisci
Diagramma a torta della distribuzione della prima cifra

Si può approssimativamente dire che la frequenza delle cifre iniziali è inversamente proporzionale al rapporto delle cifre stesse: in altre parole, se si scelgono due cifre m ed n la probabilità che un numero preso a caso inizi con m invece che con n è pari al rapporto n/m

La legge di Benford può essere giustificata per alcuni aspetti con il fatto banale che tutto ciò che cresce, prima di diventare grande dev'essere stato piccolo e con la costatazione che prima di raggiungere il numero 20 (che comincia con la cifra "2") bisogna passare da 10 numeri che cominciano con la cifra "1" e anche se tra 1 e 99 le prime cifre sono egualmente distribuite, passando a 100 prima di raddoppiare (200) ricomincia il "dominio" della cifra "1" ecc.

Una delle estensioni della legge di Benford, prende in considrazione la coppia delle prime due cifre (da 10 a 99 dunque), lasciando invariata la formula, ma semplicemente modificando l'intervallo di validità da [1,9] a [10,99].

Indice

[modifica] Storia

[modifica] Scoperte, riscoperte e approfondimenti

La legge di Benford pare sia stata scoperta dal matematico e astronomo Simon Newcomb e descritta in "American Journal of Mathematics" nel 1881. Secondo quello che forse è solo un aneddoto, Newcomb notò che nei libri con le tabelle dei logaritmi le pagine con le tabelle aventi "1" come prima cifra fossero molto più sporche delle altre, probabilmente perché usate più spesso. Venne controargomentato che in qualsiasi libro al quale si accede alle pagine in modo sequenziale le prime sarebbero state più usate delle ultime.

Successivamente, nel 1938, il fisico Frank Benford analizzò raccolte di numeri di molti altri ambiti di applicazione e così questa legge gli venne attribuita.

Nel 1996 Ted Hill dimostrò il teorema sulle distribuzioni miste.

[modifica] I dati presentati da Benford nel 1938

Titolo                1        2        3       4       5       6       7       8       9    valori
Fiumi, superfici    31.0     16.4     10.7    11.3     7.2     8.6     5.5     4.2     5.1     335
Popolazione         33.9     20.4     14.2     8.1     7.2     6.2     4.1     3.7     2.2    3259
Constanti           41.3     14.4      4.8     8.6    10.6     5.8     1.0     2.9    10.6     104
Quotidiani          30.0     18.0     12.0    10.0     8.0     6.0     6.0     5.0     5.0     100
Specific Heat       24.0     18.4     16.2    14.6    10.6     4.1     3.2     4.8     4.1    1389
Pressioni           29.6     18.3     12.8     9.8     8.3     6.4     5.7     4.4     4.7     703
H.P. Lost           30.0     18.4     11.9    10.8     8.1     7.0     5.1     5.1     3.6     690
Peso molecolare     26.7     25.2     15.4    10.8     6.7     5.1     4.1     2.8     3.2    1800
Drenaggio           27.1     23.9     13.8    12.6     8.2     5.0     5.0     2.5     1.9     159
Peso atomico        47.2     18.7      5.5     4.4     6.6     4.4     3.3     4.4     5.5      91
1/n, √n             25.7     20.3      9.7     6.8     6.6     6.8     7.2     8.0     8.9    5000
Design              26.8     14.8     14.3     7.5     8.3     8.4     7.0     7.3     5.6     560
Reader's Digest     33.4     18.5     12.4     7.5     7.1     6.5     5.5     4.9     4.2     308
Coste               32.4     18.8     10.1    10.1     9.8     5.5     4.7     5.5     3.1     741
X-Ray Volts         27.9     17.5     14.4     9.0     8.1     7.4     5.1     5.8     4.8     707
American League     32.7     17.6     12.6     9.8     7.4     6.4     4.9     5.6     3.0    1458
Blackbody           31.0     17.3     14.1     8.7     6.6     7.0     5.2     4.7     5.4    1165
Indirizzi           28.9     19.2     12.6     8.8     8.5     6.4     5.6     5.0     5.0     342
n,n²,n³,..,n!       25.3     16.0     12.0    10.0     8.5     8.8     6.8     7.1     5.5     900
Tassi di mortalità  27.0     18.6     15.7     9.4     6.7     6.5     7.2     4.8     4.1     418
MEDIA               30.6     18.5     12.4     9.4     8.0     6.4     5.1     4.9     4.7    1011
ERRORE PROBABILE   ± 0.8    ± 0.4    ± 0.4   ± 0.3   ± 0.2   ± 0.2   ± 0.2   ± 0.3            

[modifica] Bibliografia storica

  • 1881 - Simon Newcomb, "Note on the Frequency of Use of the Different Digits in Natural Numbers" in The American Journal of Mathematics
  • 1938 - Frank Benford, "The Law of Anomalous Numbers" in Proc. Amer. Phil. Soc.
  • 1961 - Roger Pinkham, "On the distribution of first significant digits" in Ann. Math. Statist.
  • 1972 - Hal R. Varian, "Benford's law" in American Statistician
  • 1976 - R. A. Raimi, "The first digit problem" in American Mathematical Monthly
  • 1992 - Mark Nigrini, "The detection of income evasion through an analysis of digital distributions," tesi di dottorato presso l'Università di Cincinnati
  • 1995 - T. P. Hill, "Base-Invariance Implies Benford's Law" in Proc. Amer. Math. Soc.
  • 1996 - T. P. Hill, "The statistical derivation of the significant digit law" in Statistical Science
  • 1996 - Mark Nigrini, "A taxpayer compliance application of Benford's Law" in Journal of the American Taxation Association

[modifica] Esempi

[modifica] Abitanti dei comuni italiani al censimento 2001

Prima cifra                  Prime due cifre
------------------------    -------------------------
n   comuni  percentuale      n   comuni  percentuale
1    2547      31,0         10    343       4,2
2    1391      16,9         11    309       3,8
3    1057      12,9         12    320       3,9
4     791       9,6         13    262       3,2
5     632       7,7         14    273       3,3
6     544       6,6         15    220       2,7
7     484       5,9         ...   ...       ...
8     406       4,9         97     24       0,3
9     365       4,4         98     30       0,4
Tot  8217     100,0         99     19       0,2

[modifica] Ambiti di applicazioni e limiti

Nel 1972, Hal Varian suggerí la possibilità di utlizzare questa legge per individuare eventuali falsificazioni nelle raccolte di dati usate per supportare decisioni politiche, basandosi sul presupposto che chi vuole "addomesticare" i dati ha una preferenza a usare numeri distribuiti in modo non "naturale". Comparando la frequenza relativa delle prime cifre dei numeri usati con la v.c. di Benford si potrebbero cosí evidenziare risultati anomali. Alla stessa maniera si può usare questa v.c. per cercare falsificazioni in raccolte di dati riguardanti assicurazioni, costi, entrate, ecc.

Nel 1992 Mark Nigrini propose l'utilizzo di questa variabile casuale per testare la credibilità delle dichiariazioni dei redditi, dopo averla testato con successo su casi reali e con frode accertata.


Tuttavia è necessaria la prudenza prima di applicare la legge di Benford, in quanto solo un insieme di numeri scelti a caso da una data variabile casuale, obbedisce a tale legge, mentre in un insieme di dati "reali" può, ma non deve seguire tale legge se sono stati imposti anche inconsapevolmente dei limiti.

P.es. mentre la distribuzione della prima cifra di statistiche quali "Popolazione dei comuni italiani che cominciano con la lettera F" oppure "quotazione delle azioni che hanno subito una perdita nella giornata di borsa" si suppone seguire la v.c. di Benford, ciò non è presumibilmente più valido se la statistica viene definita in modi come "Popolazione dei comuni italiani con 1000 fino 9999 abitanti".

[modifica] Metodologia

[modifica] Funzione di probabilità

La funzione di probabilità è

P(x = n) = log10(n + 1) − log10(n)

Il valore atteso è E(X)=µ=3,44, la varianza pari a σ²=6,06 e l'assimetria =0,79, nel caso che x debba essere compreso tra 1 e 9 (inclusi).

Al di la delle spiegazioni "comuni", la v.c. di Benford può essere costruita facendo ricorso a ζ la funzione zeta di Riemann (vedasi pure variabile casuale Zeta).

[modifica] Teoremi e corollari

[modifica] Invarianza di scala

Se un fenomeno segue la legge di Benford, allora moltiplicando tutti i valori con una valore casuale qualsiasi, si ottiene una nuova raccolta di valori che seguono a loro volta la legge di Benford.

Esempio: se le quotazioni espresse in Lire delle azioni quotate in borsa seguono la legge di Benford, allora le stesse quotazioni espresse in Euro seguono anch'esse la legge di Benford.

L'invarianza di scala richiede che

P(kx) = f(k) P(x)

Essendo richiesto che ∫P(x)dx = 1 e che anche ∫kP(kx)dx = 1 si ricava che la forma dev'essere del tipo 1/x. Effettivamente

P(x) = log10(e)/x per 0,1 ≤ x ≤ 1

è una distibuzione continua di pobabilità che produce valori casuali le cui prime cifre rispettano la legge di Benford.


[modifica] Probabilità della seconda cifra

seconda cifra
n     P(y=n)
0     12,0%
1     11,4%
2     10,9%
3     10,4%
4     10,0%
5      9,7%
6      9,3%
7      9,0%
8      8,8%
9      8,5%

La probabilità che la seconda cifra sia n è pari a

P(y=n) = kΣ19 log10(1 + 1/(10k + n) ); per n=0,1,2,...,9

Tale formula può essere generlizzata per determinare la probabilità della terza, quarta,... cifra, le quali sono sempre più "equamente" distribuite (ovvero la differenza tra la prima e l'ultima tende a ridursi).

[modifica] Generalizzazione a sistemi non decimali

Per un qualsiasi sistema numerico a base B, la probabilità della prima "cifra" diventa

ln(1 + 1/d) / ln(B)

ove d indica la prima "cifra" e ln il logaritmo naturale si base e (vale a dire ln=loge)

[modifica] Voci correlate

THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu