Web Analytics
Privacy Policy Cookie Policy Terms and Conditions Zipfov zakon - Wikipedija, prosta enciklopedija

Zipfov zakon

Iz Wikipedije, proste enciklopedije

Zípfov zákon v svoji prvotni obliki označuje empirično ugotovitev harvardskega jezikoslovca Georga Kingsleya Zipfa, da je v vsakem naravnem jeziku pogostost n-te najpogosteje uporabljane besede približno recipročno odvisna od n.

Zipfov zakon je izkustven; teorijsko ozadje vzrokov za pojavljanje Zipfove porazdelitve v življenju ni zadovoljivo pojasnjeno. Kljub temu pa na Zipfovo porazdelitev pogosto naletimo pri različnih pojavih. Zipfov zakon pogosto prikažejo na dvojno logaritemski skali, pri kateri nanašamo na absciso logaritem razredov, na ordinato pa logaritem pogostosti. Če na takem diagramu točke približno ležijo na premici, za porazdelitev velja Zipfov zakon.

Klasičen zgled Zipfove funkcije je funkcija 1/f. Če množico po Zipfovem zakonu porazdeljenih pogostosti uredimo od najpogostejše do najmanj pogoste, bo pogostost druge najpogostejše ravno ena polovica pogostosti prve, pogostost tretje najpogostejše pa 1/3 pogostosti prve itn., tako da je pogostost n-te najpogostejše 1/n pogostosti prve.

Vsebina

[uredi] Teorijski pomisleki

Matematično gledano ni mogoče da bi izvirna oblika Zipfovega zakona v jeziku z neskončno besedami veljala povsem natančno, saj v tem primeru za vsako pozitivno sorazmernostno konstanto c velja, da je vsota relativnih pogostosti, ki jo lahko izrazimo z geometrijsko vrsto, neskončna:

\sum_{n=1}^\infty \frac{c}{n}=\infty\neq 1.

Empirične raziskave so pokazale, da se dajo v angleščini pogostosti približno prvih 1000 najpogosteje uporabljanih besed približno opisati s funkcijo 1/ns, pri čemer je potenca s malo večja od 1.

Če je potenca s večja od 1, velja normalizacija relativnih pogostosti tudi v jeziku z neskončnim številom besed, saj za s > 1 velja

\sum_{n=1}^\infty \frac{1}{n^s}<\infty.

Vsota te vrste je ζ(s), kjer je ζ Riemannova funkcija zeta.

[uredi] Sorodni zakoni

[uredi] Zgledi porazdelitev, za katere približno velja Zipfov zakon

  • pogostost dostopa do spletnih strani
    • število dostopov do Wikipedije most popular, z s ≈ 0,3
    • za število dostopov do poljske Wikipedije (podatki za konec julija 2003) približno velja Zipfov zakon z s ≈ 0,5
  • pogostost besed v angleščini
  • porazdelitev mest po velikosti
  • porazdelitev dohodkov med ljudmi
  • porazdelitev jakosti potresov
  • porazdelitev not v glasbenih delih

[uredi] Glej tudi

  • Benfordov zakon
  • Bradfordov zakon
  • matematična ekonomija
  • Paretova porazdelitev
  • Paretovo načelo
  • potenčni zakon
  • Zipf-Mandelbrotov zakon
  • Heapsov zakon

[uredi] Literatura

  • George K. Zipf, Human Behaviour and the Principle of Least-Effort, Addison-Wesley, Cambridge MA, 1949
  • W. Li, "Random texts exhibit Zipf's-law-like word frequency distribution", IEEE Transactions on Information Theory, 38(6), pp.1842-1845, 1992.
  • Alexander Gelbukh, Grigori Sidorov. "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag, pp. 332–335.
  • Damian H. Zanette. Zipf's law and the creation of musical context. Online preprint at http://xxx.arxiv.org/abs/cs.CL/0406015
  • Kali R. The city as a giant component: a random graph approach to Zipf's law. Applied Economics Letters, 15 September 2003, vol. 10, iss. 11, pp. 717-720(4)

[uredi] Zunanje povezave

THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu