Nüüd on teada, miks osad sõnad on pikemad ja osad lühikesed
Seose sõnade pikkuse ja selle vahel, kui sageli neid kasutatakse, pakkus esmakordselt välja Harvardi ülikooli keeleteadlane ja filosoof George Kingsley Zipf 1935. aastal. Zipf oletas, et inimestel on kalduvus tihti kasutatavaid sõnu lühendada, säästmaks kirja- ja kõneressursse. Taoline seos tundub vaistlikult õige ning kehtib väga paljudes keeltes, kus abisõnad e artiklid ja lühikesed sõnad nagu „ja“, „et“, „või“, „nii“ jne (ning nende vasted muudes keeltes) leiavad kõige tihedamat rakendust, vahendab PhysOrg.com.
Massachusettsi tehnoloogiainstituudi MIT uurijad Steven Piantadosi juhtimisel kontrollisid Zipfi postuleeritud suhet katseliselt, analüüsides sõnakasutus 11 Euroopa keeles. Teadlased otsisid digitaliseeritud tekstidest korrelatsioone, loendades seda, kui tihti kõik sõnapaarid järjest esinevad. Nii saadud teabe alusel prognoositi seejärel, millise tõenäosusega järgnevad sõnad eelnevatele sõnadele või sõnajadadele.
Teadurid eeldasid, et mida ennustatavam on sõna, seda vähem teavet see kannab, hinnates teabemahtu informatsiooniteooria alusel, mille kohaselt on teabemaht võrdeline sõnade esinemise tõenäosuse negatiivse logaritmiga.
Piantadosi ütles, et kui sõnade pikkus on infohulgaga otseses seoses, võib see teabe edastamist keele vahendusel tõhustada ja aidata ka nii kõne- kui kirjakeelt arusaadavamaks muuta, kuna vähem teavet kandvad lühemad sõnad saaks kõnesse ühtlaselt laiali jaotada, sel moel infotihendust põhimõtteliselt „siludes“ ning olulist teavet ühtlases tempos edastades.
Ajakirjas Proceedings of the National Academy of Sciences (PNAS) peatselt ilmuv uurimus sedastabki, et tegelikult on lühikesed sõnad kõige ebainformatiivsemad ja kergemini ennustatavad, mitte kõige sagedamini pruugitavad, ning et sõnade pikkus on märksa tihedamas seoses teabega, mida sõnad kannavad.
Jälgi Forte uudiseid ka Twitteris!