Maailma suuruselt teise Wikipedia koostas peamiselt üks autor, kes pole isegi inimene

 (7)
Maailma suuruselt teise Wikipedia koostas peamiselt üks autor, kes pole isegi inimene
ekraanitõmmis

Kas sa aimad, kas Wikipedia artikli on koostanud robot või inimene?

Vabatahtlike tööna valmiva veebientsüklopeedia Wikipedia eesmärk on levitada veebis teadmisi nii laialdaselt ja nii paljudes keeltes kui võimalik.

Seni on tõesti suureks kasvanud eelkõige ingliskeelne variant, mis sisaldab hiljutise seisuga juba üle kuue miljoni artikli. Erikeelseid variante on kokku 309, vähemalt miljonit artiklit sisaldavad neist 16.

Wikipedia kogukondade liikmed nimetavad eri variante inglise keeles edition'iteks (väljalasked), Eestis keeleversioonideks. Ingliskeelse järel on suurim üllatuslikult sebuano- ehk sebukeelne, milles sisaldub üsna võrreldav kogus artikleid – üle 5,37 miljoni. Ainult umbes 630 000 vähem kui esikohaomanikul.

See on üllatav kahes mõttes. Esiteks on Filipiinidel räägitava sebu keele valdajaid suhteliselt vähe, emakeelena kõneleb seda umbes 16 miljonit inimest. Teiseks on sebukeelsel versioonil ainult kuus administraatorit ja 14 aktiivset kasutajat. (Ingliskeelsel on vastavalt 1143 ja 137 368.)

Kuidas see võimalik on? Lihtsalt. Sebukeelset Wikipediat täidavad peamiselt bot’id – isetegutsevad tarkvara-rakendused. Selliseid tegutseb kõigis Wikipedia keskkondades kokku enam kui 1600, neist enamik täidab rutiinseid ülesandeid, mille jaoks inimesed ei soovi aega kulutada. Sebu-Wikipedias loovad bot’id siiski ka uusi artikleid ja toodavad nende sisu.

Seotud lood:

Sellised autonoomsed rakendused on tänapäeval küllalt arenenud, nii et see pole iseenesest suur probleem, kui nad kindlatest kohtadest sisu koguvad ja Wikipedia artikliteks vormistavad. Küll võib näha ohtu kvaliteedile selles, et sebukeelse versiooniga tegeleb peamiselt üks bot – Lsjbot, mille autor on rootsi füüsik Sverker Johansson.

See üks bot on loonud 99,12% sebukeelsetest artiklitest (kokku 5 331 028) ja enamiku täiendustest (29,5 miljonist 24 miljonit). Sebukeelse Wikipedia 35 aktiivseimast toimetajast on inimesi ainult viis, ülejäänud on bot’id. Esikümnes pole ühtegi inimest.

Wikipedia üldadministraator Riley Huntley koostas Lsjboti tehtud artiklitest juhuvalikuga tuhandese kogumiku ja lasi seda tehnoloogiasaidi Motherboard esindajatel analüüsida. Selgus, et enamik oli üllatavalt hästi kokku pandud.

Kuidas selline sisuloome üldse toimub? Lsjboti autori sõnul lihtsate põhimõtete järgi. Esmalt valib bot semantilise domeeni – tähendusala ja sinna kuuluvad sõnad. Näiteks domeenis "keha" oleksid sõnad jalg, käsi, nägu jne. Siis otsib bot masinloetavaid andmebaase, mis domeeniga seostuvad, et alateemade kohta artikleid leida. Näiteks geograafiateemaliste artiklite jaoks andmebaasi GeoNames.

Järgmine samm on koostada kindlas vormis ja korduvkasutatavaid lauseid, mis kindlat infot sisaldavad, et need artiklitesse lisada. Siis saab sisestada info masinloetavatest andmebaasist ning lisada infokastid. Lõpuks tuleb kogu töö salvestada ja artikkel ilmub veebientsüklopeedias.

Lsjboti tööülesanded on viimasel ajal muutunud, Johansson ütleb, et rakendus tegeleb peamiselt sebukeelse Wikipedia hooldamisega. Varem on see täiendanud rootsi- ja varaikeelseid Wikipediaid. Praegu on aktiivne artikliloome lõppenud, sest rootsikeelse ja varaikeelse Wikipedia kogukonnad ei suutnud artiklite automaatse loomise tingimustes kokkuleppele jõuda.

Kogu Wikipedia projekti käigushoidva Wikimedia Foundationi esindajad on teemat kommenteerinud, et nende asi on pakkuda võimalusi, tööriistu ja partnerlusi, aga bot’ide kasutamise üle otsustagu vastavate väljalasete osalised ise.

Autonoomsete rakenduste abi kasutas algusaegadel palju ka ingliskeelse Wikipedia kogukond – paljud artiklid olid koostatud bot’ide poolt. 2010. a leppisid asjaosalised aga kokku, et artikleid peaks koostama enamasti ja üldjuhul ikka inimesed.