Ime rijeke „Karašica

Autor: Teo Samaržija


Sažetak: Ovo je tekst o ideji na koju vjerujem da je svatko tko je proučavao hrvatske toponime barem jednom naišao, naime, da je to k-r u nazivima rijeka značilo jednostavno teći. Pomoću kolizijske entropije i Monte Carlo numeričkih kalkulacija procijenjuje se da je vjerojatnost da se taj uzorak da su prva dva suglasnika u nazivima rijeka upravo k i r pojavi slučajno negdje između 1/300 i 1/17. Antičko ime za rijeku Karašicu rekonstruira se kao *Kurrurrissia ili *Kurrirrissia, te se pripisuje ilirskome jeziku, da dolazi od indoeuropskog korijena *kjers, kao i latinska riječ za trčati, currare.


Općenito o imenu Karašica

Karašica” je ime dviju rijeka u Hrvatskoj, relativno blizu jedna drugoj. Jedna od njih se ulijeva u Dravu kod Josipovca kod Osijeka, a jedna od njih ulijeva se u Dunav kod Batine. Stari tok dunavske Karašice predstavlja granicu hrvatske Baranje i mađarske Baranje.


Često citirane etimologije

Ime „Karašica” ne da se objasniti hrvatskim jezikom. Za to se ime obično citiraju dvije etimologije. Prva je da je to ime povezano s Carassius1, latinskim nazivom za zlatnu ribicu (ihtionimom, podrijetlom vjerojatno iz egipatskog jezika, od istog korijena kao i grčki ihtionim κορακινος, koji je označavao neku ribu u rijeci Nil, mada je isto tako moguće i da je indoeuropskog podrijetla jer sličan naziv ribe postoji i u sanskrtu). Ta je etimologija problematična i iz fonoloških i semantičkih razloga: tamo zlatnih ribica nema, i teško je zamislivo da ih je u brzoj dravskoj Karašici ikada bilo (protuargument bi mogla biti tvrdnja da je carassius u antici možda označavalo neku drugu ribu), a i to posuđivanje imena Karašica iz kasnolatinskog u hrvatski moralo bi se dogoditi nakon prelaska kratkog a u o u hrvatskom jeziku (Parentium – Poreč, Salona – Solin, Tragurion – Trogir, Basuntius – Bosut, Flanona – Plomin, Narona – Norin, Bathinus - Bosna...), a teško da bi se hidronim posudio tako kasno. Druga često citirana etimologija jest da ime „Karašica” dolazi od staroturskog „kara sub”, što znači „crna voda”. Opet, ta je etimologija problematična i zbog semantike i zbog fonologije: nejasno je kako bi „sub” prešlo u 'š' u hrvatskom jeziku2, a i opis „crna voda”, makar odgovarao dravskoj Karašici, definitivno ne odgovara zapanjujuće bistroj i pjeskovitoj dunavskoj Karašici (iako bi se pobornik te etimologije mogao izvlačiti tvrdnjom da je crn ovdje trebalo značiti sjeverna granica, kao što su Grci zvali Crno more crnim jer je za njih bilo sjeverno, ili kao što Talijani sjever zovu mezzanotte, ponoć, jer je sunce u ponoć, ako smo na sjevernoj polutci, sjeverno od nas, ali je ispod horizonta). Ime dunavske Karašice spominje se u dokumentu iz 13. stoljeću kao „Karassou” (dakle, sufiks -ica dodan je naknadno) uz napomenu da se ta rijeka prije nazivala „Mogyoros”3 (možda loše transkribirana slavenska riječ „močvara”). Mislim da se toj informaciji, da se dunavska Karašica prije zvala nešto kao „Mogyoros”, može uvjerljivo proturječiti. Današnjom se povijesnom lingvistikom može uvjerljivo proturječiti Konstantinu Porfirogenitu da se „Ragusa” (današnji Dubrovnik) prije zvala „Lausa”, a također se može proturječiti antičkim grčkim povjesničarima, među njima i Strabonu, u 5. poglavlju 8. svitka Geografije, da se otok Lezbos prije zvao „Issa” i da odatle dolazi naziv naselja na tom otoku „Antissa”, a mislim da se povijesnom lingvistikom spojenom s teorijom informacija može proturječiti i tvrdnji da ime Karašica nije antičko.


Rijetko citirane etimologije

Povremeno se spominje etimologija da bi „kar” u Karašica mogao biti ilirski korijen sa značenjem teći (ili barem neki prefiks koji je iz nekog razloga bio čest u nazivima rijeka), koji se nalazi i u nazivima rijeka Krka, Korana, Krbavica, Krapina i Kravarščica. Uz moguću iznimku imena Kravarščica (rijeka nazvana po životinji kravi?), ni ta se imena ne mogu objasniti hrvatskim jezikom. Pretpostavljam da većina lingvista tu etimologiju odbacije jer su upoznati s paradoksom rođendana pa pretpostavljaju da se on ovdje događa i da je velika vjerojatnost da se takav uzorak dogodi slučajno. Ja mislim da nije tako, i da sam dokazao da je vjerojatnost da se taj uzorak dogodi slučajno negdje između 1/300 i 1/17, a vjerojatno bliže 1/300. A pretpostavljam da je drugi razlog to što mnogi lingvisti misle da je etimologija svakog toponima strogo individualni problem i da se do nje ne može doći statističkim proučavanjem sličnih toponima. Na što bih ja odgovorio sa: „Ako je statistika ispala toliko korisna u medicini, zašto je ne bismo pokušali upotrijebiti ovdje?”. Moramo uzeti u obzir da su tadašnji doktori takvim argumentima odgovarali Semmelweisu, da je svaki pacijent individua i da od statistike u medicini nema koristi.


Paradoks rođendana

Paradoks rođendana je da je ljudima teško intuitivno razumjeti razliku između brzine rasta permutacijske funkcije i brzine rasta eksponencijalne funkcije. Većinu će ljudi iznenaditi to što, ako imamo skupinu od 23 čovjeka, vjerojatnost da će dvoje od njih imati isti rođendan iznosi preko 50%. Tu je vjerojatnost relativno lagano analitički izračunati. Pretpostavimo, radi jednostavnosti, da godina ima 365 dana, i da je svaki od njih podjednako vjerojatan da bude rođendan (u stvari, postoje prijestupne godine, te se više djece rađa u proljeće nego u drugim godišnjim dobima, ali zanemarimo sad te stvari). Broj mogućih rasporeda rođendana u 23 osobe da nitko ne dijeli isti rođendan iznosi 365!/(365-23)!, gdje uskličnik označava faktorijel, to jest, umnožak prvih n prirodnih brojeva. Za prvu osobu ima 365 mogućih rođendana, za drugu 364, za treću 363, i tako dalje, dok za 23. osobu ima 356-23+1=343 mogućnosti, dakle, ukupno je to 365*364*363*...*343=365!/(365-23)!. To se zove permutacijska funkcija, i često se označava kao funkcija s dva argumenta P(n,m). Broj mogućih rasporeda rođendana pri kojima te dvadeset i tri osobe mogu dijeliti rođendane iznosi, naravno, 365^23, i to se zove eksponencijalna funkcija. Dakle, vjerojatnost da nitko od te 23 osobe ne dijeli rođendan iznosi (365!/(365-23)!)/(365^23), što je nešto manje od 50%. No, nema očitog načina da se analitički izračuna vjerojatnost da se dogodi da troje od te 23 osobe dijele isti rođendan, što je slično ovome problemu.


Numerički izračuni paradoska rođendana

Međutim, to se može izračunati numerički jednostavnim računalnim programom, recimo, ovim programom pisanim u programskom jeziku JavaScript:


1 let iznad_koliko_kolizija_brojimo = 2,

 2   koliko_ima_ljudi = 23,
 3   koliko_smo_puta_dobili_toliko_kolizija = 0,
 4   koliko_smo_puta_izvrtili_simulaciju = 100_000;
 5 for (let brojac = 0; brojac < koliko_smo_puta_izvrtili_simulaciju; brojac++) {
 6   let koliko_ljudi_ima_rodendan_na_taj_dan = [];
 7   for (let brojac = 0; brojac < 365; brojac++)
 8     koliko_ljudi_ima_rodendan_na_taj_dan.push(0);
 9   for (let brojac = 0; brojac < koliko_ima_ljudi; brojac++)
10     koliko_ljudi_ima_rodendan_na_taj_dan[Math.floor(Math.random() * 365)] += 1;
11   let jesmo_li_nasli_potreban_broj_kolizija = false;
12   for (let brojac = 0; brojac < 365; brojac++)
13     if (
14       koliko_ljudi_ima_rodendan_na_taj_dan[brojac] >=
15       iznad_koliko_kolizija_brojimo
16     ) {
17       jesmo_li_nasli_potreban_broj_kolizija = true;
18       break;
19     }
20     if (jesmo_li_nasli_potreban_broj_kolizija)
21       koliko_smo_puta_dobili_toliko_kolizija += 1;
22 }
23 console.log(
24   `Vjerojatnost da ${iznad_koliko_kolizija_brojimo} od ${koliko_ima_ljudi} dijeli isti rodendan iznosi ${
25     (koliko_smo_puta_dobili_toliko_kolizija /
26       koliko_smo_puta_izvrtili_simulaciju) *
27     100
28     }%.`
29 );

Vjerojatnost da barem 3 osobe od 23 osobe dijele isti rođendan iznosi 1.26%. A vjerojatnost da barem 4 osobe od 23 osobe dijele isti rođendan iznosi 0.018%. Očito, paradoks rođendana veoma brzo nestaje kako se broj osoba koje bi trebale dijeliti isti rođendan povećava. Štoviše, ako pretpostavimo da hrvatski jezik ima 20*20=400 parova suglasnika koji se s podjednakom vjerojatnosti pojavljuju na početku riječi, vjerojatnost da 6 od 100 rijeka slučajno počinje s istim parom suglasnika iznosi 1/10'000.


  
No, koliko je ta pretpostavka, na kojoj se taj krajnje pojednostavljeni model jezika zasniva, realistična? Je li kolizijska entropija para suglasnika u nazivu mjesta uistinu približno log2(400) bita po simbolu, to jest, da možemo pretpostaviti da u hrvatskom jeziku postoji 400 parova suglasnika potencijalno odvojenih samoglasnikom od kojih su svi jednako vjerojatni?


Entropija u informatici

Entropija je jedno od najvažnijih pojmova u informatici. Riječ „entropija” grčkog je podrijetla i znači „nered” ili „nepredvidivost”. Pojam se prvo pojavio u fizici, a u informatiku ga je preuzeo Claude Shannon 1948. godine u svojoj knjizi „A Mathematical Theory of Communication”. U fizici se entropija mjeri u džulima po kelvinu, a u informatici u bitovima po simbolu. Bit (inače engleska riječ koja znači mali dio, od istog korijena kao njemački bisschen) je mjerna jedinica informacije, to je onoliko informacije koliko nosi jedna binarna znamenka, koja može biti ili nula ili jedinica.


Shannonova entropija

Shannonova entropija nekog stringa mjeri se kao zbroj umnožaka relativnih frekvencija pojedinih simbola u tom stringu i njihovih logaritama pomnožen s -1. U informatici se, naravno, najčešće koristi binarni logaritam. Recimo da imamo string „abb”. Relativna frekvencija simbola 'a' iznosi 1/3, a relativna frekvencija simbola 'b' iznosi 2/3. Apsolutne frekvencije, koje ne uzimaju u obzir duljinu stringa, naravno, iznose 1 i 2. Shannonova entropija tog stringa iznosi ((1/3)*log2(1/3)+(2/3)*log2(2/3))*(-1)=0.9182 bita po simbolu. Shannonova entropija je donja granica, i obično izvrsna aproksimacija, koliko će string biti dugačak ako se sažme jednim jednostavnim, ali često korištenim, algoritmom sažimanja stringova, koji se zove Huffmanovo kodiranje (poznato i pod nazivom kodiranje minimalnim težinskim stablom). Demonstraciju toga imate na mojoj web-stranici4. Nasumični stringovi, bez značenja, imaju visoku entropiju, i ne mogu se sažeti. Šifrirani stringovi, ako je šifra dobra, isto tako imaju visoku entropiju. Slabe šifre kao što su zamjena slovo za slovo entropiju mijenjaju malo ili nimalo, ali dobri algoritmi šifriranja stvaraju stringove koji se mjerenjem entropije ne mogu razlikovati od nasumičnih stringova. Digitalni slika i zvuk imaju entropiju veću od teksta, ali manju od nasumičnih ili dobro šifriranih stringova. Shannonova entropija analogna je Boltzmanovoj entropiji u termodinamici, gdje je Boltzmanova entropija čestice integral od umnoška vjerojatnosti da se neka čestica nalazi na nekoj lokaciji i logaritma te vjerojatnosti.


Kolizijska entropija

Kolizijska entropija je sličan pojam. On se računa kao negativni logaritam vjerojatnosti da, ako dva puta nasumično odaberemo simbol iz stringa, oba puta odaberemo jednaki. Za string „abb” on bi se mogao ovako izračunati. Ako prvi puta odaberemo znak 'a', vjerojatnost da ćemo drugi put odabrati isti znak iznosi 1/3. Ako prvi puta odaberemo znak 'b', vjerojatnost da ćemo drugi put odabrati isti znak iznosi 2/3. Dakle, ukupna vjerojatnost kolizije (pojave da dva puta odaberemo isti znak) iznosi 1/3*1/3+2/3*2/3=5/9. Dakle, kolizijska entropija tog stringa iznosi -log2(5/9)=0.8479 bita po simbolu. Mislim da je očito da je kolizijska entropija upravo ono što nama treba da izračunamo kolika je vjerojatnost da se taj uzorak da imena rijeka u Hrvatskoj počinju s k+(samoglasnik+)r pojavi slučajno. Kolizijska entropija se često koristi u informatici kao bolja procjena stvarne nepredvidivosti stringa nego što ga pruža Shannonova entropija. Shannonova entropija, naime, često daje iluziju da je string više nepredvidiv nego što uistinu jest. Također, moderni algoritmi sažimanja koji ne sažimaju simbol-po-simbol kao Huffmanovo kodiranje, već prepoznaju česte nakupine simbola (na engleskom jeziku, recimo, nakon slova 'q' gotovo uvijek slijedi slovo 'u', pa nema smisla kodirati 'q' i 'u' kao posebne simbole u tom slučaju), mogu postići znatno kraći string nego što to predviđa Shannonova entropija, pa je kolizijska entropija nerijetko bolja procjena koliko će sažeti string biti dugačak. Kolizijska entropija se, kako sam doznao nakon što sam napisao prvu verziju ovog teksta, može računati i kao negativni logaritam sume kvadrata relativnih frekvencija (a ne samo Monte Carlo metodom, da se mnogo puta nasumično odaberu dva simbola iz stringa i broji koliko se puta desilo da budu jednaki).


Kolizijska entropija ljudskih jezika

Kolizijska entropija ljudskih jezika zapanjujuće je niska, mnogo niža nego što je u protokolima za komunikaciju između računala. Kad sam napravio program da izmjerim kolizijsku entropiju suglasnika u nekom tekstu i zadao mu da izmjeri kolizijsku entropiju suglasnika u nekom tekstu na engleskom jeziku, očekivao sam da će on ispisati rezultat nešto manji od log2(21) bita po simbolu, jer engleski jezik ima 21 suglasnik. Međutim, taj program je ispisao da ona iznosi svega log2(11) bita po simbolu. Pa na što onda odlazi sva ta entropija? S obzirom da je taj program također ispisao da je najčešći suglasnik (dakle, suglasnik s najmanje entropije) bio ‘t’, pretpostavio sam da većina te entropije odlazi na sintaksu, jer engleska gramatika često zahtijeva da se u rečenice umeću riječi bez značenja kao što su “the”, “it”, “that”, „then” i “than”. Da to provjerim, zadao sam tom programu da izmjeri entropiju suglasnika u listi riječi od spell-checkera Aspella, dakle, teksta iz kojeg je eliminarana sintaksa. Očekivao sam da će on tada ispisati rezultati svega nešto manji od log2(21) bita po simbolu, međutim, on je ispisao da je kolizijska entropija suglasnika u listi riječi od spell-checkera svega log2(13) bita po simbolu, te da je najčešći suglasnik 'r' (vjerojatno zbog iznimno čestih engleskih prefiksa i sufiska „re-” i „-er”). Za hrvatski jezik entropije su bile log2(13) bita po simblu i log2(14) bita po simbolu, a najčešći suglasnik je u oba slučaja bio 'n'. Za njemački jezik entropije su bile log2(12) bita po simbolu i log2(15) bita po simbolu, a najčešći suglasnik je opet u oba slučaja 'n'. Za talijanski je jezik entropija suglasnika u dugačkom tekstu bila log2(12.5) bita po simbolu, a najčešći suglasnik bio je 'n'. U Aspellovom rječniku talijanskog jezika entropija je bila log2(15), a najčešći suglasnik bio je 'r'. Za francuski je jezik entropija suglasnika u dugačkom tekstu bila log2(10) bita po simbolu, a najčešći suglasnik bio je 's'. U Aspellovom rječniku francuskog jezika entropija suglasnika bila je log2(11) bita po simbolu, a najčešći suglasnik isto je bio 's'.


Ime jezika

Kolizijska entropija suglasnika u dugačkom tekstu

Najčešći suglasnik u dugačkom tekstu

Kolizijska entropija suglasnika u Aspellovoj listi riječi

Najčešći suglasnik u Aspellovoj listi riječi

Kolizijska entropija sintakse

Engleski

log2(11)

t

log2(13)

r

0.241

Njemački

log2(12)

n

log2(15)

n

0.322

Hrvatski

log2(13)

n

log2(14)

n

0.107

Talijanski

log2(12.5)

n

log2(15)

r

0.263

Francuski

log2(10)

s

log2(11)

s

0.138


Napominjem da bi brojevi u drugom i četvrtom retku mogli biti podcjenjivanje, jer program kojim sam to mjerio ignorira ne-ASCII znakove (č, ć, đ, ž, š...). Za brojeve u šestom stupcu teško je reći jesu li podcjenjivanje ili precjenjivanje, naime, mogli bi biti i precjenjivanje jer logaritamska funkcija brže raste što se više pomičemo prema lijevo (za manje brojeve). Malo mi je zapanjujuće to što je entropija sintakse njemačkog jezika, koja iznosi log2(15)-log2(12)=0.3219 bita po simbolu, veća od entropije sintakse engleskog jezika, koja iznosi log2(13)-log2(11)=0.241 bita po simbolu. Iako ne znam u detalje gramatiku njemačkog jezika, iz onoga što znam, jako mi se činilo da njemački jezik ima jednostavniju sintaksu, ali da zato ima znatno kompliciraniju morfologiju. No, s tvrdim podacima se ne možeš svađati. Dakle, na sintaksu odlazi relativno malo entropije, pogotovo u hrvatskom jeziku. Pa, odlazi li onda ostatak entropije na morfologiju (da ne utječe na vjerojatnosti u toponimiji) ili na fonologiju (da utječe na vjerojatnosti u toponimiji)?


Razlika između fonologije i fonotaktike

Fonologija je dio gramatike koji određuje koji su fonemi (glasovi koje jezik razlikuje) dozvoljeni u jeziku i u kojim kombinacijama. U Bibliji je, u Knjizi o sucima, u 12. poglavlju, napisano da izvorni govornici efraimatskog jezika nisu mogli izgovoriti hebrejsku riječ šibboleth (ljuska oko zrna pšenice), da su je izgovarali kao sibbolet. Efraimatska fonologija, dakle, nije dopuštala glas š, barem ne na početku riječi, a vjerojatno uopće. Fonotaktika je dio fonologije koji određuje u kojim su kombinacijama fonemi (glasovi koje jezik razlikuje) dopušteni. U japanskom jeziku, recimo, postoje glasovi v, j, te samoglasnici a, e, i, o i u, kao u hrvatskom jeziku. Međutim, iako slogovi ja, jo i ju postoje u japanskom jeziku, slogovi ji i je (koji je, usput, najčešći slog u hrvatskom jeziku) ne postoje osim u posuđenicama. Isto tako, iako slogovi va i vo postoje, slogovi vi, vu i ve ne postoje osim u posuđenicama. Ili, recimo, Japancima i Hrvatima lako je izgovoriti riječ tsunami, dok izvornim govornicima engleskog jezika nije jer u engleskom jeziku riječ ne može počinjati na ts. Ili, recimo, Etrurcima je bilo nespretno izgovarati grčka naziva božanstava puna samoglasnika, pa se teonim (ime božanstva) Herakles u etrurski jezik posudio kao Herkles, a govornicima latinskog jezika bilo je nespretno izgovoriti suglasničku skupinu rkl, pa su Herkles u svoj jezik posudili kao Hercules.


Entropija fonotaktike i što nam ona daje

Dosjetio sam se da bih jednim krajnje jednostavnim računalnim programom mogao izmjeriti Shannonovu entropiju parova suglasnika u nekom ljudskom jeziku, te da bih tako lako mogao odrediti entropiju fonotaktike, a time i procijeniti kolika bi entropija fonologije mogla biti. Razlika entropije suglasnika pomnožene s 2 i entropije parova suglasnika dala bi nam entropiju fonotaktike. S obzirom da je fonotaktika dio fonologije, to bi nam onda dalo donju granicu koliko fonologija može oduzimati entropije. Shannonova entropija parova suglasnika u spell-check rječniku hrvatskog jezika, kako sam pomoću tog programa izmjerio, iznosi log2(229)=7.839 bita po simbolu5. Napisao sam i program koji generira mnogo nasumičnih nizova znakova od 21 različitog znaka (suglasnika engleske abecede) i dugačkih 100 znakova te računa njihove Shannonove i kolizijske entropije, te sam na temelju podataka koje je on ispisao matematički sumnjivim metodama (pretpostavio sam da krivulja koja prikazuje odnos Shannonove i kolizijske entropije ima isti oblik bez obzira na broj različitih simbola u stringu, da s time samo mijenja veličinu) procijenio da bi kolizijska entropija od nečega, čija Shannonova entropija iznosi 7.839 bita po simbolu i što ima 676 različitih simbola, iznosila 5.992 bita po simbolu.

(
Ovdje „Samaržijina entropija” znači „kolizijska entropija”, jer tada još nisam znao kako se ona zove, pa sam je tako nazvao. Tek me je kasnije netko na internetskom forumu uputio da je netko prije došao na istu ideju.)

Naime, hrvatski jezik ima 26*26=676 mogućih parova suglasnika. Tih 5.992 bita po simbolu onda bi bilo koliko entropije parova suglasnika ostaje semantici, dakle, tih 5.992 bita po simbolu ne pripada ni fonologiji, niti morfologiji, niti sintaksi. Bez fonotaktike, entropija parova suglasnika bila bi dvostruko veća od entropije pojedinih suglasnika u rječniku, dakle, za hrvatski bi jezik bila 2*log2(14)=7.615 bita po simbolu. Fonotaktika, dakle, od entropije hrvatskog jezika oduzima 7.615-5.992=1.623 bita po simbolu. Za usporedbu, iz podataka koje smo izmjerili možemo izračunati da sintaksa oduzima samo 2*(log2(14)-log2(13))=0.214 bita po simbolu. Množimo s 2 jer su se mjerenja iz kojih smo dobili 13 i 14 odnose na pojedine suglasnike, a ne na parove suglasnika. Tamo je simbol bio jedan suglasnik, sada je simbol par suglasnika. Fonotaktika, dakle, na entropiju hrvatskog jezika ima 1.623/0.214=7.584 puta veći utjecaj nego što ima sintaksa. Koliko onda entropije odlazi na morfologiju? Pod pomalo neopravdanom pretpostavkom da nijedan drugi dio fonologije osim fonotaktike ne oduzima entropiju, možemo procijeniti da na morfologiju odlazi log2(676)-1.623-0.214-5.992=1.572 bita po simbolu, neznatno manje nego na fonotaktiku. Pod morfologijom ovdje se podrazumijeva ne samo morfologija u tradicionalnom smislu te riječi, već i tvorba riječi, to jest, prefiksi i sufiksi koji postaju dio osnove pri deklinaciji i konjugaciji. Dakle, 1.572 bita po simbolu je gornja granica koliko, po onome što smo izmjerili, morfologija može oduzumati entropije od hrvatskog jezika, dok je 1.623 bita po simbolu donja granica koliko fonologija može oduzimati od hrvatskog jezika.


P-vrijednost tog k-r uzorka u hrvatskim nazivima rijeka

Ako pretpostavimo da je kolizijska entropija morfologije uistinu 1.572 bita po paru suglasnika, a entropija fonologije uistinu 1.623 bita po paru suglasnika, vjerojatnost da se onaj uzorak da imena rijeka počinju sa k+(samoglasnik+)r pojavi slučajno iznosi, kako se može izračunati preko onog programa vezanog za paradoks rođendana, 1/300. Ako pretpostavimo da morfologija oduzima 0 bita po paru suglasnika, a fonologija oduzima 1.623+1.572=3.195 bita po paru suglasnika, ta vjerojatnost iznosi 1/17. A mislim da bi se svatko složio da je prva pretpostavka daleko bliža realnosti6. Sad, možda je pretpostavka da u Hrvatskoj ima 100 rijeka nerealistična, pa su te p-vrijednosti podcjenjivanje. Ipak, mislim da su vjerojatno znatno precjenjivanje, jer dva suglasnika na početku riječi dopuštalo bi i imena rijeka kao što je *Ikura (sa samoglasnikom na početku, i s neočekivanim samoglasnikom između k i r ako pretpostavimo da to dolazi od *karr~kurr), kakva se ne pojavljuju.

Mislim da sam dokazao tvrdim podacima da je „kar-” u imenu Karašica ili korijen sa značenjem „teći”, ili, manje vjerojatno, prefiks koji se iz nekog razloga često dodavao hidronimima. Tvrdi podaci se za sada rijetko mogu koristiti u toponimiji (jer lingvistika još nije dovoljno razvijena za to), ali u ovom se slučaju mogu. Programi s kojima sam ove stvari mjerio i računao dostupni su na mojoj web-stranici7, i detaljno su opisani u mom seminaru Fonološka evolucija jezika8.


Spekulacije o etimologiji tog korijena k-r i kako se Karašica mogla zvati u antici

Mislim da bi taj glagolski korijen za teći u različitim dijalektima ilirskoga glasio ili karr- ili kurr-, u oba slučaja s kratkim samoglasnikom, te da dolazi od indoeuropske riječi za konja, *kjers, od koje dolazi i latinska riječ za trčati, currare. Za ablaut samoglasnika a i u usporedite toponime Marsonia (ilirsko ime za Slavonski Brod) i Mursa (ilirsko ime za Osijek), gotovo sigurno od istog korijena. Ime Korana dolazi od karr-, a ostala imena rijeka o kojima smo raspravljali dolaze od kurr-, osim vjerojatno imena Krapina (Mislim da bi Okamova britva favorizirala hipotezu da se Krapina u antici zvala nešto kao *Karpona9 i da 'a' dolazi od metateze likvida više nego hipotezu da se zvala nešto kao *Kurrippuppona10 i da 'a' dolazi od poluglasa, zato što je *Karpona lakše izgovoriti, iako bi oboje u današnji hrvatski dalo Krapina). Mislim da je ilirsko ime za rijeku Karašicu bilo Kurr-(kratko u ili kratko i)-rr-(kratko u ili kratko i)-ssia, da su ti kratki u-ovi i kratki i-jevi bili posuđeni u hrvatski jezik kao jor ili jer, te da je taj jer ili jor u drugom slogu ispao po Havlikovom zakonu, a da su ostali, naravno, prešli u a. Ustvari, s obzirom na to da znamo da je u ilirskom jeziku postojao sufiks -issia, kao u antičkom imenu za Đakovo, Certissia (štogod cert značilo), i za Omiš, Almissia (alm je vjerojatno značilo plodan), a ne znamo da je postojao sufiks -ussia, možemo pretpostaviti da je samoglasnik u trećem slogu bio kratko i, a ne kratko u, dakle, da je antičko ime za Karašice bilo ili Kurrurrissia ili Kurrirrissia. Moguće je i da dunavska Karašica i dravska Karašica nisu u antici bili homofoni, nego da su postali homofoni tek nakon stapanja jera i jora u hrvatskom jeziku. Također mislim da je u ilirskom jeziku postojala imenica kuros, s dugim u, sa značenjem sjever, da ona dijeli isti korijen kao latinska riječ za sjeverni vjetar, caurus, te da od nje dolazi antičko ime otoka Krka, Curicum. Prihvaćenu tezu da je ilirski jezik pripadao satem grupi indoeuropskih jezika (kojoj pripada albanski jezik) ja bih svakako odbacio. Mislim da su se od indoeuropskog do ilirskog dogodile slične glasovne promjene kao od indoeropskog do točarijanskog.


Mogući prigovor – fonosemantika

Pretpostavljam da bi mi netko mogao prigovoriti da trebam uzeti u obzir i mogućnost da to k-r nije etimološki korijen, već fonosemantički korijen. To jest, možda su nazivi rijeka na k-r bivali usvojeni od strane Hrvata ne zato što je to k-r na nekome jeziku značilo teći, već zato što je taj zvuk skupine suglasnika (ne nužno povezanih, ali nekada i povezanih) k-r Hrvate podsjećao na zvuk koji prave brze rijeke, ili možda na riječ krv, ili tako nešto. Nemam pretjerano rigorozan odgovor na to, samo mogu reći da bi, da je to istina, jezici morali funkcionirati znatno drugačije nego što se to obično pretpostavlja. Obično se pretpostavlja da su fonemi od kojih se sastoje riječi potpuno arbitrarni i nemaju veze sa značenjem riječi, to jest, da fonosemantički korijeni ne postoje. Evo jedan misaoni eksperiment za koji mislim da dobro objašnjava zašto: Pretpostavimo da na nekome jeziku fonosemantički korijen k-l znači „pokrivati” ili „boja”. Sada, u nekom dijalektu tog jezika dogodi se glasovna promjena slična Grimmovom zakonu, to jest, tamo gotovo svako 'k' prijeđe u 'h'. Sada, ako je fonosemantička hipoteza točna, na tom dijalektu fonosemantički korijen h-l znači „pokrivati” ili „boja”, te postoji neka sila koja nastoji spriječiti da se neka riječ od korijena k-l, u značenju „pokrivati” ili „boja”, posudi iz drugog dijalekta tog jezika. Primjerice, u engleskom je jeziku postojala nekakva sila koja je nastojila spriječiti da latinska riječ „color” zamijeni arhaizam od istog indoeuropskog korijena „hue”. Mislim da će se većina ljudi složiti da takvih „sila” u jeziku nema. Iz tog razloga smatram da je etimološki korijen prikladnije objašnjenje nego fonosemantički korijen.


Moguć prigovor - a-priori vjerojatnosti

Jedan od prigovora koji sam dobio na ovo bio je, kako je napisao korisnik forum.hr-a Nyittiuny: „Radi li ovo u onomastici? Npr. prema Šimundiću imena Mara, Marcel, Marčelo, Marena, Margareta, Marin imaju različitu etimologiju iako svi počinju s MAR. Isto tako s imenima na KAR: Karanfil, Karina, Karlo, Karmela, Karpoš. A ne bih rekao da su ta imena slučajno nastala.”. Mislim da tu ulogu igra a-priori vjerojatnost iz Bayesovog teorema.

Niska p-vrijednost rezultata eksperimenta za neku hipotezu ne znači mnogo ukoliko je apriorna vjerojatnost te hipoteze niska, i obratno. Bayesov teorem glasi: P(A|B)=P(B|A)*P(A)/P(B), gdje P(A|B) označava vjerojatnost da je A istina pod pretpostavkom da je B istina, a P(B|A) vjerojatnost da je B istina pod pretpostavkom da je A istina. Recimo da A predstavlja događaj da je *karr~kurr na ilirskom značilo teći, a da B predstavlja događaj da je rezultat mog eksperimenta pozitivan. P(A) je apriorna vjerojatnost da je *karr~kurr značilo teći, a P(A|B) je aposteriorna vjerojatnost toga. Bayesov teorem u tom obliku ovdje zapravo ne možemo primijeniti jer bismo za to morali procijeniti i vjerojatnost da rezultat mog eksperimenta bude pozitivan pod pretpostavkom da je *karr~kurr na ilirskom uistinu značilo teći (to jest, P(B|A)), a ne znam kako to procijeniti. To je različito od p-vrijednosti, to jest, vjerojatnosti događaja da rezultat mog eksperimenta bude pozitivan pod pretpostavkom da *karr~kurr na ilirskom nije značilo teći (ona se označava kao P(B|ne(A)) i ona je ta koja iznosi između 1/300 i 1/17). Recimo da p-vrijednost iznosi 1/17. Ako uzmemo da P(B|A) iznosi, recimo, 90% (a ne znam kako to točnije procijeniti, moglo bi biti mnogo manje od 90%, ovo je samo primjer), onda P(B) iznosi P(ne(A))*P(B|ne(A))+P(A)*P(B|A)=(1-P(A))*1/17+P(A)*90%. Ako za a-priori vjerojatnost da je *karr~kurr značilo teći uvrstimo 5%, onda je P(B)=(100%-5%)*1/17+5%*90%=10.1%, a P(A|B)=90%*5%/10.1%=44.6%. Ako pak za P(A) uvrstimo 20%, tada je P(B)=(100%-20%)*1/17+20%*90%=22.7%, a P(A|B)=90%*20%/22.7%=79.3%. Vidimo da na to u što je razumno vjerovati jako utječu ne samo p-vrijednosti, već i a-priori vjerojatnosti. Naime, ako je apriorna vjerojatnost 5%, za istu p-vrijednost eksperimenta nije razumno vjerovati da je rezultat točan jer je aposteriorna vjerojatnost manja od 50%, a, ako je apriorna vjerojatnost jednaka 20%, onda je razumno vjerovati.

Imena ljudi mogu dolaziti odasvud i niotkud. Ljudi mogu biti, recimo, nazvani po brojevima (što je, izgleda, u antici bio čest slučaj), nazvani po zanatima, nazvani po biljkama (Ciceron dolazi od latinske riječi za grašak, Anton dolazi od grčke riječi za cvijet...), nazvani po životinjama (Alef je fenička riječ za vola...), nazvani po apstraktnim imenicama (Dolores znači patnje na latinskom...), nazvani po meteorološkim pojavama (Nives znači snjegovi na latinskom...)... Bezbroj riječi su potencijalna imena ljudi. Apriorna vjerojatnost da su dva imena ljudi koja zvuče slično povezana relativno je mala. Mislim da će za mnoga osobna imena etimologija zauvijek ostati misterij. Za rijeke to nije slučaj. Po čemu može biti nazvana rijeka da bi njezin naziv bio prihvaćen u narodu? Pa, može biti po riječima za „teći”, „rijeka”, „tok”, imena boja, nazivi nekih riba... Relativno mali broj riječi. Apriorna vjerojatnost da su imena rijeka koja zvuče slično povezana relativno je velika, osobito ako su na relativno malom području. Povezani prigovor koji bih mogao primiti je da, s obzirom na to da glavna struja hrvatske onomastike smatra da su imena tih rijeka na k-r nepovezana, apriorna vjerojatnost da su povezana jest jako mala. Mislim da to nije točno, jer moramo uzeti u obzir da etimologiziranje kako se obično radi nije nikakav znanstveni pothvat. Etimologiziranje kako se obično radi ne uključuje nikakvo eksperimentiranje. Ne možemo općeprihvaćenim etimologijama pripisivati istu a-priori vjerojatnost kao općeprihvaćenim teorijama u tvrdim znanostima.


Je li ilirski jezik pripadao centum ili satem grupi indoeuropskih jezika

Probajmo, da bismo bili objektivniji, navesti argumente za i protiv toga da je ilirski bio centum jezik, to jest, da u njemu indoeuropsko kj prelazilo u k. Argumenti za to bili bi, recimo:

  1. Imena mnogih rijeka gdje se govorio ilirski jezik počinju s k(+samoglasnik)+r, što bi moglo dolaziti od indoeuropske riječi za konja, *kjers, odakle u keltskim jezicima i u latinskom jeziku dolaze riječi sa značenjem trčati (a nije teško zamislivo da bi od značenja trčati kasnije proizašlo značenje teći). P-vrijednost iznosi negdje između 1/300 i 1/17. Protuargumenti protiv ovog argumenta mogli bi biti da nije općeprihvaćeno da su ta imena rijeka uistinu povezana (što će se možda uskoro promijeniti), te možda da je izvođenje riječi za teći od riječi sa značenjem konj neuvjerljivo.

  2. Mnogi natpisi na ilirskom jeziku počinju s „klauhi zis”, što je, po svemu sudeći, značilo „Usliši bože (ovu molitvu)”, dakle, riječ „klauhi” dolazila bi od indoeuropskog *kjlew (čuti, uslišiti). Ovdje nije očito kako izračunati p-vrijednost. Protuargument je, naravno, da u mnogim satem jezicima (u kojima kj prelazi u s) postoji iznimka za kj ispred likvida l i r, a da je među njima i albanski jezik.

  3. Ako pretpostavimo da je ilirski jezik centum jezik, ime Krk može se čitati kao sjeverni, od indoeuropskog *(s)kjeh1weros, odakle dolazi latinska riječ caurus za sjeverni vjetar. Ponovno, nije očito kako izračunati p-vrijednost. Protuargument bi, ja pretpostavljam, bio da -icum i -icta, sufiksi s kojima se ime Krk pojavljuje u antičkim povijesnim izvorima, nisu tipični indoeuropski, pa da onda nije logično pretpostaviti da je ime Krk indoeuropskog podrijetla.

  4. Ako pretpostavimo da je ilirski jezik centum jezik, ime Incerum, današnja Požega, može se čitati kao srce doline. Nije očito kako ovdje izračunati p-vrijednost.

  5. Ako pretpostavimo da je ilirski jezik centum jezik, ime Cibelae, današnji Vinkovci, može se čitati kao jaka kuća, to jest, utvrda. Nije očito kako ovdje izračunati p-vrijednost.

Argumenti protiv toga da je ilirski bio centum jezik, to jest, argumenti da je ilirski bio satem jezik, koji se obično navode, jesu:

  1. Albanski jezik je satem jezik. Protu-argument je, naravno, kako znamo da je albanski jezik blisko srodan ilirskome?

  2. Antičko ime za Podgoricu u Crnoj Gori bio je Birziminium, a današnje ime Podgorica je onda vjerojatno prijevod tog imena, a Birz- vjerojatno dolazi od indoeuropskog *bhergjhs (brdo). Skrivena premisa u tom argumentu je da se z u Birziminium izgovaralo z, što je nevjerojatno. U antici je z u latinskom jeziku označavao, u biti, bilo koji afrikat koji ne postoji u latinskom jeziku, prije svega grčko dz. U tom pogledu, zar nije vjerojatnije da se to ime izgovaralo nešto kao Birdžiminium, te da je riječ o sekundarnoj palatalizaciji? Možda je u ilirskome -rgi- prelazilo u -rdži-, ili tako nešto. P-vrijednost, naravno, opet nije očito kako izračunati.

  3. Antičko naselje na ušću rijeke Vrbas u Savu zvalo se Osseriatis, a tamo ima mnogo jezera, pa bi to ime moglo biti povezano s hrvatskom riječju jezero. P-vrijednost je, naravno, opet neizračunljiva. Ispravan protu-argument, po meni, bio bi: Zar nije barem toliko vjerojatno da je -ser- u Osseriatis povezano sa ser- u imenima Serapia (rijeka Bednja), Serbinum (Gradiška) i Serota (Virovitica)? Također, ako je riječ jezero uistinu indoeuropskog podrijetla, da ima svoj odraz u ilirskome, zašto je nema u zapisanim starim indoeuropskim jezicima?

  4. Ilirska riječ za broj pet, potvrđena na nekim natpisima, bila je penkaheh, od indoeuropskog *penkwe, a *kw je u centum jezicima obično ostajalo (kao u latinskom quinque), dok je u satem jezicima prešlo u 'k'. Protuargument bi mogao biti da se prelazak svakog *kw u 'k' dogodio i u točarijanskom jeziku, a on je bio centum jezik.

Sve u svemu, čini mi se da se po pitanju je li ilirski bio centum ili satem jezik može napraviti samo jedan znanstveno rigorozan argument (kojemu se može izračunati p-vrijednost), i da je on za to da je ilirski jezik bio centum jezik.


Brojanje do deset na ilirskom jeziku

Evo kako bih ja rekonstruirao brojeve od jedan do deset na ilirskom jeziku:

Indoeuropski

Ilirski

Napomena

*h1oinos

*inos

Pretpostavljam da je *oi prelazilo u dugo 'i', kao što je *ew prešlo u dugo 'u' u *kuros (prvi samoglasnik u dvoglasniku se gubi, a drugi se produžava).

*dwoh1

*do

*wo prelazi u dugo 'o', iz istog razloga zašto *oi prelazi u dugo 'i'

*treis

*tris

*ei prelazi u dugo 'i', iz istog razloga zašto i *oi prelazi. Tako i i u Cibelae dolazi od *kjey-bel (nejasno je zašto se l nije udvostručilo).

*kwetwores

*kettores

*t se geminira jer dolazi nakon kratkog suglasnika. Naime, kao što sam napisao na već više mjesta, mislim da je u ilirskom vrijedio zakon da svi slogovi moraju biti jednake duljine, te da se to postizalo geminiranjem suglasnika nakon kratkog samoglasnika (kao što je neko vrijeme bilo u engleskom jeziku, te da zato ima dva 's' u Issa, jer je 'i' kratko).

*penkwe

*penka

Pretpostavljam da je -heh u potvrđenoj riječi penkaheh bio neki gramatički nastavak. Prijelaz iz krajnjeg *e u 'a' je nejasan.

*swekjs

*seks


*septm

*septim

Samoglasno *m prelazi u im, kao što *h1n (dolina) prelazi u *in u Incerum (srce doline).

*h3ekjtow

*oktu


*h1newn

*ennun

Smatram da je početno h (laringeal) barem nekada prelazilo u 'e' u Ilirskom, te da odatle dolazi početno 'e' u hidronimima Ervenica i Ervenik (od *h3rews, teći, isti korijen kao latinski ruere). *ew, naravno, prelazi u dugo 'u', kao i u *kuros (sjever).

*dekjm

*dekkim


Od tih rekonstrukcija, rekonstrukciju da je *penka bila riječ za broj pet smatram najsigurnijom.


Ostali upadljivi uzorci u nazivima mjesta u Hrvatskoj

Za taj uzorak da imena rijeka u Hrvatskom počinju sa k-r relativno je jednostavno procijeniti p-vrijednost. Uočio sam još nekoliko uzoraka u hrvatskim nazivima mjesta za koje nije očito kako procijeniti p-vrijednost, iako mi se čini da bi mogla biti mala. Recimo, izgleda da je *issa~iasa na ilirskom jeziku značilo nešto kao „izvor ljekovite vode”. Antički naziv za Daruvar bio je „Balissa”, i tamo su bile jedne od najvećih rimskih termi na ovim prostorima. Antički naziv za Varaždinske Toplice bio je „Iasa”. I je li moguće da je antičko ime otoka Visa, Issa, isprva označavao onaj izvor zapadno od rimskih termi na koji su se te velike terme napajale11? Kolika je vjerojatnost da se taj uzorak dogodi slučajno? Ako nije slučajno, etimologija je jasna: to dolazi od indoeuropskog korijena *yes (vreti), kao što hrvatska riječ vrelo dolazi od glagola vreti. Ono „Bal” u „Balissa” moglo bi dijeliti isti korijen kao latinski riječ za vreti, „bullire”, koja je nejasne etimologije. Još jedan uzorak u hrvatskim nazivima mjesta koji upada u oči je da imena morskih otoka često počinju sa l-s: današnje talijansko ime za Hvar je „Lesina”, današnje talijansko ime za Vis je „Lissa”, postoje dva otoka koja nose ime „Lošinj”, a antičko ime za otok Ugljan isto je bilo „Lissa” (kod Plinija u Naturalis Historia, 3. svitak, 63. poglavlje, „Contra Iader est Lissa.”, Nasuprot Zadru je Lissa). Kolika je vjerojatnost da se to dogodi slučajno? Ako nije slučajno, koja bi mogla biti etimologija? Ne znam odgovore na ta pitanja.


Zaključak

Iz moje perspektive, čini se tužnim što toliko malo znamo o jezicima koji su se na ovim prostorima govorili, te iz kojih, nesumnjivo, dolaze bezbrojni današnji toponimi. Za toliko jezika znamo da su postojali, a na njima ne znamo ni do deset nabrojati (ni za etrurski jezik, recimo, nismo sigurni je li huth značilo četiri, a ša značilo šest, ili obrnuto, a nismo sigurni ni je li šar značilo deset ili je značilo dvanaest, a da je možda halch značilo deset). Kako je korisnik Reddita Qafqa rekao, i mislim da je dobro rekao: „Nac avil pulumchva falatul snuiaph, aca Rasnal amuce ziv, nanatnam ica cnara.” (Već onoliko godina koliko ima zvijezda na nebu, etrurski je jezik mrtav, i nitko ga ne razumije.). Iliri su nam na svom jeziku ostavili nekoliko stotina natpisa, ali to su, uz malobrojne iznimke, natpisi od svega nekoliko riječi. Hvala Bogu, pisani su grčkim alfabetom, pa te riječi možemo izgovoriti. Ali nijedan od tih natpisa nije bilingvalan, da možemo biti sigurni što su točno te riječi značile. Zašto se baš nitko nije sjetio to napraviti? Zar nisu pomislili da bi nekoga nakon dvije tisuće godina zanimalo što ti natpisi znače? Zar su mislili da njihov jezik neće umuknuti? Ili ih nije bilo briga? I u povijesnim tekstovima rijetko kad je netko umetao prijevode pojedinih riječi ili fraza iz tih jezika. I za ilirski se jezik barem dva puta dogodilo da dva autora spomenu upravo istu riječ. Etimologija da je Brač bila ilirska riječ za jelena općeprihvaćena je zato što ju je u 6. stoljeću predložio Stjepan Bizantski, zato što je Strabon u 1. stoljeću prije Krista, u 6. svitku u 3. poglavlju Geografije, predložio da ime talijanskog gradića Brindisi dolazi od ilirske riječi za jelena jer zaljev u kojem se on nalazi oblikom podsjeća na glavu jelena, te zato što je današnja latvijska riječ (jer je latvijski jedan od najarhaičnijih današnjih indoeuropskih jezika) za jelena briedis. Amijan i Jeronim oboje su spomenuli da je sabaium ilirska riječ za pivo. Četiri autora, svega dvije riječi. Upitno je trebamo li čuvati male jezike i dijalekte: troškovi očuvanja jezika su veliki i nerijetko idu upravo na najsiromašnije ljude u društvu. No nije upitno da ih trebamo dobro dokumentirati za buduće generacije.

1Na tu je etimologiju mislila dr. sc. Dubravka Ivšić kad je u svom doktoratu napisala da je to ime slavensko. Naime, kad sam je e-mailom pitao što misli pod time, ispostavilo se da je ona pogrešno vjerovala da najstariji zapisi imena rijeke Karašica potječu iz 17. stoljeća i da nema prepreke da ona dolazi od latinske posuđenice u hrvatski karaš plus hrvatski nastavak -ica. Kad sam joj poslao Melich Janosov članak koji citira dokumente iz 13. stoljeću koji spominju dunavsku Karašicu, složila se sa mnom da ta etimologija nije uvjerljiva, te sada smatra da je etimologija da ime Karašica dolazi od turkijskog za crna voda uvjerljiva. Njezine komentare na ovaj članak možete vidjeti ovdje: https://flatassembler.github.io/toponyms#hear_both_sides

2Najveći problem s tom etimologijom je kojem to točno turkijskom jeziku treba pripisivati. Hoćemo li pretpostaviti da je antički avarski jezik bio turkijski, pa to pripisivati njemu? Ako pretpostavimo da je avarski jezik bio blizak turkijskom prajeziku, od avarskog „kara sub” očekivali bismo u današnjem hrvatskom jeziku nešto kao Korozba, pod pretpostavkom da su svi samoglasnici bili kratki.

3http://szemlelapszamok.adatbank.transindex.ro/szemle_lapszamok/1925_1-2/005Melich%20Janos_ketretegu.pdf Zahvaljujem se mađarskom YouTuberu i Discordašu Andrasu Alkoru (poznatiji po svom latiniziranom imenu Andreas Alcor) što me je uputio na taj tekst. „Upoznali” smo se tako što smo oboje izrađivali YouTube videe na latinskom jeziku i sreli se na chatu na latinskom jeziku na Discordu. Autor tog teksta, Melich Janos, brani tezu da ime „Karašica” dolazi od turkijskih riječi „kara sub”, od nekog turkijskog jezika gdje je b na kraju riječi nestajalo i gdje je početno s prelazilo u š. Ne znam toliko o povijesti turkijskih jezika da kažem koliko je ta hipoteza vjerodostojna s te strane, ali ta je hipoteza po meni svakako ad hoc (postuliranje glasovnih promjena bez dokaza) i svakako manje vjerojatna nego hipoteza da je ime „Karašica” ilirsko.

4https://flatassembler.github.io/huffman

5Moj profesor informatike dr. sc. Anđelko Lišnjić predložio mi je da objavim tablicu s relativnim frekvencijama parova suglasnika u hrvatskom jeziku. To sam i napravio: https://flatassembler.github.io/frekvencije_parova_suglasnika.txt

6Mislio sam to dok ovaj tekst nisam poslao svom profesoru informatike, dr. sc. Franji Joviću. On mi je odgovorio da misli da na fleksiju (morfologiju) ne odlazi mnogo entropije. U svakom slučaju, p-vrijednost je mala, makar bila bliže 1/17 nego 1/300.

7https://flatassembler.github.io/toponyms

8https://flatassembler.github.io/Fonoloska_evolucija_jezika.docx

9*Karpona - "ar" sam rekonstruirao na temelju toga što odatle u hrvatskim toponimima obično dolazi "ra", po zakonu metateze likvida, kao u "Raša" (antičko ime "Arsia"). "ona" sam rekonstruirao na temelju, recimo, ranog srednjevjekovnog imena za Cetinu, "Kentona", jer tamo je "ona" prešlo u "ina" (dugo ‘o’ je prešlo u jeri, pa iz jerija u 'i').

10*Kurrippuppona - Prvi samoglasnik sam rekonstruirao kao 'u' (koje bi prešlo u jor) jer... što drugo može biti? Da je 'i', 'k' bi prešlo u 'c'. Taj bi jor trebao ispasti po Havlikovom zakonu. Drugi samoglasnik sam stavio da je 'i', istina, jednako sam tako mogao staviti i da je 'u'. On bi, dakle, trebao biti jaki jer, po Havlikovom zakonu, koji bi prešao u 'a'. Treći samoglasnik, isto bi mogao biti i kratko 'u' i kratko 'i', nebitno. Onaj nastavak "-ona", vidi gore.

11Raspravu o tome na što su se napajale isejske terme možete naći na 28. stranici ove disertacije Branimira Gabričevića: https://core.ac.uk/download/pdf/33286142.pdf