Keskustelu:Zipfin laki
moikkelis en nyt pistä päätäni pantille tästä, mutta mun mielestä, siis ihan oikeesti hyvien matikantaitojen pohjalta, jos tiheys ja käytettyys on kääntäen verrannollisia niin kuin artikkelissa väitetään, jutusta tulee tosi absurdi: oletetaan että KISSA on kielen 2. käytetyin sana, sillon sen käyttötiheys on toisiksi pienin ja kun sen käytettyys pienenee, käyttötiheys kasvaa. jos asia ihan oikeesti on näin, asia selvä, enpähän vaan tajua, mutta veikkaan että on kääntäen ja suoraan verrannolisuus mennny sekasin 212.90.71.89 27. joulukuuta 2009 kello 10.54 (EET)
- Moi. Enpä ole asiantuntija mutta itse ainakin luen tuon niin, että kielen N:nneksi käytetyimmän sanan käyttötiheys olisi kääntäen verrannollinen N:ään eli toiseksi yleisimmän (k=2) sanan tiheys olisi ~ 1/2 (eli 1/k), kolmanneksi yleisimmän tiheys ~ 1/3 jne., (normalisoituina niin, että tiheyksien summa on 1). Sivun kaavassa Zipfin lain klassisessa muodossa s=1, mikä selviää artikkelin tämänhetkisessä versiossa vain englanninkieliseltä sivulta... Jawacz 27. joulukuuta 2009 kello 12.03 (EET)
ahaa. tarkotat ilmeisesti, että tiheyksien tulo on 1, jolloin n:nneksi käytetyimmän sanan tiheys, eli kuinka suuri osa kielestä on tätä sanaa, on n:nän käänteisluku. sillon toi alkais kuullostaa fiksulta 212.90.71.89 28. joulukuuta 2009 kello 20.59 (EET)
- Tuossa on näköjään virhe, korjaan sen. Yleisyysjärjestysnumeron ja frekvenssin logaritmit ovat käänteisesti verrannolliset, eivät yleisyysjärjestysnumero ja frekvenssi sinänsä. --4096 tavua 27. helmikuuta 2010 kello 13.01 (EET)
Miten se kaava oikeasti menee
[muokkaa wikitekstiä]Jmk huomautti, että korjaamani Zipfin lain esitys on (edelleen?) ristiriidassa artikkelissa alempana olevan kaavan kanssa. Itse olen kymmenisen vuotta sitten käsitellyt suomenkielistä tekstiaineistoa, ja silloin ainakin Zipf päti nimenomaan ylimpänä olevassa muodossa. Noissa artikkelin kaavoissa on sellainen vika, että vaikka mielestäni tiedän ilmiön, en pysty niitä kaavoja lukemaan. Herää lähinnä kysymys "mikä k, mikä N". Eli korjausta voisi hakea siitä suunnasta, että koettaa selvittää ovatko nuo kaavat oikein, ja miten niitä luetaan. Esimerkkejä aineistoista joissa Zipfin laki ilmenee, löytyy netistä. Esim. en:Zipf law sisältää myös kaksinkertaisen logaritmisen asteikon ja käänteisen verrannollisuuden kuvassa. Tekstiä voi sitten tulkita ehkä toisinkin. --4096 tavua 2. maaliskuuta 2010 kello 21.24 (EET)
- Kappas, Zipfin lakeja on kaksi, ainakin jos katsoo tuota Jussi Piitulaisen esitystä, johon linkitin yllä. --4096 tavua 2. maaliskuuta 2010 kello 21.43 (EET)
- Pahus, kyllä minä nyt sotkin pahasti. Siis frekvenssi ja rank ovat käänteisesti verrannolliset, logaritmit puolestaan muodostavat suoran. Kiitos Jmk:lle! ~~----