Documente noi - cercetari, esee, comentariu, compunere, document
Documente categorii

Marimi ale corelatiei la nivel ordinal

MARIMI ALE CORELATIEI LA NIVEL ORDINAL


Vom prezenta patru coeficienti ai corelatiei, utilizabili la nivel ordinal: γ al lui Goodman si Kruskal, d al lui Somer, τb al lui Kendall si ρs al lui Spearman[1]. Acesti coeficienti iau valori cuprinse intre 0 si 1 (τb numai pentru cazul r = c).

Coeficientul γ se utilizeaza in situatii de cercetare in care avem doua variabile masurate la nivel ordinal cu un numar mic de valori (nu mai mult de cinci sau sase). Sa presupunem ca am obtinut urmatoarele date privind vechimea in munca si descurajarea profesionala pentru un esantion de 100 de cadre didactice din invatamantul primar:




Tabelul 7 Vechimea in munca si descurajarea profesionala

Nivel de descurajare profesionala (Y)

Vechime in munca (X)

Inferioara

Medie

Superioara

TOTAL

Superior

8

11

21

40

Mediu

10

15

5

30

Inferior

20

6

4

30

TOTAL

38

32

30

100


In cele ce urmeaza, cazurile care fac parte din aceeasi categorie a unei variabile vor fi numite cazuri legate ale variabilei respective.

Pentru a calcula coeficientul γ, sunt necesare doua cantitati, notate cu Na si respectiv Nd. Cantitatea Na reprezinta numarul total de perechi de cazuri nelegate si dispuse in aceeasi ordine in privinta ambelor variabile. Cantitatea Nd reprezinta numarul total de perechi de cazuri nelegate si ordonate diferit in privinta celor doua variabile. Pentru aflarea acestor doua cantitati, vom lucra cu frecventele celulelor, considerand celula cu celula.

Pentru inlesnirea referirii la celulele unui tabel n m vom numerota randurile de la 1 la n incepand de sus in jos si, de asemenea, coloanele de la 1 la m incepand de la stanga la dreapta; pentru fiecare celula, vom folosi o notatie de forma cij, in care i este numarul randului, iar j numarul coloanei. Pentru un tabel 3 3, cum este 7, avem:


c11

c12

c13

c21

c22

c23

c31

c32

c33


Sa observam ca daca alcatuim perechi selectand un caz dintr-o celula cij si un caz dintr-o celula situata pe acelasi rand cu cij, obtinem perechi de cazuri legate ale variabilei Y, iar daca alcatuim perechi selectand un caz dintr-o celula cij si un caz dintr-o celula situata pe aceeasi coloana cu cij, obtinem perechi de cazuri legate ale variabilei X. Evident, daca alcatuim perechi din aceeasi celula, obtinem perechi de cazuri legate in privinta ambelor variabile. Daca, insa, alcatuim perechi selectand un caz dintr-o celula cij si un caz dintr-o celula situata deasupra si la dreapta celulei cij, cazurile din perechile astfel obtinute sunt nelegate si dispuse in aceeasi ordine in privinta ambelor variabile. De pilda, daca alcatuim o pereche selectand un caz din celula c31 si un caz din celula c12, cazul din celula c31 are o vechime mai mica decat cazul din celula c12 si la fel, cazul din celula c31 are un nivel de descurajare profesionala mai mic decat cazul din celula c12. Numarul total de perechi de cazuri alcatuite selectand un caz din celula c31 si un caz din celula c12 se afla inmultind frecventele din cele doua celule: 20 11 = 220. Cu alte cuvinte, contributia acestor doua celule la cantitatea Na este de 220 de perechi. Procedand la fel pentru fiecare dintre celelalte trei celule situate deasupra si la dreapta celulei c31 (c13, c22 si c23) si adunand produsele astfel obtinute aflam numarul total de perechi de cazuri alcatuite selectand un caz din celula c31 si un caz din fiecare celula situata deasupra si la dreapta celulei c31:

(20 11) + (20 21) +(20 15) + (20 5) = 1040

Acelasi calcul il putem efectua dupa cum urmeaza:

20(11 + 21 + 15 + 5) = 1040


Prin urmare, pentru a afla cantitatea Na, se inmulteste frecventa din fiecare celula cu suma frecventelor din toate celulele situate deasupra si la dreapta celulei respective, dupa care se aduna produsele astfel obtinute. De notat ca nici una dintre celulele situate pe primul rand sau pe ultima coloana nu poate contribui la Na, deoarece nu exista celule situate deasupra si la dreapta acestora. Calcularea Na pentru tabelul 7 decurge dupa cum urmeaza:


Pentru c31: 20(11 + 21 + 15 +5) = 1040

Pentru c32: 6(21 + 5) = 156

Pentru c21: 10(11 + 21) = 320

Pentru c22: 15 21 = 315

Na = 1831




Procedeul de calculare a Nd urmeaza o schema simetrica fata de cel pentru Na, caci daca alcatuim perechi selectand un caz dintr-o celula cij si un caz dintr-o celula situata deasupra si la stanga celulei cij, cazurile din perechile astfel obtinute sunt nelegate si ordonate diferit in privinta ambelor variabile. De pilda, daca alcatuim o pereche selectand un caz din celula c33 si un caz din celula c11, cazul din celula c33 are o vechime mai mare decat cazul din celula c11 si un nivel de descurajare profesionala mai mic decat cazul din celula c Prin urmare, pentru a afla cantitatea Nd, se inmulteste frecventa din fiecare celula cu suma frecventelor din toate celulele situate deasupra si la stanga celulei respective, dupa care se aduna produsele astfel obtinute. Ca mai sus, sa observam ca nici una dintre celulele situate pe primul rand sau pe prima coloana nu poate contribui la Nd, deoarece nu exista celule situate deasupra si la stanga acestora. Calcularea Nd pentru tabelul 7 decurge dupa cum urmeaza:


Pentru c33: 4(8 + 11 + 10 +15) = 176

Pentru c32: 6(8 + 10) = 108

Pentru c23: 5(8 + 11) = 95

Pentru c22: 15 8 = 120

Nd = 499


In tabelul 7, un numar total de 1831 de perechi de cazuri sunt nelegate si dispuse in aceeasi ordine in privinta ambelor variabile si un numar total de 499 de perechi de cazuri sunt nelegate ordonate diferit in privinta celor doua variabile.

Coeficientul γ se calculeaza cu ajutorul urmatoarei formule:


Formula 6


Valoarea coeficientului γ pentru datele din tabelul 7 este:



Vom conchide ca vechimea in munca este corelata moderat cu nivelul de descurajare profesionala, aceasta corelatie fiind pozitiva: daca, de pilda, stim ca A are o vechime mai mare in munca decat B, suntem indreptatiti sa spunem ca este probabil ca A sa aiba un nivel de descurajare profesionala mai inalt decat B.

Este important de observat ca aplicarea coeficientului γ presupune (pentru a obtine cantitatile Na si Nd) ca tabelul pe care se lucreaza sa fie construit in maniera tabelului 7, cu categoriile de pe coloane dispuse in ordine crescatoare de la stanga la dreapta si categoriile de pe linii dispuse in ordine crescatoare de jos in sus. γ este o marime simetrica a corelatiei: valoarea acestui coeficient va fi aceeasi indiferent de variabila care este luata ca independenta.

Ca si γ, coeficientii d al lui Somer si τb al lui Kendall se utilizeaza in situatii de cercetare in care avem doua variabile masurate la nivel ordinal cu un numar mic de valori si necesita calcularea cantitatilor Na si Nd. In plus, acesti coeficienti necesita calcularea a doua cantitati, notate Ly si respectiv Lx. Cantitatea Ly reprezinta numarul total de perechi de cazuri legate ale variabilei dependente. Cantitatea Lx reprezinta numarul total de perechi de cazuri legate ale variabilei independente.

Numarul total de perechi de cazuri legate ale variabilei dependente, Ly, se determina afland numarul de perechi de cazuri de pe fiecare rand (prin definitie, toate cazurile aflate pe acelasi rand sunt legate in privinta variabilei dependente) si adunand cantitatile astfel obtinute. Pentru a afla contributia fiecarui rand la Ly, se inmulteste frecventa din fiecare celula cu suma frecventelor din toate celulele situate la dreapta (pe randul respectiv), dupa care e aduna produsele astfel obtinute. Evident, celulele situate pe ultima coloana nu pot contribui la Ly, deoarece nu exista celule situate la dreapta acestora. Calcularea Ly pentru tabelul 7 decurge dupa cum urmeaza:


Pentru randul 1: 8(11 + 21) + (11 21) = 487

Pentru randul 2:10(15 + 5) + (15 5) = 275

Pentru randul 3: 20(6 + 4) + (6 4) = 224

Ly = 986


Numarul total de perechi de cazuri legate ale variabilei independente, Lx, se determina analog, lucrand insa pe coloane. Pentru a afla contributia fiecarei coloane la Lx, se inmulteste frecventa din fiecare celula cu suma frecventelor din toate celulele situate dedesubt (pe coloana respectiva), dupa care e aduna produsele astfel obtinute. Evident celulele situate pe ultimul rand nu pot contribui la Lx, deoarece nu exista celule situate dedesubtul acestora. Calcularea Lx pentru tabelul 7 decurge dupa cum urmeaza:


Pentru coloana 1: 8(10 + 20) + (10 20) = 440

Pentru coloana 2:11(15 + 6) + (15 6) = 321

Pentru coloana 3: 21(5 + 4) + (5 4) = 209

Lx = 970


In tabelul 7 avem un numar total de 986 de perechi de cazuri legate ale variabilei dependente si un numar total de 970 de perechi de cazuri legate ale variabilei independente.

Coeficientul d al lui Somer se calculeaza cu ajutorul urmatoarei formule:


Formula 7


Sa observam ca aceasta formula difera de formula pentru γ numai prin adunarea cantitatii Ly la numitor, ceea ce face ca d sa fie o marime a corelatiei mai conservatoare decat γ, deoarece valoarea lui d va fi intotdeauna mai mica decat valoarea lui γ pentru acelasi tabel. Pentru tabelul 7, avem:



Aceasta valoare a coeficientului d indica o corelatie pozitiva cel mult moderata intre cele doua variabile.

Dupa cum se poate constata, coeficientul d este o marime asimetrica a corelatiei. Daca variabila ale carei categorii sunt capete de randuri este luata drept variabila independenta, atunci se calculeaza numarul de perechi de cazuri pe coloane si nu pe randuri (in notatia noastra, in formula 7 se ia Lx in loc de Ly ). In cazul datelor din tabelului 7, valorile cantitatilor Lx si Ly sunt apropiate, ceea ce inseamna ca o astfel de schimbare nu ar afecta mult valoarea coeficientului d. In cazul in care cele doua cantitati sunt sensibil diferite, trebuie sa fim precauti in privinta alegerii variabilei dependente, deoarece valoarea lui d poate fi considerabil afectata de aceasta decizie.

Coeficientul τb al lui Kendall este o marime simetrica a corelatiei, intrucat tine cont atat de Ly, cat si de Lx. Formula sa de calcul este urmatoarea:




Formula 8


Pentru tabelul 7 avem:


Particularitatea coeficientului τb consta din aceea ca poate lua valori cuprinse intre 0 si 1 doar pentru tabele patratice (r = c), deci nu se recomanda calcularea sa pentru orice tabel rectangular.

Coeficientul ρs al lui Spearman se utilizeaza, de regula, in situatii de cercetare in care avem doua variabile masurate la nivel ordinal, care au o amplitudine relativ larga de scoruri diferite si putine cazuri legate in privinta fiecarei variabile. Sa presupunem ca dorim sa verificam ipoteza conform careia persoanele care practica jogging au un sentiment mai puternic de respect fata de sine. Pentru aceasta, 10 persoane care practica jogging au fost chestionate cu ajutorul a doua scale, prima masurand gradul de implicare in practicarea jogging-ului, cealalta masurand nivelul respectului fata de sine. Datele obtinute, impreuna cu o serie de calcule cerute de determinarea coeficientului ρs, sun prezentate in tabelul 8.


Tabelul 8 Practicarea jogging-ului si respectul fata de sine


Cazul

Nivel de implicare

Rangul

Respect fata

de sine

Rangul

d

d2

1

18

1

15

3

2

4

2

17

2

18

1

1

1

3

15

3

12

4

1

1

4

12

4

16

2

2

4

5

10

5

6

8

3

9

6

9

6

10

5

1

1

7

8

7,5

8

6

1,5

2,25

8

8

7,5

7

7

0,5

0,25

9

5

9



5

9

0

0

10

1

10

2

10

0

0






∑d = 0

∑d2 = 22,5


Mai intai, atribuim ranguri scorurilor fiecarei valori, incepand cu cel mai mare scor. Apoi, pentru fiecare caz, calculam diferenta dintre rangul scorului in privinta primei variabile (X) si rangul scorurilor in privinta celeilalte variabile (Y) (in tabel, coloana etichetata d). Sa observam ca suma acestor diferente este 0, ceea ce inseamna ca diferentele negative sunt egale cu cele pozitive, acesta fiind intotdeauna cazul. Daca obtinem ∑d 0, atunci am gresit in atribuirea rangurilor sau/si in calcularea diferentelor. Fiecare diferenta astfel obtinuta este apoi ridicata la patrat pentru a elimina semnele minus (in tabel, coloana d2), dupa care se calculeaza suma acestor diferente ridicate la patrat, ∑d2.

Formula de calcul a coeficientului ρs al lui Spearman este urmatoarea:


Formula 9

in care n este numarul de perechi de ranguri. Aplicand aceasta formula la datele din tabelul 8, obtinem:



Acest rezultat indica o corelatie pozitiva puternica intre cele doua variabile, ceea ce sprijina ipoteza cercetarii.

In anumite situatii de cercetare ne intereseaza sa aflam daca doua variabile sunt corelate la nivelul populatiei de referinta. In cazul variabilelor masurate la nivel nominal, semnificatia statistica a unei corelatii este judecata, de obicei, prin intermediul testului χ2. De asemenea, testul χ2 poate fi aplicat si in cazul corelatiilor dintre variabile masurate la nivel ordinal. Totusi, acest test evidentiaza doar probabilitatea ca frecventele observate sa se datoreze doar intamplarii si, ca atare, nu reprezinta un test direct al corelatiei[2]. Pentru coeficientii γ si ρs au fost elaborate teste de semnificatie specifice, in care ipoteza de nul enunta ca nu exista nici o corelatie la nivelul populatiei, deci ca valorile marimilor respective sunt egale cu 0: γ = 0, respectiv ρs = 0. Corespunzator, ipoteza alternativa enunta ca γ 0 sau, respectiv, ca ρs 0[3]. Astfel, pentru esantioane cu n > 30, distributia de esantionare pentru γ aproximeaza distributia Z si se foloseste urmatoarea formula pentru calcularea statisticii testului:


Formula 10


Regulile de decizie sunt cele cunoscute pentru testul Z.

In cazul coeficientului ρs, daca 5 n 30, atunci se foloseste tabelul valorilor critice pentru ρs (anexa H). Pentru a folosi acest tabel, se identifica valoarea critica a lui ρs corespunzatoare numarului de perechi de ranguri, n, si nivelului α ales. Pentru a putea respinge ipoteza de nul si a conchide ca variabilele respective sunt corelate la nivelul populatiei, valoarea obtinuta pentru ρs trebuie sa fie mai mare decat valoarea critica. Daca n > 30, atunci distributia de esantionare pentru ρs aproximeaza distributia t cu gl = n 2 si se foloseste urmatoarea formula pentru calcularea statisticii testului:


Formula 11


Regulile de decizie sunt cele cunoscute pentru testul t - Student.



[1] γ, d si τb pot fi interpretati ca marimi ale RPE (vezi ibidem, cap. 14).

[2] Luat in sine, χ2 nu este o marime a corelatiei. Desi valorile diferite de 0 ale lui χ2 indica existenta unei corelatii, valoarea numerica efectiva pentru χ2 (obtinut) nu sta in nici o legatura necesara cu taria corelatiei: χ2 (obtinut) poate avea o valoare mare, in timp ce corelatia efectiva poate fi slaba. Cu alte cuvinte, independenta (χ2) si corelatia sunt doua aspecte diferite. Este perfect posibil ca doua variabile sa fie corelate (χ2 (obtinut) 0) si totusi sa fie independente, in cazul in care nu putem respinge ipoteza de nul.

[3] Unii autori folosesc simbolurile g si rs, respectiv, pentru γ si ρ, atunci cand este vorba despre esantioane, rezervand literele grecesti pentru cazul populatiilor.