Documente noi - cercetari, esee, comentariu, compunere, document
Documente categorii

Testul chi-patrat (χ2)

TESTUL CHI PATRAT (χ2)

Testul chi patrat (χ2) este aplicabil atunci cand nivelul de masura este nominal, datele fiind frecvente - numarul de cazuri care fac parte din categoriile variabilelor (variabilei) considerate. Esenta acestui test consta din compararea frecventelor observate - frecventele efective obtinute empiric de catre cercetator - cu frecventele teoretice sau asteptate - frecventele calculate sub presupunerea ca ipoteza de nul este adevarata. Testul examineaza masura in care frecventele observate sunt sau nu semnificativ diferite de frecventele care sunt asteptate daca ipoteza de nul este adevarata.



Distinctia dintre frecventele observate si cele asteptate poate fi inteleasa cu ajutorul urmatorului exemplu intuitiv. Sa presupunem ca avem un zar si dorim sa verificam ipoteza ca zarul este nemasluit. Pentru aceasta, aruncam zarul de 300 de ori si observam frecventa de aparitie a fiecarei fete. Daca ipoteza mentionata este adevarata, ne-am astepta ca fiecare fata sa apara de aproximativ 50 de ori. Acum, sa presupunem ca observam urmatoarele frecvente de aparitie:

Fata

Numar de aparitii

1

42

2

55

3

38

4

57

5

64

6

44

Comparand frecventele observate cu cele teoretice, suntem indreptatiti sa spunem ca zarul respectiv este masluit sau diferentele pot fi puse pe seama fluctuatiilor intamplatoare?

Testul chi patrat poate fi folosit pentru verificarea independentei a doua variabile sau pentru verificarea concordantei dintre frecventele observate si frecventele asteptate ale unei singure variabile. Corespunzator, se vorbeste despre testul chi patrat pentru independenta si despre testul chi patrat pentru concordanta

1.1 TESTUL CHI PATRAT PENTRU INDEPENDENTA

Doua variabile sunt independente reciproc daca, pentru toate cazurile din esantionul considerat, clasificarea unui caz intr-o categorie a unei variabile nu are nici un efect asupra probabilitatii ca acel caz sa fie clasificat in oricare dintre categoriile celeilalte variabile[1]. De pilda, sa presupunem ca variabilele de interes sunt sexul si dominanta functional operativa a mainilor pentru un esantion de 50 de barbati si 50 de femei. Aceste doua variabile sunt independente reciproc in conditiile in care clasificarea subiectilor in categoriile unei variabile (masculin feminin) nu are nici un efect asupra clasificarii cazurilor in categoriile celeilalte variabile (dreapta, stanga, ambidextru). Acum, sa presupunem ca am efectuat un astfel de studiu si am obtinut urmatoarele date:

Tabelul 1 Sexul si dominanta functional operativa a mainilor

Dominanta

Sexul

TOTAL

Masculin

Feminin

Dreapta

15

35

50

Stanga

30

10

40

Ambidextru

5

5

10

TOTAL

50

50

100

Un astfel de tabel rectangular, in care cazurile dintr-un esantion sunt clasificate concomitent dupa categoriile a doua variabile, se numeste tabel al contingentelor. Denumirile categoriilor unei variabile sunt folosite drept titluri de coloane, iar denumirile categoriilor celeilalte variabile sunt folosite drept titluri de randuri. In corpul tabelului, intersectia unui rand cu o coloana se numeste celula. Celulele indica numarul de cazuri clasificate concomitent in cate doua categorii ale celor doua variabile. Subtotalurile pentru fiecare coloana si rand se numesc marginale. Marginalele indica distributiile de frecvente pentru fiecare categorie a variabilei respective sau, altfel spus, distributiile univariate de frecvente ale fiecarei variabile. La intersectia marginalelor de pe linii si coloane se prezinta numarul total de cazuri din esantion (n).

In cazul testului chi patrat pentru independenta, ipoteza de nul enunta ca variabilele sunt reciproc independente. In exemplul nostru, ipoteza de nul este ca sexul nu are nici o influenta asupra dominantei functional operative a mainilor. Sub supozitia ca ipoteza de nul este adevarata, se calculeaza frecventele din celule la care ne-am astepta, daca ar interveni doar intamplarea. Aceste frecvente asteptate sunt apoi comparate, celula cu celula, cu frecventele observate in tabel. Daca ipoteza de nul este adevarata, atunci diferentele dintre frecventele asteptate si cele observate vor fi mici. Daca, insa, ipoteza de nul este falsa, atunci aceste frecvente vor fi relativ mari. Cu cat sunt mai mari diferentele dintre frecventele asteptate si cele observate, cu atat este mai putin probabil ca variabilele sa fie in fapt reciproc independente si deci este cu atat mai probabil ca vom putea respinge ipoteza de nul.

Pentru a afla frecventa asteptata pentru fiecare celula a tabelului, folosim urmatoarea formula:

Formula 1

in care marginalul randului pe care este situata celula respectiva

marginalul coloanei pe care este situata celula respectiva

n = numarul total de cazuri din esantion

In cazul tabelului 1, frecventele asteptate sunt urmatoarele:



Masculin

Feminin

Dreapta

Stanga

Ambidextru

Calcularea statisticii testului chi patrat pentru independenta se face cu ajutorul urmatoarei formule, care da valoarea pentru χ2 (obtinut):

Formula 2

in care frecventele observate in celulele tabelului

frecventele asteptate

Astfel, odata calculate frecventele asteptate, formula 2 ne conduce la scaderea frecventei asteptate din frecventa observata pentru fiecare celula, ridicarea la patrat a acestei diferente, impartirea rezultatului la frecventa asteptata pentru acea celula si apoi la insumarea valorilor rezultate ale tuturor celulelor. Calculele pentru exemplul nostru sunt ilustrate in tabelul 2.

Tabelul 2 Calculul χ2 pentru datele din tabelul 1

15

25

10

100

4

30

20

10

100

5

5

5

0

0

0

35

25

10

100

4

10

20

10

100

5

5

5

0

0

0

100

100

0

18 = χ2

De notat ca suma frecventelor observate este egala cu suma frecventelor asteptate si ca suma diferentelor este egala cu 0. Aceste relatii pot fi folosite la verificarea calculelor pentru χ2 (obtinut).

Distributia de esantionare folosita in acest test este distributia χ2. Ca si in cazul distributiei t Student, este vorba despre o familie de distributii χ2, fiecare fiind o functie de un anumit numar de grade de libertate. In cazul testului chi patrat pentru independenta, numarul de grade de libertate se calculeaza cu ajutorul urmatoarei formule:

Formula 3 gl = (r 1)(c 1)

in care r = numarul de randuri din tabelul contingentelor

c = numarul de coloane din tabelul contingentelor

Un tabel cu trei randuri si doua coloane (un tabel 3 2) are (3 1)(2 1) = 2 grade de libertate[2]. Spre deosebire de distributia t Student, care este simetrica, distributia χ2 prezinta, ca si distributia F, o asimetrie pozitiva, dupa cum se ilustreaza in figura 1.



Figura 1 Un exemplu de curba χ2

Valorile pentru χ2 (critic) marcheaza inceputurile zonelor critice si sunt date in tabelul valorilor critice ale distributiei χ2 (Anexa E). Acest tabel este similar cu tabelul distributiei t Student, avand nivelele α dispuse pe primul rand si gradele de libertate pe prima coloana din stanga. Regula de decizie este

Se respinge H0, daca χ2 (obtinut) > χ2 (critic)

Intrucat in exemplu nostru gl = 2, daca stabilim α = 0,05, scorul χ2 (critic) este 5,991. Deoarece χ2 (obtinut) cade in zona critica (18,00 > 5,991), se poate respinge ipoteza de nul si se poate conchide ca variabilele respective nu sunt reciproc independente: sexul influenteaza dominanta functional operative a mainilor.

In termenii modelului in patru pasi, testul decurge dupa cum urmeaza:

Pasul 1. Enuntarea ipotezelor

H0: Variabilele sex si dominanta functional-operativa a mainilor sunt reciproc

independente.

Ha: Variabilele sex si dominanta functional-operativa a mainilor sunt reciproc

dependente.

Pasul 2. Selectarea distributiei de esantionare si stabilirea zonei critice

Distributia de esantionare = Distributia χ2

α = 0,05

gl = 2

χ2 (critic) = 5,991

Pasul 3. Calcularea statisticii testului. Dupa cum am vazut,

Pasul 4. Luarea deciziei

Intrucat χ2 (obtinut) cade in zona critica (18,00 > 5,991), se poate respinge ipoteza de nul si se poate conchide ca variabilele respective nu sunt independente: sexul influenteaza dominanta functional operative a mainilor (la un nivel de incredere de 95%).

1.1 TESTUL CHI PATRAT PENTRU CONCORDANTA

Testul chi patrat poate fi folosit si pentru verificarea concordantei dintre frecventele observate si frecventele asteptate (teoretice) ale unei singure variabile. Astfel, daca χ2 (obtinut) > χ2 (critic) pentru numarul corespunzator de grade de libertate si un nivel α dat, atunci diferentele dintre frecventele observate si cele asteptate pot fi atribuite intamplarii, concordanta dintre cele doua tipuri de frecvente fiind apreciata drept buna. In caz contrar, diferentele dintre frecventele observate si cele asteptate pot fi considerate prea mari pentru a putea fi atribuite intamplarii sau, altfel spus, aceste diferente sunt statistic semnificative.

Pentru ilustrare, sa presupunem ca un cercetator opineaza ca distributia populatiei dupa ocupatie intr-o anumita zona geografica este aproximativ urmatoarea:

20% tarani

30% muncitori industriali

30% functionari

15% mici intreprinzatori

5% manageri industriali

Cercetatorul alcatuieste un esantion aleatoriu de 864 de persoane ocupate din zona respectiva si le clasifica in categoriile mentionate. Frecventele observate pentru aceste categorii sunt urmatoarele:

145 tarani

310 muncitori industriali

305 functionari

78 mici intreprinzatori

26 manageri industriali

Cercetatorul doreste sa stie daca rezultatele obtinute pe acest esantion confirma distributia presupusa a populatiei sau, altfel spus, daca diferentele dintre frecventele observate si cele presupuse sunt sau nu statistic semnificative. Calcularea statisticii testului se face cu ajutorul formulei 2:

Pentru a afla frecventa asteptata pentru fiecare categorie a variabilei considerate, folosim urmatoarea formula:

Formula 4

in care n = numarul total de cazuri din esantion

p = proportia presupusa de cazuri din categoria respectiva

De pilda, pentru tarani, .

Calculele pentru exemplul nostru sunt ilustrate in tabelul 3.

Tabelul 3 Calculul χ2 pentru datele privind ocupatia

Ocupatia

Taran

145

172,80

27,80

772,84

4,47



2,12

Muncitor industrial

310

259,20

50,80

2580,64

9,96

3,16

Functionar

305

259,20

45,80

2097,64

8,09

2,84

Mic intreprinzator

78

129,60

51,60

2662,56

20,54

4,53

Manager industrial

26

43,20

17,20

295,84

6,85

2,63

TOTAL

864,00

864,00

0

49,91 = χ2

De notat ca frecventele asteptate sunt exact acele frecvente pe care le-am intalni daca proportiile cazurilor din esantion ar fi acelasi cu proportiile cazurilor pentru populatie.

In cazul testului chi patrat pentru concordanta, numarul de grade de libertate se calculeaza cu ajutorul urmatoarei formule:

Formula 5 gl = k 1

in care k = numarul de categorii ale variabilei de interes.

Intrucat in exemplul nostru sunt considerate cinci categorii ale variabilei ocupatie, avem patru grade de libertate[3]. Pentru α = 0,05 si gl = 4, χ2 (critic) = 9,488.

Testul formal este urmatorul:

Pasul 1. Enuntarea ipotezelor

H0: Nu exista nici o diferenta intre proportiile din esantion si cele pentru populatie

Ha: Proportiile din esantion difera de cele pentru populatie

Pasul 2. Selectarea distributiei de esantionare si stabilirea zonei critice

Distributia de esantionare = Distributia χ2

α = 0,05

gl = 4

χ2 (critic) = 9,488

Pasul 3. Calcularea statisticii testului. Dupa cum am vazut,

Pasul 4. Luarea deciziei

Intrucat χ2 (obtinut) cade in zona critica (49,91 > 9,448), se poate respinge ipoteza de nul. Diferentele dintre esantion si populatie sunt prea mari pentru a putea fi atribuite intamplarii (la un nivel de incredere de 95%).

De notat ca, desi aici valoarea pentru χ2 (obtinut) este statistic semnificativa, aceasta valoare este calculata tinand cont de toate categoriile, astfel ca nu putem spune care categorie are cea mai mare contributie la semnificatia statistica. Atunci cand avem χ2 (obtinut) > χ2 (critic), pentru a afla care categorie are cea mai mare contributie la semnificatia statistica, se calculeaza reziduul standard pentru fiecare categorie cu ajutorul urmatoarei formule:

Formula 6

Valorile reziduurilor standard pentru fiecare categorie din exemplul de mai sus se gasesc in tabelul 3. Atunci cand valoarea absoluta (modulul) reziduului standard pentru o categorie este mai mare decat 2,00, se poate conchide ca acea categorie are o contributie majora la valoarea semnificativa a lui χ2 (obtinut). In exemplul de mai sus, toate reziduurile standard in valoare absoluta sunt mai mari decat 2,00. Prin urmare, toate categoriile contribuie major la valoarea semnificativa a lui χ2 (obtinut), ceea ce inseamna ca intreaga distributie din esantion nu concorda cu distributia presupusa de cercetator.



[1] A nu se confunda cazul independentei reciproce a doua variabile cu situatiile experimentale in care apar doua variabile independente, i.e. manipulate de experimentator.

[2] Un tabel 3 2 are doua grade de libertate deoarece, odata ce frecventele din doua celule au fost determinate, frecventele din celelalte celule sunt fixate, i.e. nu mai sunt libere sa varieze.

[3] Aceasta inseamna ca, odata ce frecventele a oricare patru categorii sunt determinate, frecventa categoriei ramase este fixata.