Documente noi - cercetari, esee, comentariu, compunere, document
Documente categorii

Testarea diferentei dintre mai mult de doua medii-analiza de varinta (anova)

TESTAREA DIFERENTEI DINTRE MAI MULT DE DOUA MEDII-ANALIZA DE VARINTA (ANOVA)

Exista situatii de cercetare in care avem de comparat trei sau mai multe medii. La prima vedere, am putea fi tentati sa rezolvam problema prin compararea repetata a mediei grupelor, doua cate doua. Din pacate, exista cel putin trei argumente pentru care aceasta optiune nu este de dorit a fi urmata:

Trebuie sa stim ca prin efectuarea repetata a testului t se acumuleaza o cantitate de eroare mai mare decat este permis pentru o decizie statistica (0.05). De exemplu, pentru efectuarea repetata a testului t pentru trei esantioane independente, s-ar cumula o cantitate totala de eroare 0.15 adica 0.05+0.05+0.05.



 Pentru a elimina aceste neajunsuri, se utilizeaza o procedura statistica numita analiza de varianta (denumita pe scurt  ANOVA). In esenta, ANOVA nu este altceva decat o extensie testului t pentru situatiile in care se doreste compararea a mai mult de doua medii independente.


Exista mai multe tipuri de ANOVA, doua fiind mai frecvent folosite:

ANOVA unifactoriala presupune: 

variabila dependenta masurata pe o scala de interval/raport.

variabila independenta (nominala sau ordinala) care ia trei sau mai multe valori. Modelul de analiza de varianta cu o singura variabila independenta se numeste "ANOVA unifactoriala", "ANOVA simpla" sau, cel mai frecvent,  "ANOVA cu o singura cale" (One-way ANOVA).

ANOVA multifactoriala presupune

variabila dependenta (similara cazului ANOVA unifactoriala)

doua sau mai multe variabile independente, fiecare cu doua sau mai multe valori masurate pe o scala nominala sau ordinala.



Ce inseamna ANOVA unifactoriala

 Specificul consta in faptul ca in locul diferentei directe dintre medii se utilizeaza dispersia lor, gradul de imprastiere. Procedura se bazeaza pe urmatorul demers logic: Ipoteza cercetarii sugereaza ca fiecare grup are o medie caracteristica, diferita de a celorlalte. Prin opozitie, ipoteza de nul, ne obliga sa presupunem ca cele trei loturi pe care vrem sa le comparam, provin dintr-o populatie unica de valori iar diferentele dintre mediile lor nu reprezinta decat expresia variatiei firesti a distributiei de esantionare.

 Loturile pot avea medii diferite care sa rezulte ca expresie a variatiei aleatoare de esantionare (m1 m2 m3) si, de asemenea, imprastieri (dispersii) diferite (s1 s2 s3).

Sa ne gandim la cele trei medii pe care vrem sa le comparam ca la o distributie de sine statatoare, de trei valori (sau mai multe). Cu cat ele sunt fi mai diferite una de alta, cu atat distributia lor are o imprastiere (varianta) mai mare. Daca esantioanele ar apartine populatiei de nul, diferenta mediilor (exprimata prin dispersia lor) ar fi mai mica decat in cazul in care acestea ar proveni din populatii distincte (corespunzator ipotezei cercetarii).



Se pune astfel urmatoarea problema: cat de diferite (imprastiate) trebuie sa fie mediile celor trei esantioane, luate ca distributie de sine statatoare de trei valori, pentru ca sa putem concluziona ca ele nu provin din aceeasi populatie ci din trei populatii diferite, corespunzatoare esantioanelor de cercetare (1, 2, 3)?

Pentru aceasta trebuie sa aflam:

a)     dispersia valorilor individuale la nivelul populatiei care se bazeaza pe toate valorile masurate, indiferent grup;

b)     dispersia mediilor fiecarui grup (considrat ca lot separat);

c)     raportul dintre aceste doua valori. Obtinerea unei valori mai ridicate a acestui raport ar exprima apartenenta fiecareia din cele trei medii la o populatie distincta in timp ce obtinerea unei valori mai scazute ar sugera provenienta mediilor dintr-o populatie unica.


Care este modul de calcul pentru cei doi termeni ai raportului?

Calcularea exacta a dispersiei populatiei este imposibila (deoarece nu avem acces la toate valorile acesteia), dar ea poate fi estimata prin calcularea mediei dispersiei grupurilor de cercetare. Valoarea astfel obtinuta se numeste "dispersia intragrup" si reprezinta estimarea imprastierii valorilor masurate la nivelul populatiei de nul.

La randul ei, dispersia mediilor grupurilor de cercetare, calculata dupa metoda cunoscuta de calcul a dispersiei, formeaza ceea ce se numeste "dispersia intergrup". Valoarea astfel obtinuta evidentiaza cat de diferite sunt mediile esantioanelor care fac obiectul comparatiei.

Raportul dintre "dispersia intergrup" si "dispersia intragrup" se numeste raport Fisher si ne da valoarea testului ANOVA unifactorial. Cu cat acesta este mai mare, cu atat imprastierea mediilor este mai mare si, implicit, diferenta lor poate fi una semnificativa, indepartata ce o variatie pur intamplatoare.

Daca distanta (imprastierea) dintre mediile esantioanelor  care provin din cele trei populatii depaseste un anumit nivel, atunci putem concluziona ca nu avem o singura populatie (ipoteza de nul) ci mai multe, mediile grupurilor prezentand o diferenta semnificativa.



ASADAR.

Esenta procedurii de calcul pentru ANOVA se bazeaza pe o dubla estimare a dispersiei populatiei cercetarii.


  • Estimarea dispersiei populatiei pe baza mediei dispersiei grupurilor (varianta intragrup)

Pentru ca nu cunoastem dispersia populatiei din care ar putea proveni grupurile, o estimam prin dispersiile celor trei grupuri (s12, s22, s32).

Calculand media celor trei dispersii vom obtine o valoare care estimeaza dispersia pentru cele trei  grupuri luate impreuna. Aceasta valoare se considera ca estimeaza dispersia populatiei totale. Deoarece ea se calculeaza pe baza dispersiilor in interiorul grupurilor, este desemnata in mod uzual prin termenul de intragrup. Se noteaza cu s2intragrup iar formula de calcul va depinde de egalitatea sau inegalitatea volumelor grupurilor supuse cercatarii.

  • Estimarea dispersiei populatiei de nul pe baza dispersiei mediilor grupurilor( varianta intergrup)

Mediile celor trei grupuri (loturi) sunt numere care pot fi analizate ca distributie in sine, a caror dispersie (varianta) poate fi calculata, fiind o estimare a imprastierii valorilor la nivelul populatiei. Din cauza ca se bazeaza pe mediile grupurilor, aceasta se mai numeste si varianta intergrupuri.

Deci analiza de varianta are la baza raportul dintre cele doua estimari s2intergrup/s2intragrup. Acesta va tinde de sa devina cu atat mai mare cu cat diferenta dintre mediile grupurilor (tradusa prin dispersia mediilor) devine mai mare decat dispersia din interiorul grupurilor (tradusa prin media dispersiilor). Acest raport se numeste "raport Fisher", dupa numele celui care a fundamentat acest tip de analiza si se scrie astfel:

  



Distributia F

 Valorile raportului F (sau testul F) se distribuie intr-un mod particular, numit distributia F sau distributia Fisher, avand urmatoarele caracteristici:

  1. asimetrie pozitiva (tendinta valorilor de grupare spre partea stanga, cu valori mici);
  2. poate lua o valori oricat de mari;
  3. forma distributiei variaza in functie de cele doua tipuri de grade de libertate: numarul grupelor (categoriile variabilei independente) si numarul subiectilor.

Prezentarea rezultatului testului F (ANOVA)

Pentru prezentarea ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor, valoarea testului F cu numarul gradelor de libertate si pragul de semnificatie al testului. Narativ un rezultat poate sa apara in urmatoarea forma:

Mediile pentru cele . grupuri au fost: gr.1 - ?, gr.2 - ?, gr.3 - ?. Analiza de varianta unifactoriala a relevat o diferenta semnificativa intre aceste medii, F (df numarator, df numitor)=?; p 0.05".

Analiza "post-hoc"

Testul ANOVA ne ofera o imagine "globala" a relatiei dintre categoriile variabilei independente si valorile variabilei dependente. Cercetatorul poate fi, insa, interesat care dintre grupuri difera intre ele si in ce sens.

Pentru a rezolva aceasta problema, au fost dezvoltate diverse teste, denumite "post-hoc", calculate dupa aplicarea procedurii ANOVA. Testele post-hoc (ex.Bonferoni) se interpreteaza in mod similar testului t. Analiza post-hoc este permisa numai daca a fost obtinut un rezultat semnificativ pentru testul F. Asadar in practica, analiza de varianta va cuprinde doua faze: prima, in care se decide asupra semnificatiei testului F, si a doua, in cazul ca acest raport este semnificativ, in care se analizeaza comparativ diferentele dintre categoriile analizate, pe baza unui test post-hoc.