|
Probleme de corespondenta
1. Tabelul de corespondenta
Intr-un tabel de corespondenta se trec datele obtinute intr-o cercetare, indeobste impartite in doua categorii; pe ultima coloana se trec datele conform variabilei criteriu (exemplu: reusita profesionala, etc.). pe prima coloana se trec subiectii; pe coloanele intermediare se trec variabilele explicative (exemplu; rezultatele la un test de inteligenta), care se presupune ca reprezinta insusirile ce duc la respectivele rezultate.
Exista o serie de probleme in osihologie care cer sa grupam persoanele in grupe avand o anumita omogenitate, sa stabilim anumite tipologii.
Exista doua tipuri de tipologii:
a) stabilirea unor analogii (analiza de clusteri);
b) prin probleme de segmentare.
Analiza de clusteri
Pleaca de la premisa ca exista persoane asemanatoare din punct de vedere al unor caracteristici.
"Cluster" = categorie, a strange in grupe, a clasifica.
Analiza de clusteri reprezinta atat o metoda de investigare, cat si de confirmare a unei ipoteze.
Intram in calcul cu valori ale unor relatii dintre variabile (coeficienti de corelatie, diferente intre medii, s.a.m.d).
Exista mai multe metode de calcul in analiza de clusteri:
metoda prin legatura simpla
metoda prin legatura completa
metoda prin media clusterilor.
Intre aceste metode nu se obtin diferente semnificative, dar intotdeauna se alege metoda care ne va da un coeficient de corelatie cat mai ridicat.
Proceduri (indicatii) pentru analiza de clusteri
1. Analiza se desfasoara secvential, de la stadiul in care fiecare variabila este un cluster, pana la stadiul in care un singur cluster cuprinde toate cele n variabile.
2. Deoarece clusterii fiecarui stadiu se obtin prin fuziunea a 2 clusteri anteriori, care sunt cei mai asemanatori, aceste tehnici duc la o structurare ierarhica a datelor, respectiv a variabilelor.
Chiar daca sunt variabile diferite, exista o anumita apropiere intre o serie de variabile.
3. Rezultatele se vizualizeaza intr-o dendograma.
Metodica de calcul (exemplu)
. metoda legaturii simple se intra in calcul cu o matrice ce contine diferente minime intre medii.
1 2 3 4 5
1 0.0
2 2.0 0.0
3 5.0 7.0 0.0
4 8.0 6.0 4.0 0.0
5 10.0 9.0 6.0 3.0 0.0
Stadiul I:
Se formeaza clusterul d(12), pentru ca distributia d1-d2 este cea mai mica inregistrata in tabelul respectiv.
Distanta dintre d(12) si celelalte este: d(12)3=min
d(12)4=min
d(12)5=min
Stadiul II:
Se alcatuieste din nou tabelul, numai ca in loc de variabila 1 si 2, trecem clusterul (12).
(12) 3 4 5
(12) 0.0
3 5.0 0.0
4 6.0 4.0 0.0
5 9.0 6.0 3.0 0.0
cea mai mica valoare este clusterul d(45).
d(12),3 = 5; d(12),4 = 6; d(12),5 = 9.
d(45)(12) = min = min = 6;
d(45)3 = min =4;
Stadiul III:
(12) 3 (45)
(12) 0.0
3 5.0 0.0
(45) 6.0 4.0 0.0
Stadiul IV: formam clusterul (453).
d(453)(12)= min = min =5.
Se construieste dendograma. Pentru calculul dendogramei, valorile nu se pun in ordinea 1, 2, 3, 4, 5, ci in ordinea apropierii.
5
3
4 4
3
5
2
2
1
Semnificatia acestei dendograme: variabilele 1 si 2 formeaza o categorie, nu diferentiaza subiectii.
Putem sa presupunem ca in spatele acestei apropieri sta un alt factor.
Daca vedem ca distantele sunt foarte, putem imbunatati, in functie de o imbunatatire a esantionului de subiecti.
In cercetare alegem metoda ce ne da coeficientul cel mai ridicat intre matricea initiala de disimilaritati si matricea construita pe baza dendogramei.
2. Probleme de segmentare
In problemele de segmentare, avand un ansamblu de date referitoare la variabila criteriu (exemplu: succesul profesional) si variabilele explicative (inteligenta, motivatie, trasaturi de personalitate,.) urmeaza sa facem o taietura in variabila explicativa, astfel incat sa impartim esantionul in 2, iar segmentele obtinute sa fie cat mai contrastante in raport cu criteriul.
Segmentam populatia grafic; metoda segmentarii se infatiseaza ca o arborescenta in care apare o suita de noduri, respectiv bifurcatii, urmarind variabilele relevante.
!!! Atentie! Reperul sau pragul se poate alege arbitrar (de exemplu, media), dar cel mai bine se alege prin tatonare, considerand toate pragurile posibile pentru fiecare variabila, si alegand pragul si variabila care ne dau segmentele cele mai contrastante.
Formula de calcul:
. daca variabila criteriu este o variabila continua, criteriu de diferentiere este:
,
unde y = media valorilor y pe tot esantionul
y' = variabila criteriu pe tot esantionul
n1,n2 = efectivele celor doua subgrupuri;
y1,y2 = mediile valorilor y in cele doua exemple.
h2 se calculeaza la fiecare stadiu sau nod pentru toate pragurile fixate, pentru toate variabilele explicative si se retin variabila si pragul, care dau valoarea maxima pentru h2
Exemplu si metodica de calcul:
Un lot de 61 ingineri; avem o masura a succesului profesional (variabila criteriu) - de la 1 la 10. Se aplica probele Raven, un test de flexibilitate mentala, o proba de motivatie, una de memoriew si inventarul C.P.I. cu scarile Re, Cs, Do si So.
Pasii:
. stabilim, pentru fiecare variabila explicativa, un prag. De exemplu, pentru testul Raven: 0 - 39;
40 - 44;
45 - 50;
51 - 55;
56 - 60.
Presupunem ca cea mai buna diferentiere s-a obtinut pentru inteligenta:
19
+
7.9
39
+ Motivatie (7)
7.4
Subiecti 61
Inteligenta (50) -20
Media 4.6
7.2
- 22
3.2
. Se calculeaza pana cand segmentul de divizat are un reper mai mult decat cel vizat, sau cand prin o noua divizare nu mai obtinem nimic.
. Urmarind casetele in care apare cel mai mare numar de subiecti din grup "portretul robot".
In cazul nostru, inginerii cu succes profesional au o inteligenta mai mare decat media.
Daca variabila continua este dihotomica, dihotomizam si variabila explicativa si aplicam formula: