|
INFERENTA STATISTICA IN CAZUL DISTRIBUTIEI POISSON
Acest articol foloseste functiile de probabilitate si ML (maximum likelihooh), parametrul ce maximizeaza aceasta functie, pentru a realiza inferenta in cazul distributiilor de tip Poisson si Poisson multinomiala.
Presupunand ca avem date cu o distributie de tip Poisson, am aratat ca parametrul ce maximizeaza functia de probabilitate este chiar media si ca aceasta si varianta unei variabile aleatoare sunt aproximativ egale.
Pentru a testa ipoteza nula am folosit pe rand metoda Wald, metoda scorurilor si metoda likelihood-ratio si am determinat intervalul de incredere al parametrului pentru fiecare metoda prezentata.
De asemenea, am determinat estimatorii ML in cazul parametrilor Poisson multinomiali si am prezentat testul Pearson si testul G2, cel care foloseste likelihood-ratio.
Distributia Poisson
In cazul repartitiei binomiale, probabilitatea ca
un eveniment sa se verifice de y ori iar evenimentul contrar de n-y ori este unde y = 0, 1, 2,., n.
Cand n este moderat iar discrepanta dintre
si
este mare, atunci
distributia binomiala tinde spre cea poissoniana. Notam :
.
Pornind de la distributia binomiala, avem :
.
Deoarece si
, avem:
unde
iar
este constanta.
Deoarece
rezulta ca
este o functie
de frecventa.
Prin urmare, functia de distributie Poisson este unde y= 0,1 ,2 ,. iar
este parametrul de
distributie. Functia de distributie Poisson depinde de un unic parametru si
anume de
care este chiar
numarul mediu de realizari ale evenimentului urmarit si care satisface conditia
. Pentru
si
, functia de distributie Poisson este similara cu cea
binomiala. Cu cat
creste, cu atat mai
mult distributia Poisson tinde spre normalitate.
Consideram functia generatoare a momentelor factoriale in cazul distributiei Poisson :
.
Daca derivam functia succesiv, de h ori,
in raport cu t si apoi atribuim lui t valoarea 1, obtinem :
pentru h = 1, 2, 3, ..
Celelalte momente obisnuite si centrale se calculeaza cu ajutorul momentelor
factoriale. Se stie ca momentele
sunt functii lineare
in raport cu numerele lui Stirling de speta a doua:
Functia caracteristica a distributiei Poisson
este .
Introducem notiunea de abatere redusa cu
si consideram functia
caracteristica a acestei abateri :
. Obtinem
care este exact
functia caracteristica a legii normale cu dispersia 1. Frecventa asteptata ca
este
iar media este
unde
este numarul de evenimente
. Varianta este data de relatia
.
Distributia Poisson multinomiala
Consideram sirul de variabile aleatorii
independente X1, X2, .,Xn unde fiecare dintre
aceste variabile poate lua valorile a1, a2, ., am
cu probabilitatile respective
iar
. Fiecare variabila
aleatoare Xi cu i= 1, 2, ., n da nastere unei distributii de forma :
unde vectorii
sunt liniar
independenti.
pozitia k
Notam
unde
sunt niste
constante.
este liniar
dependent de ceilalti
cu j = 1, 2, ., m-1. Probabilitatea
ca in n incercari successive vectorii
sa apara respectiv de
ori,
ori, .,
ori se comporta asimptotic dupa cum urmeaza:
unde
.
Pornim de la distributia multinomiala pentru care avem relatia :
.
Conform notatiilor
,
obtinem:
Cum rezulta
deci
si obtinem
Stim ca deci
iar
cum
obtinem
Cunoscand faptul ca rezulta
Inlocuim rezultatul in relatia lui de mai sus si
obtinem:
Pentru avem :
.
Tinand cont de faptul ca si
relatia de mai inainte devine:
.
In concluzie, considerand distributia
si avand relatia , probabilitatea ca, din n incercari, vectorii
sa apara respectiv de
ori,
ori, .,
ori este:
Prin definitie, functia caracteristica se va scrie :
pentru valori
suficient de mari ale lui n.
Introducem vectorul abaterilor reduse si scriem functia caracteristica :
pentru valori suficient de mari ale lui n.
Trecand la limita obtinem:
deoarece
Deoarece functiile caracteristice tind catre functia
caracteristica a legii normale cu m-1 dimensiuni, rezulta ca si functiile de
repartitie corespunzatoare tind catre functia de repartitie a legii normale cu
m-1 dimensiuni.
Pentru determinarea momentelor unei distributii Poisson cu m-1 dimensiuni, plecam de la functia caracteristica a acestei distributii, a carei expresie este asimptotic egala cu
deci,
Observam faptul ca .
Inferenta statistica
Consideram un set de date pentru care avem probabilitatea de distributie si functia de probabilitate a acestor date pentru parametrul necunoscut. Se stie ca valoarea care maximizeaza functia de probabilitate maximizeaza si logaritmul acesteia.
Consideram parametrul iar estimatorul
valorii sale care maximeaza functia de probabilitate il notam cu
. Functia de
probabilitate a distributiei datelor o notam cu
iar logaritmarea acestei functii cu
. Atunci,
este solutia ecuatiei
. Daca
este multidimensional,
atunci il notam cu
iar rezultatul sistemului
de ecuatii
cu
.
Inferenta statistica pentru parametrii Poisson
Consideram distributia data de functia
. Coeficientul
nu influenteaza valoarea
maxima a functiei
. Prin urmare,
putem sa-l ignoram si sa folosim doar acea parte care implica parametrul
, parte numita nucleu.
Avem si deci
Diferentiem in raport cu parametrul si obtinem
. Atunci,
, adica numarul de evenimente realizate din cele n
incercari.
Daca diferentiem de doua ori in raport cu
parametrul , obtinem:
.
Consideram matricea al carei element de pe pozitia (i, j) are forma:
unde
Prin urmare, media si eroarea standard pentru au forma:
si respectiv
In concluzie, in cazul distributiei Poison media
si varianta unei variabile aleatoare sunt aproximativ egale .
In cele ce urmeaza determinam intervalul de
incredere al parametrului necunoscut pentru o caracteristica cu repartitie
Poisson cu legea de repartitie data de relatia Consideram
ca fiind numarul de evenimente
realizate din cele n incercari. Testam ipoteza nula
. Pentru a
realiza inferenta statistica in cazul distributiei Poisson, vom folosi statistica
Wald
ce utilizeaza eroarea standard evaluata pentru sau statistica
scorurilor
in care eroarea standard este evaluata pentru . Pentru o eroare standard diferita de zero, statisticile
si
au o distributie
apropiata de cea normala, in timp ce statisticile
si
au o distributie
cu df=1.(Alan
Agrsti - 'Categorical Data Analysis' Second Edition, Wiley Interscience 2002)
Logaritmul functiei de probabilitate in conditiile
ipotezei nule este iar, mai general, pentru
, este
. Notam
. Atunci,
testul statistic numit probabilitatea ratiilor (likelihood-ratio statistic)
este dat de relatia:
si, asa cum a aratat Wilks (1935,1938), are o
distributie pentru
. Cum sub ipoteza
nula nu avem nici un parametru iar sub ipoteza alternativa avem un unic
parametru, rezulta ca avem un unic grad de libertate.
Pentru determinarea intervalului de incredere
pornim de la statistica Wald si spunem ca intervalul de incredere al valorilor pe
care le poate lua este dat de
relatia
sau de
, adica
. Pentru statistica scorurilor avem intervalul de
incredere
sau
Daca folosim probabilitatea ratiilor
(likelihood-ratio statistic) adica care are o
distributie
pentru
, atunci se considera a fi interval de incredere
intervalul pentru care obtinem o valoare mai mica decat
pentru
unde
este numarul de evenimente
realizate din n incercari. Daca statistica Wald si statistica ce foloseste
probabilitatea ratiilor ne ofera rezultate ce difera foarte mult, acest lucru
sugereaza faptul ca
are o
distributie ce deviaza mult de la normalitate. Atunci cand
are o distributie normala, functia
are o reprezentare grafica parabolica. In cazul
esantioanelor de volum redus ce contin date categoricale,
deviaza mult de
la normalitate iar functia
nu va mai avea o
reprezentare grafica simetrica si parabolica. Acest lucru se poate intampla si
in cazul esantioanelor de volum moderat sau mare care au multi parametri. In toate aceste situatii este preferabil sa
determinam intervalul de incredere bazat pe probabilitatea ratiilor. (Alan
Agrsti - 'Categorical Data Analysis' Second Edition, Wiley Interscience 2002)
Inferenta statistica pentru parametrii Poisson multinomiali
Consideram sirul de variabile aleatorii independente
X1, X2, .,Xn unde fiecare dintre aceste
variabile poate lua valorile a1, a2, ., am cu
probabilitatile respective
unde
. Asa cum am prezentat
intr-un paragraf anterior, fiecare variabila aleatoare Xi cu i= 1, 2, ., n da nastere unei distributii de forma :
vectorii
fiind liniar
independenti.
pozitia k
Notam
unde
sunt niste
constante iar
este liniar
dependent de ceilalti
cu j = 1, 2, .,
m-1.
Probabilitatea ca in n incercari successive
vectorii
sa apara respectiv de
ori,
ori, .,
ori se comporta asimptotic dupa cum urmeaza:
unde si
iar
i=1,.,m. Valorile
au o distributie
Poisson multinomiala iar
este functia de
distributie Poisson multinomiala. Deoarece
rezulta ca
Coeficientul nu influenteaza
valoarea ce maximizeaza functia de distributie si, prin urmare, putem sa-l
ignoram.
Obtinem :
si
Probabilitatea maxima (ML) este acea probabilitate
ce maximizeaza logaritmul expresiei
Diferentiem in raport cu
si obtinem ecuatia de
probabilitate (likelihood equation) :
.
Cum , obtinem solutia ce
maximizeaza probabilitatea astfel:
si
Un prim test folosit in cazul distributiei Poisson
multinomiala este testul Pearson. Consideram ipoteza nula j=1, 2,.,m unde
sau altfel spus,
j=1,2,..,m unde
. Cand ipoteza nula este adevarata, frecventele teoretice
sunt
j=1,.,m iar frecventele observate sunt
j= 1, 2, ., m.
Statistica a lui Pearson
are urmatoarele
proprietati:
Cand frecventele observate sunt egale cu
frecventele teoretice, adica pentru toate perechile,
atunci
.
Daca diferentele dintre frecventele observate si
frecventele teoretice sunt mari atunci
si valorile lui
vor fi mari.
Ipoteza diferentei nule este acceptata cu o probabilitate
de 95% daca
Pentru esantioanele mari, statistica are o distributie
aproximativ chi-patrat cu df=m-1.
Un alt test utilizat in cazul distributiei Poisson multinomiale este
testul , cel care foloseste ratia probabilitatilor. Asa cum am
aratat mai sus, functia de probabilitate a distributiei Poisson multinomiala
este maximizata cand
si
. Atunci, probabilitatea ratiilor (likelihood-ratio
statistic) va avea forma:
iar
Deci iar df=m-1.
Observatie : Cu cat n este mai mare, cu atat are o distributie mai apropiata de distributia
cu m-1 grade de libertate. Cu cat
are valori mai mari, cu atat exista mai multe argumente
impotriva ipotezei nule. (Alan Agrsti - 'Categorical Data Analysis' Second
Edition, Wiley Interscience 2002)
Bibliografie
1. Alan Agrsti - 'Categorical Data Analysis' Second Edition, Wiley Interscience, New Jersey 2002
2. Carolyn. J. Anderson - 'Applied Categorical Data Analysis', EdPsych 590AT/Psych 593, 2006
3. Ronald N. Forthofer, Eun Sul Lee, Michael Hernandez - 'Biostatistics - A Guide to Design, Analysis, and Discovery' Second Edition, Elsevier, 2007
4. Harold A. Kahn, Cristopher
T. Sempos - 'Statistical Methods in Epidemiology',
5. Dumitru Sandu - 'Statistica in stiintele sociale - Probleme teoretice si aplicatii pentru invatamantul universitar', Universitatea Bucuresti, Facultatea de Sociologie, Psihologie si Pedagogie, 1992
6. Ilie P. Vasilescu - 'Statistica informatizata pentru stiinte despre om', Editura Militara, Bucuresti, 1992