Documente noi - cercetari, esee, comentariu, compunere, document
Documente categorii

Inferenta statistica in cazul distributiei poisson

INFERENTA STATISTICA IN CAZUL DISTRIBUTIEI POISSON




Acest articol foloseste functiile de probabilitate si ML (maximum likelihooh), parametrul ce maximizeaza aceasta functie, pentru a realiza inferenta in cazul distributiilor de tip Poisson si Poisson multinomiala.

Presupunand ca avem date cu o distributie de tip Poisson, am aratat ca parametrul ce maximizeaza functia de probabilitate este chiar media si ca aceasta si varianta unei variabile aleatoare sunt aproximativ egale.

Pentru a testa ipoteza nula am folosit pe rand metoda Wald, metoda scorurilor si metoda likelihood-ratio si am determinat intervalul de incredere al parametrului pentru fiecare metoda prezentata.

De asemenea, am determinat estimatorii ML in cazul parametrilor Poisson multinomiali si am prezentat testul Pearson si testul G2, cel care foloseste likelihood-ratio.





Distributia Poisson


In cazul repartitiei binomiale, probabilitatea ca un eveniment sa se verifice de y ori iar evenimentul contrar de n-y ori este unde y = 0, 1, 2,., n. Cand n este moderat iar discrepanta dintre si este mare, atunci distributia binomiala tinde spre cea poissoniana. Notam :

.

Pornind de la distributia binomiala, avem :

.

Deoarece   si , avem:

unde iar este constanta. Deoarece

rezulta ca este o functie de frecventa.

Prin urmare, functia de distributie Poisson este unde y= 0,1 ,2 ,. iar este parametrul de distributie. Functia de distributie Poisson depinde de un unic parametru si anume de care este chiar numarul mediu de realizari ale evenimentului urmarit si care satisface conditia . Pentru si , functia de distributie Poisson este similara cu cea binomiala. Cu cat creste, cu atat mai mult distributia Poisson tinde spre normalitate.


Consideram functia generatoare a momentelor factoriale in cazul distributiei Poisson :

.


Daca derivam functia succesiv, de h ori, in raport cu t si apoi atribuim lui t valoarea 1, obtinem :

pentru h = 1, 2, 3, .. Celelalte momente obisnuite si centrale se calculeaza cu ajutorul momentelor factoriale. Se stie ca momentele sunt functii lineare in raport cu numerele lui Stirling de speta a doua:

Functia caracteristica a distributiei Poisson este .


Introducem notiunea de abatere redusa cu si consideram functia caracteristica a acestei abateri :

. Obtinem care este exact functia caracteristica a legii normale cu dispersia 1. Frecventa asteptata ca este iar media este  unde este numarul de evenimente . Varianta este data de relatia .



Distributia Poisson multinomiala


Consideram sirul de variabile aleatorii independente X1, X2, .,Xn unde fiecare dintre aceste variabile poate lua valorile a1, a2, ., am cu probabilitatile respective iar . Fiecare variabila aleatoare Xi cu i= 1, 2, ., n da nastere unei distributii de forma :



unde vectorii sunt liniar independenti.


pozitia k


Notam unde sunt niste constante. este liniar dependent de ceilalti cu j = 1, 2, ., m-1. Probabilitatea ca in n incercari successive vectorii sa apara respectiv de ori, ori, ., ori se comporta asimptotic dupa cum urmeaza:


unde .


Pornim de la distributia multinomiala pentru care avem relatia :


.

Conform notatiilor  , obtinem:



Cum rezulta  deci si obtinem



Stim ca deci iar cum obtinem

Cunoscand faptul ca rezulta

Inlocuim rezultatul in relatia lui de mai sus si obtinem:


Pentru avem :


.



Tinand cont de faptul ca si relatia de mai inainte devine:


.



In concluzie, considerand distributia



si avand relatia , probabilitatea ca, din n incercari, vectorii

sa apara respectiv de ori, ori, ., ori este:


Prin definitie, functia caracteristica se va scrie :



pentru valori suficient de mari ale lui n.



Introducem vectorul abaterilor reduse si scriem functia caracteristica :

pentru valori suficient de mari ale lui n.


Trecand la limita obtinem:



deoarece


Deoarece functiile caracteristice tind catre functia caracteristica a legii normale cu m-1 dimensiuni, rezulta ca si functiile de repartitie corespunzatoare tind catre functia de repartitie a legii normale cu m-1 dimensiuni.


Pentru determinarea momentelor unei distributii Poisson cu m-1 dimensiuni, plecam de la functia caracteristica a acestei distributii, a carei expresie este asimptotic egala cu


deci,



Observam faptul ca .


Inferenta statistica


Consideram un set de date pentru care avem probabilitatea de distributie si functia de probabilitate a acestor date pentru parametrul necunoscut. Se stie ca valoarea care maximizeaza functia de probabilitate maximizeaza si logaritmul acesteia.

Consideram parametrul iar estimatorul valorii sale care maximeaza functia de probabilitate il notam cu . Functia de probabilitate a distributiei datelor o notam cu iar logaritmarea acestei functii cu . Atunci, este solutia ecuatiei . Daca este multidimensional, atunci il notam cu iar rezultatul sistemului de ecuatii cu .


Inferenta statistica pentru parametrii Poisson


Consideram distributia data de functia  . Coeficientul nu influenteaza valoarea maxima a functiei . Prin urmare, putem sa-l ignoram si sa folosim doar acea parte care implica parametrul , parte numita nucleu.

Avem si deci


Diferentiem in raport cu parametrul si obtinem . Atunci,




, adica numarul de evenimente realizate din cele n incercari.

Daca diferentiem de doua ori in raport cu parametrul , obtinem:


.


Consideram matricea al carei element de pe pozitia (i, j) are forma:


unde


Prin urmare, media si eroarea standard pentru au forma:

si respectiv


In concluzie, in cazul distributiei Poison media si varianta unei variabile aleatoare sunt aproximativ egale .

In cele ce urmeaza determinam intervalul de incredere al parametrului necunoscut pentru o caracteristica cu repartitie Poisson cu legea de repartitie data de relatia Consideram ca fiind numarul de evenimente realizate din cele n incercari. Testam ipoteza nula . Pentru a realiza inferenta statistica in cazul distributiei Poisson, vom folosi statistica Wald

ce utilizeaza eroarea standard evaluata pentru sau statistica scorurilor

in care eroarea standard este evaluata pentru . Pentru o eroare standard diferita de zero, statisticile si au o distributie apropiata de cea normala, in timp ce statisticile si au o distributie cu df=1.(Alan Agrsti - 'Categorical Data Analysis' Second Edition, Wiley Interscience 2002)


Logaritmul functiei de probabilitate in conditiile ipotezei nule este iar, mai general, pentru , este . Notam . Atunci, testul statistic numit probabilitatea ratiilor (likelihood-ratio statistic) este dat de relatia:



si, asa cum a aratat Wilks (1935,1938), are o distributie pentru . Cum sub ipoteza nula nu avem nici un parametru iar sub ipoteza alternativa avem un unic parametru, rezulta ca avem un unic grad de libertate.


Pentru determinarea intervalului de incredere pornim de la statistica Wald si spunem ca intervalul de incredere al valorilor pe care le poate lua este dat de relatia sau de , adica . Pentru statistica scorurilor avem intervalul de incredere sau

Daca folosim probabilitatea ratiilor (likelihood-ratio statistic) adica care are o distributie pentru , atunci se considera a fi interval de incredere intervalul pentru care obtinem o valoare mai mica decat pentru unde este numarul de evenimente realizate din n incercari. Daca statistica Wald si statistica ce foloseste probabilitatea ratiilor ne ofera rezultate ce difera foarte mult, acest lucru sugereaza faptul ca are o distributie ce deviaza mult de la normalitate. Atunci cand are o distributie normala, functia are o reprezentare grafica parabolica. In cazul esantioanelor de volum redus ce contin date categoricale, deviaza mult de la normalitate iar functia nu va mai avea o reprezentare grafica simetrica si parabolica. Acest lucru se poate intampla si in cazul esantioanelor de volum moderat sau mare care au multi parametri. In toate aceste situatii este preferabil sa determinam intervalul de incredere bazat pe probabilitatea ratiilor. (Alan Agrsti - 'Categorical Data Analysis' Second Edition, Wiley Interscience 2002)



Inferenta statistica pentru parametrii Poisson multinomiali


Consideram sirul de variabile aleatorii independente X1, X2, .,Xn unde fiecare dintre aceste variabile poate lua valorile a1, a2, ., am cu probabilitatile respective unde . Asa cum am prezentat intr-un paragraf anterior, fiecare variabila aleatoare Xi cu i= 1, 2, ., n da nastere unei distributii de forma :




vectorii fiind liniar independenti.


pozitia k


Notam unde sunt niste constante iar este liniar dependent de ceilalti cu j = 1, 2, ., m-1.



Probabilitatea ca in n incercari successive vectorii sa apara respectiv de ori, ori, ., ori se comporta asimptotic dupa cum urmeaza:



unde si iar i=1,.,m. Valorile au o distributie Poisson multinomiala iar este functia de distributie Poisson multinomiala. Deoarece rezulta ca

Coeficientul nu influenteaza valoarea ce maximizeaza functia de distributie si, prin urmare, putem sa-l ignoram.

Obtinem :



si



Probabilitatea maxima (ML) este acea probabilitate ce maximizeaza logaritmul expresiei



Diferentiem in raport cu si obtinem ecuatia de probabilitate (likelihood equation) :


.


Cum , obtinem solutia ce maximizeaza probabilitatea astfel:

si


Un prim test folosit in cazul distributiei Poisson multinomiala este testul Pearson. Consideram ipoteza nula j=1, 2,.,m unde sau altfel spus, j=1,2,..,m unde . Cand ipoteza nula este adevarata, frecventele teoretice sunt j=1,.,m iar frecventele observate sunt j= 1, 2, ., m.


Statistica a lui Pearson are urmatoarele proprietati:

Cand frecventele observate sunt egale cu frecventele teoretice, adica pentru toate perechile, atunci .

Daca diferentele dintre frecventele observate si frecventele teoretice sunt mari atunci si valorile lui vor fi mari.

Ipoteza diferentei nule este acceptata cu o probabilitate de 95% daca

Pentru esantioanele mari, statistica are o distributie aproximativ chi-patrat cu df=m-1.


Un alt test utilizat in cazul distributiei Poisson multinomiale este testul , cel care foloseste ratia probabilitatilor. Asa cum am aratat mai sus, functia de probabilitate a distributiei Poisson multinomiala este maximizata cand si . Atunci, probabilitatea ratiilor (likelihood-ratio statistic) va avea forma:




iar



Deci iar df=m-1.


Observatie : Cu cat n este mai mare, cu atat are o distributie mai apropiata de distributia cu m-1 grade de libertate. Cu cat are valori mai mari, cu atat exista mai multe argumente impotriva ipotezei nule. (Alan Agrsti - 'Categorical Data Analysis' Second Edition, Wiley Interscience 2002)






Bibliografie


1.      Alan Agrsti - 'Categorical Data Analysis' Second Edition, Wiley Interscience, New Jersey 2002

2.      Carolyn. J. Anderson - 'Applied Categorical Data Analysis', EdPsych 590AT/Psych 593, 2006

3.      Ronald N. Forthofer, Eun Sul Lee, Michael Hernandez - 'Biostatistics - A Guide to Design, Analysis, and Discovery' Second Edition, Elsevier, 2007

4.      Harold A. Kahn, Cristopher T. Sempos - 'Statistical Methods in Epidemiology', New York, Oxford University Press, 1989

5.      Dumitru Sandu - 'Statistica in stiintele sociale - Probleme teoretice si aplicatii pentru invatamantul universitar', Universitatea Bucuresti, Facultatea de Sociologie, Psihologie si Pedagogie, 1992

6.      Ilie P. Vasilescu - 'Statistica informatizata pentru stiinte despre om', Editura Militara, Bucuresti, 1992



asigurari

comert






Upload!

Trimite cercetarea ta!
Trimite si tu un document!
NU trimiteti referate, proiecte sau alte forme de lucrari stiintifice, lucrari pentru examenele de evaluare pe parcursul anilor de studiu, precum si lucrari de finalizare a studiilor universitare de licenta, masterat si/sau de doctorat. Aceste documente nu vor fi publicate.