Statistička klasifikacija

U statistici, klasifikacija je problem identifikovanja kojoj od skupa kategorija (podpopulacija) posmatranje (ili zapažanja) pripada. Primeri su dodeljivanje date e-pošte u klasu „neželjena pošta” ili „ne-spam”, i dodeljivanje dijagnoze datom pacijentu na osnovu uočenih karakteristika pacijenta (pol, krvni pritisak, prisustvo ili odsustvo određenih simptoma, itd).

Često se pojedinačna zapažanja analiziraju u skup kvantitativnih svojstava, poznatih na različite načine kao objašnjavajuće varijable ili karakteristike. Ova svojstva mogu na različite načine biti kategorička (npr. „A“, „B“, „AB“ ili „O“, za krvnu grupu), redna (npr. „velika“, „srednja“ ili „mala“), celobrojna (npr. broj pojavljivanja određene reči u e-poruci) ili realne vrednosti (npr. merenje krvnog pritiska). Drugi klasifikatori rade tako što upoređuju posmatranja sa prethodnim posmatranjima pomoću funkcije sličnosti ili udaljenosti.

Algoritam koji implementira klasifikaciju, posebno u konkretnoj implementaciji, poznat je kao klasifikator. Termin „klasifikator” ponekad se odnosi i na matematičku funkciju, implementiranu klasifikacionim algoritmom, koja mapira ulazne podatke u kategoriju.

Terminologija u različitim oblastima je prilično raznolika. U statistici, gde se klasifikacija često vrši logističkom regresijom ili sličnim postupkom, svojstva zapažanja se nazivaju objašnjavajuće varijable (ili nezavisne varijable, regresori, itd), a kategorije koje treba predvideti poznate su kao ishodi, za koje se smatra da su moguće vrednosti zavisne promenljive. U mašinskom učenju, zapažanja su često poznata kao instance, objašnjavajuće varijable se nazivaju karakteristike (grupisane u vektor karakteristika), a moguće kategorije koje treba predvideti su klase. Druge oblasti mogu koristiti drugačiju terminologiju: npr. u ekologiji zajednice, termin „klasifikacija” se obično odnosi na klastersku analizu.

Odnos prema drugim problemima

Klasifikacija i grupisanje su primeri opštijeg problema prepoznavanja obrazaca, a to je dodeljivanje neke vrste izlazne vrednosti datoj ulaznoj vrednosti. Drugi primeri su regresija, koja svakom ulazu dodeljuje izlaz realne vrednosti; sekvenciono označavanje, koje dodeljuje klasu svakom članu niza vrednosti (na primer, označavanje dela govora, koje dodeljuje deo govora svakoj reči u ulaznoj rečenici); raščlanjivanje, koje dodeljuje stablo raščlanjivanja ulaznoj rečenici, opisujući sintaksičku strukturu rečenice; itd.

Uobičajena podklasa klasifikacije je probabilistička klasifikacija. Algoritmi ove prirode koriste statističko zaključivanje da bi pronašli najbolju klasu za datu instancu. Za razliku od drugih algoritama, koji jednostavno daju „najbolju” klasu, probabilistički algoritmi daju verovatnoću da je instanca član svake od mogućih klasa. Najbolja klasa se obično bira kao ona sa najvećom verovatnoćom. Međutim, takav algoritam ima brojne prednosti u odnosu na neprobabilističke klasifikatore:

  • On može da proizvede vrednost poverenja koja je povezana sa njegovim izborom (uopšteno govoreći, klasifikator koji to može da uradi je poznat kao klasifikator sa ponderisanim poverenjem).
  • Shodno tome, može da se uzdrži kada je njegovo samopouzdanje u izbor bilo kog određenog rezultata prenisko.
  • Zbog verovatnoća koje se generišu, probabilistički klasifikatori mogu biti efikasnije ugrađeni u veće zadatke mašinskog učenja, na način koji delimično ili potpuno izbegava problem propagacije greške.

Frekventističke procedure

Rani rad na statističkoj klasifikaciji preduzeo je Fišer,[1][2] u kontekstu problema sa dve grupe, što je dovelo do Fišerove linearne diskriminantne funkcije kao pravila za dodeljivanje grupe novom posmatranju.[3] Ovaj rani rad pretpostavljao je da vrednosti podataka unutar svake od dve grupe imaju multivarijantnu normalnu distribuciju. Proširenje ovog istog konteksta na više od dve grupe je takođe razmatrano uz nametnuto ograničenje da pravilo klasifikacije treba da bude linearno.[3][4] Kasniji rad za multivarijantnu normalnu distribuciju omogućio je da klasifikator bude nelinearan:[5] može se izvesti nekoliko pravila klasifikacije na osnovu različitih prilagođavanja Mahalanobisove udaljenosti, pri čemu je novo posmatranje dodeljeno grupi čiji centar ima najnižu prilagođenu udaljenost od opservacije.

Bajesove procedure

Za razliku od frekventističkih procedura, Bajesovske klasifikacijske procedure obezbeđuju prirodan način uzimanja u obzir svih dostupnih informacija o relativnim veličinama različitih grupa unutar ukupne populacije.[6] Bajesove procedure imaju tendenciju da budu računski skupe i, u danima pre nego što su razvijena izračunavanja Markovljevog lanca Monte Karlo, osmišljene su aproksimacije za Bajesova pravila grupisanja.[7]

Neke Bajesove procedure uključuju izračunavanje verovatnoće članstva u grupi: one daju informativniji rezultat od jednostavnog pripisivanja jedne oznake grupe svakom novom zapažanju.

Binarna i višeklasna klasifikacija

Klasifikacija se može posmatrati kao dva odvojena problema – binarna klasifikacija i višeklasna klasifikacija. U binarnoj klasifikaciji, bolje razumljivom zadatku, uključene su samo dve klase, dok multiklasna klasifikacija uključuje dodeljivanje objekta jednoj od nekoliko klasa.[8] Pošto su mnoge metode klasifikacije razvijene posebno za binarnu klasifikaciju, višeklasna klasifikacija često zahteva kombinovanu upotrebu više binarnih klasifikatora.

Vektori karakteristika

Većina algoritama opisuje pojedinačnu instancu čija kategorija treba da se predvidi korišćenjem vektora karakteristika pojedinačnih, merljivih svojstava instance. Svako svojstvo se naziva obeležje, takođe poznato u statistici kao objašnjavajuća varijabla (ili nezavisna varijabla, iako karakteristike mogu ili ne moraju biti statistički nezavisne). Funkcije mogu biti različito binarne (npr. „uključeno“ ili „isključeno“); kategoričke (npr. „A”, „B”, „AB” ili „O”, za krvnu grupu); redne (npr. „veliki”, „srednji” ili „mali”); sa celobrojnim vrednostima (npr. broj pojavljivanja određene reči u e-poruci); ili realnim vrednostima (npr. merenje krvnog pritiska). Ako je instanca slika, vrednosti karakteristika mogu odgovarati pikselima slike; ako je instanca deo teksta, vrednosti obeležja mogu biti učestalosti pojavljivanja različitih reči. Neki algoritmi funkcionišu samo u smislu diskretnih podataka i zahtevaju da podaci sa realnom ili celobrojnom vrednošću budu diskretizovani u grupe (npr. manje od 5, između 5 i 10 ili veće od 10).

Reference

  1. ^ Fisher, R. A. (1936). „The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics. 7 (2): 179—188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227 Слободан приступ. 
  2. ^ Fisher, R. A. (1938). „The Statistical Utilization of Multiple Measurements”. Annals of Eugenics. 8 (4): 376—386. doi:10.1111/j.1469-1809.1938.tb02189.x. hdl:2440/15232 Слободан приступ. 
  3. ^ а б Gnanadesikan, R. (1977) Methods for Statistical Data Analysis of Multivariate Observations, Wiley. ISBN 0-471-30845-5 (p. 83–86)
  4. ^ Rao, C.R. (1952) Advanced Statistical Methods in Multivariate Analysis, Wiley. (Section 9c)
  5. ^ Anderson, T.W. (1958) An Introduction to Multivariate Statistical Analysis, Wiley.
  6. ^ Binder, D. A. (1978). „Bayesian cluster analysis”. Biometrika. 65: 31—38. doi:10.1093/biomet/65.1.31. 
  7. ^ Binder, David A. (1981). „Approximations to Bayesian clustering rules”. Biometrika. 68: 275—285. doi:10.1093/biomet/68.1.275. 
  8. ^ Har-Peled, S., Roth, D., Zimak, D. (2003) "Constraint Classification for Multiclass Classification and Ranking." In: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference, MIT Press. ISBN 0-262-02550-7

Spoljašnje veze

Statistička klasifikacija на Викимедијиној остави.
  • p
  • r
  • u
Funkcija gustine verovatnoće
Centralna tendencija
Disperzija
Oblik
Brojanje podataka
  • Indeks disperzije
Tabele
Zavisnost
Grafikoni
Kolekcija podataka
Eksperimentalni dizajn
  • Veličina efekta
  • Podaci koji nedostaju
  • Optimalni nacrt
  • Populacija
  • Replikacija
  • Određivanje veličine uzorka
  • Statistik
  • Statistička moć
Metodologija ispitivanja
Kontrolni eksperimenti
  • Blokovanje
  • Faktorijalni nacrti
  • Interakcija
  • Randomizacija
  • Randomizovani eksperiment
  • Naučna kontrola
Adaptivni nacrti
  • Adaptivna klinička ispitivanja
  • Stohastička aproksimacija
  • Gore-i-dole nacrti
Posmatranje
  • Studija poprečnog preseka
  • Kohortna studija
  • Prirodni eksperiment
  • Kvazi-eksperiment
Statistička interferencija
Statistička teorija
  • Populacija
  • Statistik
  • Raspodela verovatnoće
  • Distribucija uzorkovanja
    • Order statistic
  • Empirijska distribucija
    • Procena gustine verovatnoće
  • Statistički model
    • Model specifikacije
    • Lp prostor
  • Parametar
    • lokacija
    • skala
    • oblik
  • Parametrijska statistika
    • Verovatnoća [[Monotone likelihood ratio|(monotone)]]
    • Location–scale family
    • Exponential family
  • Completeness
  • Sufficiency
  • Statistical functional
    • Butstrap
    • U
    • V
  • Optimalna odluka
  • Efikasnost
  • Statistička distanca
    • Divergencija
  • Asimpotska teorija
  • Robusnost
Frekventističko zaključivanje
Tačka estimacije
  • Jednačine za procenu
  • Pristrasnost procenjivača
    • Nepristrasna procena minimalne varijanse
      • Rao–Blakvel teorema
      • Leman–Šefe teorema
    • Medijanska nepristrasna procena
  • Princip priključka
Procena intervala
  • Interval poverenja
  • Pivot
  • Interval verovatnoće
  • Interval predikcije
  • Interval tolerancije
  • Ponovno uzorkovanje
    • Butstrap
    • Džeknajf
Testiranje hipoteza
  • Jednostrani i dvostrani testovi
  • Moć testa
    • Ujednačeno najmoćniji test
  • Permutacioni test
    • Randomizacijski test
  • Višestruka poređenja
Parametrijski testovi
  • Test odnosa verovatnoće
  • Rezultat testa
  • Vold
Specifični testovi
Dobrota uklapanja
  • Hi-kvadrat
  • G-test
  • Kolmogorov–Smirov
  • Anderson–Darling
  • Lilifor
  • Harke–Bera
  • Normalnost (Šapiro–Vilk)
  • Test odnosa verovatnoće
  • Selekcija modela
    • Poprečna validacija
    • AIC
    • BIC
Rang statistika
  • Znak
    • Medijana uzorka
  • Označeni rangovi (Vilkokson)
    • Hodž-Lemanov estimator
  • Suma ranga (Man-Vitni)
  • Neparametrijska Anova
    • 1-faktorska (Kruskal–Volis)
    • 2-faktorska (Fridman)
    • Alternativa (Džonkir-Terpstra)
  • Van der Verden test
Bajesovo zaključivanje
Korelacija
  • Pirsonov produkt-moment koeficijent korelacije
  • Delimična korelacija
  • Konfundirajuća varijabla
  • Koeficijent determinacije
Regresiona analiza
  • Greške i reziduali
  • Validacija regresije
  • Mešoviti model efekata
  • Model simultanih jednačina
  • Multivarijantne adaptivne regresione spline (MARS)
Linearna regresija
  • Jednostavna linearna regresija
  • Orinarni najmanji kvadrati
  • Generalni linearni model
  • Bajesova regresija
Nestandardizovani prediktori
  • Nelinearna regresija
  • Neparametrijski
  • Semiparametrijska
  • Izotonična
  • Robusna
  • Homoskedastičnost i heteroskedastičnost
Generalizovani linearni model
Podela zbira kvadrata
  • Analiza varijanse (ANOVA, anova)
  • Analiza kovarijanse
  • Multivarijantna ANOVA
  • Stepeni slobode
Kategorička / Multivarijantna / Time-series / Analiza preživljavanja
Kategorička
Multivarijantna
Time-series
Generalno
  • Dekompozicija
  • Trend
  • Stacionarnost
  • Seasonal adjustment
  • Exponential smoothing
  • Cointegration
  • Structural break
  • Granger causality
Specifični testovi
  • Diki-Fuler
  • Johansen
  • Q-statistik (Ljung-Boks)
  • Durbin-Votson
  • Brojš-Godfri
Vremenski domen
  • Autokorelacija (ACF)
    • parcijalna (PACF)
  • Poprečna-korelacija (XCF)
  • ARMA model
  • ARIMA model (Boks-Dženkins)
  • Autoregresivna kondicionalna heteroskedastičnost (ARCH)
  • Vektorska autoregresija (VAR)
Frekvencijski domen
  • Procena spektralne gustine
  • Furijeova analiza
  • Spektralna analiza najmanjih kvadrata
  • Vejvlet
  • Vajtlova verovatnoća
Preživljavanje
Funkcija preživljavanja
  • Kaplan-Mejer estimator
  • Model proporcionalnih opasnosti
  • Model ubrzanog vremena otkazivanja
  • First hitting time
Funkcija opasnosti
  • Nelson–Alen estimator
Test
  • Log-rang test
Aplikacije
Biostatistika
Statistika inženjerstva
  • Hemometrija
  • Probabilistički nacrt
  • Proces / kvalitet kontrole
  • Pouzdanost
  • Identifikacija sistema
Statistika društvenih nauka
Spacijalna statistika
  • KategorijaCategory
  • KategorijaCategory
  • Portal Matematika
  • Stranica OstaveCommons
  • Vikiprojekat WikiProject
Normativna kontrola: Državne Уреди на Википодацима
  • Češka