Time Serien Prognosemodeller Slik Som Beveger Gjennomsnitt
I praksis vil det glidende gjennomsnittet gi et godt estimat av gjennomsnittet av tidsserien hvis gjennomsnittet er konstant eller sakte endring. Ved konstant gjennomsnitt vil den største verdien av m gi de beste estimatene for det underliggende gjennomsnittet. En lengre observasjonsperiode vil gjennomsnittlig utvirke virkningen av variabilitet. Formålet med å gi en mindre m er å la prognosen svare på en endring i den underliggende prosessen. For å illustrere foreslår vi et datasett som inkorporerer endringer i det underliggende gjennomsnittet av tidsseriene. Figuren viser tidsseriene som brukes til illustrasjon sammen med den gjennomsnittlige etterspørselen fra hvilken serien ble generert. Middelet begynner som en konstant ved 10. Begynner på tid 21, øker den med en enhet i hver periode til den når verdien av 20 ved tid 30. Da blir det konstant igjen. Dataene blir simulert ved å legge til i gjennomsnitt, en tilfeldig støy fra en Normal-fordeling med null-middel og standardavvik 3. Resultatene av simuleringen avrundes til nærmeste heltall. Tabellen viser de simulerte observasjonene som brukes til eksemplet. Når vi bruker bordet, må vi huske at det til enhver tid bare er kjent med tidligere data. Estimatene til modellparameteren, for tre forskjellige verdier av m, vises sammen med gjennomsnittet av tidsseriene i figuren under. Figuren viser gjennomsnittlig glidende gjennomsnittlig beregning av gjennomsnittet hver gang og ikke prognosen. Prognosene ville skifte de bevegelige gjennomsnittskurver til høyre etter perioder. En konklusjon er umiddelbart tydelig fra figuren. For alle tre estimatene ligger det glidende gjennomsnittet bak den lineære trenden, idet laget øker med m. Laget er avstanden mellom modellen og estimatet i tidsdimensjonen. På grunn av lavet undervurderer det bevegelige gjennomsnittet observasjonene ettersom gjennomsnittet øker. Forskjellerens forspenning er forskjellen på en bestemt tid i middelverdien av modellen og middelverdien forutsatt av det bevegelige gjennomsnittet. Forspenningen når gjennomsnittet øker er negativt. For et avtagende middel er forspenningen positiv. Forsinkelsen i tid og bias innført i estimatet er funksjoner av m. Jo større verdien av m. jo større størrelsen på lag og forspenning. For en kontinuerlig økende serie med trend a. verdiene av lag og forspenning av estimatoren av middelet er gitt i ligningene nedenfor. Eksempelkurverne stemmer ikke overens med disse ligningene fordi eksempelmodellen ikke kontinuerlig øker, men det begynner som en konstant, endrer seg til en trend og blir konstant igjen. Også eksempelkurvene påvirkes av støyen. Den bevegelige gjennomsnittlige prognosen for perioder inn i fremtiden er representert ved å flytte kurvene til høyre. Forsinkelsen og forspenningen øker proporsjonalt. Ligningene nedenfor angir lag og forspenning av prognoseperioder i fremtiden sammenlignet med modellparametrene. Igjen, disse formlene er for en tidsserie med en konstant lineær trend. Vi bør ikke bli overrasket over dette resultatet. Den bevegelige gjennomsnittlige estimatoren er basert på antagelsen om konstant gjennomsnitt, og eksemplet har en lineær trend i gjennomsnittet i en del av studieperioden. Siden sanntidsserier sjelden vil adlyde forutsetningene til en hvilken som helst modell, bør vi være forberedt på slike resultater. Vi kan også konkludere fra figuren at variasjonen av støyen har størst effekt for mindre m. Estimatet er mye mer flyktig for det bevegelige gjennomsnittet på 5 enn det bevegelige gjennomsnittet på 20. Vi har de motstridende ønskene om å øke m for å redusere effekten av variabilitet på grunn av støyen, og å redusere m for å gjøre prognosen mer lydhør for endringer i gjennomsnitt. Feilen er forskjellen mellom de faktiske dataene og den forventede verdien. Hvis tidsseriene er virkelig en konstant verdi, er den forventede verdien av feilen null og variansen av feilen består av et begrep som er en funksjon av og et andre begrep som er variansen av støyen. Første term er variansen av gjennomsnittet estimert med en prøve av m observasjoner, forutsatt at data kommer fra en befolkning med konstant gjennomsnitt. Denne termen er minimert ved å gjøre m så stor som mulig. Et stort m gjør prognosen uansvarlig for en endring i den underliggende tidsserien. For å gjøre prognosen lydhør for endringer, ønsker vi m så liten som mulig (1), men dette øker feilvariasjonen. Praktisk prognose krever en mellomverdi. Forecasting with Excel Forecasting-tillegget implementerer de bevegelige gjennomsnittlige formlene. Eksempelet nedenfor viser analysen som ble levert av tillegget for prøvedataene i kolonne B. De første 10 observasjonene er indeksert -9 til 0. Sammenlignet med tabellen over, forskyves periodindeksene med -10. De første ti observasjonene gir oppstartsverdiene for estimatet og brukes til å beregne det bevegelige gjennomsnittet for perioden 0. MA (10) kolonnen (C) viser de beregnede bevegelige gjennomsnittene. Den bevegelige gjennomsnittsparameteren m er i celle C3. Fore (1) kolonne (D) viser en prognose for en periode inn i fremtiden. Forespørselsintervallet er i celle D3. Når prognoseperioden endres til et større tall, blir tallene i Fore-kolonnen flyttet ned. Err-kolonnen (E) viser forskjellen mellom observasjonen og prognosen. For eksempel er observasjonen ved tidspunkt 1 6. Den prognostiserte verdien fra det bevegelige gjennomsnittet ved tid 0 er 11,1. Feilen er da -5,1. Standardavviket og gjennomsnittlig avvik (MAD) beregnes i henholdsvis cellene E6 og E7. Gjennomsnittlig gjennomsnitt Gjennomsnittlig verdi Med konvensjonelle datasett er gjennomsnittverdien ofte den første og en av de mest nyttige, oppsummerte statistikkene for å beregne. Når data er i form av en tidsserie, er seriemengden et nyttig mål, men reflekterer ikke dataens dynamiske natur. Gjennomsnittlige verdier som beregnes over kortere perioder, enten før den nåværende perioden eller sentrert i den nåværende perioden, er ofte mer nyttige. Fordi slike middelverdier vil variere, eller flytte, som den nåværende perioden beveger seg fra tid t 2, t 3. etc. er de kjent som bevegelige gjennomsnitt (Mas). Et enkelt glidende gjennomsnitt er (typisk) det uveide gjennomsnittet av k tidligere verdier. Et eksponentielt vektet glidende gjennomsnitt er i det vesentlige det samme som et enkelt bevegelige gjennomsnitt, men med bidrag til middelvektet av deres nærhet til den nåværende tid. Fordi det ikke er en, men en hel rekke bevegelige gjennomsnittsverdier for en gitt serie, kan settet Mas selv bli plottet på grafer, analysert som en serie, og brukes til modellering og prognoser. En rekke modeller kan bygges ved hjelp av bevegelige gjennomsnitt, og disse er kjent som MA-modeller. Hvis slike modeller er kombinert med autoregressive (AR) modeller, er de resulterende komposittmodellene kjent som ARMA - eller ARIMA-modeller (jeg er for integrert). Enkle bevegelige gjennomsnitt Siden en tidsserie kan betraktes som et sett med verdier, kan t 1,2,3,4, n gjennomsnittet av disse verdiene beregnes. Hvis vi antar at n er ganske stor, og vi velger et heltall k som er mye mindre enn n. vi kan beregne et sett med blokk gjennomsnitt eller enkle bevegelige gjennomsnitt (av rekkefølge k): Hvert mål representerer gjennomsnittet av dataverdiene over et intervall av k observasjoner. Merk at den første mulige MA for ordre k gt0 er den for t k. Mer generelt kan vi slippe det ekstra abonnementet i uttrykkene ovenfor og skrive: Dette sier at estimert gjennomsnitt på tidspunktet t er det enkle gjennomsnittet av den observerte verdien ved tid t og de foregående k -1-trinnene. Hvis det legges vekt på som reduserer bidraget til observasjoner som er lengre bort i tiden, sies det glidende gjennomsnittet å være eksponensielt jevnt. Flytende gjennomsnitt blir ofte brukt som en form for prognoser, hvorved estimert verdi for en serie på tiden t 1, S t1. er tatt som MA for perioden til og med tiden t. f. eks dagens estimat er basert på et gjennomsnitt av tidligere registrerte verdier fram til og med gårdager (for daglige data). Enkle bevegelige gjennomsnitt kan ses som en form for utjevning. I eksemplet som er vist nedenfor, er luftforurensningsdatasettet vist i introduksjonen til dette emnet blitt utvidet med en 7-dagers glidende gjennomsnittlig (MA) - linje, vist her i rødt. Som det ser ut, jevner MA-linjen ut toppene og troughene i dataene og kan være svært nyttig når det gjelder å identifisere trender. Standard forward-beregning formel betyr at de første k -1 datapunktene ikke har noen MA-verdi, men deretter utvider beregningene til det endelige datapunktet i serien. PM10 daglige gjennomsnittsverdier, Greenwich kilde: London Air Quality Network, londonair. org. uk En grunn til å beregne enkle bevegelige gjennomsnitt på måten som er beskrevet er at det gjør det mulig å beregne verdier for alle tidsluker fra tid tk frem til i dag, og Som en ny måling er oppnådd for tid t 1, kan MA for tid t 1 legges til settet som allerede er beregnet. Dette gir en enkel prosedyre for dynamiske datasett. Det er imidlertid noen problemer med denne tilnærmingen. Det er rimelig å argumentere for at gjennomsnittsverdien i løpet av de siste 3 periodene skal være plassert ved tidspunktet t -1, ikke tiden t. og for en MA over et jevnt antall perioder, bør det kanskje ligge midt mellom to tidsintervaller. En løsning på dette problemet er å bruke sentrale MA beregninger, der MA på tidspunktet t er gjennomsnittet av et symmetrisk sett med verdier rundt t. Til tross for det åpenbare meritter, er denne tilnærmingen ikke vanligvis brukt fordi det krever at data er tilgjengelig for fremtidige hendelser, noe som kanskje ikke er tilfelle. I tilfeller der analysen er helt av en eksisterende serie, kan bruk av sentrert Mas være å foretrekke. Enkle bevegelige gjennomsnitt kan betraktes som en form for utjevning, fjerne noen høyfrekvente komponenter i en tidsserie og markere (men ikke fjerne) trender på samme måte som det generelle begrepet digital filtrering. Faktisk er glidende gjennomsnitt en form for lineært filter. Det er mulig å bruke en bevegelig gjennomsnittsberegning til en serie som allerede har blitt utjevnet, dvs. utjevning eller filtrering av en allerede glatt serie. For eksempel, med et bevegelige gjennomsnitt på rekkefølge 2, kan vi betrakte det som beregnet ved hjelp av vekter, så MA ved x 2 0,5 x 1 0,5 x 2. På samme måte MA på x 3 0,5 x 2 0,5 x 3. Hvis vi bruk et andre nivå av utjevning eller filtrering, vi har 0,5 x 2 0,5 x 3 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 dvs. 2-trinns filtrering prosess (eller convolution) har produsert et variabelt vektet symmetrisk glidende gjennomsnitt, med vekter. Flere konvolutter kan produsere ganske komplekse vektede glidende gjennomsnitt, hvorav noen har blitt funnet å være særlig bruk i spesialiserte felt, som for eksempel i livsforsikringsberegninger. Flytte gjennomsnitt kan brukes til å fjerne periodiske effekter dersom det beregnes med periodikkets lengde som kjent. For eksempel, med månedlige data kan sesongvariasjoner ofte fjernes (hvis dette er målet) ved å bruke et symmetrisk 12-måneders glidende gjennomsnitt med alle månedene vektet like, bortsett fra det første og det siste som veies med 12. Dette skyldes at det vil være 13 måneder i den symmetriske modellen (nåværende tid, t. - 6 måneder). Summen er delt med 12. Lignende prosedyrer kan vedtas for en veldefinert periodicitet. Eksponentielt vektede glidende gjennomsnitt (EWMA) Med den enkle glidende gjennomsnittsformelen: Alle observasjoner er likevektede. Hvis vi kalte disse likevektene, alfa t. hver av k-vekter vil være lik 1 k. så summen av vektene ville være 1, og formelen ville være: Vi har allerede sett at flere applikasjoner av denne prosessen resulterer i at vektene varierer. Med eksponentielt vektede glidende gjennomsnitt blir bidraget til middelverdien fra observasjoner som er fjernet i tid, redusert, og derved legges vekt på nyere (lokale) hendelser. I hovedsak er en utjevningsparameter, 0lt al1l, introdusert, og formelen er revidert til: En symmetrisk versjon av denne formelen vil være av formen: Hvis vektene i den symmetriske modellen er valgt som betingelsene i betingelsene for binomial ekspansjonen, (1212) 2q. de vil summe til 1, og når q blir stor, vil omtrentlig normalfordelingen. Dette er en form for kjernevikting, med binomialet som kjernefunksjon. Den to-trinns konvolusjon som er beskrevet i det foregående avsnitt er nettopp dette arrangementet, med q 1, som gir vekter. Ved eksponensiell utjevning er det nødvendig å bruke et sett med vekter som summerer til 1 og som reduserer størrelsen geometrisk. Vektene som brukes er vanligvis av skjemaet: For å vise at disse vektene summerer til 1, vurder utvidelsen av 1 som en serie. Vi kan skrive og utvide uttrykket i parentes ved hjelp av binomialformelen (1- x) s. hvor x (1-) og p -1, som gir: Dette gir da en form for vektet glidende gjennomsnitt av skjemaet: Denne summeringen kan skrives som en tilbakevendingsrelasjon: som forenkler beregningen sterkt og unngår problemet at vektingsregimet bør strengt være uendelig for vektene til summen til 1 (for små verdier av alfa. dette er vanligvis ikke tilfelle). Notasjonen som brukes av ulike forfattere varierer. Noen bruker bokstaven S for å indikere at formelen er i hovedsak en glatt variabel, og skriv: mens kontrollteori litteraturen ofte bruker Z i stedet for S for eksponentielt vektede eller jevnte verdier (se for eksempel Lucas og Saccucci, 1990, LUC1 , og NIST-nettsiden for flere detaljer og arbeidede eksempler). Formlene som er nevnt ovenfor kommer fra Roberts arbeid (1959, ROB1), men Hunter (1986, HUN1) bruker et uttrykk for formen: som kan være mer hensiktsmessig for bruk i noen kontrollprosedyrer. Med alfa 1 er gjennomsnittlig estimering bare dens målte verdi (eller verdien av forrige datapost). Med 0,5 er estimatet det enkle glidende gjennomsnittet for nåværende og tidligere målinger. I prognosemodellene er verdien S t. brukes ofte som estimat eller prognoseverdi for neste tidsperiode, det vil si som estimatet for x på tidspunktet t 1. Dermed har vi: Dette viser at prognosen på tidspunktet t 1 er en kombinasjon av det forrige eksponentielt veide glidende gjennomsnittet pluss en komponent som representerer den veide prediksjonsfeilen, epsilon. på tidspunktet t. Forutsatt at en tidsserie er gitt og det kreves en prognose, er det nødvendig med en verdi for alfa. Dette kan estimeres fra eksisterende data ved å evaluere summen av kvadrert prediksjon feil oppnådd med varierende verdier av alfa for hver t 2,3. sette det første estimatet til å være den første observerte dataværdien, x 1. I kontrollapplikasjoner er verdien av alfa viktig, da den brukes til å bestemme de øvre og nedre kontrollgrensene, og påvirker den forventede gjennomsnittlige kjølelengde (ARL) før disse kontrollgrensene er brutt (under antagelsen om at tidsseriene representerer et sett av tilfeldige, identisk distribuerte uavhengige variabler med vanlig varians). Under disse forholdene er variansen av kontrollstatistikken: (Lucas og Saccucci, 1990): Kontrollgrenser settes vanligvis som faste multipler av denne asymptotiske variansen, f. eks. - 3 ganger standardavviket. Hvis f. eks. Alpha 0,25 og dataene som overvåkes antas å ha en Normal fordeling, N (0,1), når den er i kontroll, vil kontrollgrensene være - 1,134 og prosessen vil nå en eller annen grense i 500 trinn gjennomsnittlig. Lucas og Saccucci (1990 LUC1) utlede ARLene for et bredt spekter av alfaverdier og under ulike forutsetninger ved bruk av Markov Chain-prosedyrer. De tabulerer resultatene, inkludert å gi ARLer når gjennomsnittet av kontrollprosessen har blitt forskjøvet med noen flere av standardavviket. For eksempel, med en 0,5 skift med alfa 0,25 er ARL mindre enn 50 timers trinn. Tilnærmingene beskrevet ovenfor er kjent som enkelt eksponensiell utjevning. ettersom prosedyrene blir brukt en gang til tidsserien, og deretter utføres analyser eller kontrollprosesser på det resulterende glatte datasettet. Hvis datasettet inneholder en trend og sesongkomponenter, kan to - eller tre-trinns eksponensiell utjevning brukes som et middel til å fjerne (eksplisitt modellering) disse effektene (se videre avsnittet om prognose nedenfor og NIST-arbeidet). CHA1 Chatfield C (1975) Analyse av Times Series: Teori og praksis. Chapman og Hall, London HUN1 Hunter J S (1986) Det eksponentielt vektede glidende gjennomsnittet. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Eksponentielt vektede Flytte Gjennomsnittlige kontrollsystemer: Egenskaper og forbedringer. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolldiagramtester basert på geometriske bevegelige gjennomsnitt. Technometrics, 1, 239-250Time Series Analyse og Forecasting Mange typer data samles over tid. Aksjekurser, salgsvolum, rente og kvalitetsmålinger er typiske eksempler. På grunn av dataens sekvensielle karakter, er det nødvendig med spesielle statistiske teknikker som tar hensyn til dataens dynamiske natur. Statpoint Technologies produkter gir flere prosedyrer for å håndtere tidsseriedata: Statgraphics Web Services Run Charts Kjør diagrammet prosedyre plotter dataene i en enkelt numerisk kolonne. Det antas at dataene er sekvensielle i naturen, som består av enkeltpersoner (en måling tatt i hver tidsperiode) eller undergrupper (grupper av målinger i hver tidsperiode). Tester utføres på dataene for å avgjøre om de representerer en tilfeldig serie, eller om det er tegn på blanding, klynging, svingning eller trending. Beskrivende metoder Karakterisering av en tidsserie innebærer å estimere ikke bare en gjennomsnittlig og standardavvik, men også korrelasjonene mellom observasjoner skilt i tid. Verktøy som autokorrelasjonsfunksjonen er viktige for å vise måten hvor fortiden fortsetter å påvirke fremtiden. Andre verktøy, som periodogrammet, er nyttige når dataene inneholder oscillasjoner ved bestemte frekvenser. Når en tidsserie inneholder en stor mengde støy, kan det være vanskelig å visualisere noen underliggende trend. Ulike lineære og ikke-lineære smoothers kan brukes til å skille signalet fra støyen. Sesongnedbrytning Når dataene har en sterk sesongmessig effekt, er det ofte nyttig å skille sesongmessigheten fra de andre komponentene i tidsserien. Dette gjør det mulig å estimere sesongmessige mønstre og å generere sesongjusterte data. Forecasting (User Specified Model) Et vanlig mål for tidsserieanalyse er å ekstrapolere tidligere oppførsel i fremtiden. STATGRAPHICS forecasting prosedyrer inkluderer tilfeldige turer, bevegelige gjennomsnitt, trendmodeller, enkel, lineær, kvadratisk og sesongmessig eksponensiell utjevning, og ARIMA parametriske tidsseriemodeller. Brukere kan sammenligne ulike modeller ved å holde prøver på slutten av tidsseriene for validering. Forutsigelse (automatisk modellvalg) Hvis ønskelig, kan brukere velge å la STATGRAPHICS velge en prognosemodell for dem ved å sammenligne flere modeller og automatisk plukke modellen som maksimerer et spesifisert informasjonskriterium. De tilgjengelige kriteriene er basert på den gjennomsnittlige kvadratprognosefeilen, straffet for antall modellparametere som må estimeres fra dataene. En vanlig bruk av denne prosedyren i Six Sigma er å velge en ARIMA-modell som skal basere et ARIMA kontrollkort, som i motsetning til de fleste kontrolldiagrammer ikke tar utgangspunkt i uavhengighet mellom suksessive målinger. I slike tilfeller kan analytikeren velge å bare vurdere modeller av ARMA (p, p-1) form, hvilken teori foreslår kan karakterisere mange dynamiske prosesser.
Comments
Post a Comment