Sunday, 13 August 2017

Glidande Medelvärde Modell Autokorrelation Funktion


Syfte: Kontrollera Randomness Autocorrelation plots (Box och Jenkins, s. 28-32) är ett vanligt använt verktyg för att kontrollera slumpmässighet i en dataset. Denna slumpmässighet bestäms genom att beräkna autokorrelationer för datavärden vid olika tidsfördröjningar. Om slumpmässigt skulle sådana autokorrelationer vara nära noll för alla tidsfördröjningar. Om icke-slumpmässigt, kommer en eller flera av autokorrelationerna att vara signifikant icke-noll. Dessutom används autokorrelationsplottor i modellidentifieringssteget för Box-Jenkins autoregressiva, glidande genomsnittliga tidsseriemodeller. Autokorrelation är bara en åtgärd av slumpmässighet Observera att okorrelerade inte nödvändigtvis betyder slumpmässig. Data som har betydande autokorrelation är inte slumpmässig. Däremot kan data som inte visar signifikant autokorrelation fortfarande uppvisa icke-slumpmässighet på andra sätt. Autokorrelation är bara ett mått på slumpmässighet. I samband med modellvalidering (vilket är den primära typen av slumpmässighet vi dicuss i Handboken) är kontroll av autokorrelation typiskt ett tillräckligt slumpmässigt test eftersom resterna från en dålig monteringsmodell tenderar att visa icke-subtil slumpmässighet. Vissa tillämpningar kräver dock en mer bestämd bestämning av slumpmässighet. I dessa fall tillämpas ett batteri av test, som kan innefatta kontroll av autokorrelation, eftersom data kan vara slumpmässigt på många olika och ofta subtila sätt. Ett exempel på var en mer noggrann kontroll för slumpmässighet behövs skulle vara att testa slumptalsgeneratorer. Provplott: Autokorrelationer ska vara nära noll för slumpmässighet. Sådan är inte fallet i det här exemplet och sålunda slår slumpmässigt antagande bort. Denna provautokorrelationsplot visar att tidsserierna inte är slumpmässiga utan snarare en hög grad av autokorrelation mellan intilliggande och närliggande intilliggande observationer. Definition: r (h) mot h Autokorrelationsplottor bildas av vertikal axel: Autokorrelationskoefficient där Ch är autokovariansfunktionen och C0 är variansfunktionen Observera att R h är mellan -1 och 1. Observera att vissa källor kan använda Följande formel för autokovariansfunktionen Även om denna definition har mindre förspänning har formuleringen (1N) några önskvärda statistiska egenskaper och är den form som oftast används i statistiklitteraturen. Se sidorna 20 och 49-50 i Chatfield för detaljer. Horisontell axel: Tidsfördröjning h (h 1, 2, 3.) Ovanstående rad innehåller också flera horisontella referenslinjer. Mellanlinjen är noll. De övriga fyra linjerna är 95 och 99 konfidensband. Observera att det finns två distinkta formler för att skapa förtroendeband. Om autokorrelationsplanen används för att testa för slumpmässighet (dvs det finns inget tidsberoende i data) rekommenderas följande formel: där N är provstorleken, är z den kumulativa fördelningsfunktionen för normal normalfördelning och (alfa ) Är signifikansnivån. I detta fall har konfidensbanden en fast bredd som beror på provstorleken. Detta är den formel som användes för att generera förtroendeband i ovanstående diagram. Autocorrelation plots används också i modellidentifieringssteget för montering av ARIMA-modeller. I detta fall antas en glidande genomsnittsmodell för data och följande förtroendeband ska genereras: där k är lagret, N är provstorleken, z är den kumulativa fördelningsfunktionen för normal normalfördelning och (alfa) är signifikansnivån. I det här fallet ökar konfidensbanden när fördröjningen ökar. Autokorrelationsplotten kan ge svar på följande frågor: Är data slumpmässigt En observation relaterad till en närliggande observation Är en observation relaterad till en observation två gånger borttagen (etc.) Är den observerade tidsserien vitt brus Är de observerade tidssekvenserna sinusformiga Är den observerade tidsserien autoregressiv Vad är en lämplig modell för de observerade tidsserierna Är modellen giltig och tillräcklig Är formuläret ssqrt giltigt Betydelse: Säkerställa validitet av tekniska slutsatser Randomness (tillsammans med fast modell, fast variation och fast distribution) är Ett av de fyra antaganden som typiskt ligger till grund för alla mätprocesser. Slumpmässigt antagande är kritiskt viktigt av följande tre anledningar: De flesta standardstatistikprov beror på slumpmässighet. Giltigheten av test slutsatserna är direkt kopplad till giltigheten av slumpmässigt antagande. Många vanligen använda statistiska formler beror på slumpmässigt antagande, den vanligaste formeln är formeln för bestämning av standardavvikelsen för provmedlet: där s är standardavvikelsen för data. Även om det är tungt använd, har resultaten från att använda denna formel inget värde om inte slumpmässigt antagande innehas. För univariata data är standardmodellen Om data inte är slumpmässiga, är denna modell felaktig och ogiltig, och uppskattningarna för parametrarna (som konstanten) blir oanständiga och ogiltiga. Kort sagt, om analytikern inte kontrollerar slumpmässighet, blir giltigheten för många av de statistiska slutsatserna misstänkt. Autocorrelation plot är ett utmärkt sätt att kolla på sådan slumpmässighet.2.2 Delvis autokorrelationsfunktion (PACF) Utskriftsvänlig version Generellt är en partiell korrelation en villkorlig korrelation. Det är korrelationen mellan två variabler under antagandet att vi vet och tar hänsyn till värdena för en annan uppsättning variabler. Tänk på ett regressionskontext där y-svarvariabeln och x 1 är. x 2. och x 3 är prediktorvariabler. Den partiella korrelationen mellan y och x 3 är korrelationen mellan de bestämda variablerna med hänsyn till hur både y och x 3 är relaterade till x 1 och x 2. Vid regression kunde denna partiella korrelation hittas genom att korrelera resterna från två olika regressioner: (1) Regression där vi förutspår y från x 1 och x 2. (2) regression där vi förutspår x 3 från x 1 och x 2. I grund och botten korrelerar vi de delar av y och x 3 som inte förutses av x 1 och x 2. Mer formellt kan vi definiera den partiella korrelationen som just beskrivits som Observera att det här också är hur parametrarna för en regressionsmodell tolkas. Tänk på skillnaden mellan att tolka regressionsmodellerna: (y beta0 beta1x2 text y beta0beta1xbeta2x2) I den första modellen kan 1 tolkas som det linjära beroendet mellan x 2 och y. I den andra modellen skulle 2 tolkas som det linjära beroendet mellan x 2 och y MED beroendet mellan x och y berodde redan. För en tidsserie definieras den partiella autokorrelationen mellan x t och x t-h som den villkorliga korrelationen mellan x t och x t-h. villkorad av x t-h1. x t-1. Uppsättningen observationer som kommer mellan tidpunkterna t och th. Den 1: e ordnade partiella autokorrelationen definieras till att motsvara 1: e ordningsautokorrelationen. Den 2: e ordningen (fördröjning) partiell autokorrelation är Detta är korrelationen mellan värdena två tidsperioder, beroende på kunskap om värdet däremellan. (Förresten kommer de två avvikelserna i nämnaren att vara lika med varandra i en stationär serie.) Den tredje ordningen (fördröjning) delvis autokorrelation är Och så vidare, för varje lagring. Typiskt används matrismanipuleringar som har att göra med kovariansmatrisen hos en multivariär fördelning för att bestämma uppskattningar av de partiella autokorrelationerna. Några användbara fakta om PACF - och ACF-mönster Identifiering av en AR-modell görs oftast bäst med PACF. För en AR-modell stängs den teoretiska PACF förbi modellens ordning. Uttrycket stängs av betyder att i teorin är de partiella autokorrelationerna lika med 0 bortom den punkten. Sätt på ett annat sätt, antalet icke-nollpartiella autokorrelationer ger AR-modellens ordning. Med modellens ordning menar vi den mest extrema fördröjningen av x som används som en prediktor. Exempel. I lektion 1.2 identifierade vi en AR (1) modell för en tidsserie av årliga antal globala jordbävningar med en seismisk storlek större än 7,0. Följande är provet PACF för denna serie. Observera att det första lagringsvärdet är statistiskt signifikant, medan partiella autokorrelationer för alla andra lags inte är statistiskt signifikanta. Detta föreslår en möjlig AR (1) modell för dessa data. Identifiering av en MA-modell görs oftast bäst med ACF istället för PACF. För en MA-modell stänger den teoretiska PACF inte av, men i stället lutar sig mot 0 på något sätt. Ett tydligare mönster för en MA-modell finns i ACF. ACF kommer att ha autokorrelationer utan noll endast vid lag som är inblandade i modellen. Lektion 2.1 inkluderade följande exempel ACF för en simulerad MA (1) - serie. Observera att den första lagautokorrelationen är statistiskt signifikant medan alla efterföljande autokorrelationer inte är. Detta föreslår en möjlig MA (1) modell för data. Teori notering. Modellen som användes för simuleringen var x t 10 w t 0,7 w t-1. I teorin var första lagens autokorrelation 1 (1 1 2) .7 (1.7 2) .4698 och autokorrelationer för alla andra lags 0. Den underliggande modellen som användes för MA (1) - imuleringen i lektion 2.1 var xt 10 vikt 0,7 w -1. Följande är den teoretiska PACF (partiell autokorrelation) för den modellen. Observera att mönstret gradvis minskar till 0. R-not: Den justerade PACF skapades i R med dessa två kommandon: ma1pacf ARMAacf (ma c (.7), lag. max 36, pacfTRUE) plot (ma1pacf, typh, huvudteoretisk PACF av MA (1) med theta 0.7) Navigering2.1 Flytta genomsnittliga modeller (MA modeller) Tidsseriemodeller som kallas ARIMA-modeller kan innefatta autoregressiva termer och eller rörliga genomsnittsvillkor. I vecka 1 lärde vi oss en autoregressiv term i en tidsseriemodell för variabeln x t är ett fördröjt värde av x t. Till exempel är en lag 1-autoregressiv term x t-1 (multiplicerad med en koefficient). Denna lektion definierar glidande medelvärden. En glidande medelfrist i en tidsseriemodell är ett tidigare fel (multiplicerat med en koefficient). Låt (wt overset N (0, sigma2w)), vilket betyder att w t är identiskt oberoende fördelade, var och en med en normal fördelning med medelvärde 0 och samma varians. Den första ordningens rörliga genomsnittsmodell, betecknad med MA (1) är (xt mu wt theta1w) Den andra ordens rörliga genomsnittsmodellen, betecknad med MA (2) är (xt mu wt theta1w theta2w) , betecknad med MA (q) är (xt mu wt theta1w theta2w prickar thetaqw) Anm. Många läroböcker och programvara definierar modellen med negativa tecken före villkoren. Detta ändrar inte de allmänna teoretiska egenskaperna hos modellen, även om den ändrar de algebraiska tecknen på uppskattade koefficientvärden och (unsquared) termer i formler för ACF och variationer. Du måste kontrollera din programvara för att kontrollera om negativa eller positiva tecken har använts för att korrekt beräkna den beräknade modellen. R använder positiva tecken i sin underliggande modell, som vi gör här. Teoretiska egenskaper hos en tidsserie med en MA (1) modell Observera att det enda nonzero-värdet i teoretisk ACF är för lag 1. Alla andra autokorrelationer är 0. Således är ett prov ACF med en signifikant autokorrelation endast vid lag 1 en indikator på en möjlig MA (1) modell. För intresserade studenter är bevis på dessa egenskaper en bilaga till denna handout. Exempel 1 Antag att en MA (1) modell är x t10 w t, 7 w t-1. Var (överskridande N (0,1)). Således är koefficienten 1 0,7. Den teoretiska ACF ges av En plot av denna ACF följer. Den visade ploten är den teoretiska ACF för en MA (1) med 1 0,7. I praktiken ger ett prov vanligen vanligtvis ett så tydligt mönster. Med hjälp av R simulerade vi n 100 provvärden med hjälp av modellen x t 10 w t .7 w t-1 där vikt N (0,1). För denna simulering följer en tidsserieplot av provdata. Vi kan inte berätta mycket från denna plot. Provet ACF för den simulerade data följer. Vi ser en spik vid lag 1 följt av allmänt icke-signifikanta värden för lags över 1. Observera att provet ACF inte matchar det teoretiska mönstret för den underliggande MA (1), vilket är att alla autokorrelationer för lags över 1 kommer att vara 0 . Ett annat prov skulle ha en något annorlunda prov ACF som visas nedan, men skulle troligen ha samma breda funktioner. Terapeutiska egenskaper hos en tids serie med en MA (2) modell För MA (2) modellen är teoretiska egenskaper följande: Observera att de enda nonzero-värdena i teoretisk ACF är för lags 1 och 2. Autokorrelationer för högre lags är 0 . En ACF med signifikanta autokorrelationer vid lags 1 och 2, men icke-signifikanta autokorrelationer för högre lags indikerar en möjlig MA (2) modell. Iid N (0,1). Koefficienterna är 1 0,5 och 2 0,3. Eftersom det här är en MA (2), kommer den teoretiska ACF endast att ha nonzero-värden endast vid lags 1 och 2. Värdena för de två icke-oberoende autokorrelationerna är A-plot av den teoretiska ACF följer. Såsom nästan alltid är fallet kommer provdata inte att fungera så perfekt som teori. Vi simulerade n 150 provvärden för modellen x t 10 w t .5 w t-1 .3 w t-2. Var vet N (0,1). Tidsserierna av data följer. Som med tidsserien för MA (1) provdata kan du inte berätta mycket för det. Provet ACF för den simulerade data följer. Mönstret är typiskt för situationer där en MA (2) modell kan vara användbar. Det finns två statistiskt signifikanta spikar vid lags 1 och 2 följt av icke-signifikanta värden för andra lags. Observera att provet ACF på grund av provtagningsfel inte exakt matchade det teoretiska mönstret. ACF för General MA (q) Modeller En egenskap hos MA (q) modeller är generellt att det finns icke-oberoende autokorrelationer för de första q-lagsna och autokorrelationerna 0 för alla lags gt q. Icke-unikhet av samband mellan värden på 1 och (rho1) i MA (1) Modell. I MA (1) - modellen, för något värde av 1. Den ömsesidiga 1 1 ger samma värde. Använd exempelvis 0,5 för 1. Och använd sedan 1 (0,5) 2 för 1. Du får (rho1) 0,4 i båda fallen. För att tillfredsställa en teoretisk restriktion kallad invertibility. Vi begränsar MA (1) - modellerna till att ha värden med absolutvärdet mindre än 1. I exemplet just givet är 1 0,5 ett tillåtet parametervärde, medan 1 10,5 2 inte kommer att. Inverterbarhet av MA-modeller En MA-modell sägs vara omvändbar om den är algebraiskt ekvivalent med en konvergerande oändlig ordning AR-modell. Med konvergeringen menar vi att AR-koefficienterna minskar till 0 när vi flyttar tillbaka i tiden. Omvändbarhet är en begränsning programmerad i tidsserierprogramvara som används för att uppskatta koefficienterna för modeller med MA-termer. Det är inte något vi söker efter i dataanalysen. Ytterligare information om invertibilitetsbegränsningen för MA (1) - modeller ges i bilagan. Avancerad teorinotation. För en MA (q) modell med en specificerad ACF finns det endast en inverterbar modell. Det nödvändiga villkoret för invertibilitet är att koefficienterna har värden så att ekvationen 1- 1 y-. - q y q 0 har lösningar för y som faller utanför enhetens cirkel. R-kod för exemplen I exempel 1 ritade vi den teoretiska ACF av modellen x t10 wt. 7w t-1. och sedan simulerade n 150 värden från denna modell och plottade provtidsserierna och provet ACF för de simulerade data. R-kommandona användes för att plotta den teoretiska ACF: acfma1ARMAacf (mac (0.7), lag. max10) 10 satser av ACF för MA (1) med theta1 0,7 lags0: 10 skapar en variabel som heter lags som sträcker sig från 0 till 10. plot (lags, acfma1, xlimc (1,10), ylabr, typh, huvud ACF för MA (1) med theta1 0,7) abline (h0) adderar en horisontell axel till plottet Det första kommandot bestämmer ACF och lagrar det i ett objekt Namnet acfma1 (vårt val av namn). Plot-kommandot (3: e kommandot) tomter jämförs med ACF-värdena för lags 1 till 10. ylab-parametern markerar y-axeln och huvudparametern lägger en titel på plotten. För att se de numeriska värdena för ACF använder du bara kommandot acfma1. Simuleringen och tomterna gjordes med följande kommandon. xcarima. sim (n150, lista (mac (0.7))) Simulerar n 150 värden från MA (1) xxc10 lägger till 10 för att göra medelvärdet 10. Simulering standardvärden betyder 0. plot (x, typeb, mainSimulated MA (1) data) acf (x, xlimc (1,10), mainACF för simulerad provdata) I exempel 2 ritade vi teoretisk ACF av modellen xt 10 wt5 w t-1, 3 w t-2. och sedan simulerade n 150 värden från denna modell och plottade provtidsserierna och provet ACF för de simulerade data. De R-kommandon som användes var acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 plot (lags, acfma2, xlimc (1,10), ylabr, typh, huvud ACF för MA (2) med theta1 0,5, theta20.3) abline (h0) xcarima. sim (n150, lista (mac (0,5, 0,3)) xxc10 plot (x, typeb, huvudsimulerad MA (2) serie) acf (x, xlimc (1,10) mainACF för simulerade MA (2) data) Bilaga: Bevis för egenskaper hos MA (1) För intresserade studenter, här är bevis för teoretiska egenskaper för MA (1) modellen. Varians: (text (xt) text (mu wt theta1 w) 0 text (wt) text (theta1w) sigma2w theta21sigma2w (1theta21) sigma2w) När h 1, föregående uttryck 1 w 2. För varje h 2, föregående uttryck 0 . Orsaken är att, per definition av vägtons oberoende. E (w k w j) 0 för någon k j. Vidare, eftersom w t har medelvärdet 0, E (wjwj) E (wj2) w2. För en tidsserie, Applicera detta resultat för att få ACF ges ovan. En inverterbar MA-modell är en som kan skrivas som en oändlig ordning AR-modell som konvergerar så att AR-koefficienterna konvergerar till 0 när vi rör sig oändligt tillbaka i tiden. Visa väl omvändbarhet för MA (1) modellen. Vi ersätter sedan förhållandet (2) för w t-1 i ekvation (1) (3) (zt wt theta1 (z-tetww) wt theta1z-tet2w) Vid tid t-2. Ekvation (2) blir vi då ersättningsförhållande (4) för w t-2 i ekvation (3) (zt wt theta1z-teteta21w wt theta1z-teteta21 (z-tetww) wt theta1z-theta12z theta31w) Om vi ​​skulle fortsätta Oändligt), skulle vi få oändlig ordning AR-modellen (zt wt theta1z-theta21z theta31z-tetaka41z punkter) Observera dock att om koefficienterna som multiplicerar lagren av z ökar (oändligt) i storlek när vi flyttar tillbaka i tid. För att förhindra detta behöver vi 1 lt1. Detta är förutsättningen för en inverterbar MA (1) modell. Oändlig ordning MA-modell I vecka 3 ser du att en AR (1) - modell kan konverteras till en oändlig ordning MA-modell: (xt - mu wt phi1w phi21w prickar phik1 w dots sum phij1w) Denna summering av tidigare vita ljudvillkor är känd Som kausalrepresentation av en AR (1). Med andra ord är x t en speciell typ av MA med ett oändligt antal termer som går tillbaka i tiden. Detta kallas en oändlig ordning MA eller MA (). En ändlig ordning MA är en oändlig ordning AR och någon ändlös ordning AR är en oändlig ordning MA. Minns i vecka 1 noterade vi att ett krav på en stationär AR (1) är att 1 lt1. Låter beräkna Var (x t) med hjälp av kausalrepresentationen. Det här sista steget använder ett grundläggande faktum om geometriska serier som kräver (phi1lt1) annars skiljer serien. NavigationTime Series analys tsa statsmodels. tsa innehåller modellklasser och funktioner som är användbara för tidsserieanalys. Detta omfattar för närvarande univariate autoregressive modeller (AR), vektorautoregressiva modeller (VAR) och univariate autoregressive moving average models (ARMA). Den innehåller också beskrivande statistik för tidsserier, till exempel autokorrelation, partiell autokorrelationsfunktion och periodogram, samt de motsvarande teoretiska egenskaperna hos ARMA eller relaterade processer. Det innehåller också metoder för att arbeta med autoregressiva och glidande medellagspolynomier. Dessutom finns relaterade statistiska tester och några användbara hjälpfunktioner tillgängliga. Uppskattningen görs antingen med exakt eller villkorad maximal sannolikhet eller villkorlig minst kvadrater, antingen med hjälp av Kalman Filter eller direkta filter. För närvarande måste funktioner och klasser importeras från motsvarande modul, men huvudklasserna kommer att finnas tillgängliga i namnmodellen statsmodels. tsa. Modulstrukturen ligger inom statsmodels. tsa är stattools. empiriska egenskaper och test, acf, pacf, granger-causality, adf-enhet root test, ljung-box test och andra. armodel. univariate autoregressive process, uppskattning med villkorlig och exakt maximal sannolikhet och villkorlig minst kvadratisk arimamodel. Univariate ARMA-processen, uppskattning med villkorlig och exakt maximal sannolikhet och villkorlig minst kvadrater vektorar, var. vektorautoregressiva process (VAR) uppskattningsmodeller, impulsresponsanalys, prognosfelvariationer, nedbrytningar och datavisningsverktyg kalmanf. Uppskattningsklasser för ARMA och andra modeller med exakt MLE med Kalman Filter armaprocess. egenskaper för arma-processer med givna parametrar, detta inkluderar verktyg för att konvertera mellan ARMA, MA och AR-representation samt acf, pacf, spektral densitet, impulsresponsfunktion och liknande sandbox. tsa. fftarma. liknar armaprocess men arbetar i frekvensdomän tsatools. Ytterligare hjälparfunktioner, för att skapa arrays av fördröjda variabler, konstruera regressorer för trend, detrend och liknande. filter. hjälpfunktion för filtrering av tidsserier Vissa ytterligare funktioner som också är användbara för tidsserieanalys finns i andra delar av statistikmodeller, till exempel ytterligare statistiska tester. Vissa relaterade funktioner finns också i matplotlib, nitime och scikits. talkbox. Dessa funktioner är utformade mer för användning vid signalbehandling där längre tidsserier är tillgängliga och arbetar oftare i frekvensdomänen. Beskrivande statistik och test stattools. acovf (x, unbiased, demean, fft)

No comments:

Post a Comment