Statistikoje nukrypimas arba „nuokrypis“yra atskaitos taškas, kuris labai toli nukrypsta nuo bet kurio kito imties ar atskaitos taško duomenų bazės (atskaitos taškų rinkinys vadinamas duomenimis). Dažnai atskaitos taško rinkinio nuokrypis gali būti įspėjimas statistikui apie neatitikimą ar eksperimentinę klaidą atliekant matavimus, dėl kurių statistikas gali pašalinti nuokrypį nuo atskaitos taško rinkinio. Jei statistikas pašalina nuokrypius nuo atskaitos taško, tyrimo išvados gali būti labai skirtingos. Todėl, norint užtikrinti teisingą statistinių duomenų rinkinio supratimą, labai svarbu žinoti, kaip apskaičiuoti ir analizuoti nukrypimus.
Žingsnis
1 žingsnis. Sužinokite, kaip nustatyti potencialiai neįprastus atskaitos taškus
Prieš nuspręsdami, ar pašalinti pašalinius atskaitos taškus iš atskaitos taškų rinkinio, ar ne, žinoma, turime nustatyti, kurie atskaitos taškai gali tapti išskirtiniais. Apskritai, nuokrypis yra atskaitos taškas, kuris labai atsiriboja nuo kitų vieno atskaitos taško rinkinio duomenų taškų - kitaip tariant, nukrypimas yra „už kitų ribų“ribų. Paprastai duomenų lentelėje arba (ypač) diagramoje lengva aptikti nukrypimus. Jei vienas atskaitos taškų rinkinys yra vizualiai aprašytas naudojant grafiką, išeities taškas bus „labai toli“nuo kitų atskaitos taškų. Jei, pavyzdžiui, dauguma atskaitos taškų rinkinio atskaitos taškų sudaro tiesią liniją, pašalinis atskaitos taškas pagrįstai nebus aiškinamas kaip formuojantis šią liniją.
Pažvelkime į duomenų bazę, atspindinčią 12 skirtingų objektų temperatūrą kambaryje. Jei 11 objektų temperatūra yra apie 70 Farenheito (21 laipsnis pagal Celsijų), o 12 -ojo objekto, orkaitės, temperatūra yra 300 Farenheito (150 laipsnių Celsijaus), iš karto matyti, kad labai tikėtina, kad orkaitės temperatūra bus pašalinis
Žingsnis 2. Sureguliuokite atskaitos taškus aibėje nuo mažiausių iki aukščiausių
Pirmasis žingsnis, norint apskaičiuoti atskaitos taškų aibės nuokrypius, yra rasti to atskaitos taško rinkinio mediana (vidutinė vertė). Ši užduotis tampa labai paprasta, jei atskaitos taškų rinkinio atskaitos taškai yra išdėstyti nuo mažiausios iki didžiausios. Taigi, prieš tęsdami, surinkite atskaitos taškus į vieną tokį atskaitos taškų rinkinį.
Tęskime aukščiau pateiktą pavyzdį. Tai yra mūsų duomenų bazės rinkinys, atspindintis kelių objektų temperatūrą kambaryje: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jei atskaitos taškus išdėstysime nuo žemiausio iki aukščiausio, atskaitos taškų tvarka bus tokia: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
3 žingsnis. Apskaičiuokite atskaitos taško vidurkį
Atskaitos taško rinkinio mediana yra atskaitos taškas, kai kita atskaitos taško pusė yra aukščiau to nulinio taško, o likusi pusė yra žemiau jo - iš esmės tas atskaitos taškas yra atskaitos taško rinkinio „viduryje“. Jei atskaitos taškų rinkinio atskaitos taškų skaičius yra nelyginis, tai labai lengva rasti - mediana yra tas atskaitos taškas, kurio viršuje ir apačioje yra tas pats skaičius. Tačiau, jei atskaitos taškų rinkinio atskaitos taškų skaičius yra lygus, tada, kadangi nė vienas atskaitos taškas netelpa viduryje, viduryje esantys du nuliniai taškai yra apskaičiuojami kaip mediana. Reikėtų pažymėti, kad apskaičiuojant nuokrypius, mediana paprastai priskiriama kintamajam Q2-ni, nes Q2 yra tarp Q1 ir Q3, apatinio ir viršutinio kvartilio, apie kurį mes aptarsime vėliau.
- Negalima painioti su atskaitos taškų rinkiniu, kai atskaitos taškų skaičius yra lygus-2 vidurinių atskaitos taškų vidurkis dažnai grąžina skaičių, kurio nėra pačiame atskaitos taškų rinkinyje-tai gerai. Tačiau, jei 2 viduriniai atskaitos taškai yra vienodi, vidurkis, žinoma, taip pat bus tas pats, o tai taip pat gerai.
- Aukščiau pateiktame pavyzdyje turime 12 atskaitos taškų. 2 viduriniai atskaitos taškai yra 6 ir 7 atskaitos taškai-atitinkamai 70 ir 71. Taigi, mūsų duomenų bazės rinkinio mediana yra šių 2 skaičių vidurkis: ((70 + 71) / 2), = 70.5.
Žingsnis 4. Apskaičiuokite apatinį kvartilį
Ši vertė, kurią mes pateikiame kintamajam Q1, yra atskaitos taškas, kuris sudaro 25 procentus (arba ketvirtadalį) atskaitos taškų. Kitaip tariant, tai yra atskaitos taškas, padalijantis į nulį nuo vidurkio. Jei atskaitos taškų, esančių žemiau medianos, skaičius yra lygus, norėdami rasti pirmąjį Q1, turite vėl vidurkį nustatyti 2 atskaitos taškus viduryje, lygiai taip pat, kaip ir pačią mediana.
Mūsų pavyzdyje yra 6 atskaitos taškai, esantys virš vidurkio, ir 6 atskaitos taškai, esantys žemiau vidurio. Tai reiškia, kad norėdami rasti apatinį kvartilį, turėsime vidurkinti 2 atskaitos taškus, esančius 6 atskaitos taškų viduryje žemiau medianos. 3 ir 4 atskaitos taškai, esantys 6 atskaitos taškais žemiau medianos, yra 70. Taigi, vidurkis yra ((70 + 70) / 2), = 70. 70 tampa mūsų Q1.
Žingsnis 5. Apskaičiuokite viršutinį kvartilį
Ši reikšmė, kurią suteikiame kintamajam Q3, yra atskaitos taškas, ant kurio yra 25 procentai atskaitos taškų rinkinio atskaitos taškų. Rasti Q3 yra beveik tas pats, kas rasti Q1, išskyrus tai, kad šiuo atveju mes žiūrime į atskaitos taškus virš vidurkio, o ne žemiau vidurkio.
Tęsiant aukščiau pateiktą pavyzdį, 2 atskaitos taškai 6 atskaitos taškų viduryje virš medianos yra 71 ir 72. Šių 2 atskaitos taškų vidurkis yra ((71 + 72)/2), = 71, 5. 71, 5 yra mūsų 3 ketvirtis.
Žingsnis 6. Raskite atstumą tarp kvartilių
Dabar, kai radome Q1 ir Q3, turime apskaičiuoti atstumą tarp šių dviejų kintamųjų. Atstumas nuo Q1 iki Q3 randamas atėmus Q1 iš Q3. Vertės, gautos interkvartiliniams atstumams, yra labai svarbios apibrėžiant nenustatytų atskaitos taškų ribas jūsų atskaitos taškų rinkinyje.
- Mūsų pavyzdyje mūsų Q1 ir Q3 vertės yra 70 ir 71, 5. Norėdami rasti tarpkvartilinį atstumą, atimame Q3 - Q1 = 71,5 - 70 = 1, 5.
- Reikėtų pažymėti, kad tai taip pat tiesa, net jei Q1, Q3 arba abu yra neigiami skaičiai. Pvz., Jei mūsų Q1 vertė būtų -70, mūsų teisingas tarpkvartilinis atstumas būtų 71,5 -(-70) = 141, 5.
Žingsnis 7. Raskite „vidinę tvorą“atskaitos taškų rinkinyje
Nuokrypiai randami tikrinant, ar atskaitos taškas nepatenka į skaičių ribas, vadinamas „vidine tvora“ir „išorine tvora“. Atskaitos taškas, kuris nepatenka į atskaitos taško rinkinio vidinę tvorą, vadinamas „nedideliu nuokrypiu“, o atskaitos taškas, kuris nepatenka į išorinę tvorą, vadinamas „pagrindiniu nukrypimu“. Norėdami rasti vidinę tvorą savo atskaitos taške, pirmiausia padauginkite tarpkvartilinį atstumą iš 1, 5. Tada pridėkite rezultatą iš Q3 ir taip pat atimkite jį iš Q1. Dvi gautos vertės yra vidinės jūsų atskaitos taško ribos.
-
Mūsų pavyzdyje tarpkvartilinis atstumas yra (71,5–70) arba 1,5. Padauginkite 1,5 iš 1,5, o tai yra 2,25. Pridedame šį skaičių prie Q3 ir atimame Q1 pagal šį skaičių, kad rastume vidinės tvoros ribas taip:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Taigi, mūsų vidinės tvoros ribos yra 67, 75 ir 73, 75.
-
Mūsų atskaitos taškų rinkinyje tik krosnies temperatūra, 300 Fahrenheit, yra už šių ribų, todėl šis atskaitos taškas yra nedidelis nukrypimas. Tačiau mes vis dar nepaskaičiavome, ar ši temperatūra yra reikšminga nuokrypis, todėl nedarykite skubotų išvadų, kol neatliksime savo skaičiavimų.
Žingsnis 8. Raskite „išorinę tvorą“atskaitos taškų rinkinyje
Tai daroma taip pat, kaip ir vidinės tvoros radimas, išskyrus tai, kad tarpkvartilinis atstumas padauginamas iš 3, o ne 1,5. Tada rezultatas pridedamas prie Q3 ir atimamas iš Q1, kad būtų nustatyta viršutinė ir apatinė išorinės tvoros ribos.
-
Mūsų pavyzdyje padauginus tarpkvartilinį atstumą iš 3, gaunama (1, 5 x 3) arba 4, 5. Išorinės tvoros ribas randame taip pat, kaip ir anksčiau:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Išorinės tvoros ribos yra 65,5 ir 76.
-
Atskaitos taškai, esantys už išorinės tvoros ribų, vadinami pagrindiniais nukrypimais. Šiame pavyzdyje krosnies temperatūra, 300 Farenheito laipsnių, aiškiai yra už išorinės tvoros ribų, todėl šis atskaitos taškas „neabejotinai“yra pagrindinis nukrypimas.
9. Žingsnis 9. Naudokite kokybinį sprendimą, kad nustatytumėte, ar „atmesti“nepageidaujamus duomenis
Naudojant aukščiau aprašytą metodą, galima nustatyti, ar atskaitos taškas yra nedidelis atskaitos taškas, pagrindinis atskaitos taškas, ar apskritai nėra pašalinis. Tačiau nesuklyskite - radę atskaitos tašką kaip atributą tik pažymi, kad tas atskaitos taškas yra „kandidatas“, kuris turi būti pašalintas iš atskaitos taškų rinkinio, o ne kaip atskaitos taškas, kurį „reikia“atmesti. „Priežastis“, dėl kurios nepalankus atskaitos taškas nukrypsta nuo kitų atskaitos taškų rinkinio, yra labai svarbi nustatant, ar ją atmesti, ar ne. Apskritai, pavyzdžiui, matavimo, įrašymo ar eksperimentinio planavimo klaidos sukeltas nukrypimas gali būti pašalintas. Kita vertus, nukrypimai, kuriuos sukelia ne klaida ir kurie rodo naują informaciją ar tendencijas, kurios anksčiau nebuvo numatytos, paprastai „neatmetami“.
- Kitas kriterijus, į kurį reikia atsižvelgti, yra tai, ar nukrypimas turi didelį poveikį atskaitos taško vidurkio vidurkiui, t. Tai labai svarbu apsvarstyti, jei ketinate daryti išvadas iš savo duomenų rinkinio vidurkio.
-
Panagrinėkime savo pavyzdį. Šiame pavyzdyje, nes atrodo „labai“neįtikėtina, kad orkaitė pasiekė 300 Fahrenheito laipsnių dėl nenuspėjamų gamtos jėgų, galime beveik užtikrintai daryti išvadą, kad orkaitė buvo netyčia įjungta, todėl aukšta temperatūra nukrypo nuo nulinio taško. Be to, jei nepašalinsime nukrypimų, mūsų atskaitos taško vidurkis yra (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Farenheito (32 laipsnių Celsijaus)), o vidurkis, jei pašalinsime nukrypimus, yra (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Farenheito (21 laipsnis Celsijaus).
Kadangi šiuos nukrypimus lėmė žmogaus klaida ir todėl, kad būtų neteisinga teigti, kad vidutinė kambario temperatūra pasiekia beveik 90 Farenheito (32 laipsnių Celsijaus) temperatūrą, geriau pasirinkti „išmesti“savo nuokrypius
Žingsnis 10. Žinokite, kaip svarbu (kartais) išlaikyti nuokrypius
Nors kai kurie nukrypimai turėtų būti pašalinti iš atskaitos taškų rinkinio, nes jie sukelia klaidų ir (arba) daro rezultatus netikslius ar klaidingus, kai kurie nukrypimai turėtų būti išsaugoti. Pavyzdžiui, jei atrodo, kad nukrypimas nuo normos yra natūraliai įgytas (tai yra, ne klaidos rezultatas) ir (arba) suteikia naują požiūrį į tiriamą reiškinį, nuokrypis neturėtų būti pašalintas iš atskaitos taško. Moksliniai tyrimai paprastai yra labai jautri situacija, kai kalbama apie pašalinius rodiklius - neteisingai pašalinus nuokrypius, gali būti atsisakyta informacijos, rodančios naują tendenciją ar atradimą.