Kaip aptikti nukrypimus: 10 žingsnių (su nuotraukomis)

Turinys:

Kaip aptikti nukrypimus: 10 žingsnių (su nuotraukomis)
Kaip aptikti nukrypimus: 10 žingsnių (su nuotraukomis)

Video: Kaip aptikti nukrypimus: 10 žingsnių (su nuotraukomis)

Video: Kaip aptikti nukrypimus: 10 žingsnių (su nuotraukomis)
Video: kaip užsirišti batus 2024, Gegužė
Anonim

Statistikoje nukrypimas arba „nuokrypis“yra atskaitos taškas, kuris labai toli nukrypsta nuo bet kurio kito imties ar atskaitos taško duomenų bazės (atskaitos taškų rinkinys vadinamas duomenimis). Dažnai atskaitos taško rinkinio nuokrypis gali būti įspėjimas statistikui apie neatitikimą ar eksperimentinę klaidą atliekant matavimus, dėl kurių statistikas gali pašalinti nuokrypį nuo atskaitos taško rinkinio. Jei statistikas pašalina nuokrypius nuo atskaitos taško, tyrimo išvados gali būti labai skirtingos. Todėl, norint užtikrinti teisingą statistinių duomenų rinkinio supratimą, labai svarbu žinoti, kaip apskaičiuoti ir analizuoti nukrypimus.

Žingsnis

Apskaičiuokite nukrypimus 1 žingsnis
Apskaičiuokite nukrypimus 1 žingsnis

1 žingsnis. Sužinokite, kaip nustatyti potencialiai neįprastus atskaitos taškus

Prieš nuspręsdami, ar pašalinti pašalinius atskaitos taškus iš atskaitos taškų rinkinio, ar ne, žinoma, turime nustatyti, kurie atskaitos taškai gali tapti išskirtiniais. Apskritai, nuokrypis yra atskaitos taškas, kuris labai atsiriboja nuo kitų vieno atskaitos taško rinkinio duomenų taškų - kitaip tariant, nukrypimas yra „už kitų ribų“ribų. Paprastai duomenų lentelėje arba (ypač) diagramoje lengva aptikti nukrypimus. Jei vienas atskaitos taškų rinkinys yra vizualiai aprašytas naudojant grafiką, išeities taškas bus „labai toli“nuo kitų atskaitos taškų. Jei, pavyzdžiui, dauguma atskaitos taškų rinkinio atskaitos taškų sudaro tiesią liniją, pašalinis atskaitos taškas pagrįstai nebus aiškinamas kaip formuojantis šią liniją.

Pažvelkime į duomenų bazę, atspindinčią 12 skirtingų objektų temperatūrą kambaryje. Jei 11 objektų temperatūra yra apie 70 Farenheito (21 laipsnis pagal Celsijų), o 12 -ojo objekto, orkaitės, temperatūra yra 300 Farenheito (150 laipsnių Celsijaus), iš karto matyti, kad labai tikėtina, kad orkaitės temperatūra bus pašalinis

Apskaičiuokite nukrypimus 2 žingsnis
Apskaičiuokite nukrypimus 2 žingsnis

Žingsnis 2. Sureguliuokite atskaitos taškus aibėje nuo mažiausių iki aukščiausių

Pirmasis žingsnis, norint apskaičiuoti atskaitos taškų aibės nuokrypius, yra rasti to atskaitos taško rinkinio mediana (vidutinė vertė). Ši užduotis tampa labai paprasta, jei atskaitos taškų rinkinio atskaitos taškai yra išdėstyti nuo mažiausios iki didžiausios. Taigi, prieš tęsdami, surinkite atskaitos taškus į vieną tokį atskaitos taškų rinkinį.

Tęskime aukščiau pateiktą pavyzdį. Tai yra mūsų duomenų bazės rinkinys, atspindintis kelių objektų temperatūrą kambaryje: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jei atskaitos taškus išdėstysime nuo žemiausio iki aukščiausio, atskaitos taškų tvarka bus tokia: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Apskaičiuokite nuokrypius 3 žingsnis
Apskaičiuokite nuokrypius 3 žingsnis

3 žingsnis. Apskaičiuokite atskaitos taško vidurkį

Atskaitos taško rinkinio mediana yra atskaitos taškas, kai kita atskaitos taško pusė yra aukščiau to nulinio taško, o likusi pusė yra žemiau jo - iš esmės tas atskaitos taškas yra atskaitos taško rinkinio „viduryje“. Jei atskaitos taškų rinkinio atskaitos taškų skaičius yra nelyginis, tai labai lengva rasti - mediana yra tas atskaitos taškas, kurio viršuje ir apačioje yra tas pats skaičius. Tačiau, jei atskaitos taškų rinkinio atskaitos taškų skaičius yra lygus, tada, kadangi nė vienas atskaitos taškas netelpa viduryje, viduryje esantys du nuliniai taškai yra apskaičiuojami kaip mediana. Reikėtų pažymėti, kad apskaičiuojant nuokrypius, mediana paprastai priskiriama kintamajam Q2-ni, nes Q2 yra tarp Q1 ir Q3, apatinio ir viršutinio kvartilio, apie kurį mes aptarsime vėliau.

  • Negalima painioti su atskaitos taškų rinkiniu, kai atskaitos taškų skaičius yra lygus-2 vidurinių atskaitos taškų vidurkis dažnai grąžina skaičių, kurio nėra pačiame atskaitos taškų rinkinyje-tai gerai. Tačiau, jei 2 viduriniai atskaitos taškai yra vienodi, vidurkis, žinoma, taip pat bus tas pats, o tai taip pat gerai.
  • Aukščiau pateiktame pavyzdyje turime 12 atskaitos taškų. 2 viduriniai atskaitos taškai yra 6 ir 7 atskaitos taškai-atitinkamai 70 ir 71. Taigi, mūsų duomenų bazės rinkinio mediana yra šių 2 skaičių vidurkis: ((70 + 71) / 2), = 70.5.
Apskaičiuokite nuokrypius 4 žingsnis
Apskaičiuokite nuokrypius 4 žingsnis

Žingsnis 4. Apskaičiuokite apatinį kvartilį

Ši vertė, kurią mes pateikiame kintamajam Q1, yra atskaitos taškas, kuris sudaro 25 procentus (arba ketvirtadalį) atskaitos taškų. Kitaip tariant, tai yra atskaitos taškas, padalijantis į nulį nuo vidurkio. Jei atskaitos taškų, esančių žemiau medianos, skaičius yra lygus, norėdami rasti pirmąjį Q1, turite vėl vidurkį nustatyti 2 atskaitos taškus viduryje, lygiai taip pat, kaip ir pačią mediana.

Mūsų pavyzdyje yra 6 atskaitos taškai, esantys virš vidurkio, ir 6 atskaitos taškai, esantys žemiau vidurio. Tai reiškia, kad norėdami rasti apatinį kvartilį, turėsime vidurkinti 2 atskaitos taškus, esančius 6 atskaitos taškų viduryje žemiau medianos. 3 ir 4 atskaitos taškai, esantys 6 atskaitos taškais žemiau medianos, yra 70. Taigi, vidurkis yra ((70 + 70) / 2), = 70. 70 tampa mūsų Q1.

Apskaičiuokite nuokrypius 5 veiksmas
Apskaičiuokite nuokrypius 5 veiksmas

Žingsnis 5. Apskaičiuokite viršutinį kvartilį

Ši reikšmė, kurią suteikiame kintamajam Q3, yra atskaitos taškas, ant kurio yra 25 procentai atskaitos taškų rinkinio atskaitos taškų. Rasti Q3 yra beveik tas pats, kas rasti Q1, išskyrus tai, kad šiuo atveju mes žiūrime į atskaitos taškus virš vidurkio, o ne žemiau vidurkio.

Tęsiant aukščiau pateiktą pavyzdį, 2 atskaitos taškai 6 atskaitos taškų viduryje virš medianos yra 71 ir 72. Šių 2 atskaitos taškų vidurkis yra ((71 + 72)/2), = 71, 5. 71, 5 yra mūsų 3 ketvirtis.

Apskaičiuokite nuokrypius 6 veiksmas
Apskaičiuokite nuokrypius 6 veiksmas

Žingsnis 6. Raskite atstumą tarp kvartilių

Dabar, kai radome Q1 ir Q3, turime apskaičiuoti atstumą tarp šių dviejų kintamųjų. Atstumas nuo Q1 iki Q3 randamas atėmus Q1 iš Q3. Vertės, gautos interkvartiliniams atstumams, yra labai svarbios apibrėžiant nenustatytų atskaitos taškų ribas jūsų atskaitos taškų rinkinyje.

  • Mūsų pavyzdyje mūsų Q1 ir Q3 vertės yra 70 ir 71, 5. Norėdami rasti tarpkvartilinį atstumą, atimame Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Reikėtų pažymėti, kad tai taip pat tiesa, net jei Q1, Q3 arba abu yra neigiami skaičiai. Pvz., Jei mūsų Q1 vertė būtų -70, mūsų teisingas tarpkvartilinis atstumas būtų 71,5 -(-70) = 141, 5.
Apskaičiuokite nuokrypius 7 žingsnis
Apskaičiuokite nuokrypius 7 žingsnis

Žingsnis 7. Raskite „vidinę tvorą“atskaitos taškų rinkinyje

Nuokrypiai randami tikrinant, ar atskaitos taškas nepatenka į skaičių ribas, vadinamas „vidine tvora“ir „išorine tvora“. Atskaitos taškas, kuris nepatenka į atskaitos taško rinkinio vidinę tvorą, vadinamas „nedideliu nuokrypiu“, o atskaitos taškas, kuris nepatenka į išorinę tvorą, vadinamas „pagrindiniu nukrypimu“. Norėdami rasti vidinę tvorą savo atskaitos taške, pirmiausia padauginkite tarpkvartilinį atstumą iš 1, 5. Tada pridėkite rezultatą iš Q3 ir taip pat atimkite jį iš Q1. Dvi gautos vertės yra vidinės jūsų atskaitos taško ribos.

  • Mūsų pavyzdyje tarpkvartilinis atstumas yra (71,5–70) arba 1,5. Padauginkite 1,5 iš 1,5, o tai yra 2,25. Pridedame šį skaičių prie Q3 ir atimame Q1 pagal šį skaičių, kad rastume vidinės tvoros ribas taip:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Taigi, mūsų vidinės tvoros ribos yra 67, 75 ir 73, 75.
  • Mūsų atskaitos taškų rinkinyje tik krosnies temperatūra, 300 Fahrenheit, yra už šių ribų, todėl šis atskaitos taškas yra nedidelis nukrypimas. Tačiau mes vis dar nepaskaičiavome, ar ši temperatūra yra reikšminga nuokrypis, todėl nedarykite skubotų išvadų, kol neatliksime savo skaičiavimų.

    Apskaičiuokite nuokrypius 7 veiksmas Bullet2
    Apskaičiuokite nuokrypius 7 veiksmas Bullet2
8 žingsnio apskaičiavimas
8 žingsnio apskaičiavimas

Žingsnis 8. Raskite „išorinę tvorą“atskaitos taškų rinkinyje

Tai daroma taip pat, kaip ir vidinės tvoros radimas, išskyrus tai, kad tarpkvartilinis atstumas padauginamas iš 3, o ne 1,5. Tada rezultatas pridedamas prie Q3 ir atimamas iš Q1, kad būtų nustatyta viršutinė ir apatinė išorinės tvoros ribos.

  • Mūsų pavyzdyje padauginus tarpkvartilinį atstumą iš 3, gaunama (1, 5 x 3) arba 4, 5. Išorinės tvoros ribas randame taip pat, kaip ir anksčiau:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Išorinės tvoros ribos yra 65,5 ir 76.
  • Atskaitos taškai, esantys už išorinės tvoros ribų, vadinami pagrindiniais nukrypimais. Šiame pavyzdyje krosnies temperatūra, 300 Farenheito laipsnių, aiškiai yra už išorinės tvoros ribų, todėl šis atskaitos taškas „neabejotinai“yra pagrindinis nukrypimas.

    Apskaičiuokite nukrypimus 8 žingsnis 2 kulka
    Apskaičiuokite nukrypimus 8 žingsnis 2 kulka
9 žingsnio apskaičiavimas
9 žingsnio apskaičiavimas

9. Žingsnis 9. Naudokite kokybinį sprendimą, kad nustatytumėte, ar „atmesti“nepageidaujamus duomenis

Naudojant aukščiau aprašytą metodą, galima nustatyti, ar atskaitos taškas yra nedidelis atskaitos taškas, pagrindinis atskaitos taškas, ar apskritai nėra pašalinis. Tačiau nesuklyskite - radę atskaitos tašką kaip atributą tik pažymi, kad tas atskaitos taškas yra „kandidatas“, kuris turi būti pašalintas iš atskaitos taškų rinkinio, o ne kaip atskaitos taškas, kurį „reikia“atmesti. „Priežastis“, dėl kurios nepalankus atskaitos taškas nukrypsta nuo kitų atskaitos taškų rinkinio, yra labai svarbi nustatant, ar ją atmesti, ar ne. Apskritai, pavyzdžiui, matavimo, įrašymo ar eksperimentinio planavimo klaidos sukeltas nukrypimas gali būti pašalintas. Kita vertus, nukrypimai, kuriuos sukelia ne klaida ir kurie rodo naują informaciją ar tendencijas, kurios anksčiau nebuvo numatytos, paprastai „neatmetami“.

  • Kitas kriterijus, į kurį reikia atsižvelgti, yra tai, ar nukrypimas turi didelį poveikį atskaitos taško vidurkio vidurkiui, t. Tai labai svarbu apsvarstyti, jei ketinate daryti išvadas iš savo duomenų rinkinio vidurkio.
  • Panagrinėkime savo pavyzdį. Šiame pavyzdyje, nes atrodo „labai“neįtikėtina, kad orkaitė pasiekė 300 Fahrenheito laipsnių dėl nenuspėjamų gamtos jėgų, galime beveik užtikrintai daryti išvadą, kad orkaitė buvo netyčia įjungta, todėl aukšta temperatūra nukrypo nuo nulinio taško. Be to, jei nepašalinsime nukrypimų, mūsų atskaitos taško vidurkis yra (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Farenheito (32 laipsnių Celsijaus)), o vidurkis, jei pašalinsime nukrypimus, yra (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Farenheito (21 laipsnis Celsijaus).

    Kadangi šiuos nukrypimus lėmė žmogaus klaida ir todėl, kad būtų neteisinga teigti, kad vidutinė kambario temperatūra pasiekia beveik 90 Farenheito (32 laipsnių Celsijaus) temperatūrą, geriau pasirinkti „išmesti“savo nuokrypius

Apskaičiuokite nuokrypius 10 veiksmas
Apskaičiuokite nuokrypius 10 veiksmas

Žingsnis 10. Žinokite, kaip svarbu (kartais) išlaikyti nuokrypius

Nors kai kurie nukrypimai turėtų būti pašalinti iš atskaitos taškų rinkinio, nes jie sukelia klaidų ir (arba) daro rezultatus netikslius ar klaidingus, kai kurie nukrypimai turėtų būti išsaugoti. Pavyzdžiui, jei atrodo, kad nukrypimas nuo normos yra natūraliai įgytas (tai yra, ne klaidos rezultatas) ir (arba) suteikia naują požiūrį į tiriamą reiškinį, nuokrypis neturėtų būti pašalintas iš atskaitos taško. Moksliniai tyrimai paprastai yra labai jautri situacija, kai kalbama apie pašalinius rodiklius - neteisingai pašalinus nuokrypius, gali būti atsisakyta informacijos, rodančios naują tendenciją ar atradimą.

Pvz., Tarkime, kad mes kuriame naują vaistą, kuris padidintų žuvų dydį žuvų tvenkinyje. Naudosime seną atskaitos taškų rinkinį ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), išskyrus tai, kad šį kartą kiekvienas atskaitos taškas parodys žuvies svorį (gramais) po to, kai nuo gimimo buvo suleistas kitoks eksperimentinis vaistas. Kitaip tariant, pirmasis vaistas sukelia vienos žuvies svorį 71 gramą, antrasis - kitos žuvies svorį 70 gramų ir pan. Šiuo atveju 300 yra „vis dar“didelis nukrypimas, tačiau neturėtume to atmesti, nes, darant prielaidą, kad jis buvo gautas be klaidų, tai yra tyrimo sėkmė. Vaistas, dėl kurio žuvys gali sverti 300 gramų, veikia geriau nei visi kiti vaistai, todėl šis atskaitos taškas iš tikrųjų yra „svarbiausias“mūsų duomenų rinkinyje, o ne „mažiausiai svarbus“

Rekomenduojamas: