რა ხარვეზებია გამოტოვებული მნიშვნელობების საშუალოსთან მიკუთვნებისას?

Სარჩევი:

რა ხარვეზებია გამოტოვებული მნიშვნელობების საშუალოსთან მიკუთვნებისას?
რა ხარვეზებია გამოტოვებული მნიშვნელობების საშუალოსთან მიკუთვნებისას?

ვიდეო: რა ხარვეზებია გამოტოვებული მნიშვნელობების საშუალოსთან მიკუთვნებისას?

ვიდეო: რა ხარვეზებია გამოტოვებული მნიშვნელობების საშუალოსთან მიკუთვნებისას?
ვიდეო: How To... Replace Missing Values with Mean Imputation Method in R #77 2024, დეკემბერი
Anonim

საშუალო იმპუტაცია ამახინჯებს ურთიერთობას ცვლადებს შორის მაგრამ საშუალო იმპუტაცია ასევე ამახინჯებს მრავალვარიანტულ ურთიერთობებს და გავლენას ახდენს სტატისტიკაზე, როგორიცაა კორელაცია. მაგალითად, შემდეგი ზარი PROC CORR-ზე გამოთვლის კორელაციას Orig_Height ცვლადსა და Weight and Age ცვლადებს შორის.

რატომ არის დაკარგული მონაცემების საშუალების გამოყენება ცუდი იდეა?

საშუალო ამცირებს მონაცემთა დისპერსიას მათემატიკაში უფრო ღრმად ჩასვლისას, უფრო მცირე დისპერსიას მივყავართ უფრო ვიწრო ნდობის ინტერვალამდე ალბათობის განაწილებაში[3]. ეს სხვას არაფერს იწვევს, თუ არა ჩვენი მოდელის მიკერძოების დანერგვას.

რატომ არის გამოტოვებული მნიშვნელობები პრობლემა?

დაკარგული მონაცემები წარმოადგენს სხვადასხვა პრობლემას. პირველი, მონაცემების არარსებობა ამცირებს სტატისტიკურ ძალას, რაც მიუთითებს იმის ალბათობაზე, რომ ტესტი უარყოფს ნულოვანი ჰიპოთეზას, როდესაც ის მცდარია. მეორეც, დაკარგულმა მონაცემებმა შეიძლება გამოიწვიოს მიკერძოება პარამეტრების შეფასებაში. მესამე, მას შეუძლია შეამციროს ნიმუშების წარმომადგენლობა.

რატომ არის საშუალო მიკუთვნება ცუდი?

პრობლემა 1: საშუალო იმპუტაცია არ ინარჩუნებს ურთიერთობას ცვლადებს შორის. მართალია, საშუალოს მინიჭება ინარჩუნებს დაკვირვებული მონაცემების საშუალოს. ასე რომ, თუ მონაცემები სრულიად შემთხვევით აკლია, საშუალო შეფასება მიუკერძოებელი რჩება.

უნდა ჩაანაცვლოთ დაკარგული მონაცემები საშუალოთი?

აღკვეთილი მონაცემების წერტილები მნიშვნელოვან გავლენას მოახდენს საშუალოზე და, შესაბამისად, ასეთ შემთხვევებში, არ არის რეკომენდებული გამოტოვებული მნიშვნელობების ჩანაცვლებისთვის საშუალოს გამოყენება. გამოტოვებული მნიშვნელობების ჩანაცვლებისთვის საშუალო მნიშვნელობების გამოყენებამ შეიძლება არ შექმნას შესანიშნავი მოდელი და, შესაბამისად, გამოირიცხოს.

გირჩევთ: