5/2019 Jaanika Meriküll, Tairi Rõõm. Kas küsitlusandmed alahindavad varalist ebavõrdsust?

Eesti Panga Toimetised 5/2019
Are survey data underestimating the inequality of wealth?

Uurime selles artiklis varade uuringu raames kas üksikutele küsimustele või kogu küsimustikule vastamata jätmist ja vastamiskäitumise seost küsitletud isikute tunnustega. Analüüsime, kuidas potentsiaalselt valiv käitumine kogu küsimustikule või üksikutele küsimustele vastamisel on seotud netovarade jaotuse hinnanguga, ja kas selline käitumine tekitab kallutatust ebavõrdsuse näitajate, nt Gini koefitsiendi, protsentiilide suhtarvude ja suurimate sissetulekute osakaalude mõõtmises.

Analüüsiks kasutame kahest allikast (küsitlus ja administratiivandmed) pärit andmeid varade kohta ühes ja samas isikutevalimis. Kasutame Eesti leibkondade finantskäitumise ja tarbimisharjumuste uuringu (HFCS) andmestikku, mis on seotud registritest kogutud andmetega. Need andmed on ainulaadsed, kuna administratiivandmed hõlmavad kõiki varade komponente, st nii reaal- ja finantsvarasid kui ka kohustusi. Uuringus kasutatud andmed sissetuleku ja varade kohta on võetud administratiivallikatest ning teave vastajate vastamiskäitumise kohta koguti küsitluse käigus.

Artiklil on kolm peamist eesmärki. Esiteks uurime seda, millised isikud on nõus uuringus osalema ja millised mitte. Kasutame kõigi üldvalimisse valitud isikute administratiivandmeid, et leida uuringus osalenud ja mitteosalenud inimeste vahelisi erinevusi. See võimaldab meil hinnata, kas küsimustikule mittevastamine on juhuslik või on see tingitud valimisse kaasatud isikute tunnustest, ning kas kogu valimisse ja väiksemasse mittevastanute valimisse kuuluvate isikute varalises jaotuses on erinevusi. Jagame vastamismäära kaheks komponendiks – kontaktimääraks ja koostöövalmiduse määraks – ning uurime nende profiile eraldi.

Teiseks teeme sarnase analüüsi üksikutele küsimustele mittevastamise korral. Selleks kasutame nii küsitlusest kogutud redigeerimata andmeid kui ka administratiivandmeid. Üksikutele küsimustele mittevastamisest tingitud võimaliku tulemuste kallutatuse vältimiseks kasutatakse tavaliselt puuduvate andmete imputeerimist. Imputeerimine põhineb eeldusel, et täidetud on kriteerium „andmed puuduvad juhuslikult“, st vastamata jätmist saab täielikult selgitada teiste küsitluse käigus kogutud vaadeldavate tunnustega. Üheski varasemas uuringus ei ole kontrollitud, kas eeldus „andmed puuduvad juhuslikult“ on tõene, või kuidas mõjutab küsimustele mittevastamine uuringu kallutatust varalise ebavõrdsuse hinnangu mõttes. Meie analüüs annab neile küsimustele vastused.

Kolmandaks vaatleme kogu küsimustikule ja üksikutele küsimustele mittevastamise vastastikust sõltuvust, uurides, kas tõenäosus uuringus osaleda on seotud tõenäosusega jätta küsitluse küsimustele vastamata. Varasemad uuringud on näidanud, et kogu küsimustikule ja üksikutele küsimustele mittevastamise vahel on indiviidi tasandil positiivne korrelatsioon, kuna inimesed, kes osalevad uuringus väiksema tõenäosusega, ka vastavad küsitluse ajal küsimustele väiksema tõenäosusega (Yan ja Curtin (2010)). Indiviidi tasandil leitud positiivne korrelatsioon tähendab, et agregeeritud tasandil on kogu küsimustikule ja üksikutele küsimustele vastamine negatiivse seosega, st kui küsimustikule mittevastamise määr kerkib, siis valitakse uuringus osalema koostööaltimad inimesed, ning üksikutele küsimustele mittevastamise määr seega langeb. Hindame, kas indiviidi tasandil positiivne korrelatsioon eksisteerib, kasutades selleks Eesti leibkondade finantskäitumise ja tarbimisharjumuste uuringu andmeid. Samuti hindame korrelatsiooni agregeeritud andmete tasandil, kasutades HFCSi euroala riikide läbilõikeandmeid.

Kogu küsimustikule ja üksikutele küsimustele mittevastamisest tingitud mõju ja võimaliku kallutatuse analüüsimiseks kasutame mudeleid, kus sõltuv tunnus on vastamise indikaator. See tähendab, et hindame uuringus osalemise ehk kogu küsitlusele vastamise (unit response) tõenäosust ning küsitluse üksikutele küsimustele vastamise (item response) tõenäosust.

Küsimustikule vastamise profiili uurimiseks kasutame logitregressiooni. Hinnangute tulemused näitavad, et küsitlusele vastamise määr on kõrgem, kui kontaktisik on vanem, elab maapiirkonnas, on kõrgema sissetulekuga, ja ei ole laenumakseid tegemata jätnud. Küsitleja fikseeritud efekt (fixed effect) on samuti küsitlusele vastamise juures oluline ning mudeli kirjeldatuse tase paraneb, kui lisame selle kontrollmuutujana. Küsitleja fikseeritud efekti lisamisel on kontaktimäärale suurem mõju kui koostöövalmiduse määrale, millest nähtub, et küsitlejatel on oskused ja kogemused, tänu millele on neil kergem inimestega kontakti saavutada, aga see ei tähenda, et nad suudavad inimese panna küsimustele vastama. Varalise ebavõrdsuse näitajate hinnangud kogu valimis ei erine kuigi palju vastajate valimi näitajatest, mis tähendab, et küsitlusele mittevastamine ei kalluta uuringul põhinevat ebavõrdsuse hinnangut.

Nii nagu kogu küsitlusele vastamist analüüsides kasutame siingi logitregressiooni, et hinnata, kuidas on üksikutele küsimustele vastamine seotud indiviidi või leibkonna tunnustega. Üksikutele küsimustele vastamist hinnates võetakse arvesse neli muutujat: sissetulek, netovara, reaal- ja finantsvara, ning kohustused. Sissetulekut analüüsitakse indiviidi tasandil, netovara ja selle komponente aga leibkonna tasandil. Hinnangulised tulemused näitavad, et vastamiskäitumine ei ole nende muutujate lõikes ühesugune. Sissetulekuküsimuse vastamismäär on positiivses seoses vanuse ja sissetulekuga. Pealinnas või selle ümbruses või üldse linnades elavad inimesed vastavad sissetulekuküsimustele meelsamini. Netovarade ja selle komponentide küsimuse vastamismäär on statistiliselt oluliselt seotud vähemate muutujatega; vanus, sissetulek ja piirkond seda ei mõjuta. Ebavõrdsuse hinnangu puhul on oluline see, kuidas korreleerub varaliste muutujate küsimuse vastamismäär varade endaga. Hinnangud näitavad, et varadega seotud küsimustele vastamise määr on netovarade tasemega negatiivses seoses, st rikkamad inimesed annavad oma eri varaliikide (kinnisvara, ettevõtlusvara, aktsiad ja võlakirjad jne) kohta väiksema tõenäosusega teavet.

Üksikutele küsimustele varade kohta vastamise määra ja jõukuse negatiivne seos tähendab, et netovarade uuringupõhistes hinnangutes netovarade väärtust alahinnatakse. Netovarade hinnangulist väärtust alahinnatakse enamikus netovarade jaotuse osades. Kuna küsitletavad vastasid küsimustele valikuliselt, on netovarade jaotuse ülemises tipus olevad andmed puudu, st kõige rikkamate leibkondade kohta pole küsitlusepõhiseid andmeid. Viime puuduvate andmete puhul läbi imputeerimise, et näha, kas see korrigeerib tulemuste allapoole kallutatust. Uuringustatistika ning imputeeritud andmete ja tegelike andmete põhjal leitud varalise ebavõrdsuse hinnanguliste näitajate võrdlus näitab, et imputeerimine võib netovarade alahindamist tublisti leevendada. See on tegelike andmetega heas kooskõlas, eriti jaotuse alumises osas, kuid kuna varade jaotuse ülemise tipu andmeid uuringust ei saadud, siis ei suuda imputeerimine just ülemistes segmentides puuduolevaid kõrgeimate väärtustega vaatlusi asendada. Seega on imputeeritud andmetel põhinevad varalise ebavõrdsuse hinnangulised näitajad oluliselt väiksemad kui tegelikel andmetel põhinevad näitajad. Imputeerimine võib netovarade alahinnatust korrigeerida suuremas osas netovarade jaotuse alumistest segmentidest, kuid varalise ebavõrdsuse alahindamist see ei paranda.

Varasemad uuringud on näidanud, et uuringuandmetest jääb tihtipeale välja varalise jaotuse kõige ülemine osa, ja seega hinnatakse varalist ebavõrdsust tegelikust väiksemaks (Johansson ja Klevmarken (2007), Vermeulen (2016), ja Vermeulen (2018)). Meie uuring kinnitab seda järeldust. Lisaks suudame näidata, millist tüüpi vastustest varade alahindamine tuleneb. Meie järeldused näitavad, et kogu küsitlusele vastamine ei ole valikuline, st see ei ole jõukusega olulises seoses ja varalise ebavõrdsuse hinnangutes see kallutatust ei põhjusta. Üksikutele küsimustele vastamine aga on jõukusega negatiivses seoses ja tingib varalise ebavõrdsuse alahindamise uuringuandmete põhjal.

Analüüsisime ka indiviidi tasandil kogu küsimustikule ja üksikutele küsimustele vastamise vastastikust sõltuvust. Selleks kasutasime küsimustikule vastamise baasstsenaariumi mudelit ning arvutasime iga viiteisiku puhul välja uuringus osalemise ennustatava tõenäosuse. Seejärel hindasime kogu küsimustikule ja üksikutele küsimustele vastamise ennustatava tõenäosuse vahelisi Spearmani astakkorrelatsioonikordajaid. Erinevalt varasematest uuringutest ilmnes meie analüüsist, et küsitluses osalemise tõenäosus ja üksikutele küsimustele vastamine olid negatiivselt korreleeritud. Kuigi negatiivne korrelatsioon on nõrk, viitab see siiski, et leibkonnad, kes suurema tõenäosusega uuringus osalevad, vastavad kõigile küsimustele väiksema tõenäosusega. Hindame 2013. või 2014. aastal HFCSi raames euroala riikides kogutud läbilõikeandmete põhjal, milline on agregeeritud tasandil kogu küsimustikule ja üksikutele küsimustele vastamise korrelatsioon. Meie tulemused kinnitavad varasemate uuringute tulemusi ja näitavad, et see korrelatsioon on negatiivne.


Toimetise autorite arvamused ei pruugi ühtida Eesti Panga ega Euroopa Keskpanga ametlike seisukohtadega.