მონაცემების ზღვარზე: რატომ არ არის მეტი ყოველთვის უკეთესი

13 ივნისი 2025

მონაცემების ზღვარზე: რატომ არ არის მეტი ყოველთვის უკეთესი

13 ივნისი 2025

მარიამ ფაჩუაშვილი, ACTR
მონაცემთა ბაზების და სტატისტიკის გუნდის ლიდი

 

კვლევის მონაცემთა ხარისხი vs რაოდენობა – ისტორიული გაკვეთილი, რომელმაც შეცვალა კვლევითი ანალიტიკის სამყარო 

წარმოიდგინეთ სცენარი: თქვენი კომპანია იღებს სტრატეგიულ გადაწყვეტილებას 2.4 მილიონი მომხმარებლისგან მიღებული უკუკავშირის საფუძველზე. ასეთი მოცულობის მონაცემები ბუნებრივად გვაფიქრებინებს, რომ საქმე გვაქვს ზუსტ და სწორ შედეგთან. მაგრამ რა ხდება მაშინ, თუ ეს შედეგები არასწორია?

1936 წლის ისტორია გვასწავლის, რომ კვლევაში “მეტი” ყოველთვის არ ნიშნავს “უკეთესს” – გაკვეთილი, რომელიც დღესაც, BIG DATA-სა და AI-ის ეპოქაში, აქტუალური და გადამწყვეტი მნიშვნელობისაა.

 

2.4 მილიონი შეცდომა: როგორ შეცდა ამერიკის ყველაზე დიდი გამოკითხვა

The Literary Digest იმ დროის New York Times-ს ჰგავდა — სანდო, პატივსაცემი, გავლენიანი. თითქმის ორი ათწლეულის განმავლობაში, ის წარმატებით პროგნოზირებდა ამერიკის საპრეზიდენტო არჩევნების შედეგებს მასობრივი გამოკითხვების საშუალებით. 1936 წელს ჟურნალს მორიგი დიდი ამოცანა ჰქონდა: ფრანკლინ რუზველტისა და ალფრედ ლენდონის საპრეზიდენტო დაპირისპირების შედეგის პროგნოზირება.

კვლევის მასშტაბი შთამბეჭდავად ჟღერდა: რუზველტსა და რესპუბლიკელ კანდიდატ ალფრედ ლენდონს შორის მიმდინარე დაპირისპირების შესაფასებლად 10 მილიონ ამერიკელს გაეგზავნა კითხვარი.

კითხვარს 2.4 მილიონმა რესპოდენტმა უპასუხა — რიცხვი, რომელიც დღევანდელი სტანდარტებითაც კი შთამბეჭდავია. ამ უზარმაზარ შერჩევით ერთობლიობაზე (sample) დაყრდნობით The Literary Digest-მა დარწმუნებით იწინასწარმეტყველა ლენდონის გამარჯვება 57%-ით.

თუმცა შედეგი სრულიად საპირისპირო იყო: რუზველტმა ლენდონი დიდი სხვაობით — 523 ელექტორული ხმით მხოლოდ 8-ის წინააღმდეგ – დაამარცხა.

 

მონაცემების რაოდენობა vs ხარისხი

რამ გამოიწვია ეს შეცდომა?

The Literary Digest-მა შერჩევითი ჩარჩო (sampling frame) სამი წყაროდან შექმნა: საკუთარი გამომწერები, სატელეფონო წიგნები და ავტომობილების მფლობელთა რეესტრი.

1936 წლის დიდი დეპრესიის პიკზე, როცა ავტომობილის თუ ტელეფონის ქონა და ჟურნალ-გაზეთების გამოწერაც კი ფუფუნებას წარმოადგენდა, ეს ნიშნავდა რომ გამოკითხვაში მონაწილეობდნენ მხოლოდ შედარებით შეძლებული ამერიკელები — სოციალური ფენა, რომელთაც საშუალოზე მაღალი შემოსავალი ჰქონდათ და, ტრადიციულად, რესპუბლიკელებს უჭერდნენ მხარს.

ამან გამოიწვია შერჩევითი მიკერძოება (sampling bias) — სისტემატური გადახრა, რომელმაც მთელი კვლევის შედეგები არავალიდური გახადა.

 

მეორე მხარე: როგორ იმუშავა სწორმა მეთოდოლოგიამ

იმავე არჩევნების პროგნოზირებისთვის ჯორჯ გელაპის ამერიკული საზოგადოებრივი აზრის ინსტიტუტმა (American Institute of Public Opinion) გამოიყენა მეცნიერულად განსხვავებული მიდგომა. მათ:

  • გამოიყენეს მხოლოდ 50 000 რესპოდენტიანი შერჩევითი ერთობლიობა
  • შექმნეს წარმომადგენლობითი შერჩევა ყველა სოციალური ფენიდან
  • სწორად იწინასწარმეტყველეს შედეგი მხოლოდ 1.4%-იანი ცდომილებით.

ამრიგად, 50 000 რესპოდენტიანმა, მაგრამ სწორად შედგენილმა შერჩევითმა ერთობლიობამ 48-ჯერ ნაკლები რესურსით მიაღწია სიზუსტეს, მაშინ როცა 2.4 მილიონიანმა არასწორმა შერჩევამ სრულიად არასწორი შედეგები იწინასწარმეტყველა.

ეს ისტორია აჩვენებს ფუნდამენტურ სიმართლეს თანამედროვე ანალიტიკისთვის: როდესაც შერჩევითი ერთობლიობა არ არის წარმომადგენლობითი, შედეგები ვერ იქნება განზოგადებადი — რაც არ უნდა დიდი იყოს მონაცემთა მოცულობა.

 

ციფრული ეპოქის დილემა

დღეს, როდესაც კომპანიები ყოველდღიურად მილიონობით მონაცემს აგროვებენ, იგივე ფუნდამენტური პრინციპები მუშაობს. სოციალური მედია აკვირდება ჩვენს ქცევას, აპლიკაციები ადგენენ ლოკაციას, ხოლო კომპანიების CRM (Customer Relationship Management) სისტემები აღრიცხავენ მომხმარებელთან ყველა ინტერაქციას, თუმცა რაოდენობა კვლავაც ვერ ცვლის ხარისხს:

  • ონლაინ გამოკითხვები ხშირად აწყდება თვითშერჩევის მიკერძოებას (self-selection bias) — მონაწილეობენ მხოლოდ ყველაზე მოტივირებული (და ხშირად ყველაზე უკიდურესი პოზიციის მქონე) მომხმარებლები, რაც მნიშვნელოვნად ზღუდავს შედეგების განზოგადებადობის შესაძლებლობას.
  • სოციალური მედიის ანალიტიკა ხშირად ყველაზე ხმამაღალ მოსაზრებებს აღიქვამს ყველაზე წარმომადგენლად (Salience bias), რაც ქმნის ცრუ შთაბეჭდილებას, თითქოს აქტიური მომხმარებლების აზრი მთელი საზოგადოების პოზიციას ასახავს. სინამდვილეში კი რამდენიმე ძალიან აქტიური მომხმარებელი იმაზე მეტ “ხმაურს” ქმნის, ვიდრე ათასობით ჩუმი, და ალგორითმები სწორედ ამ ხმაურს ანიჭებენ ყველაზე დიდ მნიშვნელობას.
  • CRM სისტემებში არსებული მონაცემები სისტემატურად გამორიცხავს პასიურ მომხმარებლებს (coverage bias) — ანუ მათ, ვინც კომპანიასთან შედარებით იშვიათად ურთიერთობს. შედეგად, ბიზნეს-ანალიზი ეფუძნება მხოლოდ აქტიურ მომხმარებელთა ქცევასა და აზრებს, რაც ქმნის მიკერძოებულ სურათს.

გაკვეთილი 1936 წლიდან კვლავ ძალაშია: მნიშვნელოვანია არა რაოდენობა, არამედ ხარისხი.

 

ხარისხის ფორმულა: როგორ უზრუნველვყოთ სანდო ანალიტიკა

  1. Probability Sampling — ალბათური შერჩევა

თანამედროვე კვლევებში გამოიყენება ალბათური შერჩევა — მეთოდი, რომელიც უზრუნველყოფს, რომ სამიზნე მოსახლეობაში ყველა ადამიანს ჰქონდეს გამოკითხვაში მოხვედრის შანსი. ეს შანსი წინასწარ ცნობილი და თვლადია, რაც ქმნის საფუძველს წარმომადგენლობითი შერჩევითი ერთობლიობის ფორმირებისთვის.

  1. Weighting Methodology — შეწონვის მეთოდოლოგია

მაშინაც კი, როდესაც შერჩევითი ერთობლიობა სწორად არის შედგენილი, რეალურ გარემოში ჩნდება ისეთი ფაქტორები, რომლებიც კვლევის შედეგებზე ახდენენ გავლენას, მაგალითად:

  • არ პასუხის მიკერძოება (non-response bias) — ზოგი ჯგუფი ნაკლებად პასუხობს (პასუხობთ ტელეფონის ზარებს უცნობი ნომრიდან?).
  • დაფარავის ხარვეზი (coverage error) — როდესაც გამოკითხვამ ზოგიერთ სეგმენტს საერთოდ ვერ მიაღწია.
  • გამოკითხვის ფორმატის გავლენა (mode effects) — განსხვავებული მეთოდებით მოგროვებულ მონაცემებს განსხვავებული შედეგები აქვთ (ონლაინ, სატელეფონო თუ პირისპირ ინტერვიუებზე ხალხი განსხვავებულად რეაგირებს).

სწორედ აქ ხდება შეწონვა გადამწყვეტი — სტატისტიკური პროცედურა, რომელიც აკორექტირებს მონაცემებს და თითოეული რესპონდენტის პასუხს ანიჭებს შესაბამის წონას, მათი პოპულაციაში არსებული წილის გათვალისწინებით.

პრაქტიკული მაგალითი: თუ B2B გამოკითხვაში მცირე ზომის კომპანიები წარმოადგენენ 70%-ს, მაშინ როცა ბაზარზე ამ კომპანიების რეალური წილი 40%-ია, მათი პასუხები შეწონილი იქნება შესაბამისი კოეფიციენტით, რათა საბოლოო შედეგები ზუსტად ასახავდეს ბაზრის რეალურ სტრუქტურას.

რისკების მართვა: როგორ ავიცილოთ თავიდან “მილიონდოლარიანი შეცდომები”

მონაცემების ხარისხის აუდიტი

შერჩევითი ერთობლიობის წარმომადგენლობითობის რეგულარული შეფასება — კვლევის დიზაინიდან დაწყებული საბოლოო ანალიზის ჩათვლით.

გამჭვირვალობა შეზღუდვებში

ღია კომუნიკაცია კვლევის შეზღუდვების, ნდობის ინტერვალისა და შესაძლო მიკერძოებულობის შესახებ.

მონაცემების ინტერპრეტაციის პასუხისმგებლობა

გადამწყვეტია, რომ ანალიტიკა დაფუძნდეს არა მხოლოდ ციფრებზე, არამედ სწორად შერჩეულ ანალიზის ჩარჩოზე — კონტექსტზე, ჰიპოთეზებზე და იმაზე, რას არ ამბობს მონაცემი.

 

Takeaway: პრინციპი, რომელიც ყველაფერს ცვლის

Literary Digest-ის 90 წლის წინანდელი ფიასკო გვასწავლის თანამედროვე ბიზნეს ანალიტიკის ოქროს წესს:

წარმომადგენლობითი შერჩევითი ერთობლიობა + სტატისტიკურად სწორი შეწონვა = სარწმუნო და რეალურ გადაწყვეტილებებზე ორიენტირებული ხედვები

ეს ფორმულა არ არის მხოლოდ სტატისტიკური თეორია — ეს არის კონკურენტული უპირატესობის საფუძველი.

როდესაც კომპანიებს ნამდვილად ესმით თავიანთი მომხმარებლების, თანამშრომლების და ბაზრის საჭიროებები (და არა მხოლოდ ყველაზე ხმამაღალი ხმები), ისინი იღებენ სტრატეგიულ იარაღს, რომელიც ეფექტურად მუშაობს.

მთავარია, გვახსოვდეს, სწორად მოგროვებული მცირე მონაცემი — სჯობს მილიონ ხმაურს, რომელიც რეალობას არ ეხმიანება.

*ACT Research-ის ანალიტიკური გუნდი მუშაობს კომპანიებთან, რომ მათი კვლევითი პროცესები იყოს მეთოდოლოგიურად სანდო და ბიზნეს შედეგებზე ორიენტირებული, რადგან ცუდ მონაცემებზე დაყრდნობით კარგ გადაწყვეტილებას ვერ მიიღებთ.*

გააზიარე: