Methodology
Data Screening ก่อนวิเคราะห์ข้อมูลวิจัยควรตรวจอะไรบ้าง
คู่มือภาษาไทยสำหรับตรวจ missing values, duplicate rows, ID columns, PII-risk, outlier และความพร้อมของไฟล์ข้อมูลก่อนใช้สถิติ
Data Screening คือขั้นตอนตรวจความพร้อมของข้อมูล
ก่อนเลือกสถิติ ควรตรวจว่าไฟล์ข้อมูลมี missing values, แถวซ้ำ, คอลัมน์ ID, คอลัมน์ที่เสี่ยงเป็นข้อมูลส่วนบุคคล และ outlier มากน้อยเพียงใด ขั้นตอนนี้ช่วยลดความผิดพลาดก่อนนำข้อมูลไปทำ descriptive statistics หรือ hypothesis testing
ควรซ่อนหรือลบ PII ก่อนแชร์รายงาน
ชื่อ อีเมล เบอร์โทร เลขบัตรประชาชน รหัสนักศึกษา หรือที่อยู่ อาจไม่จำเป็นต่อการวิเคราะห์เชิงสถิติ หากต้องส่งไฟล์หรือรายงานให้ผู้อื่นควรลบหรือปิดบังข้อมูลระบุตัวตนก่อนเสมอ
Data Readiness Score เป็น heuristic
คะแนนความพร้อมเป็นตัวช่วยเชิงกฎ ไม่ใช่การรับรองคุณภาพงานวิจัย ผู้วิจัยยังต้องตรวจ coding, scale direction, sampling design และสมมติฐานของสถิติด้วยตนเอง
FAQ
ทำไมต้องตรวจ missing values?
เพราะ missing values อาจทำให้จำนวนตัวอย่างจริงลดลง ทำให้ผล descriptive, t-test, ANOVA หรือ regression เปลี่ยน และต้องระบุวิธีจัดการ missing ในรายงาน
Outlier ต้องลบเสมอไหม?
ไม่จำเป็น ต้องตรวจว่าเป็นความผิดพลาดในการกรอกข้อมูลหรือเป็นค่าจริง หากเป็นค่าจริงควรมีเหตุผลทางวิชาการก่อนลบหรือ winsorize
ID column ใช้วิเคราะห์ได้ไหม?
โดยทั่วไป ID ใช้ระบุตัวอย่าง ไม่ใช่ตัวแปรเชิงเนื้อหา จึงไม่ควรนำไปคำนวณค่าเฉลี่ยหรือทดสอบสมมติฐานเหมือนตัวแปรวัดผล
ทำไมต้องระวัง PII?
เพราะข้อมูลระบุตัวตนสามารถเชื่อมกลับไปหาผู้ตอบได้ ควรเก็บเท่าที่จำเป็นและหลีกเลี่ยงการใส่ใน export หรือรายงานที่แชร์ต่อ