Methodology

Data Screening ก่อนวิเคราะห์ข้อมูลวิจัยควรตรวจอะไรบ้าง

คู่มือภาษาไทยสำหรับตรวจ missing values, duplicate rows, ID columns, PII-risk, outlier และความพร้อมของไฟล์ข้อมูลก่อนใช้สถิติ

Data Screening คือขั้นตอนตรวจความพร้อมของข้อมูล

ก่อนเลือกสถิติ ควรตรวจว่าไฟล์ข้อมูลมี missing values, แถวซ้ำ, คอลัมน์ ID, คอลัมน์ที่เสี่ยงเป็นข้อมูลส่วนบุคคล และ outlier มากน้อยเพียงใด ขั้นตอนนี้ช่วยลดความผิดพลาดก่อนนำข้อมูลไปทำ descriptive statistics หรือ hypothesis testing

ควรซ่อนหรือลบ PII ก่อนแชร์รายงาน

ชื่อ อีเมล เบอร์โทร เลขบัตรประชาชน รหัสนักศึกษา หรือที่อยู่ อาจไม่จำเป็นต่อการวิเคราะห์เชิงสถิติ หากต้องส่งไฟล์หรือรายงานให้ผู้อื่นควรลบหรือปิดบังข้อมูลระบุตัวตนก่อนเสมอ

Data Readiness Score เป็น heuristic

คะแนนความพร้อมเป็นเกณฑ์เชิงกฎ ไม่ใช่การรับรองคุณภาพงานวิจัย ผู้วิจัยยังต้องตรวจ coding, scale direction, sampling design และสมมติฐานของสถิติด้วยตนเอง

Disclaimer: เนื้อหานี้เป็นข้อมูลประกอบการศึกษา ไม่ใช่การรับรอง validity ของงานวิจัย ผู้ใช้ควรตรวจ design, data quality และ assumptions ร่วมกับผู้เชี่ยวชาญเมื่อใช้ในงานสำคัญ

เข้าสู่เครื่องมือที่เกี่ยวข้อง

FAQ

ทำไมต้องตรวจ missing values?

เพราะ missing values อาจทำให้จำนวนตัวอย่างจริงลดลง ทำให้ผล descriptive, t-test, ANOVA หรือ regression เปลี่ยน และต้องระบุวิธีจัดการ missing ในรายงาน

Outlier ต้องลบเสมอไหม?

ไม่จำเป็น ต้องตรวจว่าเป็นความผิดพลาดในการกรอกข้อมูลหรือเป็นค่าจริง หากเป็นค่าจริงควรมีเหตุผลทางวิชาการก่อนลบหรือ winsorize

ID column ใช้วิเคราะห์ได้ไหม?

โดยทั่วไป ID ใช้ระบุตัวอย่าง ไม่ใช่ตัวแปรเชิงเนื้อหา จึงไม่ควรนำไปคำนวณค่าเฉลี่ยหรือทดสอบสมมติฐานเหมือนตัวแปรวัดผล

ทำไมต้องระวัง PII?

เพราะข้อมูลระบุตัวตนสามารถเชื่อมกลับไปหาผู้ตอบได้ ควรเก็บเท่าที่จำเป็นและหลีกเลี่ยงการใส่ใน export หรือรายงานที่แชร์ต่อ