Hiểu đúng về ý nghĩa của trị số P trong thống kê

Khi đọc các bài báo khoa học, chúng ta có thể thấy một số tác giả báo cáo trị số P trong phần kết quả thực nghiệm. Như một tiêu chuẩn, nếu giá trị P < 0.05 thì kết quả thực nghiệm được coi là có ý nghĩa thống kê (statistically siginificant). Trong khoa học, p-value gây khá nhiều tranh cãi. Một số báo đã cấm sử dụng p-value trong các bài báo gửi đến (đọc thêm: Psychology journal bans P values, trên Nature). Bỏ qua những tranh cãi đó, bạn có thể định nghĩa trị số P một cách đơn giản hay  không? Và thực sự, trị số P có ý nghĩa như thế nào? Hoá ra trả lời câu hỏi này cũng không hề đơn giản. Trong video này, một số nhà khoa học được yêu cầu định nghĩa trị số P, nhưng tất cả đều không trả lời được. Thế mới biết, có những khái niệm chúng ta dùng rất nhiều nhưng không thực sự hiểu cặn kẽ.

Để hiểu về trị số P, trước hết bạn phải hiểu thế nào là giả thuyết vô hiệu (null-hypothesis) và giả thuyết mà nhà nghiên cứu muốn khẳng định (alternative hypothesis). Tham khảo thêm các thuật ngữ này tại đây. Ví dụ, bạn nghi ngờ rằng mặt ngửa và mặt úp của một đồng xu không nặng bằng nhau vì khi bạn tung đồng xu 10 lần thì có tới 9 lần là mặt ngửa và chỉ có 1 lần là mặt úp. Trong trường hợp này, giả thuyết bạn muốn kiểm nghiệm (alternative hypothesis) là hai mặt đồng xu không nặng bằng nhau, giả thuyết vô hiệu (null-hypothesis) là hai mặt đồng xu nặng bằng nhau.

Một cách kỹ thuật, trị số P được định nghĩa là xác suất nhận được kết quả “đặc biệt” (cực đoan) bằng hoặc hơn những gì bạn quan sát khi giả thuyết vô hiệu là đúng (p-value — the probability of getting results at least as extreme as the ones you observed, given that the null hypothesis is correct). Trong ví dụ tung đồng xu ở trên, trị số P được tính bằng xác suất nhận được 9 ngửa và 1 úp cộng xác suất thu được 9 úp, 1 ngửa cộng xác suất thu được 10 ngửa cộng xác suất thu được 10 úp. Lý do xác suất 10 ngửa và 10 úp được cộng vào ở đây là do chúng ta đang tính xác suất thu được kết quả cực đoan bằng hoặc hơn những gì ta quan sát. Trong trường hợp này, rõ ràng trường hợp nhận được 10 ngửa hoặc 10 úp trong 10 lần tung xu cực đoan hơn trường hợp thu được 9 lần mặt ngửa và 1 lần mặt úp.

Ta hãy thử tính p-value trong ví dụ ở trên. Vì chúng ta giả thiết rằng giả thuyết vô hiệu là đúng, tức là hai mặt của đồng xu cân bằng, do đó xác suất thu được mặt ngửa (H – Head) hay mặt úp (T- Tail) là bằng nhau và bằng 1/2. Ta ký hiệu \mu = P(H) = P(T) = 0.5

Sử dụng công thức tính tính xác suất của phân bố binomial (binomial distribution) ta tính được giá trị P trong ví dụ trên như sau:

P=2\times{10 \choose 9}\times(\frac{1}{2})^{9}\times\frac{1}{2} + 2\times{10 \choose 10}\times(\frac{1}{2})^{10}=0.02148438

Vì trị số P ta tính được nhỏ hơn 0.05 nên chúng ta có thể loại bỏ giả thuyết vô hiệu (null-hypothesis). Tuy nhiên, chúng ta cũng cần tránh hiểu lầm là chúng ta có thể kết luận đồng xu có hai mặt không cân bằng. Có thể nói hiểu lầm này là khá phổ biến đối với nhiều người khi đọc các bài báo khoa học.

Vậy trị số P có ý nghĩa gì? Tại sao phải dùng trị số P? Câu trả lời là nó được dùng như là một cách để loại bỏ giả thuyết vô hiệu (null hypothesis), hoặc các “khám phá sai lầm” (false discovery). Ví dụ nếu P > 0.05, nhiều nhà khoa học nói kết quả không có ý nghĩa thống kê. Tuy nhiên, cũng có những trường hợp khám phá là thật nhưng trị số P vẫn lớn hơn 0.05. Nguyên nhân có thể đến từ nhiễu có thể có của dữ liệu hoặc sai sót trong quá trình lấy mẫu.

Trong [1], có một ví dụ về tính trị số P khá cơ bản mà bạn có thể tự làm coi như một bài tập.

Một nhà thần kinh học đang kiểm tra tác dụng của một loại thuốc đối với thời gian phản ứng bằng cách tiêm cho 100 con chuột bạch, mỗi con một liều thuốc để gây ra những hưng phấn thần kinh cưỡng bức trên chúng và ghi lại thời gian phản ứng. Nhà thần kinh học biết rằng, thời gian phản ứng trung bình của các con chuột không bị tiêm thuốc là 1.2 giây. Thời gian phản ứng trung bình của 100 con chuột bị tiêm thuốc là 1.05 giây với độ lệch tiêu chuẩn trên mẫu (sample standard deviation) là 0.5 giây. Bạn có nghĩ rằng thuốc có tác dụng với thời gian phản ứng? (Nói cách khác bạn cần tính trị số P trong thí  nghiệm này).

Tài liệu tham khảo

  1. Video bài giảng về hypothesis-testing và p-value trên Khanacademy của khoá học Statistic-inferential.
  2. Ý nghĩa của trị số P (P-value) – giáo sư Nguyễn Văn Tuấn. Một bài viết tuyệt vời, dễ hiểu về trị số P.
  3. Logic of Hypothesis Testing – một chương trong cuốn sách online về Statistics.

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: