Bản dịch của bài viết “Are ML and Statistics Complementary?” của tác giả Max Welling, đại học Amsterdam.
Tôi từng được yêu cầu đưa ra các bình luận về chủ đề “Khoa học dữ liệu trong 50 năm tới” (Data Science in the next 50 years), và đặc biệt là mối liên hệ giữa học máy (machine learning) và thống kê (statistics). Học máy – ngành non trẻ hơn trong hai ngành, được xây dựng trên nền tảng của xác suất/thống kê, trong nhiều năm đã tiếp nhận rất nhiều “triết lý” cũng như các kỹ thuật trong thống kê. Ví dụ trong học máy, chúng ta hầu như đi theo hướng sử dụng Maximum Likelihood hoặc Bayesian trong khi ước lượng (estimation) và chúng ta sử dụng các thuật toán cực đại kỳ vọng (expectation maximization – EM) để xử lý các biến ẩn. Cũng như vậy, “trào lưu” (hype) trước kia trong học máy (trước khi “học sâu” hay deep learning ra đời) là các phương pháp Bayesian không tham số (nonparametric Bayesian methods), rõ ràng là một lĩnh vực nòng cốt trong thống kê. Cùng thời gian đó, tồn tại những sự khác biệt mang tính “văn hoá” giữa hai ngành. Trong đó ngành thống kê tập trung hơn vào các “suy diễn thống kê” (statistical inference), tức là giải thích và kiểm định các thuộc tính của một quần thể (population) dựa vào phân tích các mẫu lấy ngẫu nhiên từ đó. Học máy quan tâm nhiều hơn đến việc đưa ra các dự đoán (making prediction), mặc dù các dự đoán có thể không thể giải thích được rõ ràng (các dự đoán thuộc dạng này được biết đến như một dự đoán hộp đen – black-box prediction)
Filed under: Bài dịch, Bài viết sưu tầm, Machine Learning, Mô hình thống kê | Tagged: học máy, machine learning, Max Welling, Statistics, Thống kê | Leave a comment »