Phương pháp Stacked generalization

Trình bày ý tưởng cơ bản trong bài báo và một số bài liên quan đến chiến lược Stacking một cách informally. Để hiểu được chi tiết phương pháp này, có thể tham khảo bài báo dưới đây và một số bài liên quan.

Joseph Sill, Gabor Takacs, Lester Mackey, and David Lin. Feature-Weighted Linear Stacking.

(1) Ý tưởng cơ bản

Giống như các phương pháp Ensemble theo kiểu “multiexpert combination”, ý tưởng của Stacking là tạo ra nhiều các base-learner khác nhau (bằng một cách nào đấy), sau đó kết hợp các learner này để tạo một combined learner. Với mỗi một đối tượng đầu vào, ta cần tìm ra cách kết hợp các đầu ra của base-learner để đưa ra final decision.

Để tiện giải thích, ta có thể lấy ví dụ về bài toán phân lớp multi-class.

Phương pháp Stacking có những điểm khác biệt cơ bản với phương pháp Voting.

– Trong phương pháp Voting, hàm kết hợp các base-learner là hàm linear function, trọng số cho các base-learner được fixed sẵn (ví dụ bằng 1/L, trong đó L là số lượng các base-learner). Cho một đối tượng đầu vào, với mỗi class, các classifier sẽ cho một giá trị gọi là vote của classifier đó (có thể là xác suất hay đại loại thế), class nào nhận được nhiểu vote nhất của các classifier sẽ được chọn.

– Trong phương pháp Stacking, hàm kết hợp các base-classifier không có ràng buộc phải là hàm tuyến tính, và ta có thể học trọng số cho base-classifier theo một cách nào đó (ví dụ dùng Perceptron algorithm). Như vậy trong phương pháp Stacking, có 2 mức học khác nhau:

  • Base-level: Huấn luyện các base-classifier để dự đoán đầu ra (class) với một đối tượng đầu vào cho trước.
  • Meta-level: Học các tham số để kết hợp các base-classifier. Một cách đơn giản là sử dụng linear regression.

(2) Một số vấn để cần chú ý

+ Ở mức meta-level, ta cần chọn tập các meta-level features hợp lý.
+ Phải phân biệt dữ liệu để huấn luyện các base-classifier với dữ liệu dùng để học tham số cho các base-classifier này. Phương pháp hay dùng là K-fold cross validation.

Một vài question:

(i) Các examples cho việc learning ở mức meta-level được biểu diễn như thế nào?
(ii) Các meta-level features được chọn như thế nào, liên quan đến predictions của các base-classifier ra sao?

** Thực hành: Thử cài đặt một stacked generalization model, và thử nghiệm trên một tập dữ liệu cho bài toán phân lớp multi-class.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: