Các Tutorials ở NIPS 2011

Nguồn: Tutorial Schedule in NIPS 2011

(To be editted)

[1] Amir Globerson, Tommi Jaakkola. Linear Programming Relaxations for Graphical Models

[2] Alexander Rush, Michael Collins. Lagrangian Relaxation Algorithms for Inference in Natural Language Processing

Có thể lấy các tutorial, papers về chủ đề này ở trang chủ của Rush:

Bài báo sử dụng kỹ thuật này từng được Best Paper Award ở EMNLP. Worth reading more!

[3] Peter Orbanz, Yee Whye Teh. Modern Bayesian Nonparametrics

Một tutorial cũng được đánh giá cao. Slide có thể lấy tại đây.

[4] Amr Ahmed, Alexander Smola. Graphical Models for the Internet

[5] Naftali Tishby.  Information Theory in Learning and Control

Một bài tutorial theo đánh giá của một số người. Không hiểu sao không kiếm được slide cho bài tutorial này.
Có thể nghe một bài liên quan tại đây: http://videolectures.net/mmdss07_tishby_itam/

[6] Jonathan Pillow. Flexible, Multivariate Point Process Models for Unlocking the Neural Code

Upcoming Event: Multi-label Classification of Biomedical Papers

Good chance to practice what I have learned about Machine Learning. Just take my free time (for example, reading newspapers, film,…) to practice this exercise.

http://tunedit.org/challenge/JRS12Contest

Thu hoạch sau khóa học Machine Learning (Stanford)

Vừa take xong một course Machine Learning online ở ĐH Stanford của Professor Andrew Ng (http://www.ml-class.org/course/class/index) (theo nghĩa vừa nghe video lectures vừa làm review question và programming exercises), thời gian bỏ vào không ít và thu lại cũng kha khá. GS Andrew đúng là một  great teacher, bài giảng hay, các bài tập programming exercises thú vị, không quá nặng nề.

Course này cover khá nhiều topic trong Machine Learning, là 1 starting point tốt để bắt đầu tìm hiểu những thứ advanced hơn.

1. Linear Regression

2. Logistic Regression

3. Neural Network

4. Support Vector Machines

5. Dimensionality Reduction

6. Clustering

7. Một vài ứng dụng như Recommendation systems,…

Những gì mình gain được sau khi học khóa này:

1- Kiến thức nền tảng/cơ bản trong Machine Learning

2- Cách thiết kế một hệ Machine Learning, cách Debug, phân tích lỗi, biết cách improve hệ machine learning trong các TH (ví dụ: khi nào cần thêm features, khi nào cần get thêm data, cách tránh overfiting, underfiting,…)

3- Improve khả năng nghe tiếng Anh. Mới đầu nghe không tốt, sau một vài lectures đã nghe tốt hơn đáng kể.

4- Learn thêm được ngôn ngữ Matlab/Octave dùng để tính toán số (đặc biệt với matrix và vector).

Bắt đầu học Statistical Machine Learning như thế nào?

Lược dịch từ nguồn: http://pindancing.blogspot.com/2010/01/learning-about-machine-learniing.html

Một bài tham khảo hay mặc dù theo ý kiến cá nhân mình, tác giả đã dành quá nhiều thời gian cho việc học.

***

Nếu bạn có ý định nghiên cứu/làm việc liên quan đến Machine Learning, hãy đọc bài viết này, mua một vài cuốn sách và làm việc theo lộ trình đó. Có thể bạn sẽ tiết kiệm rất nhiều thời gian, đặc biệt là khi bạn tự học.

Bước đầu tiên…

Học các kỹ thuật chứng minh trước. Bạn sẽ chẳng có bước tiến nào trừ khi bạn học được cách chứng minh. Cuốn sách tốt nhất theo recommend (của tác giả) là cuốn “How to Prove It” của Valleman

Các kiến thức nền tảng về toán học

Theo kinh nghiệm của tác giả bạn cần phải thông thạo 6 nhánh của Toán học trước khi bạn thật sực có thể làm việc được với Machine Learning. Theo ý kiến của tác giả, cách tốt nhất là dành 1 năm trước khi bước vào nghiên cứu Machine Learning. Nhiều người cố gắng giảm bớt thời gian này nhưng thật ra sau lại phải học lại và càng tốn thời gian hơn.

(1) Giải tích

Tác giả recommend một cuốn sách ngắn khá hay của Strang. Cuốn Calculus (download free)
Hoặc các cuốn sách khó hơn như Calculus của Spivak, Principles of Mathematical Analysis của Baby Rudin

(2) Toán rời rạc.

Tác giả recommend một vài cuốn về toán rời rạc (của Rosen hoặc cuốn Introduction to Algorithm của Cormen)

(3) Đại số tuyến tính:

Đầu tiên đọc cuốn của Strang, sau đó lã Axler’s

(4) Xác suất (update sau)

(5) Thống kê:

Update sau

(6) Information Theory:

Tác giả recommend cuốn của Mackay (free cho download)

Kiến thức cơ bản về AI (Trí tuệ nhân tạo)

Cuốn của Tom Michel hoặc Russell là các cuốn tham khảo tốt

Học máy (Machine Learning)

“Pattern Recognition and Machine Learning”  của Christopher Bishop,

sau đó là: “Elements of Statistical Learning” (free download).

Neural Networks:

Theo thư tự

Neural Network Design Hagan Demuth and Beale,

Neural Networks, A Comprehensive Foundation (2nd edition) – By Haykin

Neural Networks for Pattern Recognition ( Bishop).

Đến đây bạn đã có đủ kiến thức background để nghiên cứu/làm việc chuyên sau hơn về Machine Learning.

Một số tài liệu, tài liệu tham khảo mà tôi sưu tập/tổng hợp được:

(1) Một Machine Learning Course khá hay của Giáo sư Adrew Ng: http://www.ml-class.org/course/class/index

Course này cover khá nhiều kiến thức basic cho những người bắt đầu học như linear regression, logistics regression,… Xứng đáng để đầu tư thời gian học.

(2) Website hỗ trợ cho sinh viên của AAAI: http://aaai.org/AITopics/StudentResources

(3) Learning Resources của AAAI: http://aaai.org/AITopics/MachineLearning

(4) Open Directory về AI: http://www.dmoz.org/Computers/Artificial_Intelligence/

(5) Nghiên cứu về Machine Learning tại ĐH Standford: http://www.archive.org/details/CC1024_artificial_intelligence

(6) Một số Video Lectures về Machine Learning: http://freescienceonline.blogspot.com/2007/07/machine-learning-and-artificial.html

Nếu bạn có thêm các tài nguyên hữu ích, hãy share bằng cách comment ở bài blog này.

Octave – một công cụ cho tính toán số (numerical computing) mạnh

http://www.gnu.org/software/octave/index.html

Một công cụ cho tính toán khá tốt, tương tự như Matlab nhưng hoàn toàn free. Điểm mạnh của các công cụ này là support các tính toán cho dữ liệu dạng vector hoặc ma trận rất tốt.

Tool này được dùng cho nhiều course về Machine Learning tại một số trường ĐH lớn trên thế giới.

Một số tài liệu tham khảo:

[1] Manual của tool (hơn 700 trang)

http://www.gnu.org/software/octave/doc/interpreter/

[2] Wikibook

http://en.wikibooks.org/wiki/Octave_Programming_Tutorial

[3] GNU Octave Beginner’s Guide

http://www.ebookee.ws/gnu-octave-beginners-guide.html

IJCNLP 2011 Overview

Accepted List: http://www.aclweb.org/anthology/I/I11/

(Bài viết tập trung trên khía cạnh các vấn đề/kỹ thuật mới và không đi vào chi tiết)

1- Sonal Gupta and Christopher D. Manning. Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers

Bài này đề xuất bài toán extract các key aspect từ các technical papers, tập trung vào các khía cạnh:

FOCUS: Contribution chủ yếu của bài báo
TECHNIQUE: Phương pháp giải quyết
DOMAIN: Domain ứng dụng của bài báo

Kỹ thuật sử dụng trong bài Information Extraction dựa trên Patterns. Có thể coi là 1 dạng summarization

2- Seyed Abolghasem Mirroshandel; Gholamreza Ghassem-Sani; Alexis Nasr. Active Learning Strategies for Support Vector Machines, Application to Temporal Relation Classification

Một evidence nữa về hiệu quả của Active Learning? Cần đọc thêm về Active Learning

3- A Fast Accurate Two-stage Training Algorithm for L1-regularized CRFs with Heuristic Line Search Strategy

Cần đọc thêm để hiểu cách tác giả can thiệp vào CRF

4- Keyphrase Extraction from Online News Using Binary Integer Programming

Keyphrase Extraction là một bài toán khá cổ kính. Tác giả đưa ra một cách formalization mới dựa trên Integer Linear Programming. Worth Reading

5-  Extracting Relation Descriptors with Conditional Random Fields

Một cách view mới cho bài toán Relation Extractionn. Relation Extraction được view thành bài toán Sequence Labeling

6 – WikiNetTK – A Tool Kit for EmbeddingWorld Knowledge in NLP Applications

Trong nhiều bài toán NLP, World Knowledge đóng vai trò rất quan trọng. Vấn đề là làm thế nào để trích rút và tích hợp các World Knowledge này vào.
Tác giả xây dựng một open-source tool WikiNetTK để thực hiện công việc đó.

Upcoming Events (CICLING 2012)

http://www.cicling.org/2012/

CICLING 2012 sẽ diễn ra tại Ấn độ.

Some information:

Abstract Submission: October 23 (three days remaining)

Full Paper Submission: October 31st (11 days remaining)

Try our best!

Statistical Significance Test (kiểm định giả thuyết)

Một vài Website cho statistical test (Ví dụ Chi-square distribution, p value, t test)…

http://faculty.vassar.edu/lowry/tabs.html#csq (Tính p value từ Chi-Square)

http://www.fourmilab.ch/rpkp/experiments/analysis/chiCalc.html (Chi-Square)

Một ví dụ về McNemar Test và Chi-Square distribution: http://www.stat.yale.edu/Courses/1997-98/101/chisq.htm

Slide về Significance Test: http://www.public.asu.edu/~huanliu/dmml_presentation/T-test.pdf

Website về tính toán thống kê: http://www.graphpad.com/welcome.htm

McNemar Test trên Wiki: http://en.wikipedia.org/wiki/McNemar%27s_test

Bài tham khảo về ChiSquare: http://yatani.jp/HCIstats/ChiSquare

http://www.john-uebersax.com/stat/mcnemar.htm

P-value: http://www.graphpad.com/articles/pvalue.htm

Statistics Glossary vể Hypothesis Testing (kiểm định giả thuyết): http://www.stats.gla.ac.uk/steps/glossary/hypothesis_testing.html

+ Một vài bài bằng tiếng Việt viết về chủ đề này:

http://sites.google.com/site/nvniuu/-mot-lan-di-cho-binh-minh-len-som-1/ynghiacuatrisopp-value-nguyenvantuan

http://statistics.vn/index.php?option=com_content&view=article&id=170:bang-2×2-bai-2&catid=27:chi-test&Itemid=37

http://www.tihe.org.vn/web/file/tailieu/tailieu20051101150042.pdf

Cấu trúc dữ liệu Tree trong C++

Một bộ thư viện cài đặt cấu trúc dữ liệu Tree trong C++ theo STL Style khá hay và dễ sử dụng:

http://tree.phi-sci.com/

Hỗ trợ các thao tác cơ bản với Tree như chèn, xóa node trong Tree, duyệt cây theo thứ tự pre, in-order, post-order,…

Rất đáng để tìm hiểu.

Lỗi mgs.exe khi convert ps sang pdf

Khi soạn thảo Latex và chèn ảnh eps vào tài liệu. Thông thường phải biên dịch sang ps sau đó dùng trình ps2pdf để convert sang file pdf. Đôi khi ta gặp lỗi mgs.exe.

mgs.exe là trình ghostscript của MikTex để chuyển tài liệu ps sang pdf.

Lỗi đó xảy ra là do file eps của bạn có kích thước quá lớn. Bạn cần Reduce kích thước của file eps tới kích thước phù hợp. Sau đó biên dịch lại.inkscape

Có nhiều cách để reduce size của file eps. Chẳng hạn dùng gsview hay inkscape

Follow

Get every new post delivered to your Inbox.