Bắt đầu viết luận án Tiến sĩ (start writing up your thesis)

Một số nguồn tham khảo về viết luận án TS (PhD dissertation)

  1. How to write up a Ph.D. Dissertation:  Good stuff from Jason Eisner
  2. How to write a good PhD Dissertation (PDF)
  3. How to write a good PhD thesis and survive the viva, by Stefan Ruger (PDF file)
  4. http://www.cs.bham.ac.uk/research/projects/poplog/teach/theses

Nói gì thì nói, có bột mới gột nên hồ, quan trọng là story của thesis phải hay đã sau đó mới đến cách presentation. Ganbarou!

Ý nghĩa của Machine Learning

Một discussion hay về Impact của Machine Learning.

Theo tác giả: nhiều nghiên cứu trong ML hiện nay thiếu connection với các “real-world” problem. Một số view trong bài hơi bị bias như trong phần Discussion về các obstacles mà ML community cần overcome. Tuy nhiên worth reading.

http://www.wkiri.com/research/papers/wagstaff-MLmatters-12.pdf

Bài báo này có vẻ làm cho giới ML researcher hơi động chạm. Rất nhiều comments, discussion và thậm chí 1 site đã được lập lên: http://mlimpact.com/ (trang này đã không còn) nhằm discuss về  chuyện này.

http://mloss.org/community/blog/2012/jun/20/machine-learning-already-matters/

Discussion tại ICML 2012: http://icml.cc/discuss/2012/298.html (Link died)

Quote from the paper: Cách các ML researcher và những người apply ML hay làm:

Papers that achieve “Best Paper Award” (since 1996)

Vửa được 1 anh bạn cùng lab gửi cho 1 list các bài báo được “Best Paper Award” từ năm 1996.

Thấy cũng thú vị nên Post lên đây:

http://jeffhuang.com/best_paper_awards.html

Theo Institution:

http://jeffhuang.com/best_paper_awards.html#institutions

References for Graphical Models and Conditional Random Fields

[1] http://www.cs.ubc.ca/~murphyk/Software/CRF/crf.html

[2 Webpage by Hanna Wallach. http://www.inference.phy.cam.ac.uk/hmw26/crf/

[3] HCRF Library: http://sourceforge.net/projects/hcrf/

[4] CRF++ http://crfpp.googlecode.com/svn/trunk/doc/index.html

[5] Mallet: http://mallet.cs.umass.edu/

Thêm phần thông tin tác giả ở cuối bài Journal

Thường khi khi submit final version của một bài journal, bạn cần thêm thông tin về các tác giả ở cuối bài.

Sau khi search google một hồi, thấy có 1 trang recommend sử dụng package picins cũng hay nên note tạm ở đây.

Bài gốc ở đây

Khi add thông tin tác giả chỉ cần thêm vào dòng code sau đây (bạn cần phải sửa lại tên file ảnh và kích cỡ ảnh cho đúng):

\parpic{\includegraphics[width=1in,clip,keepaspectratio]{figures/joonahn.eps}}
\noindent {\bf Joon Ahn} received his B.S. degree in Electrical Engineering from Seoul National University, Seoul, Korea, in 2000. He received his M.S. degree in 2007 and is currently a Ph.D. Candidate in the Department of Electrical Engineering at the University of Southern California. He received the Best Student Paper Award from the Electrical Engineering-Systems Department at the University of Southern California in 2006. His research interests are in the areas of wireless sensor networks, mobile networks, and ad-hoc networks with emphasis on mathematical modeling and performance analysis.

Thu hoạch sau khóa học Machine Learning (Stanford)

Vừa take xong một course Machine Learning online ở ĐH Stanford của Professor Andrew Ng (http://www.ml-class.org/course/class/index) (theo nghĩa vừa nghe video lectures vừa làm review question và programming exercises), thời gian bỏ vào không ít và thu lại cũng kha khá. GS Andrew đúng là một  great teacher, bài giảng hay, các bài tập programming exercises thú vị, không quá nặng nề.

Course này cover khá nhiều topic trong Machine Learning, là 1 starting point tốt để bắt đầu tìm hiểu những thứ advanced hơn.

1. Linear Regression

2. Logistic Regression

3. Neural Network

4. Support Vector Machines

5. Dimensionality Reduction

6. Clustering

7. Một vài ứng dụng như Recommendation systems,…

Những gì mình gain được sau khi học khóa này:

1- Kiến thức nền tảng/cơ bản trong Machine Learning

2- Cách thiết kế một hệ Machine Learning, cách Debug, phân tích lỗi, biết cách improve hệ machine learning trong các TH (ví dụ: khi nào cần thêm features, khi nào cần get thêm data, cách tránh overfiting, underfiting,…)

3- Improve khả năng nghe tiếng Anh. Mới đầu nghe không tốt, sau một vài lectures đã nghe tốt hơn đáng kể.

4- Learn thêm được ngôn ngữ Matlab/Octave dùng để tính toán số (đặc biệt với matrix và vector).

IJCNLP 2011 Overview

Accepted List: http://www.aclweb.org/anthology/I/I11/

(Bài viết tập trung trên khía cạnh các vấn đề/kỹ thuật mới và không đi vào chi tiết)

1- Sonal Gupta and Christopher D. Manning. Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers

Bài này đề xuất bài toán extract các key aspect từ các technical papers, tập trung vào các khía cạnh:

FOCUS: Contribution chủ yếu của bài báo
TECHNIQUE: Phương pháp giải quyết
DOMAIN: Domain ứng dụng của bài báo

Kỹ thuật sử dụng trong bài Information Extraction dựa trên Patterns. Có thể coi là 1 dạng summarization

2- Seyed Abolghasem Mirroshandel; Gholamreza Ghassem-Sani; Alexis Nasr. Active Learning Strategies for Support Vector Machines, Application to Temporal Relation Classification

Một evidence nữa về hiệu quả của Active Learning? Cần đọc thêm về Active Learning

3- A Fast Accurate Two-stage Training Algorithm for L1-regularized CRFs with Heuristic Line Search Strategy

Cần đọc thêm để hiểu cách tác giả can thiệp vào CRF

4- Keyphrase Extraction from Online News Using Binary Integer Programming

Keyphrase Extraction là một bài toán khá cổ kính. Tác giả đưa ra một cách formalization mới dựa trên Integer Linear Programming. Worth Reading

5-  Extracting Relation Descriptors with Conditional Random Fields

Một cách view mới cho bài toán Relation Extractionn. Relation Extraction được view thành bài toán Sequence Labeling

6 – WikiNetTK – A Tool Kit for EmbeddingWorld Knowledge in NLP Applications

Trong nhiều bài toán NLP, World Knowledge đóng vai trò rất quan trọng. Vấn đề là làm thế nào để trích rút và tích hợp các World Knowledge này vào.
Tác giả xây dựng một open-source tool WikiNetTK để thực hiện công việc đó.