Hiểu đúng về ý nghĩa của trị số P trong thống kê

Khi đọc các bài báo khoa học, chúng ta có thể thấy một số tác giả báo cáo trị số P trong phần kết quả thực nghiệm. Như một tiêu chuẩn, nếu giá trị P < 0.05 thì kết quả thực nghiệm được coi là có ý nghĩa thống kê (statistically siginificant). Trong khoa học, p-value gây khá nhiều tranh cãi. Một số báo đã cấm sử dụng p-value trong các bài báo gửi đến (đọc thêm: Psychology journal bans P values, trên Nature). Bỏ qua những tranh cãi đó, bạn có thể định nghĩa trị số P một cách đơn giản hay  không? Và thực sự, trị số P có ý nghĩa như thế nào? Hoá ra trả lời câu hỏi này cũng không hề đơn giản. Trong video này, một số nhà khoa học được yêu cầu định nghĩa trị số P, nhưng tất cả đều không trả lời được. Thế mới biết, có những khái niệm chúng ta dùng rất nhiều nhưng không thực sự hiểu cặn kẽ. Continue reading

Tại sao học máy và thống kê bổ sung cho nhau?

Bản dịch của bài viết “Are ML and Statistics Complementary?” của tác giả Max Welling, đại học Amsterdam.

Tôi từng được yêu cầu đưa ra các bình luận về chủ đề “Khoa học dữ liệu trong 50 năm tới” (Data Science in the next 50 years), và đặc biệt là mối liên hệ giữa học máy (machine learning) và thống kê (statistics). Học máy – ngành non trẻ hơn trong hai ngành, được xây dựng trên nền tảng của xác suất/thống kê, trong nhiều năm đã tiếp nhận rất nhiều “triết lý” cũng như các kỹ thuật trong thống kê. Ví dụ trong học máy, chúng ta hầu như đi theo hướng sử dụng Maximum Likelihood hoặc Bayesian trong khi ước lượng (estimation) và chúng ta sử dụng các thuật toán cực đại kỳ vọng (expectation maximization – EM) để xử lý các biến ẩn. Cũng như vậy, “trào lưu” (hype) trước kia trong học máy (trước khi “học sâu” hay deep learning ra đời) là các phương pháp Bayesian không tham số (nonparametric Bayesian methods), rõ ràng là một lĩnh vực nòng cốt trong thống kê. Cùng thời gian đó, tồn tại những sự khác biệt mang tính “văn hoá” giữa hai ngành. Trong đó ngành thống kê tập trung hơn vào các “suy diễn thống kê” (statistical inference), tức là giải thích và kiểm định các thuộc tính của một quần thể (population) dựa vào phân tích các mẫu lấy ngẫu nhiên từ đó. Học máy quan tâm nhiều hơn đến việc đưa ra các dự đoán (making prediction), mặc dù các dự đoán có thể không thể giải thích được rõ ràng (các dự đoán thuộc dạng này được biết đến như một dự đoán hộp đen – black-box prediction)

Continue reading

Machine Learning Books Suggested by Michael I. Jordan from Berkeley

Các cuốn sách về Machine Learning được GS Michael I. Jordan (ĐH Berkeley) khuyến nghị. (Xem bản copy tại: http://www.statsblogs.com/2014/12/30/machine-learning-books-suggested-by-michael-i-jordan-from-berkeley/)

Honglang Wang's Blog

There has been a Machine Learning (ML) reading list of books in hacker news for a while, where Professor Michael I. Jordan recommend some books to start on ML for people who are going to devote many decades of their lives to the field, and who want to get to the research frontier fairly quickly. Recently he articulated the relationship between CS and Stats amazingly well in his recent reddit AMA, in which he also added some books that dig still further into foundational topics. I just list them here for people’s convenience and my own reference.

  • Frequentist Statistics
    1. Casella, G. and Berger, R.L. (2001). “Statistical Inference” Duxbury Press.—Intermediate-level statistics book.
    2. Ferguson, T. (1996). “A Course in Large Sample Theory” Chapman & Hall/CRC.—For a slightly more advanced book that’s quite clear on mathematical techniques.
    3. Lehmann, E. (2004). “Elements of Large-Sample Theory” Springer.—About asymptotics which is a good starting place.

View original post 317 more words

Tài liệu tham khảo về Text Coherence/Text Readability

Nhân câu hỏi của một bạn về đánh giá chất lượng của văn bản khi chèn/sửa/xoá câu trong đó. Khi còn làm Master/Ph.D. mình cũng có đọc một số trong những tài liệu này.

  1. Barzilay, Modeling Local Coherence: An Entity-based Approach: https://www.aclweb.org/anthology/J/J08/J08-1001.pdf
  2. Micha Elsner, Joseph Austerweil, and Eugene Charniak. A Unified Local and Global Model for Discourse Coherence. ACL 2007: http://www.ling.ohio-state.edu/~melsner/pubs/order.pdf
  3. Micha Elsner and Eugene Charniak. Coreference-inspired Coherence Modeling. ACL 08: http://www.aclweb.org/anthology/P08-2011
  4. Guinaudeau, and Strube. Graph-based Local Coherence Modeling. ACL 2013: http://www.aclweb.org/anthology/P13-1010.pdf
  5. Tool: Brown Coherence model, by Micha Elsner https://bitbucket.org/melsner/browncoherence/
  6. Text Readability: http://www.readability.biz/index.html
  7. PHP Text Statistics: https://github.com/DaveChild/Text-Statistics
  8. Methods for measuring text readability: http://www.standards-schmandards.com/2005/measuring-text-readability/
  9. Text readability and intuitive simplification: A comparison of readability formulas:http://nflrc.hawaii.edu/rfl/April2011/articles/crossley.pdf
  10. http://pageperso.lif.univ-mrs.fr/~nuria.gala/publis/NLPCS2013_Todirascuetal.pdf

Answer on @Quora by @xamat to How do I learn machine learning?

http://qr.ae/79GFW0

I didn’t do a PhD on machine learning (was mostly focused on Signal Processing and Software Engineering) so I get this question a lot. The typical person that asks me this question is a software engineer with a computer science background, so I will address it from that perspective. If you are a Math major, for example, my answer might be less useful.

The first thing I tell someone who wants to get into machine learning is to take Andrew Ng’s online course. I think Ng’s course is very much to-the-point and very well organized, so it is a great introduction for someone wanting to get into ML. I am surprised when people tell me the course is “too basic” or “too superficial”. If they tell me that I ask them to explain the difference between Logistic Regression and Linear Kernel SVMs, PCA vs. Matrix Factorization, regularization, or gradient descent. I have interviewed candidates who claimed years of ML experience that did not know the answer to these questions. They are all clearly explained in Ng’s course. There are other online courses you can take after this one such as Mining Massive Datasets or Recommender Systems, but at this point you are mostly ready to go to the next step.

My recommended next step is the following. Get a good ML book (my list below), read the first intro chapters, and then jump to whatever chapter includes an algorithm you are interested. Once you have found that algo, dive into it, understand all the details, and, especially, implement it. In the previous online course you would already have implemented some algorithms in Octave. But, here I am talking about implementing an algorithm from scratch in a “real” programming language. You can still start with an easy one such as L2-regularized Logistic Regression, or k-means, but you should also push yourself to implement more interesting ones such as LDA (Latent Dirichlet Allocation) or SVMs. You can use a reference implementation in one of the many existing libraries to make sure you are getting comparable results, but ideally you don’t want to look at the code but actually force yourself to implement it directly from the mathematical formulation in the book.

So, what are some good books to do this? Many have been mentioned before. Some of my favorite:

You can also go directly to a research paper that introduces an algorithm or approach you are interested on and dive into it.

My main point is that machine learning is both about breadth as depth. You are expected to know the basics of the most important algorithms (see my answer to What are the top 10 data mining or machine learning algorithms?). On the other hand, you are also expected to understand low-level complicated details of algorithms and their implementation details. I think the approach I am describing addresses both these dimensions and I have seen it work.

Best paper award at ACL 2014

Source: http://acl2014.org/BestPaper.htm

Best Long Paper Award (sponsored by Bloomberg)

Fast and Robust Neural Network Joint Models for Statistical Machine Translation
Jacob Devlin, Rabih Zbib, Zhongqiang Huang, Thomas Lamar, Richard Schwartz and John Makhoul

Best Student Long Paper Award (sponsored by IBM Research)

Low-Rank Tensors for Scoring Dependency Structures
Tao Lei, Yu Xin, Yuan Zhang, Regina Barzilay and Tommi Jaakkola

Best Long Paper Honorable Mention

Structured Learning for Taxonomy Induction with Belief Propagation
Mohit Bansal, David Burkett, Gerard de Melo and Dan Klein

Semantic Parsing via Paraphrasing
Jonathan Berant and Percy Liang

A Discriminative Graph-Based Parser for the Abstract Meaning Representation
Jeffrey Flanigan, Sam Thomson, Jaime Carbonell, Chris Dyer and Noah A. Smith

Best Short Paper Honorable Mention

Predicting Power Relations between Participants in Written Dialog from a Single Thread
Vinodkumar Prabhakaran and Owen Rambow

Improving sparse word similarity models with asymmetric similarity measures
Jean Gawron

My ACL 2013 and CoNLL 2013 reading list

Tiêu chí chọn paper để đọc:

1- Các papers cùng topic với topic hiện tại

2- Các paper liên quan đến việc hiện tại

3- Các paper giới thiệu new task

4- Các paper sử dụng phương pháp độc đáo, có thể áp dụng, biến đổi để sử dụng cho nhiều bài toán.

======= ACL 2013 =========

** Main conference **
1. Is a 204 cm Man Tall or Small ? Acquisition of Numerical Common Sense from the Web
(Narisawa et al.)
Numerical reasoning trong textual inference mặc dù có độ phủ không cao (low coverage) nhưng thường là khó. Paper đặt ra vấn đề thu thập các common sense về numerical expressions. Ví dụ: 3 tỷ người là lớn hay nhỏ,…

2. Aid is Out There : Looking for Help from Tweets during a Large Scale Disaster
(Varga et al)
Bài này nằm trong dự án của lab mình. Bài toán được đặt ra trong ngữ cảnh của thảm hoạ động đất của Nhật. Nhiều người sử dụng twiter để đăng các thông tin báo cáo về tình trạng hiện tại, các tổ chức chính phủ thì đăng các tweet thông báo về các trợ giúp của họ. Vấn đề là làm sao để match các problem tweet với các aid tweet. Kỹ thuật đáng chú ý trong nhất là excitation polarity matrix.
3. Plurality, Negation, and Quantification:Towards Comprehensive Quantifier Scope Disambiguation

4. Joint Event Extraction via Structured Prediction with Global Features

5. Graph-based Local Coherence Modeling

6. Fast and Robust Compressive Summarization with Dual Decomposition and Multi-Task Learning

7. The Impact of Topic Bias on Quality Flaw Prediction in Wikipedia

8. Paraphrase-Driven Learning for Open Question Answering

9. Question Answering Using Enhanced Lexical Semantic Models

10. Grounded Unsupervised Semantic Parsing

11. Sentiment Relevance

12. Grammatical Error Correction Using Integer Linear Programming

======= CoNLL 2013 ===========

** Main conference **

1. A Boosted Semi-Markov Perceptron

2. Spectral Learning of Refinement HMMs

3. Learning Adaptable Patterns for Passage Reranking

4. Better Word Representations with Recursive Neural Networks for Morphology

5. Multilingual WSD-like Constraints for Paraphrase Extraction

6. Acquisition of Desires before Beliefs: A Computational Investigation