NLP

Last update on: 2015/10/25

Trang tổng hợp các tài liệu về NLP dành cho người tự học. Các tài liệu được chia thành các mục:

  • Sách
  • Bài giảng, bài tập lập trình, blogs
  • Dữ liệu
  • Công cụ, phần mềm

Sách

Bài giảng, bài tập lập trình, blogs, tài liệu

  • 言語処理100本ノック 2015: 100 bài luyện tập lập trình cho xử lý ngôn ngữ tự nhiên, được soạn bởi lab nghiên cứu Inui-Okazaki, đại học Tohoku, Nhật Bản. Bài tập đi từ dễ đến khó nên rất thích hợp để rèn luyện kỹ năng lập trình NLP cho người tự học.
  • NLP Programming Tutorial của Graham Neubig
  • Deep learning from the bottom up: nếu chỉ dùng các tool deep learning và coi đó như hộp đen thì mới chỉ là biết phần ngọn. Cần biết hiểu sâu bên trong mô hình đó thực sự là gì. Bài trên metacademy về trình tự để học về deep learning.
  • Trang Moses奮闘記 – tập hợp các bài viết (tiếng Nhật) về Machine Translation.
  • Bibliography of paraphrasing: http://paraphrasing.org/bib-cat.html

Công cụ, phần mềm

Xử lý văn bản tiếng Nhật

Morphological Analysis (形態素解析)

Dependency parser (構文解析)

Công cụ xử lý văn bản tiếng Anh và các công cụ khác

Text Analysis packages

  • NLTK (Natural Language Took Kit): công cụ/thư viện xử lý text bằng Python.
  • Stanford CoreNLP: Bộ công cụ xử lý văn bản tiếng Anh bằng Java. Trong phần lớn các dự án mình làm khi còn học Master/Ph.D mình xử dụng công cụ này. Như trong phần giới thiệu, bộ công cụ này bao gồm: the part-of-speech (POS) tagger, the named entity recognizer (NER), the parser, the coreference resolution system, the sentiment analysis, and the bootstrapped pattern learning tools.
  • Apache OpenNLP: Mình chưa dùng công cụ này bao giờ, nhưng có một số đồng nghiệp của mình hay sử dụng.

Word representations

Deep Learning

Dữ liệu

Tiếng Nhật

Resources for Textual Entailment Recognition (Japanese)

MISC

  • Trang Kaggle.com. Trang này chuyên tổ chức các cuộc thi về “data science”. Một số cuộc thi yêu cầu kỹ năng xử lý text, một số không. Tuy nhiên đây là một trang web tốt để rèn luyện tay nghề.
  • Bài blog mình tham khảo khi làm danh sách này này (tiếng Nhật): http://nzw.hatenablog.jp/entry/2015/08/07/001659
  • MT/NLP Standard Papers, trên trang Wiki của nhóm nghiên cứu về NLP ở NAIST
%d bloggers like this: