Có nên viết bài báo khoa học hay luận văn trong ngành AI bằng tiếng Việt hay không?

Tại sao mình viết bài luận này?

Gần đây, mình nhận bình duyệt một bài báo cáo hội nghị trong lĩnh vực xử lý ngôn ngữ tự nhiên được viết bằng tiếng Việt. Vì mình rất hiếm khi tham khảo các bài báo viết bằng tiếng Việt nên khi đọc bài báo, mình có cảm giác khá lạ lẫm và gợi cho mình câu hỏi “có nên viết bài báo khoa học trong ngành AI (ngành kỹ nghệ nói chung) bằng tiếng Việt không?”. Trong bài luận này ngắn, mình muốn bàn luận về các khía cạnh xung quanh câu hỏi này.

Vì sao lại là ngành kỹ nghệ?

Theo ý kiến cá nhân của mình, ở Việt Nam, các bài báo tiếng Việt trong ngành khoa học xã hội là phổ biến hơn ngành kỹ nghệ và ít gây cảm giác lạ lẫm khi đọc hơn. Ngành kỹ nghệ, nhất là trong lĩnh vực trí tuệ nhân tạo đang phát triển rất nhanh, các thuật ngữ mới liên tục xuất hiện nên tốc độ cập nhật các từ mới tương ứng trong tiếng Việt khó theo kịp với tốc độ phát triển của ngành.

So sánh với việc viết bài báo khoa học bằng tiếng mẹ đẻ ở Nhật Bản

Nhật Bản có truyền thống lâu đời trong việc chuyển ngữ các tài liệu, sách vở từ tiếng nước ngoài sang tiếng mẹ đẻ. Từ hàng trăm năm trước, các nhà trí thức Nhật Bản đã có ý thức về tầm quan trọng của việc này ngay cả khi đất nước Nhật còn bế quan tỏa cảng, hầu hết chỉ giao thiệp với người Hà Lan. Khi đó, dù số người biết tiếng Hà Lan còn rất ít nhưng họ đã nỗ lực dịch rất nhiều sách vở, tài liệu khoa học từ tiếng Hà Lan sang tiếng Nhật.

Ngay cả hiện nay khi hầu hết các nhà nghiên cứu đều có thể đọc hiểu sách vở, tài liệu viết bằng tiếng Anh, người Nhật vẫn chuyển ngữ các sách vở viết bằng tiếng nước ngoài sang tiếng Nhật. Trong lĩnh vực trí tuệ nhân tạo, rất nhiều các đầu sách đã có bản dịch tiếng Nhật, ví dụ:

Một cuốn sách kinh điển khác (không phải về AI) có tên Structure and Interpretation of Computer Programs (SICP) cũng bản dịch tiếng Nhật.

Không chỉ dịch, các sách chuyên ngành về AI, học máy, hay xử lý ngôn ngữ tự nhiên bằng tiếng Nhật cũng có rất nhiều. Nhờ có các cuốn sách này, các từ vựng chuyên ngành sẽ được cập nhật và chuẩn hóa.

Trong ngành AI hay NLP, các nhà nghiên cứu Nhật cũng chịu khó viết và xuất bản các bài báo bằng tiếng mẹ đẻ. Tạp chí của hiệp hội NLP Nhật cho phép các tác giả viết và đăng bài báo cả bằng Anh và tiếng Nhật. Đa số các bài ở hội nghị NLP thường niên ở Nhật là các bài báo tiếng Nhật.

Ở Việt Nam, các đầu sách dịch trong ngành CNTT cũng có nhiều, nhưng đa phần là các đầu sách dạy về lập trình. Theo hiểu biết của tôi, các đầu sách trong ngành AI rất ít. Gần đây có một số nhóm đã nỗ lực dịch một số đầu sách nổi tiếng sang tiếng Việt, như cuốn Deep Learning hay cuốn sách Dive into Deep Learning. Các tạp chí như tạp chí “Tin học và điều khiển” hay Hội thảo quốc gia về Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông nhận các bài báo viết bằng cả tiếng Anh và tiếng Việt.

Sách chuyên môn ít được dịch sang tiếng Việt có mấy nguyên nhân. Nguyên nhân thứ nhất là tiền bản quyền để được dịch các sách này thường rất đắt mà sách lại kén bạn đọc nên các nhà xuất bản thường không mấy mặn mà để mua bàn quyển. Nguyên nhân thứ hai là các nhà chuyên môn, nhà nghiên cứu ở Việt Nam ít hứng thú với công việc dịch sách vở – vốn là công việc nặng nhọc và đòi hỏi sự kiên tâm.

Ưu nhược điểm của việc viết luận văn, bài báo khoa học bằng tiếng Việt

Ưu điểm

Ưu điểm lớn nhất của việc viết bài báo khoa học bằng tiếng Việt là bài báo sẽ đến được với lượng độc giả trong nước nhiều hơn. Không chỉ các nhà nghiên cứu trong cùng lĩnh vực, những người thuộc chuyên ngành khác hoặc người đọc bình thường sẽ nắm được ít nhất về mặt ý tưởng của bài báo ở dạng nguyên gốc. Tiếp cận nội dung bài báo gốc (uống nước tại nguồn) giúp cho thông tin không bị “tam sao thất bản” khi đi qua các nguồn thứ cấp khác. Đọc một bài báo bằng tiếng Việt cũng nhanh hơn nhiều so với đọc một bài báo bằng tiếng Anh. Nhiều người có thể cãi rằng: không phải ai cũng muốn đọc các bài báo khoa học và nếu có ý định đó họ sẽ phải học tiếng Anh một cách nghiêm túc. Đồng ý rằng học tiếng Anh là cần thiết nhưng nếu quan niệm người viết bài báo là người bán hàng thì việc tăng lượng khách hàng cho sản phẩm của mình là điều mà ai cũng muốn.

Ưu điểm thứ hai là với người Việt Nam, tốc độ viết bài báo bằng tiếng Việt sẽ nhanh hơn tốc độ viết bài báo bằng tiếng Anh nhiều lần. Điều này đặc biệt đúng với những người viết mà trình độ tiếng Anh còn kém. Khi viết bằng tiếng mẹ đẻ, chúng ta thường diễn đạt trôi chảy và (nhiều khi) rõ ý, đầy đủ hơn. Tôi cũng từng so sánh hai phiên bản tiếng Nhật và tiếng Anh của một bài báo thì thấy ở phiên bản tiếng Nhật, tác giả người Nhật giải thích cặn kẽ, chi tiết hơn phiên bản tiếng Anh.

Ưu điểm thứ ba của việc viết bài báo khoa học bằng tiếng Việt là làm giàu cho ngôn ngữ tiếng Việt. Bằng việc viết bài báo bằng tiếng Việt, các thuật ngữ chuyên môn bằng tiếng Việt trong ngành sẽ được bổ sung, chuẩn hóa dần.

Nhược điểm

Khi viết luận văn bằng tiếng Việt, các thuật ngữ chuyên ngành được chuyển ngữ ra tiếng Việt nên có thể gây khó khăn cho người đọc khi tìm thuật ngữ tiếng Anh tương đương. Khi bình duyệt một bài báo viết bằng tiếng Việt, tôi đã rất bối rối khi gặp cụm từ “Mô hình ngôn ngữ yểm mã”. Chỉ đến khi đọc nội dung, tôi mới luận ra được “Mô hình ngôn ngữ yểm mã” chính là “Masked Language Models”. Theo Hán Việt thì “yểm” là che đi nên “masked” được chuyển ngữ thành “yểm mã”. Vì lần đầu nghe thấy nên thực sự tôi đã cảm thấy tiêu đề của bài báo rất “bí ẩn”, và “nguy hiểm”. Vấn đề này sẽ được giải quyết khi sách vở chuyên ngành bằng tiếng Việt có nhiều hơn và các thuật ngữ được chuẩn hóa.

Hiện nay, so với tiếng Anh, sách vở dạy “văn phong khoa học”, cách diễn đạt trong văn bản khoa học bằng tiếng Việt là rất ít và khó tìm. Người viết chủ yếu học thông qua kinh nghiệm hoặc qua thầy hướng dẫn. Đây là nguyên nhân có nhiều bài báo viết bằng ngôn ngữ tiếng Việt chất lượng không được cao và diễn đạt lộn xộn.

Vấn đề thứ ba là vấn đề hội nhập quốc tế. Các đồng nghiệp khác trên thế giới không đọc và biết đến các bài báo được viết bằng tiếng Việt. Các kết quả mới nhưng vì được viết bằng tiếng Việt nên có thể bị bỏ qua mà không được trích dẫn hay nhắc tới. Đây là điều rất đáng tiếc, nhất là với các kết quả thực sự tốt.

Cần làm gì để việc viết luận văn bằng tiếng Việt được tốt hơn?

Để cải thiện chất lượng các bài báo khoa học được viết bằng tiếng Việt và việc viết văn bản khoa học bằng tiếng Việt, theo tôi cần làm mấy điều sau đây.

Để làm giàu và chuẩn hóa từ vựng về khoa học kỹ thuật, những nhà nghiên cứu, nhà chuyên môn cần bớt chút thời gian để viết các bài viết mang tính khai sáng về lĩnh vực của mình và có thể dịch hoặc hướng dẫn người khác dịch các cuốn sách kinh điển ở trong ngành. Dịch sách chuyên ngành là một công việc nặng nhọc, tốn thời gian nhưng nếu các nhà chuyên môn, nhà nghiên cứu không làm thì sẽ không ai làm cả.

Các hiệp hội nghề nghiệp hằng năm có thể chọn lọc và công bố các thuật ngữ mới trong chuyên ngành của mình. Các thuật ngữ này cần được cân nhắc, thảo luận kỹ lưỡng trước khi đưa ra trên nguyên tắc đảm bảo tính toàn vẹn về nghĩa gốc và cả tính thẩm mỹ trong ngôn ngữ.

Các nhà nghiên cứu, nhà chuyên môn cũng cần viết và phổ biến rộng rãi sách vở, tài liệu về cách viết bài báo bằng tiếng Việt, về văn phong của bài báo khoa học.

Kết luận

Vậy cuối cùng, chúng ta cần trả lời câu hỏi có nên viết bài báo, luận văn (về khoa học kỹ thuật) bằng tiếng Việt không?

Trên bình diện rộng, câu trả lời của tôi là “có” với những lợi ích đã viết ở trên. Với từng cá nhân thì tôi không có câu trả lời rõ ràng nên hay không nên! Tùy theo trình độ tiếng Anh của người viết và mục đích của viết bài báo, mỗi người có thể chọn viết bằng tiếng Anh hoặc tiếng Việt.

Nếu kết quả nghiên cứu thực sự tốt thì sau khi có phiên bản tiếng Việt, nên chuyển sang tiếng Anh để tăng độ ảnh hưởng và được các đồng nghiệp trên thế giới biết tới và ghi nhận.

Cuối cùng, theo tôi, ngôn ngữ không ảnh hưởng tới chất lượng của nghiên cứu mà chỉ ảnh hưởng tới sự giao tiếp và việc chọn lựa ngôn ngữ nào để viết là mang tính cá nhân và tùy thuộc vào mục đích viết.

Áp lực sợ bỏ lỡ

Khái niệm này được định nghĩa là áp lực, lo lắng mình sẽ bỏ lỡ một thông tin, mối quan hệ, đồ giảm giá, etc nào đó (có vẻ) có ích ngay tại thời điểm hiện tại hoặc trong tương lai.

Ví dụ, bạn nhìn thấy một cuốn sách, thông tin, bài báo mà người khác share và nói là hay, có ích, bạn sẽ có cảm giác là cần mua, đọc nó. Bạn lưu lại và tự nhủ là khi nào có thời gian sẽ đọc. Cuối cùng, bạn chẳng bao giờ/hiếm khi động tới. Thậm chí khi mua/lưu lại, bạn sẽ bị não bộ đánh lừa và có cảm giác là đã đọc xong nội dung trong đó.

Việc có quá nhiều thông tin/vật dụng cũng khiến cho những thông tin/vật dụng cần thiết và hữu ích thật sự bị đẩy xuống dưới và bị bỏ qua một cách đáng tiếc.

Trong thời đại thông tin bùng nổ và cạnh tranh khốc liệt thì áp lực sợ bỏ lỡ lại càng lớn. Mình cũng đang bị mắc vào. Số lượng trong danh sách lưu lại (bằng pm pocket: https://getpocket.com/) để đọc sau của mình đã lên tới hơn 1500 và mục cũ nhất chưa đọc là cách đây 204 ngày.

Chắc phải thực hiện chiến lược là cái gì đọc được luôn trong ngày, tuần thì mới lưu lại còn không thì bỏ qua luôn, và định kỳ dọn dẹp những bài quá lâu không động tới.

Những thứ tưởng là cần nhưng cuối cùng hoá ra lại không cần lắm.

Trong địa hạt học thuật, tất cả đều bình đẳng, quyền lực chính trị cũng không thể chi phối

Trong địa hạt học thuật, tất cả đều bình đẳng, quyền lực chính trị cũng không thể chi phối.

Đây là điều mình rút ra sau khi đọc một bài báo trên báo Sankei (tin cũ từ năm 2015). Có lẽ đây là một phương châm hơi bị lý tưởng hoá, nhưng mình nghĩ cần hướng tới.

—————————

Nội dung của tin xoay quanh sự kiện luận văn thạc sỹ của thị trưởng thành phố Shimonoseki (tỉnh Yamaguchi) bị hội đồng giáo sư của khoa kinh tế của trường đại học “Shimonoseki City University” đánh trượt. (trường ĐH này do thành phố lập ra).

Ông thị trưởng không đồng ý với kết luận của hội đồng giáo sư và đòi công khai thông tin về quá trình đánh giá luận văn, trong khi hiệu trưởng của trường ĐH nói rằng họ chỉ làm theo quy định của trường.

Đề tài luận văn thạc sỹ của ông thị trưởng là về sự phân quyền ở địa phương. Luận văn của ông dài 550 trang A4 (quá khủng khiếp đối với một luận văn thạc sỹ), trong đó ông viết cả về kinh nghiệm làm việc thực tiễn và nhân sinh quan của ông.

Thị trưởng rất tự tin về luận văn của mình nhưng khi luận văn được đưa ra hội đồng giáo sư (gồm 33 người), luận văn đã bị đánh trượt vì không được tối thiểu 2/3 số thành viên trong hội đồng thông qua.

Thị trưởng rất bực bội vì ông cho rằng luận văn của ông bị đánh trượt chủ yếu vì lối viết của nó quá khác biệt so với các luận văn thông thường chứ không phải vì nội dung của nó.

Hiệu trưởng ĐH Shimonoseki mặc dù rất bối rối vì bị người đứng đầu của thành phố chỉ trích nhưng vẫn kiên quyết giữ lập trường của mình.

http://www.sankei.com/politics/news/150310/plt1503100036-n1.html

Bàn về thành kiến/định kiến

Trong cuộc sống có khá nhiều thành, định kiến mà dù muốn hay không bạn cũng phải thừa nhận sự tồn tại của nó. Những thành kiến vi tế đến mức ngay cả những người nhận mình là công tâm có khi cũng không biết mình mắc phải. Ví dụ tiêu biểu nhất có lẽ là thành kiến về giới tính. Chúng ta nghe nhiều về những nhận định như con gái thường kém hơn con trai trong các môn toán, khoa học, hay nữ thì lập trình kém hơn nam — trong khi có nghiên cứu chỉ ra điều ngược lại (Xem Women considered better coders – but only if they hide their gender). Hay có nghiên cứu về thành kiến về giới tính chỉ ra các giảng viên nam thường được đánh giá cao hơn giảng viên nữ, nếu sinh viên không biết giới tính của giảng viên thì đánh giá sẽ công bằng hơn rất nhiều (Xem: Best Way for Professors to Get Good Student Evaluations? Be Male). Tác hại có thể thấy là những người bị thành kiến nếu luôn bị nghe những điều đó thì khả năng điều được nghe thành sự thật là rất cao. Ví dụ, nếu ta suốt ngày nói với một bé gái rằng nó sẽ không thể giỏi toán hay khoa học bằng các bé trai, có thể nó sẽ tin điều đó là thật và không cố gắng nữa.

Khi đọc sách hay đọc các bài viết, thỉnh thoảng tôi cũng bị mắc phải những thành kiến như: tác giả này viết thì nhất định hay, hay thằng đó viết thì dứt khoát là tào lao, và tôi cũng có lúc mắc vào “confirmation bias” — tức là có xu hướng đồng tình với những gì mình MUỐN đồng tình. Những thành kiến và định kiến đó là rào cản vô hình ngăn trở chúng ta tiếp nhận những kiến thức, quan điểm mới  đến từ những người chúng ta không ưa thích. Vượt qua những thành kiến đó rất khó vì chúng ta là con người có tình cảm, yêu ghét chứ không phải là máy móc! Nhưng tôi luôn cố gắng tự nhắc nhở mình quên đi tác giả mà tập trung vào những suy nghĩ tác giả muốn truyền tải.

P/S: Nghe có vẻ mâu thuẫn, nhưng tôi nghĩ rằng tìm hiểu về “background” của tác giả có ý nghĩa nhất định để hiểu sâu hơn về những suy nghĩ tác giả truyền đạt trong tác phẩm.

Lời khuyên dành cho các bạn sinh viên theo đuổi sự nghiệp khoa bảng

Với các bạn sinh viên có ý định theo đuổi sự nghiệp khoa bảng, nhất định phải học toán cao cấp (đại số, giải tích,…), thuật toán, xác suất thống kê, tối ưu hoá, và lập trình một cách bài bản trong khi còn đang là sinh viên đại học. Sau này thời gian để học bài bản, tuần tự, và chậm rãi sẽ ít đi rất nhiều. (Tham khảo bài viết về lộ trình cho người muốn học về Machine Learning)

————————
Những việc mình ước mình đã làm hoặc làm tốt hơn trong thời gian học đại học:
1- Học các môn toán cao cấp/tối ưu hoá,.. bài bản hơn, đặc biệt là đại số tuyến tính
2- Học xác suất/thống kê một cách tử tế
3- Lập trình nhiều hơn
4- Có thời gian thực tập (internship) ở các công ty
5- Lập và tham gia các nhóm học tập
6- Tham gia các dự án mã nguồn mở

Các bạn hay nói các câu nói như “kiến thức học đại học không hữu ích”, hay “toán cao cấp không hữu ích” nên sửa lại thành “VỚI TÔI, kiến thức học đại học không hữu ích”, “VỚI TÔI, toán cao cấp không hữu ích” (vì với người khác nó hữu ích!)

Tư tưởng về mối quan hệ thầy trò và quá trình sáng tạo của Nhật Bản (守破離)

Tư tưởng cơ bản về mối quan hệ giữa sư phụ (thầy) – đồ đệ (trò) và quá trình sáng tạo từ xa xưa ở Nhật Bản trong các môn như nghệ thuật, trà đạo, võ đạo là 守破離 (しゅはり đọc là Shu-Ha-Ri), Hán Việt là Thủ – Phá – Ly.

– Thủ (守): Học theo những gì thầy dạy bảo, cố gắng lĩnh hội những kỹ năng, kiến thức của người thầy càng nhiều càng tốt.

– Phá (破): Từ những gì học được từ thầy (hoặc người khác), thông qua quá trình suy nghĩ, nghiên cứu, trải nghiệm; tìm ra những điều thích hợp với bản thân, tạo ra những kỹ thuật mới hoặc điều chỉnh để phù hợp với mình. Ví dụ trong võ học, cơ địa của mỗi người sẽ phù hợp nhất với những ngón võ nhất định, hoặc các bài quyền cũng cần phải điều chỉnh để người dùng phát huy được hết khả năng. Những kỹ thuật mới này căn bản vẫn dựa trên những gì học được.

– Ly (離): Sau khi phá xong, thành thạo hoàn toàn những điều mình sáng tạo ra, thì bắt đầu xây dựng những lý thuyết, kỹ thuật mới hoàn toàn khác biệt so với những điều mình lĩnh hội từ thầy hoặc người khác. Mức này là mức cao nhất của sáng tạo.

Tham khảo:

http://ja.wikipedia.org/wiki/%E5%AE%88%E7%A0%B4%E9%9B%A2

人材育成は「守・破・離」で

Kích dục dữ liệu (Data Porn)

Gần đây mình đọc được một bài báo khá hay với nội dung gây tò mò là “kích dục thương hại” (Poverty porn). Theo như bài báo, “kích dục thương hại “ được định nghĩa là “bất kỳ dạng truyền thông viết, hình ảnh, phim… khai thác tình cảnh nghèo đói nhằm làm tăng sự cảm thông để bán báo hoặc gây quỹ từ thiện hoặc để lấy danh tiếng”. Tìm đọc bài báo trên báo tuổi trẻ: http://bit.ly/1q8XReY

Trong báo chí, còn có một loại “kích dục” nữa gọi là “kích dục dữ liệu” (data porn). Loại này xuất hiện sau khi một loại hình báo chí mới ra đời là “báo chí hướng dữ liệu” (data-driven journalizm: http://en.wikipedia.org/wiki/Data-driven_journalism).

Theo (http://bit.ly/1uUVFiZ), “data porn” là hình thức khi các nhà báo tìm kiếm sự chú ý với những số liệu, hoặc biểu diễn số liệu bằng các đồ thị, hình vẽ nhưng không tăng thêm giá trị (add value) với câu chuyện đang kể”. Thu thập số liệu và biểu diễn chúng bằng các bảng số liệu, hình vẽ, đồ thị đẹp mắt chỉ vì chúng gây ấn tượng không phải là báo chí. Đó là một cách “kích dục dữ liệu”.

Trong đời học hành, mình cũng không ít lần làm kiểu “kích dục dữ liệu”. Khi viết tiểu luận hoặc báo cáo, chắc mọi người cũng nhiều lần cố gắng đưa thật nhiều dữ liệu, số liệu, hình vẽ vào để cho bản báo cáo thêm “đầy đặn”, hoặc gây ấn tượng với giáo viên. Nghĩ lại thấy cách làm đó thật ấu trĩ và thể hiện sự lười biếng, lười suy nghĩ của người viết. Người đọc không cẩn thận có thể bị ấn tượng nhưng người đọc cẩn thận sẽ đặt câu hỏi “những số liệu, bảng biểu đó có ý nghĩa, liên quan gì với câu chuyện đang nói tới trong bài”.

Một lời khuyên là hãy bắt đầu bằng một câu hỏi hoặc chủ đề nhỏ liên quan đến câu chuyện đang muốn viết và thu thập, biểu diễn dữ liệu để trả lời cho câu hỏi đó.

Hy vọng sau khi đọc bài này mình và các bạn cũng sẽ có ý thức hơn khi viết lách để tránh rơi vào tình trạng “data porn”.

Climbing Mt. Fuji

Climbing Mt. Fuji

One of my unforgettable trips in my life was a climbing trip two weeks ago to Mt. Fuji, the highest mountain in Japan at 3,776m.

At first, I and three friends at JAIST went by bus from Kanazawa station at 11 pm on August 13, and we arrived at Shinjuku station at 6 am on the next day. After taking a rest, we went to Tokyo tower by metro, a very popular way to travel in Tokyo. We left Tokyo at 2 pm to go to Kawaguchiko station near Mt. Fuji, and arrived there at 5 pm.

Before climbing Mt. Fuji, we had dinner and prepared all necessary things carefully for that, because we knew that we would have a very long, hard time of climbing overnight. After dinner, we got on the sightseeing bus to go to the fifth station of Mt. Fuji at 2,300m. At the fifth station, we started climbing at about 9 pm. Fortunately, the weather was fine although it was rainy at first. There were many people climbing Mt. Fuji on that day because that time was the “Obon matsuri”, which is a traditional holiday in Japan.

You may be impressed when you see a long line of people like an incredible wire climbing Mt. Fuji. The way to the top of Mt. Fuji contains ten stations and many places for climbers to take a break and buy food and drink. The higher we climbed the thinner the air was, and the lower the temperature was, so we had to take a rest every 200m. The climbing was delayed, because one guy in our group felt bad. Luckily, with some help, he could continue walking. That was the reason we were late to reach the top of Mt. Fuji before sunrise. Actually, we planned to reach the top of the mountain early to see sunrise. Therefore, we saw sunrise and took some photos on the mountain slope at about 30m below the top. The scene at that height was very imposing with clouds in varieties of colors covering the sky and the sun rising up little by little.

After seeing sunrise, we continued climbing, and we reached the top at about 6 o’clock. We took some photos there, then we began going down at 8 o’clock. It took about 5 hours to arrive at the bus stop; less time than climbing up, because going down is not as hard as climbing. At last, we got on the bus and went home. We were almost exhausted after long, hard walking, but we felt proud of climbing to the highest place of Japan. That was a really memorable event in my life.