Daily Archives: 01/12/2010

CHỮ THÁI VIỆT NAM TRONG TÁC PHẨM THANH HÓA QUAN PHONG

Tạp chí Hán Nôm số 2 (99) 2010  (tr.24 – 30)


 

VỀ CHỮ THÁI VIỆT NAM TRONG TÁC PHẨM

THANH HÓA QUAN PHONG

 

Về khả năng tồn tại của chữ Việt cổ, giáo sư Bửu Cầm trong tập bài giảng “Nghiên cứu chữ Nôm” ngay ở phần mở đầu mục “I. Nguồn gốc chữ Nôm”, đã đưa ra một kiến giải, dựa vào ý kiến của Vương Duy Trinh[1] trong sách “Thanh Hóa quan phong”, như sau:

“Có người cho rằng, về thời đại thượng cổ, dân tộc Việt Nam đã có một thứ văn tự riêng mà người Mường ở Thanh Hóa hiện nay còn dùng ([2])

Thuyết trên đây có tương quan với một thuyết nhân chủng học chủ trương: người Việt Nam và người Mường nguyên là một chủng tộc, nhưng sau khi có cuộc tiếp xúc với người Phương Bắc, những người Việt ở đồng bằng, chịu ảnh hưởng văn hóa Trung Hoa, còn người Việt bất hợp tác với dị tộc, rút lui vào rừng núi, tức là người Mường bây giờ, thoát khỏi ảnh hưởng Trung Hoa và giữ được phong tục, ngôn ngữ cùng văn tự cũ…”

Chúng tôi, qua việc tham gia xây dựng font chữ chuẩn Unicode và bộ gõ cho chữ Thái, đã có vài năm nghiên cứu về chữ Thái Việt Nam, nên khi đọc văn bản ghi trong Thanh Hóa Quan Phong đã nhận ra ngay đây thực chất chỉ là một trong 8 dạng chữ Thái VN, phổ biến ở vùng núi Thanh Hóa, Nghệ An.

Xem ảnh bản chụp từ cuốn Thanh Hóa quan phong dưới đây (đã được cắt dán lại!), chúng tôi xác định đó là bảng kê 35 mẫu tự phụ âm chính của tiếng Thái Việt Nam. Chính Vương Duy Trinh cũng ghi chú rõ bằng chữ Hán: “Phụ man mẫu tự tam thập ngũ tự” (Phụ bản 35 mẫu tự của người man), như vậy Vương Duy Trinh đã khẳng định đó là chữ của người “man” chứ không phải người Việt, và khi ông phát biểu rằng đây là lối chữ của nước ta thì chỉ hàm nghĩa là của một dân tộc sống trên đất nước ta, ví dụ là người Thái VN, ông còn đèo thêm mấy từ khá rụt rè “tôi nghĩ rằng” chứ không khẳng định chính xác đó là chữ của người Việt cổ, người đầu tiên nêu giả thuyết đó là thứ chữ của người Việt cổ có lẽ là GS Bửu Cầm.

Các nghiên cứu về người Thái cho biết họ vốn gốc rễ tại vùng núi A Nhĩ Thái (Altai) ở Trung Á thiên di dần về phía nam trong khoảng hàng ngàn năm, một nhánh lập lên vương quốc Thái Lan ngày nay từ khoảng thế kỷ 13-14 [3], còn nhánh người Thái Việt Nam thì tách ra khá xa, khoảng thế kỷ 10-11 đã theo thung lũng sông Hồng tới định cư vùng Mường Lò (Nghĩa Lộ), rồi vượt qua dãy Fanxipăng sang vùng Mường Thanh (Điện Biên) và tỏa khắp vùng Tây Bắc và miền núi Thanh Hóa, Nghệ An, một số sang tận Lào. Chữ Thái vốn bắt nguồn từ chữ Sanskrit (chữ Phạn) gốc rễ ở Ấn độ, thuộc nhánh Sanskrit phương Nam, chịu ảnh hưởng từ chữ Khmer, như chính người Thái Lan thừa nhận, và sự thực lịch sử là vương quốc Thái Lan thành lập sau đất nước Chân Lạp của người Khmer đến hơn nghìn năm… Theo Yukti Mukdawijitra[4], chữ viết Thái Lan cũng như Thái VN hình thành khá muộn, khoảng thế kỉ 10-11 mới bắt đầu tách khỏi nhánh Pallava-Mới của nhóm Pallava Đông Nam Á. Pallava tức là nhóm phương Nam của chữ Phạn Sanskrit, nói như vậy không hẳn là trước thế kỉ 10 người Thái chưa có chữ viết, mà có lẽ họ dùng chữ Phạn gần nguyên gốc.

Phần lớn người Việt khi nhìn những ký hiệu loằng ngoằng của chữ Thái VN đều không biết là thứ chữ gì, phát “hoảng”, mất hết tự tin, nên có thể thụ động ngả theo ý kiến của các vị học giả, nhất là đó lại là những người có uy tín và khả kính như Gs Bửu Cầm. Nên chúng tôi thấy cần giải thích đôi chút về các chữ Thái trong hình chụp từ cuốn Thanh Hóa quan phong ở trên:

Đọc theo dòng từ trái sang phải:

–                     Chữ đầu tiên ở góc trên bên trái Vương Duy Trinh chú âm bằng chữ Nôm là “Tô bò” 蘇 (牛+甫)  (dùng chữ Nôm chỉ con bò tức là bộ “ngưu牛 ” bên chữ “bô甫 ” ), đây chính là tên gọi phụ âm B trong tiếng Thái VN. Người Thái gọi chữ phụ âm là “Tô” còn nguyên âm là “May”, “Tô” trong tiếng Thái nghĩa là “con”,  “cái”…  ví dụ “tô ma” là con chó, chính người Việt cũng hay gọi các chữ cái La Tinh (quốc ngữ) là “con” chữ. Trong bảng ký tự chữ Thái VN đã đăng ký với tổ chức Unicode con chữ đó có tự dạng như sau [X] , nhìn giống chữ V của tiếng Việt, so hình dáng thấy không khác gì nhiều với con chữ mà Vương Duy Trinh ghi chép từ hơn một thế kỷ trước.

–                     Chữ thứ 2, Vương Duy Trinh chú âm bằng chữ Nôm là “Tô đo” 蘇 (才都) (chữ Nôm đo : bộ thủ才 bên chữ “đô” 都), chính là tên gọi phụ âm Đ của tiếng Thái VN. Trong bảng ký tự chữ Thái VN đã đăng ký với tổ chức Unicode con chữ đó có tự dạng như sau [X] , tự dạng cũng không khác mấy so với con chữ của Vương Duy Trinh ghi lại, chỉ có cái “râu” chìa ra bên trái thì bị thu ngắn bớt.

–                     Chữ thứ 3, Vương Duy Trinh chú âm bằng chữ Nôm là “Tô cô” 蘇姑, chính là tên gọi phụ âm K của tiếng Thái VN. Trong bảng ký tự chữ Thái VN đã đăng ký với tổ chức Unicode con chữ đó có tự dạng như sau [X], so sánh thấy dạng Unicode có thêm một nét “khởi bút” kéo từ trên xuống, điều này thực ra cũng không có gì lạ, vì kiểu chữ đăng ký với Unicode dựa vào chữ Thái đen vùng Mai Châu, Sơn La chứ không phải chữ Thái vùng Thanh Hóa-Nghệ An, mà theo Cầm Trọng[5] thì chữ Thái VN có đến 8 loại hình phân bố trong các địa phương khác nhau[6].

–                     Với các chữ khác trong bảng, về căn bản cũng giống 3 trường hợp trên, tức là 2/3 giống với kiểu chữ Thái đen đã đăng ký với Unicode chỉ có 1/3 có sai lệch, ít hay nhiều, về cách viết.

–                     Đặc biệt trong bảng có 2 con chữ hình dáng khá đặc biệt, nên dễ nhận ra, đó là chữ mà Vương Duy Trinh phiên là “Tô ô” 蘇烏 (chữ thứ 3 dòng thứ 3, nhìn giống chữ Hán “nhật日” viết dạng Lệ thư tròn cạnh, dạng Unicode của nó là [X], đó là phụ âm “O” của tiếng Thái[7]) và “Tô hô” (chữ thứ 3 dòng thứ 5, nhìn giống dấu vô cực nhưng không kín nét, đó là phụ âm “H” của tiếng Thái, dạng Unicode là [X])

–                     Ngoài ra, trong phần sưu tầm tác phẩm ghi bằng tiếng Thái mà Vương Duy Trinh chú âm (không có trong bảng 35 mẫu tự ở trên) chúng tôi còn thấy một con chữ có tự dạng khá phức tạp và cực kỳ đặc biệt chỉ có trong các văn bản chữ Thái VN, đó là chữ “Ho hơi” thường dùng mở đầu đoạn văn trong các văn bản chữ Thái cổ. Vương Duy Trinh cũng đã chú rất chính xác âm đọc Nôm của nó là “hơi” tức là chữ Hán “hi” thêm bộ khẩu (xem hình dưới).

Gần đây, lại có nhiều học giả lặp lại giả thuyết của GS Bửu Cầm như GS Lê Trọng Khánh và nhà nghiên cứu Đỗ Văn Xuyền trong công trình nghiên cứu về chữ Việt cổ (Xem : http://hodovietnam.vn/index.php?option=com_content&task=view&id=662&Itemid=33),   hoặc của một tác giả chưa biết tên trên trang mạng sau: http://www.omniglot.com/forum/viewtopic.php?f=17&t=32&start=40 . TS-nhà nghiên cứu Phật học Lê Mạnh Thát cũng đưa ra một số tư liệu chứng minh người Việt cổ đã có chữ viết từ lâu, nhưng ông đi theo một hướng khác mấy vị trên, và không viện dẫn tới cuốn Thanh Hóa quan phong, nên trong phạm vi bài này chúng tôi không đề cập.

Quan điểm của chúng tôi về  vấn đề này là không thể chỉ từ tình cảm dân tộc mà nhắm mắt đề cao “chữ Việt cổ” khi chưa có cơ sở khoa học, như việc giám định niên đại các văn bản chữ cổ mà các tác giả trên sưu tầm được[8], cũng như nghiên cứu kỹ tự dạng, hình dáng, cung cách viết các con chữ mà các tác giả nói trên đơn phương đưa ra và khẳng định đó là chữ Việt cổ.

Sau đây là một văn bản minh họa chữ Việt cổ mà các tác giả trên viết ra, ảnh lấy từ trang WEB đã dẫn ở trên:

Nếu muốn minh họa chữ viết tiếng Việt (nếu có !) thời Hai Bà Trưng hai ngàn năm trước, ghi bằng thứ chữ ghi âm giống chữ Phạn, thì nên chú ý rằng ngay ngữ âm tiếng Việt thời Trần cách đây 700-800 năm cũng đã khác ngày nay rất nhiều, như câu thơ “tìm mai theo đạp bóng trăng” có nhà nghiên cứu đã khôi phục theo ngữ âm cổ thời Trần-đầu Lê là “xìm môi xeo tạp poóng blăng”, như vậy chữ “trời” trong bản hịch viết theo âm tiếng Việt cổ sẽ là “blời”, chứ không nên viết theo ngữ âm thế kỷ 21 hiện nay là “trời”. Ngoài ra đặc điểm của họ văn tự ghi âm Sanskrit cổ xưa là viết liền trên một dòng chứ không tách rời các vần như văn bản minh họa ở trên.

Nhân tiện người viết bài này xin dùng kiến thức chữ Thái của mình thử đọc ba chữ đề bài trong bài hịch viết bằng thứ chữ Việt cổ đó:

–                     Từ thứ nhất: Chữ cái đầu là phụ âm “H” tiếng Thái, chữ thứ 2 nhìn giống dấu mũ ^ là nguyên âm “I” tiếng Thái, chữ thứ 3 là phụ âm “K” , vậy là “HIK” tức là “hịch” ?

–                     Từ thứ hai: Chữ cái đầu kết hợp dấu mũ lộn ngược viết ở trên từ (tiếng Thái gọi là may khít) thành nguyên âm “Ơ” Thái, chữ thứ 2 là phụ âm “KH” Thái, chữ thứ 3 là phụ âm J (“tô DO”), khi đứng cuối từ thì phụ âm J tiếng Thái đọc như bán nguyên âm I cuối từ tiếng Việt, vậy đó là chữ “KHƠI” tức “khởi” ? Chú ý nguyên âm “Ơ” Thái luôn viết đầu từ, trước cả phụ âm đầu.

–                     Từ thứ ba: Chữ cái đầu là phụ âm “tô ngo” tức “NG”, chữ thứ 2 là dấu ^ tức “I” đã nói trên, chữ thứ 3 nhìn như dấu ngã là nguyên âm A tiếng Thái (thực ra người Thái không viết nó nằm ngang như trong hình mà nằm hơi nghiêng như dấu \ ) vậy đó là chữ “NGIA” tức “nghĩa” ? Về vần “IA” này thực ra tiếng Thái có một con chữ riêng để ghi chứ không viết ghép “I” với “A”.

Từ các thông tin và phân tích ở trên có thể rút ra các kết luận:

1. Thanh Hoá quan phong là nói về chữ dân tộc Thái.

2. Chữ Thái mới phát triển từ khoảng thế kỉ 10-12, trong khi chữ Việt cổ nếu có từ thời Văn Lang thì phải có niên đại cỡ 500-1000 năm trước công nguyên, cách xa nhau đến gần 2000 năm.

3. Chữ Việt cổ chỉ có thể tồn tại nếu có chính quyền hỗ trợ và có nhiều tác phẩm lưu giữ trong dân gian, trong khi hiện tại không có bằng chứng thực tế còn lại [9], mọi bằng chứng đã có trên văn bản mà những người phát hiện “chữ Việt cổ” đưa ra đều là chữ Thái, chưa có hình dạng một từ Việt cổ nào được ghi nhận.

4. Đặc điểm cách ghi âm chữ Thái dễ dàng cho biểu diễn phát âm tiếng Việt, vì tiếng Thái cũng là ngôn ngữ đơn âm tiết và có nhiều thanh điệu như tiếng Việt, nhưng không thể vì thấy dễ ghi âm tiếng Việt, như trong bản minh họa bài hịch trên, mà nói chữ Thái là chữ Việt cổ.

Huế 21/10/2009
Phan Anh Dũng


[1] VƯƠNG DUY TRINH:  hiệu Đạm Trai; sống khoảng cuối thế kỉ 19-đầu thế kỷ 20. Quê: làng Phú Diễn, huyện Từ Liêm, nay thuộc Hà Nội. Đỗ Cử nhân, làm Tổng đốc Thanh Hoá. Tác phẩm: “Thanh Hoá quan phong”, “Thanh Hoá kỉ thắng”.

[2] Giáo sư Bửu Cầm có trính dẫn từ cuốn “Thanh Hóa quan phong” nguyên văn như sau:  “tỉnh Thanh Hóa, một châu quan có chữ là lối chữ thập châu đó. Người ta thường nói rằng nước ta không có chữ. Tôi nghĩ rằng không phải, thập châu vốn là đất nước ta, trên châu còn có chữ, lẽ nào ở dưới chợ lại không? Lối chữ châu là lối chữ nước ta đó” (Vương Duy Trinh 王 維 楨 Thanh Hóa quan phong 清 化 觀 風  , Hải dương, Liễu văn Đường 柳 文 堂  khắc in , năm Thành Thái 成 泰  thứ 16, Giáp Thìn 甲 辰  1904, tờ 69b).

[3] Theo bài của Prasert Na Nagara tại Hội thảo quốc tế về chữ Thái Việt Nam, Hà Nội, 11-2005.

[4] Theo bài trong Hội thảo quốc tế về chữ Thái Việt Nam, Hà Nội, 11-2005 của Yukti Mukdawijitra, khi đó là nghiên cứu sinh người Thái Lan ở Viện Việt Nam học và khoa học phát triển,.

[5] Nguyên chủ nhiệm Chương trình Thái học VN, mới mất năm 2007.

[6] Trích báo cáo của Cầm Trọng tại Hội nghị Quốc tế về chữ Thái VN, Hà Nội 11/2005: “Có lẽ do trước đây, kém tiếp xúc giữa các vùng nên người Thái đã cho ra đời 8 loại hình kí tự cổ khác nhau. Tuy nhiên, cả 8 loại hình kí tự ấy đều bén rễ từ một gốc chữ Sanskrit (Ấn Độ) thông qua mẫu tự Khmer. Chúng hoàn toàn giống nhau về nguyên tắc dùng phụ âm, nguyên âm để ghép vần ghi được âm tiết Thái. Tám loại hình kí tự cổ đó là:

1.       Chữ Thái Đen ở các huyện thuộc tỉnh Lai Châu, Sơn La, Yên Bái, Lào Cai.
2.       Chữ Thái Trắng ở huyện Phong Thổ.
3.       Chữ Thái Trắng ở huyện Mường Lay, Mường Tè (Lai Châu cũ).
4.       Chữ Thái Trắng ở huyện Phù Yên.
5.       Chữ Thái Trắng ở huyện Mộc Châu (Sơn la), Mai Châu, Đà Bắc (Hoà Bình).
6.       Chữ Thái Đen – Tay Thanh ở miền Tây Thanh Hoá và Nghệ An.
7.       Chữ Thái ở Châu Quỳ (Ngệ An).
8.       Chữ Thái mang tên Lai Pao ở huyện Tương Dương (Nghệ An).

[7] Chữ “O” tiếng Thái rất đặc biệt, vì ngoài chức năng ghi nguyên âm “O” (nếu đi sau 1 phụ âm), nó còn dùng như một phụ âm câm đứng đầu các vần không có phụ âm đầu. Sở dĩ cần có nó vì các nguyên âm chữ Thái chỉ là các dấu nhỏ có thể “đính” cả 4 phía trên dưới, trái phải của phụ âm đầu, lên cần có 1 phụ âm “câm” chỉ làm nhiệm vụ “đeo” các dấu nguyên âm đó khi vần không có phụ âm đầu như  “ải”=anh.

[8] Có tác giả đề cập đến chữ viết trên Bãi đá cổ ở Sapa, cũng cho rằng đây là chữ Việt cổ. Nhưng lại không đưa ra các bằng chứng rằng đây là vùng cư trú của người Việt cổ (!). Xem: http://vanhac.org/06/vai-net-ve-cong-trinh-chu-viet-co-cua-giao-su-le-trong-khanh.html

[9] Theo truyền thuyết và dã sử, từ thời xa xưa người Việt cổ đã có chữ viết riêng, sử sách Trung Quốc đã mô tả hình dạng thứ chữ viết này trông như “đàn nòng nọc đang bơi”, nên gọi tên là chữ “khoa đẩu”, nhưng chung quy vẫn chỉ là truyền thuyết, chứ không có bằng chứng thực tế.

TẢN MẠN VĂN HÓA NHẬT QUA CHỮ VIẾT

Vì sao chữ viết của Nhật vẫn dùng một nửa là chữ Hán ?

Xin đi từ cái tên Handa Kenichi của người lãnh đạo nhóm M17N, đối tác phía Nhật mà tại hạ cùng làm việc. Liên hệ công việc mấy năm mà ổng toàn ghi tên theo kiểu Latinh như trên – người Nhật gọi là chữ Romari. Khi sang Nhật làm việc, nhìn chữ ký của ổng trong giấy tờ mới biết tên chữ Hán của ổng là “Bán Điền Kiếm Nhất” (半 田  劍 一 ), Handa là Bán Điền, Kenichi là Kiếm Nhất, cũng chẳng thành vấn đề gì phải không các bạn ? Nhưng đến lúc bước lên một xe bus tình cờ đọc thấy tên của người lái xe viết khá to trên bảng sau ghế ngồi thì tên Romari cũng là Kenichi mà tên chữ Hán là Kiện Nhất (健 一 ) … Đến đây chắc các bạn thấy có vấn đề gì rồi đây: cứ nội suy trên cơ sở đã biết rằng tiếng Nhật không có 6 thanh như tiếng Việt, cũng không phân biệt phụ âm cuối -m với -n, thế thì  Kiếm Nhất, Kiêm Nhất, Kiệm Nhất, Kiên Nhất, Kiện Nhất, Kiến Nhất .v.v. viết chữ Romari sẽ là Kenichi tuốt tuột… Xét cho công bằng thì tên “Kiệm Nhất” chẳng hạn không phải là không hay, nhưng thử hỏi có mấy người thích đánh đồng cái tên cha mẹ đặt ra với hàng chục tên người khác như vậy ? Vả lại dùng chữ Hán một khi đã thuộc mặt chữ thì dễ nhớ hơn là dùng lối phiên âm Romari, hay các lối viết ký âm Hiragana (Bình Giả Danh), Katakana (Phiến Giả Danh). Đến tận bây giờ tại hạ vẫn hay lẫn lộn Yamaha (tên hãng xe máy của Nhật) với Yahama, bởi đọc lên cứ ý ả ỳ a như các thầy cúng, thầy pháp đọc thần chú vậy …

“Thầy dốt mà đọc canh y khôn
Đến lúc đọc dồn ý ả ỳ a …”

Tình hình tương tự cũng có trong tiếng Hàn và Trung Quốc, mặc dù các nước này từng có các phong trào vận động chuyển sang dùng hệ thống văn tự Latin ghi âm, nhưng do hiện tượng chữ đồng âm khác nghĩa quá nhiều, mà chữ viết Latin không thể nào phản ánh được như chữ Hán, nên tất cả các vận động đó kết cục đều không đi đến đâu. Kết cục này cũng do nhiều nguyên nhân khác nữa, nhưng có lẽ vấn đề chữ đồng âm vẫn là nguyên nhân lớn nhất.

Trong các nước theo văn hóa phương Đông chỉ có duy nhất Việt Nam đã chuyển thành công sang dùng chữ viết Latin ghi âm, có lẽ lý do chính không chỉ vì mệnh lệnh của chính quyền thực dân Pháp (thực ra quyết định này nhằm phục vụ nền cai trị của thực dân Pháp hơn là vì lợi ích của người Việt), mà còn do bản thân hệ thống vần và thanh điệu của tiếng Việt cực kỳ phong phú nên đã hạn chế được rất nhiều hiện tượng một âm tương ứng với nhiều chữ, nhiều nghĩa khác nhau, nên việc chuyển đổi khá thuận lợi … Tuy nhiên sự chuyển đổi này không phải là không có hệ lụy đáng tiếc, là đã nảy sinh sự phân cách nhất định với nền văn hóa truyền thống khi chúng ta rời bỏ hệ thống chữ viết Hán-Nôm. Một số nghiên cứu hiện đại cho rằng hệ thống chữ viết tượng hình không phải chỉ toàn những nhược điểm mà không có ưu điểm gì so với hệ thống chữ viết ghi âm, chẳng hạn chữ tượng hình giúp phát triển tư duy hình tượng hóa, trừu tượng hóa, hơn là các loại chữ ghi âm …

Người Nhật dùng chữ Hán có những cái khác chúng ta:

Từng chữ Hán đơn lẻ thì ý nghĩa khá xác định trong tất cả các quốc gia có sử dụng chữ Hán, sự khác biệt nảy sinh chủ yếu do cách tạo từ mới (ghép từ), hay cách dịch các từ gốc Latinh. Có một số từ Hán-Nhật khiến tại hạ phải vỗ trán suy nghĩ một hồi, hoặc phải so với phần tiếng Anh mới hiểu ra, như chữ mà họ dịch là “Tình báo”, nếu không có chữ tiếng Anh Information in kèm trên tấm card của họ thì chắc “đến Tết” mới hiểu “Tình báo Kỹ thuật” tức là “Công nghệ Thông tin” (“Information Technology”) của chúng ta, nhân tiện nói thêm: chữ “Tình báo” Trung Quốc cũng dùng như thế, không riêng gì Nhật Bản. Thành phố khoa học Tsukuba nơi tại hạ đến công tác, phía bắc Tokyo khoảng 70km, ở đây tập trung nhiều Viện nghiên cứu và trường Đại học của Nhật, họ gọi khá nôm na là thành phố “Học Viên”, với chữ viên nghĩa là vườn, tức là “Vườn Học”. Viện AIST (National Institute of Advanced Industrial Science and Technology) nơi tại hạ làm việc, có tên chữ Hán là “Sản nghiệp Kỹ thuật Tổng hợp Nghiên cứu Sở”, tên viết tắt trên nhiều biển báo và giấy tờ là “Sản Tổng Nghiên” … Qua vài ví dụ như vậy có thể thấy người Nhật sử dụng chữ Hán khá linh động và bình dân chứ không nhuốm đậm màu quan cách như chúng ta. Có lẽ Việt Nam đã quen dùng chữ Hán với sắc thái hành chính, trang trọng, nên ít thấy những tên chữ Hán mang ý nghĩa giản dị mộc mạc như tên “Vườn Học” nói trên hoặc tên “Đồng Lá Thu” (chữ Hán là “Thu Diệp Nguyên”, tức Akihabara, tên một ga tàu điện ngầm lớn của Tokyo) .

Lại có những từ đọc thấy trên Tivi khiến tại hạ sửng sốt một lúc, mặc dầu là những từ phổ thông, ý nghĩa hoàn toàn đơn giản, như “Bộ trưởng” họ kêu là “Đại thần”, “Thủ tướng” là “Tổng lý Đại thần”… đã biết từ hồi học cấp 1, cấp 2 rằng Nhật theo chế độ quân chủ lập hiến thì gọi như vậy cũng chẳng có gì phi lý, nhưng quen với cách dịch trên báo chí sách vở lâu nay rồi nên không khỏi ngỡ ngàng.

Còn một vấn đề nữa, lâu nay chúng ta thường quen hiểu rằng các nước dùng văn tự Hán thì chịu ảnh hưởng của Trung Quốc, nhưng thực ra vẫn có chiều ảnh hưởng ngược lại. Xin trích một đoạn trong bài viết của kỹ sư Đỗ Thông Minh, một người Việt định cư ở Tôkyo, và là một nhà nghiên cứu am hiểu cả hai nền văn hóa Việt, Nhật: “Trong giai đoạn khoảng đầu thế kỷ 20, các từ như: tự do 自 由 , dân chủ 民 主 , tư bản 資 本 , cộng sản 共 產 (communist, đúng ra phải dịch là chủ nghĩa cộng đồng), triết học 哲 學 , kinh tế 經 濟 , diễn đàn 演 壇 , pháp nhân 法 人 … người Việt thường biết các từ này dưới dạng âm Hán-Việt, và cho là do người Hoa dịch, nhưng thực ra các từ này là do người Nhật ghép từ đơn tiếng Hoa để dịch các thuật ngữ Âu-Mỹ. Khoảng đầu thế kỷ 20, du học sinh người Hoa ở Nhật đem các từ này về nước, dùng trong Tân Thư (新 書), rồi truyền vào Việt Nam… ”

Gặp lại Đường thi ở Nhật :

Nếu chữ Hán là chữ viết quốc tế của các nước theo văn hóa phương Đông thì có lẽ thơ Đường luật và Tống từ lại còn có tính quốc tế cao hơn, được biết tới không phải chỉ trong các nước phương Đông. Trong “Tuyển tập từ Trung Hoa – Nhật Bản” (Nguyễn Chí Viễn, NXB Văn hóa Thông tin -1995) thấy một số tác giả là người Nhật, có lẽ từ khúc với sự linh động về số chữ và nhạc điệu phù hợp với ngôn ngữ đa âm của Nhật hơn, còn thơ Đường luật với những hạn định chặt chẽ về số chữ (đơn âm) và niêm luật (thanh điệu và vần) thì ít phù hợp với tiếng Nhật…

Ở các thành phố công nghiệp hóa cao như Tokyo, toàn nhà chọc trời và người đi lại chật đường thì thật khó mà gặp được dù nửa câu Đường thi, nhưng ở thành phố khoa học Tsukuba thì có khác. Trong một buổi nhóm M17N mời cơm thân mật ở nhà hàng Otaru Shokudou (小樽食堂 Tiểu Tôn Thực Đường = Quán ăn “Chén nhỏ”), vừa đến cửa đã thấy trên tường viết la liệt toàn những Đường thi, họ viết kiểu chữ cổ, nửa giống Triện thư nửa giống Lệ thư, chữ viết to và chân phương nên dù tác giả không quen với các kiểu chữ đó nhưng cũng đọc được một số. Ở nhà cũng tự phụ là “gia trung hữu Đường thi vạn thủ”, thuộc làu Đường thi tinh tuyển hơn 300 bài, nhưng đến đây đọc mới hay là mình còn thuộc ít lắm, phần lớn đều không nhớ ra bài nào, có câu nhớ được thì lại không nhớ tên tác giả. Chỉ nhớ được có một bài “Tảo phát Bạch Đế thành” là của “Thi tiên” Lý Bạch, hình như chương trình Văn học mới ở trường phổ thông có học bài này, bài thơ cũng gợi cảm với một người xa nhà lúc đó, nên xin mạn phép giới thiệu lại ở đây:

Triêu từ Bạch Đế thái vân gian
Thiên lý Giang Lăng nhất nhật hoàn
Lưỡng ngạn viên thanh đề bất trụ
Khinh chu dĩ quá vạn trùng san.

Tạm dịch:

Sáng từ Bạch Đế ngàn mây
Giang Lăng nghìn dặm một ngày thẳng dong
Đôi bờ tiếng vượn chẳng dừng
Nhẹ thuyền đã vượt vạn trùng núi tây

Minh họa:

Ảnh hai câu thơ đề mặt trước quán Tiểu Tôn:
“Điểu hạ lục vu Tần uyển tịch.
Thiền minh hoàng diệp Hán cung thu”

Dịch ý:

“Cỏ hoang xanh phủ vườn Tần
Ve ngâm lá đổ Hán cung thu vàng”

Huế, Mồng một Tết Mậu Tý.

7-2-2008

Phân tích kỹ thuật các kiểu gõ tiếng Việt

Bài đã đăng tạp chí PCWorld Vietnam, January 8, 2009. See .

Xử lý tiếng Việt là vấn đề rất cũ, nhưng không phải là nhỏ vì ảnh hưởng tới rất nhiều người dùng. Đa phần các bộ gõ tiếng Việt lâu nay là tự phát, không có tài liệu phân tích kỹ thuật chi tiết. Nhân hợp tác với nhóm m17n thuộc AIST (Viện Khoa Học và Công Nghệ Công Nghiệp Tiên Tiến Nhật Bản) để cải tiến và phát triển các bộ gõ tiếng Việt, Chăm, Thái… trên môi trường Linux mã mở, chúng tôi đã thực hiện một số tài liệu phân tích kỹ thuật một cách bài bản, sau đây xin giới thiệu một số vấn đề rút từ những tài liệu đó.

I. Vài số liệu thống kê về hệ thống âm-vần-chữ cái tiếng Việt

Đây không phải là các thống kê ngôn ngữ học mà chỉ tập trung vào các dữ liệu liên quan tới việc xây dựng bộ bàn phím tiếng Việt.

1. Tổng số đơn âm tiếng Việt theo thống kê chưa đầy đủ của chúng tôi là: 7432.

Số này cũng xấp xỉ số liệu của GS Hoàng Phê, chủ biên từ điển Chính Tả Tiếng Việt. Số tuyệt đối không quan trọng vì dưới đây chỉ để ý tỉ lệ so sánh tương đối.

2. Số âm có dấu thanh: 6050, tỉ lệ: 81,4%

3. Số đơn âm viết có ít nhất một dấu thanh hoặc dấu phụ: 6761, tỉ lệ: 91%

4. Thanh sắc: 1861, tỉ lệ: 25%

5. Thanh nặng: 1474, tỉ lệ: 19,8%

6. Không dấu: 1382, tỉ lệ: 18,6%

7. Thanh huyền: 1177, tỉ lệ: 15,8%

8. Thanh hỏi: 980, tỉ lệ: 13,2%

9. Thanh ngã: 558, tỉ lệ: 7,5%

10. Số âm có phụ âm đầu: 7110, tỉ lệ: 95,7%

11. Số âm không phụ âm đầu: 322, tỉ lệ: 4,3%

12. Số dạng tổ hợp nguyên âm (không tính phụ âm cuối): 64

a. Số nguyên âm đơn: 12 (a, e, o, i, u, y, â, ê, ô, ơ, ă, ư)

b. Tổ hợp kép 2 nguyên âm: 32

c. Tổ hợp kép 3 nguyên âm: 20

13. Số vần (tổ hợp nguyên âm + phụ âm cuối): 228

14. Có 8 phụ âm cuối: M, N, C, T, P, CH, NG, NH

15. Và có 8 phụ âm đầu kép: CH, KH, NG, NGH, NH, TR, TH, PH.

II. Tần suất sử dụng phím

Chúng tôi thực hiện thống kê trên một văn bản thuần Việt và đủ lớn là Truyện Kiều, vì Truyện Kiều là một thể hiện điển hình của tiếng Việt. Chúng tôi đã chọn bản Nôm Liễu Văn Đường (1871), gồm 3244 câu, 22708 chữ.

Bảng 1: Dùng kiểu gõ Telex

Trung bình: 4,68 lần gõ phím trên 1 chữ

Phím dùng Số lần gõ Tỉ lệ %
A 12411 11,69
N 10327 9,727
O 9427 8,879
H 6347 5,978
F 6205 5,844
W 6087 5,733
I 5774 5,438
G 5384 5,071
E 5161 4,861
T 5029 4,737
S 4844 4,563
D 4531 4,268
U 4271 4,023
C 3555 3,348
R 2978 2,805
M 2573 2,423
J 2525 2,378
X 1748 1,646
Y 1685 1,587
L 1606 1,513
B 1065 1,003
V 907 0,854
K 719 0,677
P 700 0.659
Q 310 0,292
Tính theo hàng
home row 44572 41,982
qwer row 41422 39,015
zxcv row 20175 19,003
num row 0 0
Tổng số lượt gõ 106169

Bảng 2: Dùng kiểu gõ VNI

Trung bình: 4,72 lần gõ phím trên 1 chữ

Phím dùng Số lần gõ Tỉ lệ %
N 10327 9,621
A 10141 9,448
O 7523 7,009
6 6384 5,948
H 6347 5,913
2 6205 5,781
I 5774 5,379
U 5438 5,066
G 5384 5,016
T 5029 4,685
7 4938 4,601
1 4006 3,732
C 3555 3,312
E 2951 2,749
D 2653 2,472
M 2573 2,397
5 2525 2,352
9 1878 1,75
Y 1685 1,57
L 1606 1,496
R 1602 1,493
3 1376 1,282
4 1252 1,166
8 1149 1,07
B 1065 0,992
V 907 0,845
S 838 0,781
K 719 0,67
0,67 700 0,652
X 496 0,462
Q 310 0,289
Tính theo hàng
home row 27688 25,796
qwer row 29327 27,323
zxcv row 20608 19,201
num row 29713 27,682
Tổng số lượt gõ 107336

Bảng 3: Tần suất sử dụng các vần

(chỉ kê ra 32 vần thông dụng nhất)

Vần Số lần Tỉ lệ %
a 140 1 6,153
ai 781 3,430
ơi 697 3,061
ang 679 2,982
ay 654 2,872
i 644 2,828
ên 603 2,648
ao 581 2,552
ong 568 2,495
ây 566 2,486
o 561 2,464
inh 544 2,389
ương 510 2,240
ôi 509 2,235
ăng 491 2,156
ơ 473 2,077
ưa 443 1,946
âu 439 1,928
ông 436 1,915
ê 408 1,792
ung 386 1,695
ư 385 1,691
anh 384 1,686
ôt 346 1,520
ươi 330 1,449
ên 308 1,353
on 295 1,296
iêu 294 1,291
e 274 1,203
an 271 1,190
ươc 267 1,173
âm 245 1,076
u 230 1,010

Nhận xét chung

– Nhìn chung nếu chia bình quân thì tần suất sử dụng các phím dấu thanh gần bằng các phím nguyên âm và lớn hơn tần suất dùng các phím phụ âm. Đây là một chi tiết rất quan trọng mà chúng ta sẽ cần dùng trong phần so sánh các kiểu gõ Telex, VNI dưới đây.

– Nhưng xét trị tuyệt đối thì phụ âm n và hai phím nguyên âm a, o đứng đầu bảng tức là dùng nhiều nhất, trong cả 2 kiểu gõ.

III. Các luật gõ tiếng Việt

Mô hình cấu trúc một từ tiếng Việt, dấu ngoặc tròn là thành phần luôn phải có, ngoặc vuông có thể có hoặc không:

[C] ((V1) [V2] [V3] [T]) [C]

C: phụ âm đầu

V1: nguyên âm 1, luôn có ít nhất một nguyên âm

V2: nguyên âm 2

V3: nguyên âm 3

T: dấu thanh

C: phụ âm cuối

Các luật gõ chính thức của các kiểu gõ Telex, VNI, TCVN 6064 chỉ là một bảng các quy tắc ánh xạ phím, khá quen thuộc nên chúng tôi xin lược bỏ để giới thiệu sang quy luật về vị trí dấu thanh, thiết thực hơn. Quy luật vị trí dấu thanh trên các tổ hợp nguyên âm, theo GS Hoàng Phê, như sau:

1. Khi chỉ có 1 nguyên âm thì dấu đặt trên nguyên âm đó

2. Khi có phụ âm cuối thì dấu nằm ở nguyên âm sát phụ âm cuối

3. Vần có nguyên âm đệm oa, oe, uê, uơ, uy thì dấu nằm ở nguyên âm chính (sau)

4. Các vần tận cùng là nguyên âm (có thể 2 hay 3 nguyên âm) và khác oa, oe, uê, uơ, uy thì dấu nằm trên nguyên âm đứng trước nguyên âm tận cùng.

Tuy nhiên qua thực tiễn ở VN thì các vần bất định oa, oe, uy phần nhiều vẫn theo kiểu bỏ dấu cũ, dấu thanh đặt trên nguyên âm đệm. Vì vậy các bộ gõ đều cung cấp khóa chuyển cho phép chọn kiểu bỏ dấu mới hay cũ cho chúng – bộ gõ m17n cũng thế.

IV. Phân tích ưu điểm của kiểu gõ Telex so với VNI, TCVN

Nhiều người khẳng định kiểu gõ Telex là tiện lợi nhất khi gõ thuần tiếng Việt, nhưng thuận lợi ở điểm nào thì lại không nói, ở đây chúng tôi thử phân tích:

1. Kiểu gõ Telex hoàn toàn chỉ sử dụng 3 hàng phím tiếng Anh cơ bản (QWER … ASDF … ZXCV..). Trong đó hàng phím ASDF… tiếng Anh là “home row” chính là hàng phím cơ sở, trong kiểu gõ 10 ngón tay thì hai ngón trỏ được định vị trên hai phím F&J trên hàng phím này (hai phím này có gờ nhỏ để đánh dấu), các ngón khác xếp tự nhiên ở các phím bên cạnh trên home row. Khi gõ 10 ngón tay, dễ dàng nhận thấy là ngón tay càng phải dời xa hàng phím cơ sở thì càng khó gõ đồng thời càng dễ gõ sai hơn. Kiểu gõ Telex có lợi thế hơn VNI và TCVN chính ở điểm này, do không dùng đến hàng phím số ở xa home row.

2. Trong kiểu gõ Telex, hàng phím cơ sở dễ gõ nhất đồng thời lại là hàng phím có tần suất sử dụng lớn nhất, tần suất của hai hàng còn lại cũng khá cân đối (xem bảng thống kê ở phần II).

3. Khi dùng kiểu gõ VNI tất cả các dấu phụ đều bị đẩy lên hàng phím số, phần lớn dấu phụ của kiểu gõ TCVN cũng thế, cho nên hàng phím khó gõ nhất này lại có tần suất sử dụng lớn nhất (xem bảng thống kê tần suất ở trên, hoặc có thể đoán qua con số 91% các từ tiếng Việt có dấu phụ).

4. Kiểu gõ VNI & TCVN bỏ phí không dùng đến 4 phím w,f,j,z ở khu vực dễ gõ. Trong khi Telex nguyên thủy chỉ bỏ phí một phím z thôi. Chú ý thêm là hai phím định vị quan trọng F&J trong kiểu gõ Telex được dùng với tần suất khá lớn thì VNI/TCVN lại bỏ phí.

5. Cơ chế gõ lặp phím để tạo dấu cho đ-â-ô-ê (các cải tiến hiện nay còn cho phép hủy dấu, mở rộng sang cả dấu thanh) của kiểu gõ Telex là rất tiết kiệm. Tuy cũng phải gõ 2 lượt phím như VNI nhưng thực chất ngón tay chỉ di chuyển lên xuống thêm chừng 5mm, đồng thời rất khó gõ sai. Chính các điện thoại di động cũng dùng cơ chế gõ lặp phím để sinh ra nhiều chữ, nên cơ chế này tạo cảm giác khá thân thuộc cho người dùng.

V. Phân tích nhược điểm của kiểu gõ Telex so với VNI, TCVN và định hướng giải quyết

Cho đến nay chúng tôi chỉ xác định được một nhược điểm của kiểu gõ Telex so với VNI và TCVN là khó gõ hỗn hợp Anh-Việt. Tiếc thay, đây lại là một nhược điểm chí mạng trong điều kiện giao lưu quốc tế rộng rãi ngày nay, nhất là với những người làm chuyên về KHKT, CNTT…

Tuy các phần mềm đều có phím nóng để chuyển qua lại giữa trạng thái gõ Anh và Việt, nhưng nhiều người lại không thích dùng mà muốn các bộ gõ tự động xử lý vấn đề này.

Để xử lý được việc gõ hỗn hợp thì trước hết bộ gõ phải được cung cấp các tiêu chí phân biệt từ Anh/Việt để quyết định xử lý từ đang đánh như tiếng Việt hay tiếng Anh, đây chính là chỗ mà mục này sẽ phân tích.

Giải quyết trọn vẹn nhất là gắn vào bộ gõ một modul kiểm tra chính tả và một từ điển chính tả tiếng Việt, tuy không khó nhưng cũng khá phiền phức. Nếu không thì phải tìm kiếm một số tiêu chí để chuyển tự động về tiếng Anh dựa trên phân tích, tổng hợp các quy luật chính tả, ngữ âm tiếng Việt. Sau đây xin giới thiệu một vài tiêu chí mà bộ gõ vi-telex mã nguồn mở chạy trên môi trường Linux của nhóm m17n (Viện AIST, Nhật Bản) đã ứng dụng (xem www.m17n.org):

1. Sau nguyên âm mà gặp các phụ âm cuối không có trong tiếng Việt thì cho chuyển sang tiếng Anh đến hết từ, sau đây sẽ gọi là “temp-escape”, cụ thể là các phụ âm sau: q,d,g,h,k,l,z,v,b.

2. Với các phụ âm đã mượn làm dấu tiếng Việt s,f,j,r,x thì không thể temp-escape như thế mà phải dùng kiểu gõ lặp lại. Nhấn lần đầu là tạo dấu, nhấn lần nữa là hủy dấu đồng thời temp-escape luôn, người dùng phải chủ động trong quyết định này.

3. Tiếng Việt là đơn âm nên với các từ có hơn 1 âm cũng cho temp-escape khi phát hiện âm thứ 2, như từ “changes” khi gõ đến “e” sẽ temp-escape cho nên “s” không bị biến thành dấu sắc nữa.

4. DD/dd chỉ là Đ/đ khi đứng đầu từ, còn lại cho temp-escape, ví dụ từ address.

5. w chỉ là ư khi đi ngay sau phụ âm, hoặc sau u/a/o để tạo dấu, còn lại vẫn là w, ví dụ từ view sẽ không bị biến ra vieư.

6. z chỉ xóa dấu khi trước đó đã có nguyên âm được bỏ dấu, còn lại cho temp-escape.

Dự kiến có thể đưa ra môt tiêu chí nữa là nhận dạng các tổ hợp phụ âm đầu kép của tiếng Việt, nhưng có lẽ hiệu quả không cao vì các phụ âm đó (ch, kh, ng, ngh, nh, tr, th, ph) cũng có trong các ngôn ngữ Latinh… Đưa vào quá nhiều tiêu chí sẽ làm code lộn xộn thiếu sáng sủa, nhiều hơn nữa thì quay về phương án kiểm tra qua từ điển chính tả lại hợp lý hơn.

VI. Các xu hướng cải tiến bộ gõ tiếng Việt

Xu hướng phát triển chung là gắn thêm vào bộ gõ các phần kiểm tra chính tả và hỗ trợ tốc ký, hoặc mở rộng cho các thứ tiếng dân tộc ở VN như chữ Nôm, Tày, Thái, Chăm… đó là những cải tiến nên có, có dịp chúng tôi sẽ giới thiệu ở một bài khác.

Ở đây chỉ bàn tới những cải tiến còn gây tranh cãi, ví dụ một số người dùng muốn có kiểu bỏ dấu tự do (cả dấu thanh lẫn dấu mũ, dấu móc), nhưng phân tích kĩ thì thấy kiểu bỏ dấu tự do này chỉ phù hợp với VNI, chứ với Telex thì sẽ làm trầm trọng thêm nhược điểm khó gõ hỗn hợp Anh Việt. Vấn đề là do các phím dấu trong kiểu gõ Telex có hai chức năng tạo dấu và chữ cái nên dễ bị lẫn lộn, còn trong VNI chỉ có một chức năng tạo dấu thôi. Các từ như data, Japan, common, receive khi gõ Telex kiểu bỏ dấu tự do thì hóa ra dât, Jâpn, cômmn, rêcive… Phải sáng suốt trong vấn đề này, không nên vì những nhận xét kiểu gõ này “thông minh”, kiểu gõ kia không mà sa vào những cái phức tạp, ít hiệu quả thực tiễn. VNI thêm các cải tiến này cũng không hiệu quả đến mức áp đảo được các ưu điểm của Telex đã phân tích trên. Còn Telex “học” theo VNI cải tiến này cũng không có hiệu quả gì hơn nếu không nói là ngược lại. Ví dụ Telex tự do gõ chữ ôm = omo, đầu tiên là tên bột giặt “OMO” sẽ biến ra ÔM, làm nặng thêm khuyết điểm khó gõ hỗn hợp Anh Việt, sau nữa là rất nhiều người chỉ quen gõ một tay thì cự ly di chuyển sẽ xa thêm: từ phím O sang M rồi về O cự li di chuyển gần gấp đôi so với gõ đúp O rồi chuyển sang gõ M. Gõ “thông minh” chưa rõ có lợi gì, nhưng tốc độ thì đã thua kiểu gõ “chân quê”.

Phan Anh Dũng
R&D Department
Thua Thien Hue Center of Information Technology (Huesoft).