Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Dịch máy là lĩnh vực đang rất được quan tâm do

nhu cầu chuyển ngữ một số lượng lớn văn bản trong

thời gian nhanh nhất. Lịch sử phát triển dịch máy đã

nhắc đến nhiều phương pháp khác nhau: dịch trực tiếp

từng từ, dịch dựa trên luật, dịch máy đa ngôn ngữ,

dịch máy thống kê, dịch máy dựa trên ví dụ, dịch máy

theo ngữ nghĩa đệ quy tối thiểu, dịch dựa trên ràng

buộc.

Hiện nay ở Việt Nam đã tồn tại một số hệ thống

dịch máy như: EVtran - VEtran của Nacentech [9],

Vietgle của Lạc Việt, EVTS của Đại học Công nghệ -

ĐHQG Hà Nội [13], Google Translation của Google,

hệ thống dịch của Đại học Bách khoa - ĐHQG TP Hồ

Chí Minh [21], hệ thống dịch dựa trên việc học luật

chuyển đổi của Đại học Khoa học Tự nhiên - ĐHQG

TP Hồ Chí Minh [8]. Các hệ thống kể trên chủ yếu là

hệ thống dịch Anh - Việt để tận dụng nguồn tài

nguyên ngôn ngữ phong phú của Tiếng Anh. Số lượng

hệ thống dịch Việt - Anh ít hơn nhiều: chỉ có hai hệ

thống nổi bật là VEtran dựa trên luật và Google

Translation theo cách tiếp cận thống kê.

Do tài nguyên phục vụ cho dịch máy liên quan đến

Tiếng Việt không nhiều, cách tiếp cận dựa trên luật

vẫn được phổ biến nhất ở Việt Nam, đặc biệt là trong

dịch máy Việt - Anh.

Mô hình văn phạm liên kết do D. Sleator và D.

Temperley đưa ra [19] là mô hình hình thức theo kiểu

phụ thuộc. Văn phạm không chứa tập ký hiệu không

kết thúc nên kết quả phân tích cú pháp gọn nhẹ hơn

cây ngữ cấu. Do đặc điểm hoàn toàn từ vựng hóa, văn

phạm liên kết không chỉ mô tả cú pháp mà còn mô tả

từ pháp của ngôn ngữ. Do vậy mô hình văn phạm liên

kết cho phép biểu diễn nhiều hiện tượng đặc biệt chỉ

có trong Tiếng Việt. Ví dụ: thì, thể của động từ, quan

hệ sở hữu ẩn, quan hệ chỉ chất liệu của hai danh từ đi

cạnh nhau, những cụm từ được dùng như đại từ xưng

hô trong Tiếng Việt ("cô ấy", "các bạn"). Những

thông tin này rất hữu ích nếu được sử dụng trong các

hệ thống dịch tự động sang ngôn ngữ khác

pdf13 trang | Chia sẻ: hoa30 | Lượt xem: 613 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 44 -
Abstract: Link grammar is a new model built for 
Vietnamese. This model is able to specify most of 
grammatical phenomena and lexical features of 
Vietnamese in an intuitive mode. In this paper, we 
discuss the ability to apply the link grammar model to 
automatic translation from Vietnamese into English. 
We also present our translation system using 
Annotated Disjuncts (ADJ). 
I. ĐẶT VẤN ĐỀ 
Dịch máy là lĩnh vực đang rất được quan tâm do 
nhu cầu chuyển ngữ một số lượng lớn văn bản trong 
thời gian nhanh nhất. Lịch sử phát triển dịch máy đã 
nhắc đến nhiều phương pháp khác nhau: dịch trực tiếp 
từng từ, dịch dựa trên luật, dịch máy đa ngôn ngữ, 
dịch máy thống kê, dịch máy dựa trên ví dụ, dịch máy 
theo ngữ nghĩa đệ quy tối thiểu, dịch dựa trên ràng 
buộc... 
Hiện nay ở Việt Nam đã tồn tại một số hệ thống 
dịch máy như: EVtran - VEtran của Nacentech [9], 
Vietgle của Lạc Việt, EVTS của Đại học Công nghệ - 
ĐHQG Hà Nội [13], Google Translation của Google, 
hệ thống dịch của Đại học Bách khoa - ĐHQG TP Hồ 
Chí Minh [21], hệ thống dịch dựa trên việc học luật 
chuyển đổi của Đại học Khoa học Tự nhiên - ĐHQG 
TP Hồ Chí Minh [8]. Các hệ thống kể trên chủ yếu là 
hệ thống dịch Anh - Việt để tận dụng nguồn tài 
nguyên ngôn ngữ phong phú của Tiếng Anh. Số lượng 
hệ thống dịch Việt - Anh ít hơn nhiều: chỉ có hai hệ 
thống nổi bật là VEtran dựa trên luật và Google 
Translation theo cách tiếp cận thống kê. 
Do tài nguyên phục vụ cho dịch máy liên quan đến 
Tiếng Việt không nhiều, cách tiếp cận dựa trên luật 
vẫn được phổ biến nhất ở Việt Nam, đặc biệt là trong 
dịch máy Việt - Anh. 
Mô hình văn phạm liên kết do D. Sleator và D. 
Temperley đưa ra [19] là mô hình hình thức theo kiểu 
phụ thuộc. Văn phạm không chứa tập ký hiệu không 
kết thúc nên kết quả phân tích cú pháp gọn nhẹ hơn 
cây ngữ cấu. Do đặc điểm hoàn toàn từ vựng hóa, văn 
phạm liên kết không chỉ mô tả cú pháp mà còn mô tả 
từ pháp của ngôn ngữ. Do vậy mô hình văn phạm liên 
kết cho phép biểu diễn nhiều hiện tượng đặc biệt chỉ 
có trong Tiếng Việt. Ví dụ: thì, thể của động từ, quan 
hệ sở hữu ẩn, quan hệ chỉ chất liệu của hai danh từ đi 
cạnh nhau, những cụm từ được dùng như đại từ xưng 
hô trong Tiếng Việt ("cô ấy", "các bạn")... Những 
thông tin này rất hữu ích nếu được sử dụng trong các 
hệ thống dịch tự động sang ngôn ngữ khác. 
Mô hình văn phạm liên kết đã được ứng dụng để 
xây dựng các hệ thống dịch từ Tiếng Anh sang các 
ngôn ngữ châu Âu như Tiếng Đức [24], Nga [23], Thổ 
Nhĩ Kỳ [22] hay Sanskrit - một ngôn ngữ của Ấn độ 
[12] dựa trên việc chuyển đổi tương ứng các liên kết 
giữa hai ngôn ngữ (riêng hệ thống dịch Anh-Nga có 
kết hợp thống kê). Các hệ thống đó đã đáp ứng khá tốt 
những biến đổi về hình thái như thì, thể, giống, số, 
cách. Tuy nhiên, khi ngôn ngữ nguồn và ngôn ngữ 
đích có sự khác biệt lớn về cú pháp và từ pháp, khó có 
thể đưa ra những bản dịch có chất lượng. Đó cũng là 
lý do các hệ thống nói trên chỉ dừng ở mức thử 
nghiệm cho một tập câu nhỏ. Một hệ thống dịch khác 
dựa trên văn phạm liên kết là hệ thống dịch của đại 
Ứng dụng văn phạm liên kết trong dịch máy 
Việt – Anh 
Application of Link Grammar Formalism in Vietnamese - English 
Translation 
Nguyễn Thị Thu Hương và Lê Ngọc Minh 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 45 -
học Petronas, Malaysia [1], [2], [3], dịch từ Tiếng Anh 
sang Tiếng Indonesia. Hệ thống cho phép tra nghĩa từ, 
biến đổi cú pháp và từ pháp thông qua dạng tuyển có 
chú giải (Annotated Disjunct - ADJ). Hệ thống đã cho 
kết quả dịch khá tốt sang Tiếng Indonesia - một ngôn 
ngữ Đông Nam Á cũng chưa có được nguồn tài 
nguyên phong phú để xử lý tự động như Tiếng Việt. 
Dựa trên khả năng biểu diễn nhiều hiện tượng cú 
pháp và từ pháp đặc trưng của Tiếng Việt, chúng tôi 
đã xây dựng và thử nghiệm hệ thống dịch máy Việt - 
Anh dựa trên dạng tuyển có chú giải. Đây là một hệ 
thống dịch máy dựa trên luật với mục đích minh họa 
các chức năng biểu diễn Tiếng Việt của mô hình văn 
phạm liên kết. 
Hệ thống cho phép dịch các cụm từ Tiếng Việt một 
cách mềm dẻo hơn các hệ thống dịch khác. Với tập 
mẫu thử nghiệm, hiệu quả đạt được của hệ thống 
không thua kém các hệ thống dịch máy khác, trong khi 
tập luật chuyển đổi của hệ thống lại khá nhỏ gọn. 
Trong các mục sau đây, chúng tôi trình bày một số 
khái niệm về mô hình văn phạm liên kết, dạng tuyển 
có chú giải và giới thiệu hệ thống dịch do chúng tôi 
xây dựng. 
II. VĂN PHẠM LIÊN KẾT 
Văn phạm liên kết bao gồm một tập các từ, mỗi từ 
có một yêu cầu liên kết. Một câu được định nghĩa bởi 
văn phạm nếu tồn tại một cách để vẽ các cung (liên 
kết) phía trên các từ thoả mãn 5 điều kiện về tính 
phẳng, tính liên thông, tính thoả mãn, tính thứ tự, tính 
loại trừ [19]. 
Những yêu cầu liên kết được lưu trữ trong một từ 
điển. Từ điển chứa các công thức liên kết như trong 
bảng 1 dưới đây: 
Bảng 1. Công thức liên kết của các từ 
Từ Công thức 
tôi SV+ 
yêu SV- & {O+} 
cô, bà, anh SV+ or O- & {NtPd+} 
ấy, đó, ta {NtPd-} 
Với việc tra cứu trên từ điển và khử nhập nhằng 
(nếu cần), bộ phân tích cú pháp cho kêt quả phân tích 
câu "tôi yêu cô ấy" như trong hình 1. 
Định nghĩa hình thức của văn phạm liên kết được 
nêu trong [6]. 
Hình 1. Phân tích câu "tôi yêu cô ấy” 
Văn phạm liên kết được xếp vào dòng phụ thuộc vì 
cũng biểu diễn mối liên hệ trực tiếp giữa các từ trong 
câu. Tuy nhiên văn phạm liên kết có một số điểm 
khác biệt: 
• Liên kết không định hướng, không có khái niệm 
cai trị - phụ thuộc. 
• Liên kết có nhãn. Điều này không bắt buộc trong 
văn phạm phụ thuộc. 
• Văn phạm liên kết cho phép chu trình nên có thể 
biểu diễn đồng thời liên kết cú pháp và ngữ nghĩa giữa 
các từ. 
• Tính phẳng của liên kết, thực chất là tính xạ ảnh 
trong văn phạm phụ thuộc, đòi hỏi các cung biểu diễn 
liên kết trong một câu không giao nhau khi vẽ trên các 
từ. Với yêu cầu tính phẳng, một số quan hệ từ không 
lân cận có thể không biểu diễn được trong mô hình 
văn phạm liên kết. Ví dụ, trong câu “Cái áo này, dù 
rất đắt, tôi vẫn mua”, sau khi vẽ liên kết giữa danh từ 
“áo” với tính từ “đắt” và động từ “mua”, sẽ không thể 
vẽ liên kết giữa từ “dù” với dấu phảy mà vẫn đảm bảo 
tính phẳng. Tồn tại những văn phạm phụ thuộc không 
có tính xạ ảnh, nhưng tính phẳng là bắt buộc trong văn 
phạm liên kết. Rất may, những câu như trong ví dụ 
trên không thường gặp trong thực tế. 
Dạng tuyển 
Để dễ dàng xử lý tự động, công thức trong từ điển 
được chuyển thành các dạng tuyển (disjunct). Một 
dạng tuyển bao gồm hai danh sách có thứ tự của các 
tên liên kết: danh sách liên kết bên trái và danh sách 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 46 -
liên kết bên phải, được ký hiệu là ((L1, L2,, Lm) (Rn, 
Rn-1,, R1)), trong đó L1, L2,, Lm là các kết nối về 
phía trái và Rn, Rn-1,, R1 là các kết nối về phía phải. 
Ví dụ, ((SV) ()) và ((O) (NPd)) là các dạng tuyển 
của từ "cô" trong từ điển được nêu ở trên. 
Khi phân tích cú pháp, thay vì phân tích công thức 
liên kết, bộ phân tích cú pháp liên kết tìm ra cách tổ 
hợp các dạng tuyển của mỗi từ trong câu thỏa mãn các 
yêu cầu liên kết. Kết quả phân tích cú pháp của một 
câu sẽ chứa những dạng tuyển thỏa mãn các yêu cầu 
liên kết của câu đó, chẳng hạn, kết quả phân tích câu 
"tôi yêu cô ấy" sẽ như sau: 
(tôi, (()(SV))) 
(yêu, ((SV)(O))) 
(cô, ((O)(NtPd))) 
(ấy,((NtPd)())) 
III. DẠNG TUYỂN CÓ CHÚ GIẢI 
Dạng tuyển có chú giải (Annotated Disjunct, viết 
tắt là ADJ) lưu trữ nghĩa của một từ khi đi với dạng 
tuyển nào đó. Ví dụ, từ "cô" với dạng tuyển ((O) 
(NtPd)) sẽ có nghĩa là "her", trong khi đi với dạng 
tuyển(()(NtPd,SV)) có nghĩa là "she", còn đi với 
(()(SHA)) từ đó lại có nghĩa là "aunt" 
Dạng tuyển có chú giải là một tổ hợp bao gồm (<từ 
nguồn>,,) trong đó dạng tuyển 
thuộc về từ nguồn. Từ đích là nghĩa của từ nguồn 
trong ngôn ngữ đích khi đi với dạng tuyển tương ứng. 
Trong hệ thống dịch Việt Anh, các dạng tuyển có chú 
giải của câu "tôi yêu cô ấy" sẽ là 
(tôi, I,(()(SV))) 
(yêu, love, ((SV)(O))) 
(cô, her, ((O)(NtPd))) 
(ấy,!,((NtPd)())) 
(Dấu ! đại diện cho xâu rỗng, chỉ ra từ sẽ bị xóa 
khi dịch). 
Từ điển ADJ sẽ tập hợp tất cả các ADJ của ngôn 
ngữ. Về nguyên tắc, từ điển ADJ phải bao gồm các bộ 
ba: từ, dạng tuyển và nghĩa của từ trong Tiếng Anh 
khi sử dụng với dạng tuyển tương ứng. Tuy nhiên, số 
dạng tuyển của mỗi từ là rất lớn. Khi từ điển song ngữ 
đã gồm gần 100.000 mục từ, mỗi mục từ đó lại được 
gắn với mọi dạng tuyển của từ nguồn, kích cỡ của từ 
điển ADJ sẽ vô cùng lớn. 
Để giảm kích cỡ, tử điển ADJ được xây dựng từ từ 
điển văn phạm liên kết, chú giải thêm nghĩa Tiếng 
Anh của từ bên cạnh công thức. Để làm được như vậy, 
từ điển văn phạm liên kết được xây dựng và chỉnh sửa 
theo hướng mỗi công thức chỉ thể hiện một cách sử 
dụng của từ. Từ điển ADJ cũng được dùng thay cho 
từ điển văn phạm liên kết trong giai đoạn phân tích cú 
pháp. Dưới đây là ví dụ một số mục từ trong từ điển 
ADJ: 
bởi_vì,vì because: (GT_DT+ or CL+) & {PH+} & (EV- 
or (CO+ or QHT+)) 
sở_dĩ ! 
là_do,là_vì because 
rằng that: R- & CL+ 
/verb.transitive.trans: ((({TĐT1-} & {TĐT2_1-} & 
{RpVt- or RtVt- or RfVt- or RhVt-} & {TĐT4-}) or 
TT_ĐT- or ({TT_ĐT-} & TĐT5-)) & {DT_ĐT- or ĐT_ĐT- 
or THI_ĐT- or LT_ĐT- or BI-} & {ĐT_XONG+} & 
{ĐT_DT+} & {ĐT_TT+} & {ĐT_GT+} & {ĐT_LT+} & {THT- 
or THS+} & ({EV+} & {SDT5- or CL-} & {CO-})) or 
({DT_ĐT-} & BI-) 
Chú ý rằng trong từ điển trên, mục 
/verb.transitive.trans là mục chứa công thức liên kết 
của các động từ ngoại động (trừ một số ngoại lệ có 
công thức liên kết riêng) nên được liên kết với một từ 
điển song ngữ con chứa nghĩa của từng động từ với 
công thức liên kết đã nêu. Ví dụ: 
a_tòng act_as_an_accomplice_to 
a_tòng imitate 
am_hiểu know_well 
am_hiểu realize 
an_bài predestine 
an_bài preordain 
IV. SO SÁNH HAI NGÔN NGỮ VIỆT - ANH 
Sự khác biệt giữa Tiếng Việt và Tiếng Anh là không 
nhỏ. Đó là sự khác biệt giữa một ngôn ngữ phương 
Đông và một ngôn ngữ phương Tây. Theo Đinh Điền 
[7], do bị ảnh hưởng của văn hoá phương Đông – nền 
văn hoá thiên về âm tính, nên trong ngôn ngữ, ngữ 
pháp Tiếng Việt có tính linh động cao, chứ không chặt 
chẽ (chia thì, thể, sự phù hợp về giống, số, cách ...) 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 47 -
như ngữ pháp phương Tây. Tiếng Anh không quá chặt 
chẽ về ngữ pháp như Tiếng Nga, nhưng cũng yêu cầu 
biến đổi nhiều về hình thái. 
Theo Nguyễn Phương Thái và Shimazu [20], hai 
khác biệt quan trọng nhất giữa Tiếng Việt và Tiếng 
Anh mà hệ thống dịch máy cần giải quyết là: khác biệt 
về hình thái và khác biệt về trật tự từ. 
Khác biệt hình thái 
Theo phân loại về ngôn ngữ của Stankevich được 
nhắc đến trong [18], Tiếng Việt được xếp vào loại 
ngôn ngữ phân tích (đơn) hay còn gọi là loại hình phi 
hình thái với đặc điểm: Trong hoạt động ngôn ngữ, từ 
không biến đổi hình thái, ý nghĩa ngữ pháp nằm ở 
ngoài từ [7]. Tiếng Anh là ngôn ngữ thuộc loại hình 
phân tích ở mức độ vừa phải, thiên về loại hình tổng 
hợp nhiều hơn, biến đổi hình thái theo thì thể, giống, 
số... 
Những khác biệt về hình thái chủ yếu giữa Tiếng 
Việt và Tiếng Anh thể hiện ở: số của danh từ, chia 
động từ, quan hệ sở hữu, tính từ so sánh, tính từ làm vị 
ngữ, danh từ chỉ loại... Ngoài ra, còn một số vấn đề 
cần xử lý đặc biệt, ví dụ: 
Đại từ xưng hô: Có thể nói việc xưng hô trong 
Tiếng Việt thuộc loại phức tạp nhất thế giới, trong khi 
số lượng đại từ xưng hô trong Tiếng Anh là khá nhỏ, 
liên hệ chặt chẽ với cấu trúc ngữ pháp. Do vậy một đại 
từ xưng hô Tiếng Anh có thể tương ứng với khá nhiều 
đại từ xưng hô và các cụm từ có vai trò như đại từ 
xưng hô trong Tiếng Việt. Ví dụ, đại từ “they” Tiếng 
Anh có thể là bản dịch của “các anh ấy”, “các cô ấy”, 
“chúng nó”, “bọn chúng”, “chúng”, “bọn nó”, “họ”. 
Không phải tất cả các từ này đều xuất hiện trong từ 
điển Tiếng Việt như những mục từ riêng biệt mà 
chúng được coi là những cụm từ. 
Động từ “đi”: Trong Tiếng Việt, động từ đi có thể 
dùng với động từ khác như “đi học”, “đi chơi”, “đi 
bơi”... Khi dịch sang Tiếng Anh, để bản dịch sát với 
thực tế sử dụng, cần có một cách thức chuyển đổi 
riêng cho trường hợp đặc biệt này. 
Do đặc điểm từ vựng hóa hoàn toàn của văn phạm 
liên kết, những dấu hiệu liên quan đến các hiện tượng 
nói trên đều có thể nhận biết được qua các công thức 
liên kết. Điều đó cho phép xây dựng các luật chuyển 
đổi như trong mục V. 
Khác biệt về trật tự từ 
Theo [7], cả Tiếng Anh và Tiếng Việt đều cùng 
loại hình S – V – O, cùng giống nhau về trật tự từ ở 
phần định từ (determiner), mạo từ (article) và giới ngữ 
(prepositional phrase) sau danh từ. Tuy nhiên, những 
khác biệt nổi bật về trật tự từ giữa Tiếng Việt và Tiếng 
Anh có thể liệt kê dưới đây. 
Trật tự trong cụm danh từ-tính từ 
Trong Tiếng Anh, tính từ luôn đứng trước danh từ 
trong khi ở Tiếng Việt danh từ lại đứng trước tính từ. 
Hình 2 dưới đây minh họa việc sắp xếp lại trật tự tự từ 
trong trường hợp này: 
Hình 2. Sắp xếp lại trật tự từ 
Khi câu “tôi mua một chiếc ví đỏ” được áp dụng 
luật dịch, kết quả trả ra là “I buy a red wallet”. Ở câu 
đích, tính từ “red” đứng trước danh từ "wallet". Điều 
này là kết quả của việc từ “ví” ở vị trí thứ 4 trong câu 
nguồn đã được ánh xạ thành từ “wallet” ở vị trí thứ 5 
trong câu đích, trong khi từ “đỏ” ở vị trí thứ 5 trong 
câu nguồn thì được ánh xạ thành từ “red” ở vị trí thứ 
4. Việc thay đổi trật tự cho cụm hai, ba tính từ đi sau 
danh từ cũng tương tự như vậy. Chú ý rằng vị trí nói 
đến ở đây là vị trí tương đối giữa các từ được nhắc đến 
trong luật. Giữa chúng có thể tồn tại các từ khác. Xét 
ví dụ "cô gái nhỏ rất xinh", hệ thống dịch cần thay đổi 
vị trí các từ "cô gái", "nhỏ", "xinh", từ "rất" luôn phải 
giữ vị trí đứng ngay trước từ "xinh". Bản dịch Tiếng 
Anh của câu này cần phải là "very pretty little girl". 
Văn phạm liên kết cho phép kết nối hai từ không liền 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 48 -
kề nên việc thể hiện những luật chuyển đổi trật tự từ 
khá thuận tiện. 
Trật tự câu nghi vấn, câu nghi vấn – phủ định 
Dạng câu hỏi thường dùng nhất trong Tiếng Việt 
liên quan đến từ (cụm từ) để hỏi, ví dụ “tại sao”, “ai”, 
“như thế nào”. Các từ này thường ở đầu hoặc cuối 
câu. Trong dạng câu hỏi “wh” Tiếng Anh, từ để hỏi 
luôn luôn đứng trước. Do vậy cần biến đổi trật tự từ 
cùng với một số biến đổi khác. 
Ngoài ra cũng có một số trường hợp cần thay đổi 
trật tự từ như trong câu chứa phụ từ chỉ tần suất, câu 
dùng sở hữu cách... 
Trật tự từ không lân cận: là sự phụ thuộc được xác 
lập giữa các từ cách nhau một khoảng nhất định. Phụ 
thuộc dạng này có thể do “khoảng trống” (gap) tạo nên 
bởi sự thay đổi vị trí của từ nào đó, ví dụ “Quà cưới 
cho cô dâu, tôi đã gửi rồi”, hay trong các câu ghép, 
câu phức với nhiều mệnh đề như “Cái áo tôi mua hôm 
qua rất đẹp”. Khi dịch sang Tiếng Anh, để đảm bảo 
nghĩa của câu, thường phải thay đổi vị trí của từ, 
nhưng sự thay đổi vị trí cho loại câu này khó có thể 
biểu diễn một cách đơn giản bằng những luật dịch. 
Việc phân tích cũng như dịch loại câu này đòi hỏi 
những phương pháp thống kê, học máy với những bộ 
ngữ liệu lớn mà chúng tôi chưa có điều kiện xây dựng. 
Một số dạng câu có thể không biểu diễn được bằng 
văn phạm liên kết như đã trình bày ở mục 2. 
V. HỆ THỐNG DỊCH VIỆT ANH SỬ DỤNG ADJ 
Như vậy, để xây dựng bộ dịch dựa trên dạng tuyển 
có chú giải, ba vấn đề quan trọng nhất phải giải quyết 
là 
1. Tìm nghĩa từ 
2. Chuyển đổi cấu trúc câu 
3. Hoàn thiện bản dịch 
 Hình 3 dưới đây mô tả kiến trúc của hệ dịch Việt 
Anh dựa trên dạng tuyển có chú giải. 
Sơ đồ kiến trúc cho thấy hệ thống gồm 3 phần chính: 
• Phần tiền xử lý thực hiện tách từ cho câu đưa vào. 
Giai đoạn này không gán nhãn từ vì bộ phân tích cú 
pháp sẽ gán nhãn từ theo liên kết tìm được. Để tách 
từ, chúng tôi đã sử dụng bộ vnTokenizer của TS Lê 
Hồng Phương [16]. 
• Phần phân tích thực hiện phân tích cú pháp bằng bộ 
phân tích cú pháp liên kết. Đầu ra của quá trình phân 
tích cú pháp là một phân tích liên kết với cấu trúc đã 
trình bày ở mục trên. Trong khuôn khổ của bài báo, 
chúng tôi chưa đề cập vấn đề dịch câu ghép và câu 
phức nên kết quả nhận được từ bộ phân tích cú pháp 
là một phân tích liên kết của câu đơn hoặc câu ghép 
hai mệnh đề có thể phân tích dựa trên liên kết của từ 
nối. Qua phân tích các liên kết tìm được, hệ thống sẽ 
xác định các thuộc tính liên quan đến ngôi, số, thì, 
thể, vv... 
• Phần tổng hợp cho phép tạo ra bản dịch bao gồm các 
công việc sau : 
- Dịch một số cụm từ đặc biệt : "đi học", "bọn 
chúng nó"... 
- Tra nghĩa từ theo dạng tuyển trong từ điển ADJ. 
- Thay đổi hình thái từ dựa trên các thuộc tính tìm 
được (hiện thực hóa). 
- Tìm phương án dịch tổng thể tốt nhất. 
Hình 3. Kiến trúc của hệ thống dịch dựa trên dạng 
tuyển có chú giải 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 49 -
VI. XÂY DỰNG BỘ LUẬT DỊCH 
Như đã mô tả ở trên, hệ thống dịch cần sử dụng ba 
tập luật liên quan đến các công việc khác nhau: phát 
hiện thuộc tính, dịch cụm từ, chuyển đổi cấu trúc. 
Trong phần này chúng tôi mô tả chi tiết các luật điển 
hình và văn phạm phi ngữ cảnh sinh ra bộ luật. 
Trong các luật điển hình dưới đây của hệ thống, ký 
hiệu W1, W2, W3 đại diện cho các từ, D1, D2, D3 chỉ 
dãy các tên kết nối thuộc danh sách trái hay phải của 
một dạng tuyển nào đó. 
 Luật phát hiện thuộc tính 
Thuộc tính ở đây là những thông tin cần được lưu 
trữ lại cho mỗi từ để biến đổi hình thái thích hợp, ví dụ 
số nhiều của danh từ, thì, thể của động từ, ngôi của đại 
từ, loại cấu trúc so sánh (so sánh ngang bằng, so sánh 
hơn kém, so sánh bậc nhất). Dưới đây là một số ví dụ 
về luật phát hiện thuộc tính: 
Luật phát hiện thuộc tính về số nhiều của danh từ: 
Căn cứ vào kết nối DpNt của những định từ chỉ số 
nhiều “những”, “các”,”số đông” với danh từ, có thể 
đưa giá trị PLURAL vào thuộc tính của danh từ liên 
kết với chúng: 
W1(D1)(DpNt) W2(DpNt)(D2) 
→ W1’W2’(number = PLURAL) 
Luật phát hiện thuộc tính thì của động từ: Thì của 
động từ được thể hiện bằng các liên kết với các phụ từ 
chỉ thì. Thì quá khứ được thể hiện qua các liên kết 
RpVt, RpVs, thì tương lai RfVt, RfVs, tiếp diễn RcVt, 
RcVc, hoàn thành RhVt, RhVc. Các liên kết của thời 
quá khứ hay tương lai xuất hiện trong phân tích sẽ 
được xử lý theo các luật nhằm xác định thuộc tính 
tense cho động từ. Với những thì phức tạp hơn như 
các thì tiếp diễn hay hoàn thành, không chỉ biến đổi 
hình thái động từ mà còn thêm từ khác như "to be", "to 
have", do vậy thuộc tính được xác định giá trị là thuộc 
tính form. Ví dụ, 
W1(D1)(RpVt) W2(RpVt)(D2)→ 
W1’W2’(tense = PAST) 
W1(D1)(RfVt) *(RfVt)(D2) → 
W1’W2’(tense = FUTURE) 
Luật xác định ngôi của đại từ xưng hô: đối với đại 
từ xưng hô thì không cần căn cứ vào liên kết vì trong 
Tiếng Việt số lượng đại từ xưng hô là khá nhỏ, do vậy 
luật căn cứ vào chính giá trị từ và loại của từ để xác 
định ngôi: 
tôi[p]→ I(person = FIRST) 
nó[p] → he (person = THIRD) 
Ký hiệu [p] trong luật thể hiện loại của từ đứng ngay 
bên trái. Thông tin này có trong từ điển liên kết. 
Sau khi xác định được ngôi của đại từ xưng hô, thuộc 
tính về ngôi phải được lan truyền cho động từ để chia 
đúng ngôi, đặc biệt là động từ “là” vì động từ “to be” 
tương ứng chia khác nhau ở tất cả các ngôi thể hiện 
qua các luật sau: 
W1(D1)(SV) W2(SV)(D2) 
→ W1’W2’(person = W1’.person) 
Động từ “là” 
W1(D1)(DT_LA) W2(DT_LA)(D2) 
→ W1’W2’(person = W1’.person) 
Luật dịch cụm từ 
Dịch cụm từ sang đại từ xưng 

File đính kèm:

  • pdfung_dung_van_pham_lien_ket_trong_dich_may_viet_anh.pdf
Tài liệu liên quan