Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Rút trích cụm danh từ (NPbase) từ ngữ liệu song

ngữ được nhiều nhà nghiên cứu về xử lý ngôn ngữ tự

nhiên đề xuất bằng các phương pháp khác nhau trong

nhiều thập kỷ qua như J.Kupiec [7], H.Wantanabe

[14], Yarowsky [15], W.Wang [13], Y.S.Hwang [6],

Đ.Điền [2] và N.P.Thai [12]. Tuy nhiên việc nghiên

cứu ngôn ngữ tự nhiên để giúp máy tính hiểu được

ngôn ngữ con người vẫn còn là một thách thức và bài

toán nhận biết cụm danh từ tiếng Việt trong cặp câu

song ngữ vẫn còn là bài toán mở [4]. Bài báo này đề

xuất một mô hình chuyển đổi cây phân tích cụm danh

từ cơ sở tiếng Anh theo tiếng Việt nhằm giải quyết

một số hạn chế của mô hình chiếu trên cơ sở đối sánh

từ của Yarowsky [15] (sau này gọi là “phương pháp

Yarowsky”) để nhận biết cụm danh từ tiếng Việt [5].

Phương pháp Yarowsky cho phép các nước còn

thiếu nguồn tài nguyên về xử lý ngôn ngữ tự nhiên

(NLP) có thể thu được nhanh kết quả nghiên cứu

thông qua một ngôn ngữ giàu tài nguyên nghiên cứu

khác như tiếng Anh. Tuy nhiên hạn chế của phương

pháp Yarowsky là chưa giải quyết vấn đề đối sánh

rỗng, vấn đề chồng chéo và xung đột như ví dụ ở Hình

1 và 2.

pdf9 trang | Chia sẻ: hoa30 | Lượt xem: 680 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 48 -
Abstract: Transferring syntax trees is one of the 
key tasks of machine translation systems. To transfer 
syntax trees, they can be performed by different 
models of the statistical translation method, rule-
based translation method, or a hybrid of statistics and 
rule-based translation method [9]. In this paper we 
present a combination of bilingual corpus and 
knowledge-based method, which transfers syntax trees 
of English Base Noun Phrases via the Vietnamese 
syntax from a pair of bilingual sentences to identify 
anchor points. Our combination technique can help to 
invert word order in noun phrases of the source 
language to suit those of target language and improve 
the performance of miss-alignment, null-alignment, 
overlap and conflict projection of the existing 
methods. The proposed technique can be easily 
applied to other language pairs. Experiment on pairs 
of sentences in the English-Vietnamese bilingual 
corpus showed that our proposed method is 
satisfactory. 
Keywords: Npbase, đối sánh từ, NLP 
I. GIỚI THIỆU 
Rút trích cụm danh từ (NPbase) từ ngữ liệu song 
ngữ được nhiều nhà nghiên cứu về xử lý ngôn ngữ tự 
nhiên đề xuất bằng các phương pháp khác nhau trong 
nhiều thập kỷ qua như J.Kupiec [7], H.Wantanabe 
[14], Yarowsky [15], W.Wang [13], Y.S.Hwang [6], 
Đ.Điền [2] và N.P.Thai [12]. Tuy nhiên việc nghiên 
cứu ngôn ngữ tự nhiên để giúp máy tính hiểu được 
ngôn ngữ con người vẫn còn là một thách thức và bài 
toán nhận biết cụm danh từ tiếng Việt trong cặp câu 
song ngữ vẫn còn là bài toán mở [4]. Bài báo này đề 
xuất một mô hình chuyển đổi cây phân tích cụm danh 
từ cơ sở tiếng Anh theo tiếng Việt nhằm giải quyết 
một số hạn chế của mô hình chiếu trên cơ sở đối sánh 
từ của Yarowsky [15] (sau này gọi là “phương pháp 
Yarowsky”) để nhận biết cụm danh từ tiếng Việt [5]. 
 Phương pháp Yarowsky cho phép các nước còn 
thiếu nguồn tài nguyên về xử lý ngôn ngữ tự nhiên 
(NLP) có thể thu được nhanh kết quả nghiên cứu 
thông qua một ngôn ngữ giàu tài nguyên nghiên cứu 
khác như tiếng Anh. Tuy nhiên hạn chế của phương 
pháp Yarowsky là chưa giải quyết vấn đề đối sánh 
rỗng, vấn đề chồng chéo và xung đột như ví dụ ở Hình 
1 và 2. 
Hình 1. Ví dụ về một số loại đối sánh 
Hình 1(a) cho chúng ta thấy, khi hai từ tiếng Anh 
đối sánh với một từ tiếng Việt người ta gọi là đối sánh 
nhiều-một (n-1). Hình 1(b) là ví dụ về một từ tiếng 
Anh đối sánh với hai từ tiếng Việt người ta gọi là đối 
sánh một-nhiều (1-n). Hình 1(c) là đối sánh một-một 
(1-1). 
Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo 
tiếng Việt 
Transferring Syntax Trees of English Noun Phrases via Vietnamese 
Syntax 
Nguyễn Chí Hiếu 
(c) 1-1 và đối sánh 
rỗng the apples 
 những quả táo 
the plane 
 máy bay 
(b) 1-n và đối sánh 
rỗng a buffalo 
calf 
con nghé 
(a) n-1 và đối sánh 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 49 -
(c) 
[DT PRP$ JJ NN NNS] VBP VBN IN [DT JJ NN] 
All my green3 sport shirts are made from the green9 silk 
Tất 
cả 
Những Chiếc Sơ 
mi 
Thể 
thao 
Màu 
xanh6 Của tôi làm Từ Lụa 
Xanh12 
[DT PL CL NN NN JJ POS PRP] VB BA [NN JJ] 
Hình 2. Ví dụ về chồng chéo và xung đột 
Hình 2 là một ví dụ cho cặp câu Anh–Việt có sự 
chồng chéo. Trong ví dụ này, từ “green” xuất hiện 
nhiều lần trong câu ở vị trí thứ 3 và vị trí thứ 9. Do đó 
từ “green” có thể đối sánh với hai vị trí tương ứng 
trong câu tiếng Việt là “màu xanh” ở vị trí thứ 6 và 
“xanh” ở vị trí thứ 12, nên nó gây lên vấn đề chồng 
chéo và xung đột. 
Giải pháp giải quyết cho vấn đề chồng chéo và 
xung đột là chuyển đổi trật tự từ tiếng Anh theo tiếng 
Việt trước khi đối sánh như ví dụ mô phỏng trên hình 
3. Trên Hình 3(c) là câu tiếng Anh của Hình 3(a) đã 
được chuyển đổi trật tự từ trong cụm danh từ cơ sở 
tiếng Anh theo tiếng Việt. Bằng trực quan chúng ta dễ 
dàng nhận thấy rằng: Nếu chiếu theo câu trên Hình 
3(c) với câu trên Hình 3(b), thì chúng ta sẽ khắc phục 
được vấn đề chồng chéo và xung đột. Vậy làm thế nào 
có thể giúp máy tính tự động thực hiện chuyển đổi sẽ 
được chúng tôi trình bày trong mục III. Trước tiên là 
mục phân rã cấu trúc cụm danh từ. 
II. CẤU TRÚC CỤM DANH TỪ 
Bảng 1. Cấu trúc cụm danh từ tiếng Anh [10] 
định tố 
trước 
định 
tố 
định 
tố sau bổ ngữ 
từ trung 
tâm bổ ngữ sau 
all the three good books on sale 
Y1 Y2 Y3 Y4 Y5 Y6 
 Bảng 2. Cấu trúc cụm danh từ tiếng Việt [11] 
Thành tố phụ trước Trung tâm Thành tố phụ 
sau 
tổng 
lượng 
số 
lượng 
tiểu từ 
cái 
từ 
phân 
lớp 
danh 
từ 
cụm 
tính từ 
chỉ định 
/ sở hữu 
Cả sáu cái con gà đen ấy 
X1 X2 X3 X4 X5 X6 X7 
Theo V.N.Tú [10], cụm danh từ tiếng Anh được 
phân tích thành 6 thành phần như luật (a). Theo 
T.H.Nguyen [11], cụm danh từ tiếng Việt được phân 
tích thành 7 thành phần như luật (b). 
(a) NPe →Y1 Y2 Y3 Y4 Y5 Y6 
 (b) NPv →X1 X2 X3 X4 X5 X6 X7 
Trong đó: 
NPe: ký hiệu cụm danh từ tiếng Anh 
NPv: ký hiệu cụm danh từ tiếng Việt 
Yj: là từ loại của từ ở vị trí j , j = 1 đến 6 
Xi: là loại ở vị trí thứ i, i = 1 đến 7 
Cụm danh từ tiếng Anh bao gồm sáu thành phần 
(bốn thành phần phụ trước, một thành phần trung tâm 
và một thành phần phụ sau) và cụm danh từ tiếng Việt 
bao gồm bảy thành phần (bốn thành phần phụ trước, 
một thành phần trung tâm và hai thành phần phụ sau), 
đó là xét khả năng các thành phần đều xuất hiện. 
Trong thực tế có thể không xuất hiện đầy đủ các thành 
phần như vậy, ngoại trừ thành phần thứ 5 là bắt buộc 
(Y5 trong tiếng Anh và X5 trong tiếng Việt). 
Bảng 3. Cấu trúc của cụm danh từ Anh - Việt 
Ngôn ngữ 
Cấu trúc chung 
Thành tố 
phụ trước 
Danh từ 
trung tâm 
Thành tố phụ 
sau 
Anh Y1 Y2 Y3 Y4 Y5 Y6 
Việt X1 X2 X3 X4 X5 X6 X7 
Cấu trúc cụm danh từ tiếng Anh và tiếng Việt đều 
giống nhau ở chỗ có ba thành phần lớn là thành tố phụ 
trước, thành phần trung tâm, thành tố phụ sau (Bảng 
3). Tuy nhiên, các yếu tố tạo nên thành tố giữa cụm 
danh từ tiếng Anh và tiếng Việt lại rất khác biệt và khá 
phức tạp, nhất là trong cụm danh từ tiếng Việt. Vì thế, 
chúng ta cần có các bước hợp lý để phân tích các 
thành tố của cụm danh từ vào các thành phần tương 
[I1] like2 [her3 first4 six5 Vietnamese6 dresses7] 
[Tôi1] thích2 [sáu3 cái áo dài4 Việt Nam5 đầu tiên6 của cô ta7] 
[I1] like2 [six3 dresses4 Vietnamese5 first6 her7 ] 
(a) 
(b) 
Hình 3. Ví dụ về chuyển đổi trật tự từ để 
khắc phục vấn đề chồng chéo khi đối sánh 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 50 -
ứng. Các bước này được chúng tôi đề xuất để phân 
tích cụm danh từ cơ sở tiếng Anh thành các thành 
phần từ Y1 đến Y6 thông qua các giải thuật 1, 2, 3 và 
4 ở mục kế tiếp. 
Để phân rã cụm danh từ cơ sở tiếng Anh thành các 
thành phần, chúng tôi thực hiện theo trình tự như sau. 
Trước tiên, chúng tôi phải phân tích cụm danh từ cơ sở 
tiếng Anh thành ba thành phần là phụ trước (Y1 Y2 
Y3 Y4), trung tâm (Y5), phụ sau (Y6). Trong đó thành 
phần Y5 được ưu tiên xác định đầu tiên, Nếu xác định 
được thành phần Y5, thì thành phần phía bên phải của 
Y5 sẽ là thành phần Y6 và các thành phần phía bên 
trái của Y5 sẽ là các thành phần Y1, Y2, Y3, Y4. Cách 
làm này sẽ loại bỏ được sự xung đột về từ loại giữa 
Y4, Y5 và Y6. Tiếp theo, chúng tôi phân tích tiếp các 
thành tố phụ truớc thành các thành phần từ Y1 đến Y4. 
Sự xung đột giữa Y1 và Y2 về từ loại DT (Phụ lục A) 
được xét thêm bởi từ đứng đầu cụm danh từ cơ sở (Y1 
là vị trí của từ chỉ tổng lượng). Thành phần Y2 lại 
được phân tích thành 2 tiểu thành phần là Y2a và Y2b. 
Y2a là vị trí của mạo từ như “a”, “an”, “the”. Y2b là 
vị trí của tính từ sở hữu “my”, “his”, “our”,, từ chỉ 
thị “this”, “these”, “that”, “those”, các từ “some”, 
“any”, “many”, “much”, “enough”. Thành phần Y3 
cũng được phân tích thành 2 tiểu thành phần là Y3a và 
Y3b. Y3a là vị trí của từ chỉ số thứ tự. Y3b là vị trí của 
từ chỉ số đếm. Thành phần Y6 cũng được phân tích 
thành hai tiểu thành phần là Y6a và Y6b. Y6a là vị trí 
của từ có từ loại CD mà liền kề trước nó là các từ loại 
tiền tệ ví dụ như $ CD, # CD. Y6b là các từ loại còn 
lại. 
Ở vị trí của X2, X3, X4 có thể là những từ đặc 
trưng trong tiếng Việt (X2: “những”, “các”, X3: 
“cái”, X4: từ phân lớp). X2 vẫn có thể tương đương 
chức năng với tiểu thành phần Y2a trong trường hợp 
các từ là mạo từ như “a”, “an” “the”. Ngoài ra, X2 
còn tương đương chức năng với tiểu thành phần của 
Y3 là Y3b, khi ở vị trí Y3 từ chỉ thứ tự và từ chỉ số 
đếm cùng xuất hiện, X2 cũng tương đương chức năng 
với tiểu thành phần Y6a. X1 tương đương chức năng 
với Y1. X6 tương đương chức năng với Y4. Ngoài ra, 
X6 còn tương đương chức năng với tiểu thành phần 
của Y3 là Y3a, và X6 cũng tương đương chức năng 
với Y6b. Cuối cùng X7 tương đương chức năng với 
tiểu thành phần của Y2 là Y2b như Bảng 4. 
Bảng 4. So sánh các thành phần trong cụm danh từ 
Sự tương đương chức năng giữa các thành 
phần trong cụm danh từ tiếng Việt với cụm 
danh từ tiếng Anh 
Việt Anh 
X1 Y1 
X2 (một|φ) Y2a (a, an, the), Y3b, Y6a 
X3 (cái) φ 
X4 (từ phân lớp) φ 
X5 Y5 
X6 Y3a, Y4, Y6b 
X7 Y2b 
Cấu trúc chi tiết cụm danh từ tiếng Anh và tiếng 
Việt có nhiều điểm rất khác nhau như đã trình bày ở 
trên. Phần tiếp theo sẽ trình bày chi tiết mô hình đề 
xuất. 
III. MÔ HÌNH CHUYỂN ĐỔI TRẬT TỰ TỪ 
Trên cở sở nghiên cứu về đối sánh ngôn ngữ của 
T.H.Nguyen [11] và V.N.Tú [10] về cụm danh từ song 
ngữ Anh-Việt, chúng tôi đã phân tích cụm danh từ 
tiếng Anh, cụm danh từ tiếng Việt thành các thành 
phần theo vị trí chức năng của chúng như bảng 4. Với 
vị trí và chức năng của mỗi thành phần đã phân tích ở 
trên cho phép chúng tôi thiết kế một giải thuật hiệu 
quả để chuyển đổi trật tự từ của cụm danh từ cơ sở 
tiếng Anh theo tiếng Việt. 
Bài toán chuyển đổi trật tự từ trong cụm danh từ cơ 
sở tiếng Anh theo tiếng Việt bao gồm các bài toán sau: 
- Xác định từ trung tâm (Y5) của cụm danh từ cơ sở 
tiếng Anh; 
- Phân tích các thành phần (Y3 đến Y6) khi có liên từ 
xuất hiện trong chúng; 
- Chuyển đổi trật tự từ của cụm danh từ cơ sở tiếng 
Anh theo tiếng Việt. 
(i) Bài toán xác định từ trung tâm 
Từ trung tâm là từ quan trọng nhất trong các cụm 
từ nói chung và cụm danh từ nói riêng. Xét về lý 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 51 -
thuyết, từ trung tâm của cụm danh từ là danh từ, 
nhưng trong thực tế ngôn ngữ thì từ trung tâm còn bao 
hàm các loại từ khác, ví dụ câu: this book costs $ 100. 
(S (NP this/DT book/NN) (VP costs/VBP (NP $/$ 100/CD))) 
(a) $/$ 100/CD (b) #/# 13/CD 
 Y5 Y5 
 một trăm/CD đô la Mỹ/$ mười ba/CD bảng Anh/# 
Qua khảo sát trên ngữ liệu từ chương 15 đến 18 
trong Penn Treebank [16] của luận án [4], thì từ trung 
tâm trong cụm danh từ cơ sở bao gồm các từ có từ loại 
là {NN, NNP, NNPS, NNS, JJR, POS, $, #, CD, JJ, 
JJS, RB}(ký hiệu các từ loại - Phụ lục A). 
Trên cơ sở khảo sát, thống kê ngữ liệu của Penn 
Treebank của tài liệu [4] và tham khảo ý tưởng trong 
giải thuật xác định từ trung tâm của Collins [1], chúng 
tôi xây dựng giải thuật để tìm từ trung tâm của cụm 
danh từ cơ sở tiếng Anh như sau. 
Giải thuật 1: Tìm từ trung tâm trong cụm danh từ 
cơ sở tiếng Anh (Y5) 
Nhập: Cụm danh từ tiếng Anh đã gán nhãn từ loại 
Xuất: Từ trung tâm (Y5) 
Phương pháp: 
Nếu cụm danh từ cơ sở có một phần tử thì thực hiện 
bước 6; Ngược lại thì thực hiện bước 1; 
Bước 1: Tìm từ phải qua trái, nếu gặp từ có từ loại 
trong tập {NN, NNP, NNPS, NNS} thì Y5 là từ vừa tìm 
thấy và thực hiện bước 6; Ngược lại thì thực hiện 
bước 2; 
Bước 2: Tìm từ phải qua trái, nếu gặp từ có từ loại 
trong tập {$, #} thì Y5 là từ vừa tìm thấy và thực hiện 
bước 6; Ngược lại thì thực hiện bước 3; 
Bước 3: Tìm từ phải qua trái, nếu gặp từ có từ loại là 
CD thì Y5 là từ vừa tìm thấy và thực hiện bước 6, 
ngược lại thì thực hiện bước 4; 
Bước 4: Tìm từ phải qua trái, nếu gặp từ có từ loại 
trong tập {JJ, JJS, RB, JJR} thì Y5 là từ vừa tìm thấy 
và thực hiện bước 6, ngược lại thì thực hiện bước 5; 
Bước 5: Y5 là từ tận cùng bên phải của cụm danh từ 
cơ sở và trả về cho chương trình thành phần Y5; 
Bước 6: trả về thành phần Y5; 
(ii) Bài toán phân tích các thành phần khi có liên từ 
Sự xuất hiện của liên từ trong cụm danh từ cơ sở 
làm tăng thêm tính nhập nhằng khi phân tích các thành 
phần trong cụm danh từ cơ sở. Ngoại trừ hai vị trí Y1 
(Y1 có từ loại thuộc tập {PDT, DT}) và Y2 (Y2 có từ 
loại thuộc tập {DT, PRP$}) là không có sự xuất hiện 
của liên từ, bốn vị trí còn lại đều có thể có sự xuất hiện 
của liên từ. Chi tiết giải quyết bài toán này trình bày 
dưới đây. 
Giải thuật 2: Xác định từ trung tâm có liên từ và 
tách cụm danh từ cơ sở 
Nhập: Cụm danh từ cơ sở tiếng Anh đã gán nhãn từ 
loại 
Xuất: phần phụ trước (Y1Y2Y3Y4), trung tâm (Y5) 
và phần phụ sau (Y6a, Y6b) 
Phương pháp: 
Bước 1: Chạy giải thuật 1 để xác định từ trung tâm 
(Y5) ở vị trí h trong cụm danh từ cơ sở gồm n từ (h ≤ 
n) 
Bước 2: Mở rộng từ trung tâm và tách cụm danh từ cơ 
sở như sau: 
 begin 
 foundCC = true; Y5= từ ở vị trí h; h2 = h; 
 while ((h>2) and (foundCC)) 
 begin /*nhiều liên từ trong thành phần Y5*/ 
 if (h-1 là vị trí của từ có từ loại là CC) then 
 begin 
 Y5 = bộ hai các từ ở vị trí ( h-1, h) + Y5; 
 h = h-2; 
 end else foundCC = false; 
 end 
 if (h>1) then tách các vị trí từ 1 đến h-1 vào thành 
tố phụ trước(Y1Y2Y3Y4); 
 if (h2<n) then tách các vị trí từ h2+1 đến n vào thành 
tố phụ sau (Y6); 
 if (trong Y6 có từ loại là CD ở vị trí h+1 và vị trí h 
có từ loại là $ hoặc #) then Y6a = từ ở vị trí h+1 ; 
else Y6b = Y6 ; 
 end; 
Như vậy, với giải thuật 2 chúng ta đã phân tích 
được thành phần trung tâm (Y5) và thành phần phụ 
sau (Y6a và Y6b). Các thành phần phụ trước (Y1 Y2 
Y3 Y4) sẽ được phân tích như sau. 
Giải thuật 3: Phân tích các thành phần phụ trước 
(Y1, Y2, Y3, Y4) 
Nhập: Thành phần phụ trước (Y1Y3Y3Y4) 
Xuất: Y1, Y2a, Y2b, Y3a, Y3b, Y4 
Phương pháp: Gọi A là chuỗi nhập có dạng 
A→ C1Cn , i = 1n; hàm GetPos(A,i) trả về từ loại 
của chuỗi A ở vị trí i; 
i = 1; 
repeat 
 c = GetPos(A,i); 
 case c of 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 52 -
 {PDT}: Y1 = c; 
 {DT}: if (từ là “all” hay “both”) then Y1 = c; 
 else if (từ là “the” hay “a” hoặc “an”) 
 then Y2a = c; else Y2b = c; 
 {PRP$}: Y2b = Y2b + c; 
 {CD}: Y3b = Y3b + c; 
 c = GetPos(A,i+1); /* tìm liên từ trong Y3 */ 
 if ((c={CC}) 
and ((c1 = GetPos(A,i+2)) = {CD})) then 
begin 
 Y3b = Y3b + c + c1; i = i + 2; end 
 {JJ}: if ((c1 = GetPos(A,i+1)) = {CD}) then 
 begin 
 Y3a = c; Y3b = Y3b + c1; i = i + 1; 
 end 
 else Y4 = tất cả các từ còn lại; //thoát vòng lặp 
 end {case} 
until (hết chuỗi nhập); 
Trong giải thuật 3, chúng tôi giả định đã có hàm 
GetPos(A,i). Hàm này nhận vào hai thông số là chuỗi 
từ loại A, vị trí từ loại cần lấy i và trả về từ loại ở vị trí 
i trong chuỗi A. Các biến c và c1 được dùng để lưu 
các từ loại. Bốn biến Y1, Y2, Y3 và Y4 được dùng để 
lưu các thành phần được phân rã từ phần phụ trước 
(Y1 Y2 Y3 Y4). Ví dụ về sự xuất hiện của liên từ 
trong các thành phần của cụm danh từ tiếng Anh. 
Ví dụ 1: 
 (a) [your/PRP$ old/JJ apples/NNS and/CC bananas/NNS] 
 [Y2 Y4 Y53, 4, 5] 
(b) [my/PRP$ dog/NN] and/CC [your/PRP$ cat/NN] 
 [Y2 Y5] CC [Y2 Y5] 
(iii) Bài toán chuyển đổi trật tự từ 
Sau khi có kết quả phân tích cấu trúc cụm danh từ 
cơ sở tiếng Anh thành các thành phần từ Y1 đến Y6 
bằng các giải thuật 1, 2 và 3. Giải thuật chuyển đổi trật 
tự từ chỉ đơn giản là sắp đặt lại các thành phần này vào 
các vị trí của các thành phần tương ứng trong cụm 
danh từ cơ sở tiếng Việt như mô tả trong Bảng 4. Mô 
hình chuyển đổi trật tự từ được mô tả ở Hình 4. Chi 
tiết giải thuật chuyển đổi trật tự từ trong cụm danh từ 
cơ sở tiếng Anh theo tiếng Viêt được trình bày sau 
đây. 
Giải thuật 4: Chuyển đổi trật tự từ của cụm danh từ 
cơ sở tiếng Anh theo cấu trúc cụm danh từ cơ sở 
tiếng Việt. 
Nhập: Cụm danh từ cơ sở tiếng Anh đã được gán nhãn 
từ loại 
Xuất: Cụm danh từ cơ sở tiếng Anh đã chuyển đổi trật 
tự từ theo cấu trúc cụm danh từ cơ sở tiếng Việt 
Phương pháp: 
Bước 1: Thực hiện các giải thuật 1, 2 và 3 để phân 
tích chuỗi nhập thành các thành phần chức năng ở các 
vị trí tương ứng. 
Bước 2: Sắp xếp lại các thành phần này vào các vị trí 
tương ứng trong cấu trúc cụm danh từ cơ sở tiếng Việt 
như sau: cất Y1 vào X1, cất Y2a hoặc Y3b, hoặc Y6a 
vào vị trí X2, cất Y5 vào vị trí X5, cất Y4, Y6b, Y3a 
vào vị trí X6 theo hai cấu trúc “Y3a Y4 Y6b” và “Y4 
Y3a Y6b”, cất Y2b vào vị trí X7; Xếp các vị trí này 
theo thứ tự tăng dần của X; Các thành tố trong chuỗi 
mới X1 X2 X5 X6 X7 là cấu trúc cụm danh từ cơ sở 
tiếng Anh đã chuyển đổi trật tự theo cấu trúc cụm 
danh từ cơ sở tiếng Việt; 
Ví dụ 2 mô tả quy trình chuyển đổi trật tự từ tiếng 
Anh theo tiếng Việt. 
Ví dụ 2: 
a) [her1/PRP$ first2/JJ six3/CD Vietnamese4/JJ 
dresses5/NNS] 
Sáu/CD cái/CL áo dài/NN Việt Nam/JJ đầu tiên/JJ của/PRO 
cô/NN ta/NN 
Sau khi phân tích ví dụ 2( a) chúng ta được Y2= 
her/PRP$, Y3a = first/JJ, Y3b = six/CD, 
Y4 = Vietnamese/JJ, Y5 = dresses/NNS và sắp xếp lại 
theo trật tự từ tiếng Việt là “Y3b Y5 Y4 Y3a Y2” 
chúng ta có trật tự như ví dụ 2(b). 
(b) [six1/CD dresses2/NNS Vietnamese3/JJ first4/JJ 
her5/PRP$] 
 Sáu/CD (cái/CL) áo dài/NN Việt Nam/JJ đầu tiên/JJ 
(của/PRO) cô/NN ta/NN 
CL là từ loại của từ “cái” và POS là từ loại của từ 
“của”. 
Quan sát bảng cấu trúc cụm danh từ cơ sở tiếng 
Việt trên hình 4, chúng ta thấy rằng: ngoại trừ các 
thành phần X2, X3, X4, X6, các thành phần khác đều 
có sự tương đương chức năng là 1-1 (X1 ↔ Y1, X5 
↔ Y5, X7 ↔ Y2b). Thành phần X3 và X4 là hai 
thành phần đặc trưng của cụm danh từ cơ sở tiếng 
Việt. X3, X4 không có thành phần tương đương chức 
năng bên cụm danh từ cơ sở tiếng Anh (X3 → φ, X4 
→ φ). Ở vị trí của thành phần X2 xuất hiện thành phần 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 53 -
Y2a hoặc thành phần Y3b hoặc thành phần Y6a là 
những thành phần tương đương chức năng với X2. Ở 
vị trí của thành phần X6, nếu có nhiều thành phần của 
cụm danh từ cơ sở tiếng Anh cùng xuất hiện ở vị trí 
này, thì thứ tự xuất hiện của chúng là X6 = {Y4 Y6b 
Y3a} như ví dụ 3 (b), hoặc X6 = {Y4 Y3a Y6b} như 
ví dụ 3 (c), phụ thuộc vào ngữ cảnh của câu tiếng Việt. 
Ví dụ 3: 
(a) [the/DT first/JJ three/CD young/JJ man/NN 
 Y2 Y3a Y3b Y4 Y5 
absent/JJ] will/MD be/VB punished/VBN 
Y6b 
(b) ba/CD thanh niên/NN trẻ/JJ vắng mặt/JJ đầu 
 X2 X5 
tiên/JJ sẽ/MD bị phạt/VB. 
 X6 
(c) ba/CD thanh niên/NN trẻ/JJ đầu tiên/JJ vắng 
 X2 X5 
mặt/JJ sẽ/MD bị phạt/VB. 
 X6 
Hình 4. Mô hình chuyển đổi trật tự từ tiếng Anh theo 
tiếng Việt 
Trong đó: 
- wk: Từ thứ k trong cụm danh từ tiếng Anh 
- Ck: Mã từ loại của từ thứ k 
- X1 đến X7: là các thành tố trong cụm danh từ 
tiếng Việt 
- Y1 đến Y6: là các thành tố của cụm danh từ 
tiếng Anh 
Phân tích các thành phần của ví dụ 3 bằng các giải 
thuật 1, 2 và 3. Chúng ta có Y2 = the/DT, Y3a = 
first/JJ, Y3b = three/CD, Y4 = young/JJ, Y5 = 
man/NN, Y6 = absent/JJ. Sắp xếp lại chúng theo trật 
tự của tiếng Việt theo giải thuật 4 cho câu trong ví dụ 
3(b) là “Y3b Y5 Y4 Y3a Y6b” và cho câu trong ví dụ 
3(c) là “Y3b Y5 Y3a Y4 Y6b”. 
Như vậy, trật tự của Y3a và Y4 có thể thay đổi cho 
nhau phụ thuộc vào câu dịch tiếng Việt. Tuy khác 
nhau về trật tự khi được sắp xếp theo thứ tự của cụm 
danh từ cơ sở tiếng Việt tương ứng, nhưng cả Y3a và 
Y4 trong cụm danh từ cơ sở tiếng Anh đều có chức 
năng tương đương với thành phần X6 trong cụm danh 
từ tiếng Việt. 
IV. KẾT QUẢ THỰC NGHIỆM 
 Dữ liệu đánh giá 
Để 

File đính kèm:

  • pdfchuyen_doi_cay_cu_phap_cum_danh_tu_tieng_anh_theo_tieng_viet.pdf
Tài liệu liên quan