Xử lý câu hỏi chính phản trong dịch tự động Hoa - Việt

Dịch máy là bài toán lâu đời và khó nhưng đã thu

hút được sự quan tâm của rất nhiều nhóm nghiên cứu

trong nước và trên thế giới do tiềm năng ứng dụng của

nó. Tuy nhiên, do bản chất nhập nhằng của ngôn ngữ

ở mọi cấp độ và mọi khía cạnh cộng với sự khác biệt

giữa các ngôn ngữ khiến bài toán chuyển ngữ lại càng

phức tạp hơn. Đặc biệt đối với ngôn ngữ có sự khác

biệt về trật tự từ như giữa tiếng Hoa và tiếng Việt.

Đối với dịch tự động có liên quan tiếng Việt, chủ

yếu là dịch tự động Anh - Việt, hiện nay đã có một số

nhóm nghiên cứu khác nhau với các cách tiếp cận

khác nhau, cụ thể là:

- Nhóm Lê Khánh Hùng đã phát triển hệ dịch

Anh-Việt từ đầu những năm 1990 và đã có bản

thương mại tên là EVTran. Nhóm này chủ yếu

sử dụng phương pháp dịch dựa trên luật

(RBMT: Rule-based Machine Translation).

- Nhóm nghiên cứu của Đinh Điền (Trường Đại

Học Khoa Học Tự Nhiên TP.HCM): khởi đầu

từ năm 1995 là theo cách tiếp cận dựa trên luật

nhưng từ năm 2005 họ đã phát triển thêm cách

tiếp cận dựa trên thống kê (SMT: Statistical

Machine Translation) và có sự kết hợp tri thức

ngôn ngữ để nâng cao chất lượng.

- Nhóm nghiên cứu của Phan Thị Tươi (Trường

ĐạiHọc Bách Khoa TP.HCM): sử dụng phương

pháp phân tích cú pháp có xác suất để dịch văn

bản Anh-Việt và Việt-Anh[6].

- Cty Lạc Việt đã phát triển công cụ dịch từ Anh

sang Việt có thêm phần dịch chuyên ngành: tin

học, toán học, y học và kế toán, kỹ thuật[7].

- Gần đây nhất là Google Translator (www.

translate. google.com): sử dụng phương pháp

dịch máy thống kê dựa trên kho ngữ liệu song

ngữ khổng lồ khai thác từ Internet. Google

Translator đã hỗ trợ hơn 50 ngôn ngữ bao

gồm cả tiếng Việt. Tốc độ dịch nhanh và có

tính năng tương tác với người dùng nhằm tăng

chất lượng dịch cho các lần sau. Đối với các bản

tin thông thường, chất lượng dịch Anh-Việt,

Việt-Anh của Google Translator được xem là

tốt nhất hiện nay.

pdf11 trang | Chia sẻ: hoa30 | Lượt xem: 606 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Xử lý câu hỏi chính phản trong dịch tự động Hoa - Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 71 - 
Abstract: Machine translation is a tradtional and 
difficult problem, therefore, improving the quality of 
machine translation is a necessary issue. In this paper, 
we present a method to improve the quality of 
Chinese – Vietnamese machine translation. When 
translating from Chinese into Vietnamese, one of the 
most frequently encountered errors is the wrong 
translation “yes - no question”, so, we will apply 
some rules to convert “yes-no question” in the 
Chinese to common question. We have experimented 
this problem on the 10,000 pairs of Chinese-
Vietnamese parallel corpus and 77,000-entry Chinese 
Vietnamese Dictionary and we reach the result of 
47.23 BLEU score in comparison of 14.15 BLEU of 
Google Translator. 
I. GIỚI THIỆU 
Dịch máy là bài toán lâu đời và khó nhưng đã thu 
hút được sự quan tâm của rất nhiều nhóm nghiên cứu 
trong nước và trên thế giới do tiềm năng ứng dụng của 
nó. Tuy nhiên, do bản chất nhập nhằng của ngôn ngữ 
ở mọi cấp độ và mọi khía cạnh cộng với sự khác biệt 
giữa các ngôn ngữ khiến bài toán chuyển ngữ lại càng 
phức tạp hơn. Đặc biệt đối với ngôn ngữ có sự khác 
biệt về trật tự từ như giữa tiếng Hoa và tiếng Việt. 
Đối với dịch tự động có liên quan tiếng Việt, chủ 
yếu là dịch tự động Anh - Việt, hiện nay đã có một số 
nhóm nghiên cứu khác nhau với các cách tiếp cận 
khác nhau, cụ thể là: 
- Nhóm Lê Khánh Hùng đã phát triển hệ dịch 
Anh-Việt từ đầu những năm 1990 và đã có bản 
thương mại tên là EVTran. Nhóm này chủ yếu 
sử dụng phương pháp dịch dựa trên luật 
(RBMT: Rule-based Machine Translation). 
- Nhóm nghiên cứu của Đinh Điền (Trường Đại 
Học Khoa Học Tự Nhiên TP.HCM): khởi đầu 
từ năm 1995 là theo cách tiếp cận dựa trên luật 
nhưng từ năm 2005 họ đã phát triển thêm cách 
tiếp cận dựa trên thống kê (SMT: Statistical 
Machine Translation) và có sự kết hợp tri thức 
ngôn ngữ để nâng cao chất lượng. 
- Nhóm nghiên cứu của Phan Thị Tươi (Trường 
ĐạiHọc Bách Khoa TP.HCM): sử dụng phương 
pháp phân tích cú pháp có xác suất để dịch văn 
bản Anh-Việt và Việt-Anh[6]. 
- Cty Lạc Việt đã phát triển công cụ dịch từ Anh 
sang Việt có thêm phần dịch chuyên ngành: tin 
học, toán học, y học và kế toán, kỹ thuật[7]. 
- Gần đây nhất là Google Translator (www. 
translate. google.com): sử dụng phương pháp 
dịch máy thống kê dựa trên kho ngữ liệu song 
ngữ khổng lồ khai thác từ Internet. Google 
Translator đã hỗ trợ hơn 50 ngôn ngữ bao 
gồm cả tiếng Việt. Tốc độ dịch nhanh và có 
tính năng tương tác với người dùng nhằm tăng 
chất lượng dịch cho các lần sau. Đối với các bản 
tin thông thường, chất lượng dịch Anh-Việt, 
Việt-Anh của Google Translator được xem là 
tốt nhất hiện nay. 
Về dịch tự động, Hoa-Việt hay Việt-Hoa đến nay 
chưa có nhóm nào công bố chính thức ngoại trừ 
Xử lý câu hỏi chính phản 
trong dịch tự động Hoa-Việt 
Processing Yes - No Questions in the Chinese - Vietnamese 
Machine Translation 
Trần Thanh Phước, Đinh Điền 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 72 - 
Google Translator đã có thực hiện việc dịch Hoa-Việt, 
Việt-Hoa thông qua ngôn ngữ trung gian là tiếng Anh. 
Ví dụ: để dịch một văn bản từ tiếng Hoa sang tiếng 
Việt, trước tiên hệ thống sẽ dịch từ tiếng Hoa sang 
tiếng Anh, rồi sau đó sẽ dịch tiếp văn bản kết quả tiếng 
Anh đó sang tiếng Việt. Chính vì phải dịch theo kiểu 
bắc cầu như vậy đã khiến chất lượng dịch chung cuộc 
bị giảm đáng kể. 
Nhìn chung, do tiếng Hoa và tiếng Việt cùng loại 
hình đơn lập (isolated) nên giữa hai ngôn ngữ có nhiều 
điểm tương đồng về văn phạm, nhưng cũng vẫn có 
một số điểm dị biệt về trật tự từ, hư từ và ở một số cấu 
trúc đặc biệt. Một trong những cấu trúc đặc biệt này là 
“câu hỏi chính phản”. Kết quả dịch tự động cho các 
cấu trúc đặc biệt này thường bị sai lệch về ngữ nghĩa, 
về trật tự từ và tính tự nhiên của bản dịch trong ngôn 
ngữ đích. Trong nghiên cứu này, chúng tôi sẽ dịch tự 
động trực tiếp từ tiếng Hoa sang tiếng Việt theo 
phương pháp dịch máy thống kê (SMT) kết hợp với 
một số luật chuyển đổi trên các cấu trúc của câu hỏi 
chính phản. Cụ thể, trong bài báo này chúng tôi sẽ 
trình bày các nội dung như sau: 
- Tổng quan về dịch tự động Hoa - Việt 
- Cấu trúc câu hỏi chính phản trong tiếng Hoa 
- Chuyển đổi câu hỏi chính phản trong tiếng Hoa 
- Thực nghiệm, kết quả và kết luận. 
II. TỔNG QUAN VỀ DỊCH TỰ ĐỘNG HOA – 
VIỆT 
 Đến nay, chúng ta thấy có hai hướng tiếp cận 
chính trong dịch tự động, đó là dịch dựa trên luật 
(RBMT) và dịch dựa trên ngữ liệu (CBMT: Corpus-
Based Machine Translation). Theo hướng RBMT đòi 
hỏi hệ thống phải có được tập luật phân tích, chuyển 
đổi của ngôn ngữ nguồn, tập luật tạo sinh ngôn ngữ 
đích cùng với kho tài nguyên ngôn ngữ cần thiết. Để 
xây dựng được tập luật hay kho tài nguyên này đòi hỏi 
thời gian và công sức của nhiều chuyên gia ngôn ngữ 
và tin học cũng như các kết quả hình thức hóa của 
ngôn ngữ tự nhiên ở mức độ cao. Vì vậy, đối với việc 
dịch tự động Hoa-Việt hay Việt-Hoa theo hướng tiếp 
cận này trong giai đoạn hiện nay là chưa khả thi. May 
mắn là cách tiếp cận CBMT mà cụ thể ở đây là SMT 
cho phép chúng ta khắc phục được khó khăn nói trên. 
Theo cách tiếp cận SMT, chúng ta chủ yếu cần xây 
dựng kho ngữ liệu song ngữ Hoa-Việt với số lượng 
lớn và chất lượng tốt. Khác với các cặp ngôn ngữ phổ 
biến khác (như: Anh-Pháp, Anh-Hoa, ,...), một kho 
ngữ liệu song ngữ Hoa-Việt lớn và tốt như thế hiện 
chưa có sẵn, do đó, trong nghiên cứu này, chúng tôi 
cũng phải tự xây dựng kho ngữ liệu Hoa-Việt. Bên 
cạnh việc phụ thuộc vào ngữ liệu song ngữ dùng để 
huấn luyện, chất lượng dịch của SMT cũng phụ thuộc 
nhiều vào đặc điểm của cặp ngôn ngữ cần dịch. Nếu 
giữa hai ngôn ngữ càng có nhiều điểm tương đồng về 
từ vựng (về hình thái, về sự từ vựng hóa), về trật tự 
từ,... thì chất lượng dịch sẽ càng cao. Tiếng Hoa và 
tiếng Việt cùng thuộc loại hình ngôn ngữ đơn lập, nên 
giữa hai ngôn ngữ có nhiều điểm tương đồng về mặt 
hình thái của từ, sự từ vựng hóa (65% vốn từ trong 
tiếng Việt vay mượn từ tiếng Hoa). Tuy nhiên, trong 
một số cấu trúc đặc biệt, giữa hai ngôn ngữ Hoa và 
Việt có sự khác biệt, như: trật tự của giới ngữ, trạng 
ngữ chỉ thời gian, câu hỏi chính phản (yes/no 
question),... Trong các trường hợp đặc biệt này, cách 
tiếp cận SMT thường cho kết quả dịch còn rất thấp do 
kết quả dóng hàng từ (word alignment) bị sai lệch khá 
nhiều. Chính vì vậy, với những trường hợp này, chúng 
tôi đã đưa vào một số luật chuyển đổi của cách tiếp 
cận RMBT để chuyển đổi những cấu trúc đặc biệt đó 
sang dạng thông thường nhằm nâng cao chất lượng 
dóng hàng từ trong SMT và từ đó kết quả dịch chung 
cuộc của cả hệ thống đã được cải thiện đáng kể. 
II.1. Đặc điểm về ngôn ngữ trong dịch Hoa-Việt 
 Trong phần này, chúng tôi sẽ khảo sát một số đặc 
điểm trong quá trình dịch từ tiếng Hoa sang tiếng Việt: 
 Về mặt loại hình ngôn ngữ (language typology), 
tiếng Hoa và tiếng Việt cùng thuộc loại hình đơn lập, 
nên có những điểm tương đồng như: 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 73 - 
+ Trong hoạt động ngôn ngữ, từ không biến hình: 
Tiếng Việt Tôi hỏi anh ấy Anh ấy hỏi tôi 
Tiếng Hoa 我 他 他 我 
Phiên âm Pinyin wǒ wèn tā tā wèn wǒ 
Tiếng Anh I ask him He asks me 
+ Phương thức ngữ pháp chủ yếu là trật tự từ và từ hư: 
Tiếng Việt cửa trước trước cửa 
Tiếng Hoa 前  前 
Phiên âm Pinyin qián mēn mēn qián 
Tiếng Anh front door at somebody’s door 
+ Ranh giới từ không được xác định bằng khoảng 
trắng: 
Tiếng Việt Học sinh học sinh học 
Tiếng Hoa 学生学生物 
Phiên âm Pinyin xué shēng xué shēng wù 
Tiếng Anh pupils learn biology 
+ Có từ chỉ loại trước danh từ: 
Tiếng Việt Tôi mua một cuốn sách 
Tiếng Hoa 我 一本 
Phiên âm Pinyin wǒ mǎi yī běn shū 
Tiếng Anh I buy a book 
+ Dùng hư từ để thể hiện thể phủ định, nghi vấn: 
Thể loại 
Ngôn ngữ 
Khẳng 
định 
Phủ định Nghi vấn 
Tiếng Việt Anh ấy ăn 
cơm 
Anh ấy 
không ăn 
cơm 
Anh ấy ăn 
cơm không ? 
Tiếng Hoa 他吃 他不吃 他吃  ? 
Phiên âm 
pinyin 
tā chī fàn Tā bú chī 
fàn 
Tā chī fàn 
mā? 
Tiếng Anh He eats 
rice 
He doesn’t 
eat rice 
Does he eat 
rice? 
 Tuy nhiên, trong một số cấu trúc, giữa, tiếng Hoa 
và tiếng Việt có một số khác biệt như: 
+ Trật tự giới ngữ: 
Tiếng Việt Chúng tôi học tiếng Hoa tại trường 
đại học 
Tiếng Hoa 我 在大学学   
Phiên âm pinyin wō mēn zāi dà xué xué xí hàn yǔ 
Tiếng Anh We learn Chinese at the university 
+ Trạng ngữ chỉ thời gian: 
Tiếng Việt Tối mai chúng ta đi xem phim 
Tiếng Hoa 明天  上 我 去 看  影 
Phiên âm pinyin míng tiān wǎn shàng wǒ mēn qù 
kàn diàn yǐng 
Tiếng Anh We’ll go to the cinema on tomorrow 
evening 
+ Cấu trúc cố định 之前,之后,以前,以后: 
Tiếng Việt phía sau thư viện là nhà ăn 
Tiếng Hoa    之后 是 食堂 
Phiên âm pinyin tú shū guàn zhī hòu shi shí tang 
Tiếng Anh behind the library is the dining-
room 
+ Câu hỏi chính phản: 
Tiếng Việt Anh có đi không ? 
Tiếng Hoa 你去不去? 
Phiên âm pinyin nǐ qù bú qù? 
Tiếng Anh Do you go ? 
 Đây là cấu trúc chính mà chúng tôi muốn xử lý 
trong bài báo này. Chi tiết về cấu trúc này sẽ được 
trình bày trong phần III. 
II.2. Đặc điểm về dịch thống kê Hoa-Việt 
 Hệ thống dịch máy thống kê cần kho ngữ liệu gồm 
hai tập tin song ngữ Hoa - Việt như sau: 
Hư từ 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 74 - 
- Tập tin tiếng Hoa: Tách các từ chính tả tiếng 
Hoa (kể cả các dấu) với nhau bởi một khoảng 
trắng. 
- Tập tin tiếng Việt: Tách các từ chính tả tiếng 
Việt với các dấu (bao gồm các dấu , . ! ? “” : ) 
- Chia mỗi tập tin Hoa – Việt thành ba tập tin 
riêng lẻ theo tỉ lệ như sau: 90% dành cho huấn 
luyện (train), 5% dành cho điều chỉnh tham số 
(dev) và 5% dành cho thử nghiệm dịch (test). 
Lưu ý: Các câu ở mỗi tập tin Hoa – Việt phải 
tương ứng 1-1 với nhau. 
- Sử dụng công cụ Moses [5] để huấn luyện và 
dịch với các tham số mặc định. Đây là công cụ 
dịch thống kê mã nguồn mở phổ biến nhất hiện 
nay. 
Dóng hàng từ Hoa-Việt thường cho kết quả là một 
từ tiếng Hoa có nghĩa tương ứng với một từ tiếng Việt. 
Ví dụ trong kho ngữ liệu huấn luyện có các kết quả 
dóng hàng từ như sau: 
你↔ bạn; 喜 ↔ thích; 不↔ không; 看↔ xem; 
 影↔ phim; ?↔ ? 
Do đó, nếu câu tiếng Hoa không chứa các cấu trúc 
ngữ pháp đặc biệt thì khi dịch thống kê Hoa-Việt sẽ 
cho kết quả dịch với chất lượng rất tốt. Tuy nhiên, với 
các cấu trúc đặc biệt của tiếng Hoa (bao gồm các từ 
kết hợp lại) thì một số từ trong các cấu trúc đặc biệt 
này không còn giữ nguyên các ý nghĩa ban đầu của 
chúng. Trong câu hỏi chính phản, một số từ sẽ không 
được dịch sang tiếng Việt và câu tiếng Việt thường 
thêm từ để hỏi “không” ở cuối câu. Ví dụ, ta có câu 
hỏi chính phản như sau: 
你 喜 不 喜 看  影 ? 
Từ “喜 ” có nghĩa “thích” và từ “不” có nghĩa 
“không”. Kết quả dịch thống kê thường cho kết quả là 
“Bạn thích không thích xem phim?”. Trong trường 
hợp này, từ “不喜 ” (“không thích”) sẽ không được 
dịch sang tiếng Việt, nó đóng vai trò là hư từ để tạo 
nên cấu trúc câu hỏi chính phản, cuối câu hỏi chính 
phản khi dịch sang tiếng Việt phải có từ “không”. 
Dịch đúng thì câu tiếng Việt sẽ là “Bạn thích xem 
phim không?”. 
 Để có kết quả dịch đúng đối với câu hỏi chính 
phản này, điều chúng ta cần là xóa từ thừa (là các từ 
không được dịch sang tiếng Việt) của cấu trúc và thêm 
từ để hỏi ở cuối câu. Câu hỏi sau khi chuyển đổi đối 
với ví dụ này sẽ là: 你喜 看 影 ? Với sự thay 
đổi này, kết quả dịch tương ứng sẽ chính xác hơn. 
II.3. Xây dựng kho ngữ liệu 
 Để phục vụ nghiên cứu này, chúng tôi đã xây 
dựng 2 kho ngữ liệu: một kho ngữ liệu đơn ngữ gồm 
77.000 mục từ (từ điển tiếng Hoa); một kho ngữ liệu 
song ngữ Hoa – Việt gồm 10.000 cặp câu. 
 Từ điển đơn ngữ tiếng Hoa 77.000 mục từ được 
lấy từ trang web [10] gồm 64.000 mục từ và phần còn 
lại được lấy từ sách [3]. Từ điển này được sắp thứ tự 
tăng dần, làm ngữ liệu nguồn cho thuật toán 
Maximum Matching [4] để tách từ tiếng Hoa trong xử 
lý câu hỏi chính phản. 
 Kho ngữ liệu song ngữ 10.000 cặp câu được 
chúng tôi tổng hợp bằng tay từ các sách đàm thoại 
tiếng Hoa [3], [8] và các diễn đàn tiếng Hoa online, 
chủ yếu từ trang web [9]. Do ngữ liệu được nhập từ 
sách, diễn đàn và được định dạng bằng tay nên chất 
lượng của kho ngữ liệu này rất tốt. 
 Văn bản trong kho ngữ liệu chủ yếu là văn bản 
giao tiếp phổ thông, rất thường gặp trong giao tiếp 
tiếng Hoa, chiều dài của các câu tương đối ngắn, bình 
quân khoảng 10 từ trong một câu. Vì kho ngữ liệu tập 
trung phổ biến các câu giao tiếp nên số lượng câu hỏi 
xuất hiện khá nhiều. Chi tiết về kho ngữ liệu song ngữ 
được trình bày ở Bảng 1. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 75 - 
Bảng 1. Đặc điểm các câu trong kho ngữ liệu 
song ngữ 
Tiêu đề Số lượng % 
Sách [3] 4.000 40% tổng số câu 
Sách [8] 3.000 30% tổng số câu 
Trang web [9] 3.000 30% tổng số câu 
Số từ trung bình 
mỗi câu 
10 từ 
Câu hỏi 2.929 29% tổng số câu 
Câu hỏi chính 
phản 
212 2,2% tổng số câu 
7,3% tổng số câu 
hỏi 
III. CẤU TRÚC CÂU HỎI CHÍNH PHẢN 
TRONG TIẾNG HOA 
Câu hỏi chính phản: Là dạng câu hỏi sử dụng thể 
khẳng định và phủ định của động từ hoặc hình dung từ 
(tính từ) để hỏi. Thể phủ định của câu hỏi chính phản 
là: 不/没 + động từ / hình dung từ. Có các hình thức 
như sau: 
- Hình thứ 1: Liên kết thể khẳng định và phủ định 
của động từ hoặc cụm tính từ, có 2 dạng: 
+ Dạng 1: Thể khẳng định của động từ/ tính từ + 
thể phủ định của động từ / tính từ + tân ngữ 
(hình 1) 
Tân ngữ là từ đứng sau động từ và bổ nghĩa cho 
động từ, tân ngữ thường là danh từ hoặc cụm 
danh từ. Ví dụ trong câu sau thì từ “喝” là động 
từ (“uống”) và từ “啤酒” là tân ngữ (“bia”): 
Hình 1. Câu hỏi chính phản hình thức 1-dạng 1 
+ Dạng 2: Thể khẳng định của động từ/ tính từ 
+ tân ngữ + thể phủ định của động từ / tính 
từ + tân ngữ (Hình 2) 
Trong ví dụ này, từ “看” có nghĩa là “xem” (động 
từ), từ “ 影” có nghĩa “ti vi” (tân ngữ). 
Hình 2. Câu hỏi chính phản hình thức 2-dạng 2 
Hình 3. Câu hỏi chính phản hình thức 2 
- Hình thức 2: Nếu người nói đã có một sự đánh giá 
hay nhận xét về một sự việc, hiện tượng nào đó; 
muốn xác minh rõ ràng hơn nữa thì dùng “是不是” 
để nêu câu hỏi. Trong tiếng việt, “是不是” có 
nghĩa là “phải không”; nhưng nghĩa của từng từ sẽ 
là: “是” nghĩa là “là”; “不” nghĩa là “không” (Hình 
3) 
- Hình thức 3: Dùng thể khẳng định của động từ / 
tính từ + 没有 
 Trong câu hỏi, từ “没有” dịch sang tiếng việt có 
nghĩa là “chưa”. Ở thể khẳng định, “没有” có nghĩa là 
“không có” (Hình 4) 
Hình 4. Câu hỏi chính phản hình thức 3 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 76 - 
 Trong ba hình thức của câu hỏi chính phản, hình 
thức 3 đơn giản và cố định, chỉ có từ “没有?”. Do đó, 
trong bài báo này chúng tôi sẽ không xử lý hình thức 3 
vì nó đơn giản và hệ thống dịch SMT[5] sẽ tự học 
được. Chúng tôi sẽ chỉ tập trung vào 2 dạng của hình 
thức 1 và hình thức 2. 
IV. CHUYỂN ĐỔI CÂU HỎI CHÍNH PHẢN 
SANG CÂU HỎI THÔNG THƯỜNG 
 Như ở phần II.2 (Đặc điểm dịch thống kê Hoa-
Việt) chúng tôi đã trình bày về lỗi sai khi dịch câu hỏi 
chính phản trong dịch thống kê Hoa-Việt. Do đó, đối 
với câu hỏi chính phản, trước khi cho qua hệ thống 
dịch, chúng tôi tiến hành chuyển đối chúng sang câu 
hỏi thông thường. Câu hỏi thông thường là câu hỏi sau 
khi đã xóa các từ thừa và bổ sung từ thiếu của câu hỏi 
chính phản. Tương ứng với câu hỏi thông thường, dựa 
vào kết quả dóng hàng từ trong kho ngữ liệu huấn 
luyện, câu dịch đích sẽ cho kết quả chính xác hơn. 
 Ví dụ: Câu hỏi chính phản: 你喜 不喜 看 
影?Sau khi xóa từ thừa “不喜 ” và bổ sung từ để 
hỏi “ ” ở cuối câu, ta được câu hỏi thông thường 
“你喜 看 影 ?”. Kết quả dịch thống kê đối với 
ví dụ này cho kết quả chính xác như người dịch. 
Câu hỏi chính phản và kết quả dịch: 
你 喜 不 喜 看  影 ? 
Bạn thích Không thích Xem phim ? 
Sau khi chuyển đổi sang câu hỏi thông thường và kết 
quả dịch tương ứng: 
你 喜 看  影  ? 
Bạn thích Xem phim Không ? 
- Phương pháp chuyển đổi (Hình 5) 
 Phần này trình bày mô hình tổng quát quá trình 
chuyển đổi câu tiếng Hoa trước khi cho qua hệ thống 
dịch thống kê Hoa-Việt. 
Kiểm tra câu tiếng Hoa có khả năng là câu hỏi 
chính phản hay không? 
 Tìm trong câu đầu vào có chứa từ “不” hoặc “没” 
hay không. Nếu có và 2 từ này không phải nằm ở đầu 
hoặc cuối câu thì có khả năng câu này là câu hỏi chính 
phản. 
Hình 5. Chuyển đổi câu hỏi chính phản 
sang câu hỏi thông thường 
Tách từ câu hỏi chính phản bằng phương pháp 
Maximum Matching (MM)[4] 
 Có hai hướng tách từ phổ biết hiện nay, đó là tách 
từ dựa vào từ điển và tách từ dựa vào thống kê (điển 
hình là phương pháp tách từ CRF của nhóm tác giả 
PiChuan Chang, Michel Galley, Christorpher 
D.Manning của trường đại học Stanford). Trong 
nghiên cứu này, chúng tôi chỉ tách từ các câu có khả 
năng là câu hỏi chính phản (các câu hỏi có chứa từ 
“不” hoặc “没”) bằng phương pháp Maximum 
Matching. Với từ điển đơn ngữ tiếng Hoa gồm 77.000 
mục từ được định dạng bởi các chuyên gia Hoa ngữ 
của công ty Kim Từ Điển nên chất lượng của từ điển 
này rất tốt. Chất lượng của phương pháp tách từ MM 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 77 - 
phụ thuộc vào chất lượng của từ điển nên trong nghiên 
cứu này chúng tôi sử dụng phương pháp truyền thống 
này trên từ điển sẵn có để tách từ. Qua khảo sát, với số 
lượng câu hỏi chính phản là 212 câu, kết quả tách từ 
theo thuật toán MM trên từ điển 77.000 mục từ cho 
kết quả chính xác 100%. 
Phương pháp Maximum Matching: Còn gọi là 
LRMM (Left Right Maximum Matching). Ở phương 
pháp này , chúng ta sẽ duyệt một ngữ hoặc câu từ trái 
sang phải và chọn từ có nhiều âm tiết nhất có mặt 
trong từ điển và cứ thực hiện lặp lại như vậy cho đến 
hết câu. 
 Giả sử chúng ta có một chuỗi ký tự C1 , C2 , , 
Cn. Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi. 
Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau 
đó kiểm tra xem C1C2 có phải là từ hay không. Tiếp 
tục thực hiện như thế cho đến khi tìm được từ dài nhất. 
 Phương pháp này thực hiện tách từ đơn giản, 
nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy 
nhiên, khuyết điểm của phương pháp này cũng chính 
là từ điển, nghĩa là độ chính xác khi thực hiện tách từ 
phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ 
điển. 
Kiểm tra câu hỏi chính phản ở dạng nào – Chuyển 
sang câu hỏi thông thường. 
Hình thức 1 - Dạng 1: 
Quy tắc chuyển đổi cho dạng này như sau: 
- Xác định câu hỏi có chứa từ “不” hoặc “没” hay 
không 
+ Nếu có, 
 Tách từ câu hỏi này. 
 Xác định từ liền trước và từ liền sau từ 
“不/没” (trong tiếng Hoa từ đứng liền sau từ 
“不/没” phải là động từ hoặc tính từ). Nếu 
hai từ này giống nhau thì câu này là câu hỏi 
chính phản dạng 1 hình thức 1, ta tiến hành 
chuyển đổi như sau: 
 Xóa từ “不/没” và động từ/tính từ phía 
sau nó. 
 Thêm từ “ ” ở cuối câu (trước dấu ?) 
- Ví dụ câu hỏi chính phản “你喝不喝啤酒?” được 
chuyển đổi như sau: (Hình 6) 
Hình 6. Chuyển đổi câu hỏi chính phản 
hình thức 1 – dạng 1 sang câu hỏi thông thường 
Dạng 2: Mô hình chuyển đổi như sau 
Quy tắc chuyển đổi cho dạng này như sau: 
- Xác định câu hỏi có chứa từ “不” hoặc “没” hay 
không 
+ Nếu có, 
 Tách từ câu hỏi này. 
 Xác định từ liền sau từ “不/没”, tìm từ trong 
ngữ phía trước từ “不/没” . Nếu hai từ này 
giống nhau thì câu này là câu hỏi chính phản 
dạng 1 hình thức 1, ta tiến hành chuyển đổi 
như sau: 
 Xóa từ “不/没” và động từ/tính từ phía 
sau nó. 
 Thêm từ “ ” ở cuối câu (trước dấu ?) 
- Ví dụ câu hỏi chính phản “你看 影不看?” được 
chuyển đổi như sau (Hình 7) 
Các công trình nghiên cứu, phát triển

File đính kèm:

  • pdfxu_ly_cau_hoi_chinh_phan_trong_dich_tu_dong_hoa_viet.pdf
Tài liệu liên quan