Xử lý câu hỏi chính phản trong dịch tự động Hoa - Việt

Dịch máy là bài toán lâu đời và khó nhưng đã thu

hút được sự quan tâm của rất nhiều nhóm nghiên cứu

trong nước và trên thế giới do tiềm năng ứng dụng của

nó. Tuy nhiên, do bản chất nhập nhằng của ngôn ngữ

ở mọi cấp độ và mọi khía cạnh cộng với sự khác biệt

giữa các ngôn ngữ khiến bài toán chuyển ngữ lại càng

phức tạp hơn. Đặc biệt đối với ngôn ngữ có sự khác

biệt về trật tự từ như giữa tiếng Hoa và tiếng Việt.

Đối với dịch tự động có liên quan tiếng Việt, chủ

yếu là dịch tự động Anh - Việt, hiện nay đã có một số

nhóm nghiên cứu khác nhau với các cách tiếp cận

khác nhau, cụ thể là:

- Nhóm Lê Khánh Hùng đã phát triển hệ dịch

Anh-Việt từ đầu những năm 1990 và đã có bản

thương mại tên là EVTran. Nhóm này chủ yếu

sử dụng phương pháp dịch dựa trên luật

(RBMT: Rule-based Machine Translation).

- Nhóm nghiên cứu của Đinh Điền (Trường Đại

Học Khoa Học Tự Nhiên TP.HCM): khởi đầu

từ năm 1995 là theo cách tiếp cận dựa trên luật

nhưng từ năm 2005 họ đã phát triển thêm cách

tiếp cận dựa trên thống kê (SMT: Statistical

Machine Translation) và có sự kết hợp tri thức

ngôn ngữ để nâng cao chất lượng.

- Nhóm nghiên cứu của Phan Thị Tươi (Trường

ĐạiHọc Bách Khoa TP.HCM): sử dụng phương

pháp phân tích cú pháp có xác suất để dịch văn

bản Anh-Việt và Việt-Anh[6].

- Cty Lạc Việt đã phát triển công cụ dịch từ Anh

sang Việt có thêm phần dịch chuyên ngành: tin

học, toán học, y học và kế toán, kỹ thuật[7].

- Gần đây nhất là Google Translator (www.

translate. google.com): sử dụng phương pháp

dịch máy thống kê dựa trên kho ngữ liệu song

ngữ khổng lồ khai thác từ Internet. Google

Translator đã hỗ trợ hơn 50 ngôn ngữ bao

gồm cả tiếng Việt. Tốc độ dịch nhanh và có

tính năng tương tác với người dùng nhằm tăng

chất lượng dịch cho các lần sau. Đối với các bản

tin thông thường, chất lượng dịch Anh-Việt,

Việt-Anh của Google Translator được xem là

tốt nhất hiện nay.

11 trang | Chia sẻ: hoa30 | Lượt xem: 1110 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Xử lý câu hỏi chính phản trong dịch tự động Hoa - Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 71 -
Abstract: Machine translation is a tradtional and
difficult problem, therefore, improving the quality of
machine translation is a necessary issue. In this paper,
we present a method to improve the quality of
Chinese – Vietnamese machine translation. When
translating from Chinese into Vietnamese, one of the
most frequently encountered errors is the wrong
translation “yes - no question”, so, we will apply
some rules to convert “yes-no question” in the
Chinese to common question. We have experimented
this problem on the 10,000 pairs of Chinese-
Vietnamese parallel corpus and 77,000-entry Chinese
Vietnamese Dictionary and we reach the result of
47.23 BLEU score in comparison of 14.15 BLEU of
Google Translator.
I. GIỚI THIỆU
Dịch máy là bài toán lâu đời và khó nhưng đã thu
hút được sự quan tâm của rất nhiều nhóm nghiên cứu
trong nước và trên thế giới do tiềm năng ứng dụng của
nó. Tuy nhiên, do bản chất nhập nhằng của ngôn ngữ
ở mọi cấp độ và mọi khía cạnh cộng với sự khác biệt
giữa các ngôn ngữ khiến bài toán chuyển ngữ lại càng
phức tạp hơn. Đặc biệt đối với ngôn ngữ có sự khác
biệt về trật tự từ như giữa tiếng Hoa và tiếng Việt.
Đối với dịch tự động có liên quan tiếng Việt, chủ
yếu là dịch tự động Anh - Việt, hiện nay đã có một số
nhóm nghiên cứu khác nhau với các cách tiếp cận
khác nhau, cụ thể là:
- Nhóm Lê Khánh Hùng đã phát triển hệ dịch
Anh-Việt từ đầu những năm 1990 và đã có bản
thương mại tên là EVTran. Nhóm này chủ yếu
sử dụng phương pháp dịch dựa trên luật
(RBMT: Rule-based Machine Translation).
- Nhóm nghiên cứu của Đinh Điền (Trường Đại
Học Khoa Học Tự Nhiên TP.HCM): khởi đầu
từ năm 1995 là theo cách tiếp cận dựa trên luật
nhưng từ năm 2005 họ đã phát triển thêm cách
tiếp cận dựa trên thống kê (SMT: Statistical
Machine Translation) và có sự kết hợp tri thức
ngôn ngữ để nâng cao chất lượng.
- Nhóm nghiên cứu của Phan Thị Tươi (Trường
ĐạiHọc Bách Khoa TP.HCM): sử dụng phương
pháp phân tích cú pháp có xác suất để dịch văn
bản Anh-Việt và Việt-Anh[6].
- Cty Lạc Việt đã phát triển công cụ dịch từ Anh
sang Việt có thêm phần dịch chuyên ngành: tin
học, toán học, y học và kế toán, kỹ thuật[7].
- Gần đây nhất là Google Translator (www.
translate. google.com): sử dụng phương pháp
dịch máy thống kê dựa trên kho ngữ liệu song
ngữ khổng lồ khai thác từ Internet. Google
Translator đã hỗ trợ hơn 50 ngôn ngữ bao
gồm cả tiếng Việt. Tốc độ dịch nhanh và có
tính năng tương tác với người dùng nhằm tăng
chất lượng dịch cho các lần sau. Đối với các bản
tin thông thường, chất lượng dịch Anh-Việt,
Việt-Anh của Google Translator được xem là
tốt nhất hiện nay.
Về dịch tự động, Hoa-Việt hay Việt-Hoa đến nay
chưa có nhóm nào công bố chính thức ngoại trừ
Xử lý câu hỏi chính phản
trong dịch tự động Hoa-Việt
Processing Yes - No Questions in the Chinese - Vietnamese
Machine Translation
Trần Thanh Phước, Đinh Điền
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 72 -
Google Translator đã có thực hiện việc dịch Hoa-Việt,
Việt-Hoa thông qua ngôn ngữ trung gian là tiếng Anh.
Ví dụ: để dịch một văn bản từ tiếng Hoa sang tiếng
Việt, trước tiên hệ thống sẽ dịch từ tiếng Hoa sang
tiếng Anh, rồi sau đó sẽ dịch tiếp văn bản kết quả tiếng
Anh đó sang tiếng Việt. Chính vì phải dịch theo kiểu
bắc cầu như vậy đã khiến chất lượng dịch chung cuộc
bị giảm đáng kể.
Nhìn chung, do tiếng Hoa và tiếng Việt cùng loại
hình đơn lập (isolated) nên giữa hai ngôn ngữ có nhiều
điểm tương đồng về văn phạm, nhưng cũng vẫn có
một số điểm dị biệt về trật tự từ, hư từ và ở một số cấu
trúc đặc biệt. Một trong những cấu trúc đặc biệt này là
“câu hỏi chính phản”. Kết quả dịch tự động cho các
cấu trúc đặc biệt này thường bị sai lệch về ngữ nghĩa,
về trật tự từ và tính tự nhiên của bản dịch trong ngôn
ngữ đích. Trong nghiên cứu này, chúng tôi sẽ dịch tự
động trực tiếp từ tiếng Hoa sang tiếng Việt theo
phương pháp dịch máy thống kê (SMT) kết hợp với
một số luật chuyển đổi trên các cấu trúc của câu hỏi
chính phản. Cụ thể, trong bài báo này chúng tôi sẽ
trình bày các nội dung như sau:
- Tổng quan về dịch tự động Hoa - Việt
- Cấu trúc câu hỏi chính phản trong tiếng Hoa
- Chuyển đổi câu hỏi chính phản trong tiếng Hoa
- Thực nghiệm, kết quả và kết luận.
II. TỔNG QUAN VỀ DỊCH TỰ ĐỘNG HOA –
VIỆT
Đến nay, chúng ta thấy có hai hướng tiếp cận
chính trong dịch tự động, đó là dịch dựa trên luật
(RBMT) và dịch dựa trên ngữ liệu (CBMT: Corpus-
Based Machine Translation). Theo hướng RBMT đòi
hỏi hệ thống phải có được tập luật phân tích, chuyển
đổi của ngôn ngữ nguồn, tập luật tạo sinh ngôn ngữ
đích cùng với kho tài nguyên ngôn ngữ cần thiết. Để
xây dựng được tập luật hay kho tài nguyên này đòi hỏi
thời gian và công sức của nhiều chuyên gia ngôn ngữ
và tin học cũng như các kết quả hình thức hóa của
ngôn ngữ tự nhiên ở mức độ cao. Vì vậy, đối với việc
dịch tự động Hoa-Việt hay Việt-Hoa theo hướng tiếp
cận này trong giai đoạn hiện nay là chưa khả thi. May
mắn là cách tiếp cận CBMT mà cụ thể ở đây là SMT
cho phép chúng ta khắc phục được khó khăn nói trên.
Theo cách tiếp cận SMT, chúng ta chủ yếu cần xây
dựng kho ngữ liệu song ngữ Hoa-Việt với số lượng
lớn và chất lượng tốt. Khác với các cặp ngôn ngữ phổ
biến khác (như: Anh-Pháp, Anh-Hoa, ,...), một kho
ngữ liệu song ngữ Hoa-Việt lớn và tốt như thế hiện
chưa có sẵn, do đó, trong nghiên cứu này, chúng tôi
cũng phải tự xây dựng kho ngữ liệu Hoa-Việt. Bên
cạnh việc phụ thuộc vào ngữ liệu song ngữ dùng để
huấn luyện, chất lượng dịch của SMT cũng phụ thuộc
nhiều vào đặc điểm của cặp ngôn ngữ cần dịch. Nếu
giữa hai ngôn ngữ càng có nhiều điểm tương đồng về
từ vựng (về hình thái, về sự từ vựng hóa), về trật tự
từ,... thì chất lượng dịch sẽ càng cao. Tiếng Hoa và
tiếng Việt cùng thuộc loại hình ngôn ngữ đơn lập, nên
giữa hai ngôn ngữ có nhiều điểm tương đồng về mặt
hình thái của từ, sự từ vựng hóa (65% vốn từ trong
tiếng Việt vay mượn từ tiếng Hoa). Tuy nhiên, trong
một số cấu trúc đặc biệt, giữa hai ngôn ngữ Hoa và
Việt có sự khác biệt, như: trật tự của giới ngữ, trạng
ngữ chỉ thời gian, câu hỏi chính phản (yes/no
question),... Trong các trường hợp đặc biệt này, cách
tiếp cận SMT thường cho kết quả dịch còn rất thấp do
kết quả dóng hàng từ (word alignment) bị sai lệch khá
nhiều. Chính vì vậy, với những trường hợp này, chúng
tôi đã đưa vào một số luật chuyển đổi của cách tiếp
cận RMBT để chuyển đổi những cấu trúc đặc biệt đó
sang dạng thông thường nhằm nâng cao chất lượng
dóng hàng từ trong SMT và từ đó kết quả dịch chung
cuộc của cả hệ thống đã được cải thiện đáng kể.
II.1. Đặc điểm về ngôn ngữ trong dịch Hoa-Việt
Trong phần này, chúng tôi sẽ khảo sát một số đặc
điểm trong quá trình dịch từ tiếng Hoa sang tiếng Việt:
Về mặt loại hình ngôn ngữ (language typology),
tiếng Hoa và tiếng Việt cùng thuộc loại hình đơn lập,
nên có những điểm tương đồng như:
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 73 -
+ Trong hoạt động ngôn ngữ, từ không biến hình:
Tiếng Việt Tôi hỏi anh ấy Anh ấy hỏi tôi
Tiếng Hoa 我 他 他 我
Phiên âm Pinyin wǒ wèn tā tā wèn wǒ
Tiếng Anh I ask him He asks me
+ Phương thức ngữ pháp chủ yếu là trật tự từ và từ hư:
Tiếng Việt cửa trước trước cửa
Tiếng Hoa 前 前
Phiên âm Pinyin qián mēn mēn qián
Tiếng Anh front door at somebody’s door
+ Ranh giới từ không được xác định bằng khoảng
trắng:
Tiếng Việt Học sinh học sinh học
Tiếng Hoa 学生学生物
Phiên âm Pinyin xué shēng xué shēng wù
Tiếng Anh pupils learn biology
+ Có từ chỉ loại trước danh từ:
Tiếng Việt Tôi mua một cuốn sách
Tiếng Hoa 我 一本
Phiên âm Pinyin wǒ mǎi yī běn shū
Tiếng Anh I buy a book
+ Dùng hư từ để thể hiện thể phủ định, nghi vấn:
Thể loại
Ngôn ngữ
Khẳng
định
Phủ định Nghi vấn
Tiếng Việt Anh ấy ăn
cơm
Anh ấy
không ăn
cơm
Anh ấy ăn
cơm không ?
Tiếng Hoa 他吃 他不吃 他吃 ？
Phiên âm
pinyin
tā chī fàn Tā bú chī
fàn
Tā chī fàn
mā？
Tiếng Anh He eats
rice
He doesn’t
eat rice
Does he eat
rice？
Tuy nhiên, trong một số cấu trúc, giữa, tiếng Hoa
và tiếng Việt có một số khác biệt như:
+ Trật tự giới ngữ:
Tiếng Việt Chúng tôi học tiếng Hoa tại trường
đại học
Tiếng Hoa 我 在大学学
Phiên âm pinyin wō mēn zāi dà xué xué xí hàn yǔ
Tiếng Anh We learn Chinese at the university
+ Trạng ngữ chỉ thời gian:
Tiếng Việt Tối mai chúng ta đi xem phim
Tiếng Hoa 明天 上 我 去 看 影
Phiên âm pinyin míng tiān wǎn shàng wǒ mēn qù
kàn diàn yǐng
Tiếng Anh We’ll go to the cinema on tomorrow
evening
+ Cấu trúc cố định 之前，之后，以前，以后:
Tiếng Việt phía sau thư viện là nhà ăn
Tiếng Hoa 之后 是 食堂
Phiên âm pinyin tú shū guàn zhī hòu shi shí tang
Tiếng Anh behind the library is the dining-
room
+ Câu hỏi chính phản:
Tiếng Việt Anh có đi không ?
Tiếng Hoa 你去不去？
Phiên âm pinyin nǐ qù bú qù?
Tiếng Anh Do you go ?
Đây là cấu trúc chính mà chúng tôi muốn xử lý
trong bài báo này. Chi tiết về cấu trúc này sẽ được
trình bày trong phần III.
II.2. Đặc điểm về dịch thống kê Hoa-Việt
Hệ thống dịch máy thống kê cần kho ngữ liệu gồm
hai tập tin song ngữ Hoa - Việt như sau:
Hư từ
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 74 -
- Tập tin tiếng Hoa: Tách các từ chính tả tiếng
Hoa (kể cả các dấu) với nhau bởi một khoảng
trắng.
- Tập tin tiếng Việt: Tách các từ chính tả tiếng
Việt với các dấu (bao gồm các dấu , . ! ? “” : )
- Chia mỗi tập tin Hoa – Việt thành ba tập tin
riêng lẻ theo tỉ lệ như sau: 90% dành cho huấn
luyện (train), 5% dành cho điều chỉnh tham số
(dev) và 5% dành cho thử nghiệm dịch (test).
Lưu ý: Các câu ở mỗi tập tin Hoa – Việt phải
tương ứng 1-1 với nhau.
- Sử dụng công cụ Moses [5] để huấn luyện và
dịch với các tham số mặc định. Đây là công cụ
dịch thống kê mã nguồn mở phổ biến nhất hiện
nay.
Dóng hàng từ Hoa-Việt thường cho kết quả là một
từ tiếng Hoa có nghĩa tương ứng với một từ tiếng Việt.
Ví dụ trong kho ngữ liệu huấn luyện có các kết quả
dóng hàng từ như sau:
你↔ bạn; 喜 ↔ thích; 不↔ không; 看↔ xem;
影↔ phim; ？↔ ?
Do đó, nếu câu tiếng Hoa không chứa các cấu trúc
ngữ pháp đặc biệt thì khi dịch thống kê Hoa-Việt sẽ
cho kết quả dịch với chất lượng rất tốt. Tuy nhiên, với
các cấu trúc đặc biệt của tiếng Hoa (bao gồm các từ
kết hợp lại) thì một số từ trong các cấu trúc đặc biệt
này không còn giữ nguyên các ý nghĩa ban đầu của
chúng. Trong câu hỏi chính phản, một số từ sẽ không
được dịch sang tiếng Việt và câu tiếng Việt thường
thêm từ để hỏi “không” ở cuối câu. Ví dụ, ta có câu
hỏi chính phản như sau:
你 喜 不 喜 看 影 ？
Từ “喜 ” có nghĩa “thích” và từ “不” có nghĩa
“không”. Kết quả dịch thống kê thường cho kết quả là
“Bạn thích không thích xem phim?”. Trong trường
hợp này, từ “不喜 ” (“không thích”) sẽ không được
dịch sang tiếng Việt, nó đóng vai trò là hư từ để tạo
nên cấu trúc câu hỏi chính phản, cuối câu hỏi chính
phản khi dịch sang tiếng Việt phải có từ “không”.
Dịch đúng thì câu tiếng Việt sẽ là “Bạn thích xem
phim không?”.
Để có kết quả dịch đúng đối với câu hỏi chính
phản này, điều chúng ta cần là xóa từ thừa (là các từ
không được dịch sang tiếng Việt) của cấu trúc và thêm
từ để hỏi ở cuối câu. Câu hỏi sau khi chuyển đổi đối
với ví dụ này sẽ là: 你喜 看 影 ？ Với sự thay
đổi này, kết quả dịch tương ứng sẽ chính xác hơn.
II.3. Xây dựng kho ngữ liệu
Để phục vụ nghiên cứu này, chúng tôi đã xây
dựng 2 kho ngữ liệu: một kho ngữ liệu đơn ngữ gồm
77.000 mục từ (từ điển tiếng Hoa); một kho ngữ liệu
song ngữ Hoa – Việt gồm 10.000 cặp câu.
Từ điển đơn ngữ tiếng Hoa 77.000 mục từ được
lấy từ trang web [10] gồm 64.000 mục từ và phần còn
lại được lấy từ sách [3]. Từ điển này được sắp thứ tự
tăng dần, làm ngữ liệu nguồn cho thuật toán
Maximum Matching [4] để tách từ tiếng Hoa trong xử
lý câu hỏi chính phản.
Kho ngữ liệu song ngữ 10.000 cặp câu được
chúng tôi tổng hợp bằng tay từ các sách đàm thoại
tiếng Hoa [3], [8] và các diễn đàn tiếng Hoa online,
chủ yếu từ trang web [9]. Do ngữ liệu được nhập từ
sách, diễn đàn và được định dạng bằng tay nên chất
lượng của kho ngữ liệu này rất tốt.
Văn bản trong kho ngữ liệu chủ yếu là văn bản
giao tiếp phổ thông, rất thường gặp trong giao tiếp
tiếng Hoa, chiều dài của các câu tương đối ngắn, bình
quân khoảng 10 từ trong một câu. Vì kho ngữ liệu tập
trung phổ biến các câu giao tiếp nên số lượng câu hỏi
xuất hiện khá nhiều. Chi tiết về kho ngữ liệu song ngữ
được trình bày ở Bảng 1.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 75 -
Bảng 1. Đặc điểm các câu trong kho ngữ liệu
song ngữ
Tiêu đề Số lượng %
Sách [3] 4.000 40% tổng số câu
Sách [8] 3.000 30% tổng số câu
Trang web [9] 3.000 30% tổng số câu
Số từ trung bình
mỗi câu
10 từ
Câu hỏi 2.929 29% tổng số câu
Câu hỏi chính
phản
212 2,2% tổng số câu
7,3% tổng số câu
hỏi
III. CẤU TRÚC CÂU HỎI CHÍNH PHẢN
TRONG TIẾNG HOA
Câu hỏi chính phản: Là dạng câu hỏi sử dụng thể
khẳng định và phủ định của động từ hoặc hình dung từ
(tính từ) để hỏi. Thể phủ định của câu hỏi chính phản
là: 不/没 + động từ / hình dung từ. Có các hình thức
như sau:
- Hình thứ 1: Liên kết thể khẳng định và phủ định
của động từ hoặc cụm tính từ, có 2 dạng:
+ Dạng 1: Thể khẳng định của động từ/ tính từ +
thể phủ định của động từ / tính từ + tân ngữ
(hình 1)
Tân ngữ là từ đứng sau động từ và bổ nghĩa cho
động từ, tân ngữ thường là danh từ hoặc cụm
danh từ. Ví dụ trong câu sau thì từ “喝” là động
từ (“uống”) và từ “啤酒” là tân ngữ (“bia”):
Hình 1. Câu hỏi chính phản hình thức 1-dạng 1
+ Dạng 2: Thể khẳng định của động từ/ tính từ
+ tân ngữ + thể phủ định của động từ / tính
từ + tân ngữ (Hình 2)
Trong ví dụ này, từ “看” có nghĩa là “xem” (động
từ), từ “ 影” có nghĩa “ti vi” (tân ngữ).
Hình 2. Câu hỏi chính phản hình thức 2-dạng 2
Hình 3. Câu hỏi chính phản hình thức 2
- Hình thức 2: Nếu người nói đã có một sự đánh giá
hay nhận xét về một sự việc, hiện tượng nào đó;
muốn xác minh rõ ràng hơn nữa thì dùng “是不是”
để nêu câu hỏi. Trong tiếng việt, “是不是” có
nghĩa là “phải không”; nhưng nghĩa của từng từ sẽ
là: “是” nghĩa là “là”; “不” nghĩa là “không” (Hình
3)
- Hình thức 3: Dùng thể khẳng định của động từ /
tính từ + 没有
Trong câu hỏi, từ “没有” dịch sang tiếng việt có
nghĩa là “chưa”. Ở thể khẳng định, “没有” có nghĩa là
“không có” (Hình 4)
Hình 4. Câu hỏi chính phản hình thức 3
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 76 -
Trong ba hình thức của câu hỏi chính phản, hình
thức 3 đơn giản và cố định, chỉ có từ “没有?”. Do đó,
trong bài báo này chúng tôi sẽ không xử lý hình thức 3
vì nó đơn giản và hệ thống dịch SMT[5] sẽ tự học
được. Chúng tôi sẽ chỉ tập trung vào 2 dạng của hình
thức 1 và hình thức 2.
IV. CHUYỂN ĐỔI CÂU HỎI CHÍNH PHẢN
SANG CÂU HỎI THÔNG THƯỜNG
Như ở phần II.2 (Đặc điểm dịch thống kê Hoa-
Việt) chúng tôi đã trình bày về lỗi sai khi dịch câu hỏi
chính phản trong dịch thống kê Hoa-Việt. Do đó, đối
với câu hỏi chính phản, trước khi cho qua hệ thống
dịch, chúng tôi tiến hành chuyển đối chúng sang câu
hỏi thông thường. Câu hỏi thông thường là câu hỏi sau
khi đã xóa các từ thừa và bổ sung từ thiếu của câu hỏi
chính phản. Tương ứng với câu hỏi thông thường, dựa
vào kết quả dóng hàng từ trong kho ngữ liệu huấn
luyện, câu dịch đích sẽ cho kết quả chính xác hơn.
Ví dụ: Câu hỏi chính phản: 你喜 不喜 看
影？Sau khi xóa từ thừa “不喜 ” và bổ sung từ để
hỏi “ ” ở cuối câu, ta được câu hỏi thông thường
“你喜 看 影 ？”. Kết quả dịch thống kê đối với
ví dụ này cho kết quả chính xác như người dịch.
Câu hỏi chính phản và kết quả dịch:
你 喜 不 喜 看 影 ？
Bạn thích Không thích Xem phim ?
Sau khi chuyển đổi sang câu hỏi thông thường và kết
quả dịch tương ứng:
你 喜 看 影 ？
Bạn thích Xem phim Không ?
- Phương pháp chuyển đổi (Hình 5)
Phần này trình bày mô hình tổng quát quá trình
chuyển đổi câu tiếng Hoa trước khi cho qua hệ thống
dịch thống kê Hoa-Việt.
Kiểm tra câu tiếng Hoa có khả năng là câu hỏi
chính phản hay không?
Tìm trong câu đầu vào có chứa từ “不” hoặc “没”
hay không. Nếu có và 2 từ này không phải nằm ở đầu
hoặc cuối câu thì có khả năng câu này là câu hỏi chính
phản.
Hình 5. Chuyển đổi câu hỏi chính phản
sang câu hỏi thông thường
Tách từ câu hỏi chính phản bằng phương pháp
Maximum Matching (MM)[4]
Có hai hướng tách từ phổ biết hiện nay, đó là tách
từ dựa vào từ điển và tách từ dựa vào thống kê (điển
hình là phương pháp tách từ CRF của nhóm tác giả
PiChuan Chang, Michel Galley, Christorpher
D.Manning của trường đại học Stanford). Trong
nghiên cứu này, chúng tôi chỉ tách từ các câu có khả
năng là câu hỏi chính phản (các câu hỏi có chứa từ
“不” hoặc “没”) bằng phương pháp Maximum
Matching. Với từ điển đơn ngữ tiếng Hoa gồm 77.000
mục từ được định dạng bởi các chuyên gia Hoa ngữ
của công ty Kim Từ Điển nên chất lượng của từ điển
này rất tốt. Chất lượng của phương pháp tách từ MM
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 77 -
phụ thuộc vào chất lượng của từ điển nên trong nghiên
cứu này chúng tôi sử dụng phương pháp truyền thống
này trên từ điển sẵn có để tách từ. Qua khảo sát, với số
lượng câu hỏi chính phản là 212 câu, kết quả tách từ
theo thuật toán MM trên từ điển 77.000 mục từ cho
kết quả chính xác 100%.
Phương pháp Maximum Matching: Còn gọi là
LRMM (Left Right Maximum Matching). Ở phương
pháp này , chúng ta sẽ duyệt một ngữ hoặc câu từ trái
sang phải và chọn từ có nhiều âm tiết nhất có mặt
trong từ điển và cứ thực hiện lặp lại như vậy cho đến
hết câu.
Giả sử chúng ta có một chuỗi ký tự C1 , C2 , ,
Cn. Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi.
Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau
đó kiểm tra xem C1C2 có phải là từ hay không. Tiếp
tục thực hiện như thế cho đến khi tìm được từ dài nhất.
Phương pháp này thực hiện tách từ đơn giản,
nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy
nhiên, khuyết điểm của phương pháp này cũng chính
là từ điển, nghĩa là độ chính xác khi thực hiện tách từ
phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ
điển.
Kiểm tra câu hỏi chính phản ở dạng nào – Chuyển
sang câu hỏi thông thường.
Hình thức 1 - Dạng 1:
Quy tắc chuyển đổi cho dạng này như sau:
- Xác định câu hỏi có chứa từ “不” hoặc “没” hay
không
+ Nếu có,
Tách từ câu hỏi này.
Xác định từ liền trước và từ liền sau từ
“不/没” (trong tiếng Hoa từ đứng liền sau từ
“不/没” phải là động từ hoặc tính từ). Nếu
hai từ này giống nhau thì câu này là câu hỏi
chính phản dạng 1 hình thức 1, ta tiến hành
chuyển đổi như sau:
Xóa từ “不/没” và động từ/tính từ phía
sau nó.
Thêm từ “ ” ở cuối câu (trước dấu ?)
- Ví dụ câu hỏi chính phản “你喝不喝啤酒？” được
chuyển đổi như sau: (Hình 6)
Hình 6. Chuyển đổi câu hỏi chính phản
hình thức 1 – dạng 1 sang câu hỏi thông thường
Dạng 2: Mô hình chuyển đổi như sau
Quy tắc chuyển đổi cho dạng này như sau:
- Xác định câu hỏi có chứa từ “不” hoặc “没” hay
không
+ Nếu có,
Tách từ câu hỏi này.
Xác định từ liền sau từ “不/没”, tìm từ trong
ngữ phía trước từ “不/没” . Nếu hai từ này
giống nhau thì câu này là câu hỏi chính phản
dạng 1 hình thức 1, ta tiến hành chuyển đổi
như sau:
Xóa từ “不/没” và động từ/tính từ phía
sau nó.
Thêm từ “ ” ở cuối câu (trước dấu ?)
- Ví dụ câu hỏi chính phản “你看 影不看？” được
chuyển đổi như sau (Hình 7)
Các công trình nghiên cứu, phát triển

File đính kèm:

xu_ly_cau_hoi_chinh_phan_trong_dich_tu_dong_hoa_viet.pdf