Báo cáo kỹ thuật - Xây dựng kho ngư liệu song ngữ Anh

Mục lục

I. Giới thiệu. 4

I.1 Mục tiêu của đề tài nhánh . 4

I.2 Một số định nghĩa căn bản. 5

II. Nghiên cứu lien quan trên thế giới và trong nước . 6

II.1 Nghiên cứu các kho ngữ liệu song ngữ trên thế giới . 6

II.1.1 Một số kho ngữ liệu song ngữ tiêu biểu trên thế giới . 6

II.1.2 Nội dung của các kho ngữ liệu . 9

II.1.3 Cấu trúc của các kho ngữ liệu. 10

II.1.4 Phương pháp xây dựng kho ngữ liệu song ngữ. 11

II.2 Các nghiên cứu trong nước liên quan . 13

III. Xây dựng kho ngữ liệu song ngữ Anh- Việt. 14

III.1 Tiêu chí chọn mẫu cho kho ngữ liệu Anh – Việt. 14

III.2 Chọn nguồn dữ liệu thô . 15

III.3 Chuẩn hóa. 19

46 trang | Chia sẻ: maianh78 | Lượt xem: 1981 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Báo cáo kỹ thuật - Xây dựng kho ngư liệu song ngữ Anh – Việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ùng có thể chỉnh lại mối
liên kết bằng cách kéo thả (xem phần hướng dẫn sử dụng để biết chi tiết).
Các chức năng dự kiến làm thêm:
Cho người dùng thay đổi nội dung văn bản (tài liêu/câu song ngữ) chứ không
chỉ thay đối mối liên kết giữa chúng.
Cho người dùng xóa bỏ các cặp không tìm thấy câu dịch của nó ra khỏi file XML.
IV.2 Công cụ hiệu đính và khai thác
A. Chức năng
a. View : cho phép hiển thị các cặp câu song song
1. Hiển thị toàn bộ
2. Hiển thị theo thể loại : xă hội, tin học
3. Hiển thị từ câu nào đến câu nào
b. Edit : cho phép sửa đổi nội dung corpus
1. Cho phép thay đổi lien kết cặp câu
2. Cho phép sửa cả hai câu trong cặp câu
3. Cho phép xóa các cặp câu không tốt
c. Add : cho phép thêm các cặp câu mới
1. Thêm tù file
2. Nhập trực tiếp từ bàn phím
d. Print
1. In toàn bộ
2. In theo chủ đề
3. In từ cặp câu nào đến cặp câu nào
e. Export
1. Cho phép xuất ra file .txt
2. Cho phép xuất ra file xml
B. Giao diện :
i. Thân thiện người dùng
V.Các kết quả đạt được và công việc sắp tới
V.1 Các kết quả đạt được cho đến nay 4/2008 như sau:
1. Kho ngữ liệu song ngữ thô gồm 120.000 cặp câu
2. Kho ngữ liệu song ngữ đã qua hiệu chỉnh thủ công : 20.000 cặp câu
3. Công cụ Khai thác dữ liệu song ngữ từ Internet
V.2 Các công việc đang tiến hành
1. Thu thập thêm dữ liệu
2. Tiếp tục hiệu đính dữ liệu thô
3. Thiết kế xây dựng công cụ khai thác kho ngữ liệu
Phụ lục A. Hướng dẫn sử dụng chương trình EVT‐Miner
I. Chức năng tìm địa chỉ web có cung cấp tài liệu song ngữ
Chương trình cung cấp 3 tùy chọn:
1 - Tìm tử trang web chỉ định
Sử dụng tùy chọn này trong trường hợp chúng ta biết chắc 1 địa chỉ web có
cung cấp các tài liệu song ngữ mong muốn. Ví dụ như trang
2 - Tìm các địa chỉ web có dấu hiệu song ngữ.
Sử dụng tùy chọn này trong trường hợp không biết địa chỉ web nào cung cấp tài
liệu song ngữ mong muốn. Khi đó, chương trình sẽ dùng Google để tìm trên
Internet các địa chỉ web có dấu hiệu chứa tài liệu song ngữ (lưu lại các địa chỉ
này vào một file do người dùng chọn).
3 - Tìm trên các địa chỉ web được định nghĩa trước trong một tập tin host.xml
Tập tin host.xml có được nhờ sử dụng tùy chọn 2. Sau khi đã có được một danh
sách địa chỉ như vậy, thì sử dụng tùy chọn 3 này. Khi đó, chương trình sẽ tự
động download các trang web từ địa chỉ này xuống để phục vụ mục đích mining
các trang song ngữ.
Dưới đây là giao diện chương trình và các diễn giải các thành phần giao diện.
II. Tiền xử lý và phân trang
Nhập vào tuần tự thư mục chứa file HTML tiếng Anh và HTML tiếng Việt. Chương
trình sẽ từ động tiền xử lý các file HTML để được các file TEXT được chuẩn hóa.
Sau đó tiến hành phân cluster. File cluster chứa đường dẫn đến tất cả các file
text, trong đó các file text có chung ngày tạo sẽ được xếp vào một cluster. Cách
sắp xếp này phục vụ cho phần mining phía sau – với một file tiếng Anh, chương
trình chỉ cần xét các file tiếng Việt trong cluster ứng với ngày gần nó.
• English HTML Documents: Đường dẫn đến thư mục chứa các file
HTML tiếng Anh.
• Vietnamese HTML Documents: Đường dẫn đến thư mục chứa các
file HTML tiếng Việt.
• English Text Documents: Đường dẫn đến thư mục chứa các file
TEXT tiếng Anh.
• Vietnamese Text Documents: Đường dẫn đến thư mục chứa các file
TEXT tiếng Việt.
• English Cluster: file cluster cho tài liệu tiếng Anh.
• Vietnamese Cluster: file cluster cho tài liệu tiếng Việt.
Ghi chú: Nếu đã có thư mục TEXT có các file text đã chuẩn hóa sẵn, check vào
“Input(s) are Text File, create cluster only” để hệ thống không phải tiến hành
chuẩn hóa nữa, mà chỉ tạo clusters để làm input cho việc mining phía sau.
III. Chức năng Canh hàng văn bản (đến mức câu)
Nhập tuần tự input như mô tả bên dưới, hệ thống sẽ tiến hành canh hàng từ mức
tài liệu đến mức câu để tạo ra kho ngữ liệu song ngữ sau cùng lưu dưới dạng
XML như mô tả ở phần trước.
• SQL Server/Username/Password/ Catalog: Tài khoản đăng nhập SQL
Server để truy xuất đến database từ điển Anh-Việt.
• EnLocation/EnCluster: thư mục chứa các file TEXT đã chuẩn hóa tiếng
Anh và file cluster tương ứng.
• VnLocation/VnCluster: thư mục chứa các file TEXT đã chuẩn hóa tiếng
Việt và file cluster tương ứng.
• OuputDir: English/Vietnamese: log lại quá trình align của hệ thống.
• Lower Ratio/Upper Ratio: chặn dưới và chặn trên cho tỉ lệ độ dài của 2
văn bản song ngữ.
• Min Token Pair: giá trị ngưỡng θp.
• Threshold: giá trị ngưỡng θd.
• Thread: số luồng chạy.
• Pair file: file output ngữ liệu song ngữ. Trong đó ghi rõ câu nào là dịch
của câu nào.
IV. Chức năng xem và hiệu chỉnh kho ngữ liệu: Alignment Editor
Nhấn nút “Show Editor” trong hình trước, sẽ mở chương trình Alignment Editor
cho phép xem và hiệu chỉnh kho ngữ liệu. Mặc định, chương trình sẽ load tất cả
file ngữ liệu hệ thống tìm thấy (trong thư mục “output/” nơi chứa các file này)
lên cho quá trình xem/hiệu chỉnh.
Cửa sổ bên trái hiển thị danh sách các file xml ngữ liệu có trong thư mục
“output” chọn trước. Mỗi file (mỗi dòng trong cửa sổ này) ứng với một cặp văn
bản. Khi chọn một dòng này, các đoạn (paragraphs) của cặp văn bản này và liên
kết giữa chúng sẽ được hiển thị ở cửa số bên phải.
Khi bung mỗi dòng ở cửa sổ bên trái sẽ được các nút con. Mỗi nút con này ứng
với một cặp paragraph của cặp văn bản này. Ví dụ: 6-7 là paragraph 6 của văn
bản tiếng Anh sẽ khớp với paragraph 7 của văn bản tiếng Việt. Khi chọn các nút
con này (tức là chọn một cặp paragraph), cửa số bên phải sẽ thể hiện các câu
của 2 paragraph này và mối liên hê giữa chúng.
Khi đó (chọn nút con - mức đoạn), cửa sổ bên phải hiển thị các cặp câu được
canh hàng với nhau. Đường nối 2 “Sentence” cho biết 2 câu được nối được xem
là dịch của nhau (nếu chọn mức tài liệu ở cửa sổ bên trái, cửa số bên phải sẽ là
canh hàng giữa các đoạn).
Nếu phát hiện một phép canh hàng nào sai, người dùng có thể chọn mối nối đó
và nhấn nút “Delete” để xóa nó: khi đó 2 câu (hoặc đoạn) tương ứng sẽ được xem
như không phải là dịch của nhau nữa.
Nếu muốn thêm một phép canh hàng – ví dụ hệ thống cho rằng câu 2 (Anh)
không liên quan với câu 3 (Việt), nhưng người dùng nhận ra 2 câu này thật ra là
dịch của nhau, người dùng có thể nhấn và giữ chuột vào ô câu tiếng Anh, kéo rê
sang ô câu tiếng Việt rồi thả ra. Khi đó một đường thằng nối 2 câu 2-3 cho biết 2
câu này bây giờ được xem là dịch của nhau.
Tài liệu tham khảo
[1] Johann Gamper, Encoding a Parallel Corpus for Automatic Terminology
extraction, Proceedings of EACL '99
[2] Nancy Ide, Greg Priest-Domain and Jean Veronic (1996), Corpus Encoding
Standard,
[3] CHANG Baobao, Chinese-English Parallel Corpus Construction and its
Application, PACLIC 18, December 8th-10th, 2004, Waseda University, Tokyo
[4] M. Gavrilidou, P. Labropoulou, E. Desipri, V. Giouli, V. Antonopoulos, S.
Piperidis, Building parallel corpora for eContent professionals, MLR2004:
PostCOLING Workshop on Multilingual Linguistic Resources, 28 August 2004,
Geneva, Switzerland
[5] William A.Gale, Kenneth W.Church (1991), A program for aligning
sentences in bilingual corpora. In Proceedings of the 29th Annual Meeting of
the Association for Computational Linguistics.
[6] P. Resnik, Noah A. Smithy (2003), The web as parallel corpus.
[7] J.Y. Nie, J. Chen (2002), Exploiting the Web as Parallel Corpora for
Cross Languague Information Retrieval, WI02.
[8] C.C. Yang, K.W. Li (2002), Mining English/Chinese Parallel
Documents from the World Wide Web. Proceedings of the International
World Wide Web Conference, Honolulu, Hawaii, May 7-11, 2002
[9] J. Chen, R. Chau, C.H. Yeh (2004), Discovering Parallel Text from the World Wide
Web. In Proc. Australasian Workshop on Data Mining and Web Intelligence
(DMWI2004), Dunedin, New Zealand. CRPIT, 32. Purvis, M., Ed. ACS. 157-161
[10] Phillip Koehn, Europarl: A Parallel Corpus for Statistical Machine
Translation
[11] P. F. Brown, S.A.D. Pietra, V. D. J. Pietra, and R. L. Mercer, “The
mathematics of machine translation: Parameter estimation”, Computational
Linguistics, 19: 263-312, 1992.
[12] J.-Y. Nie, M. Simard, P. Isabelle, and R. Durand. “Cross-language
information retrieval based on parallel texts and automatic mining of parallel
texts from the Web,” Proceedings of the 22nd Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, pages 74--
81, 1999.
[13] Mark W. Davis and William C. Ogden. “Quilt: Implementing a large-scale
cross-language text retrieval system”, The 20th International Conference on
Research and Development in Information Retrieval, 1997.
[14] Van B. Dang, Bao-Quoc Ho, “Automatic Construction of English-
Vietnamese Parallel Corpus through Web Mining”, Proceedings of RIVF 2007,
Vietnam.
[15] Phạm Đào Minh Vũ, “Khai thác tự động dữ liệu từ Internet để xây dựng kho
ngữ liệu song ngữ Anh – Việt”,Luận văn cao học, Đại học Khoa học Tự Nhiên TP.
Hồ Chí Minh, 2007.
[16] J. Chen, J.Y. Nie. “Automatic construction of parallel English-Chinese
corpus for cross-language information retrieval,” Proc. ANLP, pp. 21-28, Seattle,
2000.
[17] Resnik Philip. “Parallel strands: A preliminary investigation into mining the
Web for bilingual text,” in Proceedings of the Third Conference of the Association
for Machine Translation in the Americas, AMTA-98, in Lecture Notes in Artificial
Intelligence, 1529, Langhorne, PA, October 28-31.
[18] P. Resnik and N. A. Smith. “The Web as a Parallel Corpus,” Computational
Linguistics, 2003, 29(3):349–380.
[19] Ma Xiaoyi, Mark Liberman. “BITS: A method for bilingual text search over
the web,” Machine Translation Summit VII, September, 1999.
[20] C.J. van Rijsbergen, S.E. Robertson and M.F. Porter. “New models in
probabilistic information retrieval,” London: British Library, 1980. (British
Library Research and Development Report, no. 5587).

File đính kèm:

sp74_baocaokythuat2008thang09_1477_2079844.pdf