Xây dựng mạng tiếng Việt kết nối ngôn ngữ 70 nước

0

SSDH – Mạng tiếng Việt trực tuyến gồm 50.000 từ vựng sẽ là kho dư liệu giúp các nhà khoa học biên soạn các từ điển song ngữ, đa ngữ dễ dàng hơn.

 

Đơn vị thực hiện đề tài của Bộ Khoa học Công nghệ vừa cho biết, cuối năm nay, mạng từ tiếng Việt lớn nhất cả nước sẽ hoàn thành và đưa vào sử dụng trên trang wordnet.vn. Đây là nguồn cơ sở dữ liệu do một nhóm các nhà khoa học thuộc lĩnh vực Công nghệ thông tin, Ngôn ngữ học nghiên cứu xây dựng theo mô hình Mạng từ tiếng Anh (WordNet).

 

Mạng từ tiếng Việt dự định gồm 30.000 loạt đồng nghĩa, 50.000 đơn vị từ vựng, trong đó có 30.000 đơn vị từ thông dụng. Khi đó người dùng có thể sử dụng nó như một cuốn từ điển tiếng Việt để tra cứu.

 

Mạng từ tiếng Việt hoàn thành sẽ là một nguồn cơ sở dữ liệu trực tuyến cho các nhà Ngôn ngữ, Tâm lí, Giáo dục, Công nghệ thông tin… phát triển các nghiên cứu liên quan trong lĩnh vực của mình. Hệ thống này có thể kết nối với các mạng từ khác trên thế giới để hình thành một từ điển song ngữ hay đa ngữ.

 wordnet.jpg

Trang Mạng từ Tiếng Việt đang được xây dựng để ra đời cuối năm nay.

 

Theo Hiệp hội mạng từ toàn cầu, trên thế giới hiện có hơn 70 mạng từ đơn ngữ và đa ngữ như: Mạng từ tiếng Nga, Mạng từ tiếng Trung, Mạng từ tiếng Hindi, Mạng từ các ngôn ngữ châu Âu, Mạng từ châu Á… Khi kết nối sẽ thành các từ điển song ngữ như Việt – Nga, Việt – Thái, Việt – Ấn…

 

Mạng từ tiếng Việt là một trong những sản phẩm chính của đề tài “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” mã số “KC.01.20/11-15” thuộc chương trình KC.01/11-15 của Bộ Khoa học và Công nghệ.

 

Năm 1985, tại trường Đại học Princeton, một nhóm các nhà Khoa học thuộc các ngành khác nhau như Ngôn ngữ học, Tâm lí học, khoa học máy tính… đứng đầu là Giáo sư George Armitage Miller đã xây dựng một cơ sở dữ liệu tiếng Anh trên  hệ thống từ vựng được hình thành trong não bộ con người. Cơ sở dữ liệu này được gọi là Mạng từ (WordNet) hoặc Mạng từ tiếng Anh hay Mạng từ Princeton để phân biệt với các mạng từ khác.

 

Mạng từ bao gồm các loạt đồng nghĩa được nối kết với nhau thành mạng lưới. Mỗi loạt đồng nghĩa có thể gồm một hay nhiều từ, biểu thị nghĩa của một khái niệm riêng biệt và được gắn kết với nhau bằng các quan hệ ngữ nghĩa như quan hệ bao thuộc, quan hệ tổng phân, quan hệ đồng nghĩa, quan hệ trái nghĩa, quan hệ suy ra, quan hệ thuộc tính.

 

Mạng từ giúp cho máy tính cũng như các thiết bị trí tuệ nhân tạo khác dễ dàng phát triển khả năng tương tác của mình. Nhờ Mạng từ, máy móc ngày càng có những khả năng thực hiện được những công việc mà trước đây người ta nghĩ rằng chỉ có con người mới có thể làm được.

 

Nguồn: Vnexpress

Share.

Leave A Reply