Cách Google Ứng Dụng Mạng Nơ-ron Nhân Tạo Vào Dịch Thuật Tự Động

Google dịch
Hình ảnh Google dịch

Cho Đi Để Nhận Lại

Như đã đã đề cập ở bài viết trước (Machine learning – Trí Tuệ Nhân Tạo ảnh hưởng tới làm SEO thế nào) Google Dịch là một sản phẩm trí tuệ nhân tạo nổi bật của Google. Tuy đây là một sản phẩm dịch vụ đặc thù và không có liên quan nhiều tới SEO, tuy nhiên nó giúp cho chúng ta mở rộng hơn sự hiểu biết về hệ sinh thái Google và có thể hữu ích cho chúng ta trong tương lai. Do đó tôi quyết định mang đến cho các bạn thông tin từ chính Goolge Research Blog về những cải tiến gần đây trong dịch vụ Google Dịch. Thật vui là những chia sẻ này được đóng góp bởi một người Việt Nam là Lê Viết Quốc, anh là kĩ sư gốc Việt hiện đang làm việc tại nhóm nghiên cứu Google Brain. Sau đây là chia sẻ của anh ấy:


“10 năm trước, chúng tôi công bố sự ra đời của Goolge Dịch, một công cụ dịch thuật tự động dựa theo từng pharse (dịch từng chuỗi từ). Từ đó đến nay, những tiến bộ không ngừng của trí tuệ nhân tạo đã mang đến những cải tiến trong công nghệ nhận dạng giọng nói và nhận dạng hình ảnh, vậy nhưng việc cải thiện khả năng dịch tự động thì vẫn còn là một mục tiêu đầy thách thức.

Ngày hôm nay, chúng tôi công bố hệ thống Google Neutral Machine Translation (GNMT) Dịch thuật tự động thông qua mạng Nơ – ron , một hệ thống chứa đựng những gì tinh hoa nhất của trí tuệ nhân tạo để mang lại một chất lượng dịch thuật tương xứng với thời đại. Kết quả nghiên cứu đầy đủ của chúng tôi có thể được mô tả đầy đủ hơn ở tài liệu sau.

Một vài nằm trước chúng tôi đã bắt đầu ứng dụng mạng Nơ –ron định kì (Recurrents Neutral Network – RNNs) để tìm hiểu trực tiếp về mối liên hệ giữa đoạn câu được gõ vào và câu dịch tương tương ứng. Trong khi giải thuật cũ dựa theo từng pharse sẽ chia câu được đưa vào thành từng từ và cụm từ để dịch theo một cách riêng rẽ, thì mạng nơ-ron NMT sẽ xem xét cả câu nhập vào là một khối thống nhất để dịch. Ưu điểm của cách tiếp cận này là nó ít cần sự can thiệp kĩ thuật của người thiết kế hơn so với hệ thống dịch thuật từng pharse như trước đây. Khi được ra mắt lần đầu, NMT đã cho thấy nó có độ chính xác tương đương với hệ thống Pharse-Based hiện tại khi kiểm tra trên bộ dự liệu chuẩn.

Từ đó, các nhà nghiên cứu đã đưa ra nhiều sáng kiến nhằm cải tiến NMT, bao gồm việc giúp nó xử lý các từ hiếm gặp bằng cách sao chép một mẫu có sẵn từ bên ngoài, việc sắp xếp các từ đưa vào và kết quả đưa ra một cách có chủ ý và chia các từ ra làm các đơn vị nhỏ hơn để giải quyết với các từ hiếm gặp. Mặc dù vậy, hệ NMT vẫn chưa thể nhanh và chính xác đủ để hoạt động với bộ dữ liệu cực kì lớn nếu đưa ra thành sản phẩm chính thức như Goolge Translate. Các tài liệu dưới đây sẽ mô tả cách chúng tôi vượt qua rất nhiều thách thức để khiến NMT hoạt động với bộ dữ liệu lớn và việc xây dựng một hệ thống đủ nhanh và chính xác để mang lại hiệu quả dịch thuật cho người dùng Google.

chat-luong-dich-thuat-google

Chất lượng dịch thuật của Google được cải thiện

Hình minh họa dưới đây cho thấy sự tiến bộ của GNMT trong việc dịch một câu tiếng Hoa sang tiếng Anh. Đầu tiên, mạng nơ-ron sẽ mã hóa từ tiếng Hoa đó sang dạng danh sách vectors, trong đó mỗi vector đại điện cho ý nghĩa có thể của từ đó. Khi cả câu đã được nhận diện, việc giải mã bắt đầu, đưa ra một từ tiếng Anh tương ứng. Để đưa ra được từ tiếng Anh này, bộ giải mã phải chú ý tới trọng số của các vector tiếng Hoa đã được mã hóa để tìm ra được từ có liên quan nhất

Giải thuật Google dịch

Minh họa cho giải thuật Google dịch mới

Đặt các kết quả dịch thuật cạnh với dịch thuật của con người, các bạn có thể thấy hệ thống GNMT cho ra kết quả được cải tiến nhiều so với sản phẩm của hệ dịch thuật theo từng cụm như trước đây. GNMT giảm thiểu số lỗi dịch thuật nhiều hơn tới 55-85% trong những cặp ngôn ngữ thông dụng hiện nay trên cơ sở dữ liệu các câu mẫu lấy từ Wikipedia và các website tin tức tin cậy theo như kết quả đánh giá của các chuyên gia ngôn ngữ.

Kết quả dịch thuật tiếng Trung của Google

Kết quả dịch cả đoạn văn

Thêm vào đó, việc đưa ra nghiên cứu đánh giá này, chúng tôi còn công bố việc đưa GNMT vào thành dịch vụ chính thức đối với việc dịch thuật các ngôn ngữ thông dụng sau: Tiếng Trung sang tiếng Anh. Google Dịch bản di động và web đều đã sử dụng GNMT cho 100% các công việc dịch thuật tự động từ tiếng Trung sang tiếng Anh – khoảng 18 triệu lần dịch mỗi ngày. Việc đưa GNMT vào thành sản phẩm được là nhờ việc sử dụng công khai một bộ công cụ học máy là Tensor Flow và Tensor Processing Units (TPUs), cung cấp một khả năng tính toán đủ để phục vụ việc giải mã những mẫu GNMT phức tạp mà không làm tăng độ trễ của Google Dịch, và chúng tôi sẽ tiếp tục nghiên cứu đê đưa GNMT tới nhiều ngôn nữa hơn trong những tháng tới.

Tuy vậy, việc dịch tự động vẫn chưa được giải quyết triệt để. GNMT vẫn có thể có những lỗi nghiêm trọng mà người dịch thuật sẽ không bao giờ mắc phải, ví dụ như một từ lạc lõng hoặc dịch sai tên riêng hoặc thuật ngữ hiếm, hoặc dịch câu không ăn nhập với ngữ cảnh đoạn văn hoặc trang. Vẫn còn nhiều công việc phải làm để phục vụ người dùng tốt hơn. Tuy nhiên, GNMT đánh dấu một cột mốc quan trọng. Chúng tôi muốn ăn mừng vì điều này với nhiều nhà nghiên cứu và kĩ sư cả trong nội bộ Google cũng như cộng đồng rộng lớn đã đóng góp vào cho chúng tôi trong những năm vừa qua.”

Cho Đi Để Nhận Lại

mm

Linh Vũ

Chuyên viên Marketing online. Đam mê về thiết kế đồ họa.

You may also like...

Leave a Reply

Your email address will not be published. Required fields are marked *

shares