Mã số N1003: Giải pháp chuyển đổi giọng nói thành văn bản Memobot

  - Chia sẻ:    

Thực trạng xả băng ghi âm truyền thống là việc nghe và đánh máy, ghi chép thủ công lại tập tin ghi âm. Công việc ngồi nghe băng ghi âm hàng giờ và viết lại thành văn bản phức tạp được cho là khá tốn thời gian và công sức do phải nghe và đánh máy lại nội dung, kéo theo các tiến độ công việc khác có thể bị chậm trễ. Vậy làm sao để có thể giải quyết vấn đề này? Memobot giải pháp đổi giọng nói thành văn bản, hỗ trợ việc xả băng ghi âm để đáp ứng nhu cầu xả băng ghi âm một cách nhanh chóng. 

Trợ lý AI “Made in Vietnam" 

 

Memobot là một giải pháp trí tuệ nhân tạo (AI) đột phá trong lĩnh vực chuyển đổi giọng nói thành văn bản. Được phát triển bởi Công ty TNHH Hệ thống Trí thông minh Nhân tạo Việt Nam (VAIS), là đơn vị nghiên cứu và phát triển công nghệ lõi chuyển giọng nói thành văn bản (speech-to-text) sử dụng công nghệ trí thông minh nhân tạo. Thành lập năm 2018, sau khi xem xét công nghệ nhận dạng giọng nói tiếng Việt hiện có trên thị trường, VAIS đã nhận thấy những sản phẩm lúc đó còn có nhiều hạn chế và chưa xử lý hiệu quả các vấn đề khi ứng dụng vào thực tế còn các hệ thống tùy chỉnh lại làm mất khá nhiều thời gian để triển khai và yêu cầu nhiều dịch vụ để duy trì và cải thiện. Từ đó, VAIS đã phát triển công nghệ lõi khác biệt, kết nối với các trường đại học cùng các nhà nghiên cứu hàng đầu trong hệ sinh thái. 

 

Memobot đã giúp tối ưu hóa quy trình ghi chép và xử lý thông tin bằng cách tự động chuyển đổi nội dung từ giọng nói thành văn bản nhanh chóng và hiệu quả. Với nguồn dữ liệu gần 7000 từ vựng tiếng Việt, Memobot là phương án hiệu quả giúp cá nhân và doanh nghiệp tiết kiệm thời gian, công sức, tối ưu năng suất, thúc đẩy tiến độ công việc, giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu. Ứng dụng có khả năng tối ưu nhận dạng vùng miền với khả năng hoạt động hiệu quả trong môi trường nhiễu, khoảng cách xa và hiển thị thời gian thực, đạt độ chính xác lên tới 95%. Một giờ ghi âm có thể xử lý thành văn bản trong 6 phút. 

Memobot - Chuyển đổi giọng nói Tiếng Việt thành văn bản

 

Không chỉ có khả năng nhận diện giọng nói của người nói, Memobot còn có thể tự động nhận biết và ngắt đoạn từng lời nói của nhiều người và kết nối với ChatGPT để tóm tắt nội dung cuộc họp, như một người trợ lý thực thụ. Bên cạnh đó, Memobot còn viết phần mềm riêng biệt theo đặt hàng của khách và đã nhận được nhiều đơn hàng từ các tổ chức và doanh nghiệp. 

 

Memobot đã được đưa lên kho ứng dụng Apple store và Play store để phục vụ người dùng cá nhân. Hiện có khoảng 5.000 người dùng sử dụng ứng dụng này và số lượng tài khoản đăng ký mới đạt mức tăng trưởng 2%-3% mỗi tháng. Các người dùng chủ yếu là nhà báo, luật sư và những người sáng tạo nội dung số.

 

Memobot có thể tự động nhận biết và ngắt đoạn lời nói của nhiều người.

Những ưu điểm vượt trội từ Memobot 

 

Ngoài chức năng chuyển đổi giọng nói thành văn bản trong thời gian thực, Memobot còn cung cấp nhiều tính năng khác chạy song song trên cả điện thoại (Android, iOS) và máy tính, cụ thể như:

  • Trực tiếp tham gia, ghi âm cuộc họp offline hay online (Meet, Zoom, Teams) và tóm tắt nội dung như một trợ lý. 
  • Phân chia dữ liệu theo năm tháng và chủ đề.
  • Tự động nhận biết và ngắt đoạn từng lời nói của nhiều người khác nhau. 
  • Hỗ trợ chuyển đổi các tệp âm thanh có định dạng khác nhau.
  • Đồng bộ dữ liệu giữa điện thoại và website (memobot.io). 
  • Hỗ trợ 5 ngôn ngữ: Anh, Việt, Nhật, Hàn, Trung Quốc. Riêng tiếng Việt – Hỗ trợ 3 vùng miền: Bắc – Trung – Nam (Google và Microsoft chưa làm được). 
  • Có thể tham gia họp online, ghi âm giọng nói và chuyển thành văn bản. 
  • Dịch được nhiều loại file thông dụng: MP3, MP4, M4A, Wave… (Audio + Video) (Youtube).
  • Hỗ trợ API kết nối với các hệ thống máy chủ tập đoàn, tổng đài ngân hàng bảo hiểm du lịch để giải quyết bài toán thu thập dữ liệu đầu vào thông qua “giọng nói” trao đổi trên điện thoại.

Những ưu điểm vượt trội từ Memobot

Quy trình - giải pháp công nghệ chuyển đổi giọng nói thành văn bản 

Bước 1: Chuyển đổi file thành văn bản 

 

Để chuyển file ghi âm thành văn bản, trên smartphone có nút ghi âm được thể hiện bằng biểu tượng mic màu cam ở cuối màn hình tay phải, gồm ba lựa chọn là ghi âm trực tiếp và ghi âm thông qua cuộc họp online trên các nền tảng Zoom, Meet và Teams hoặc đăng tải file ghi âm có sẵn lên website memobot.io.

  • Trường hợp ghi âm trực tiếp: Chọn Ghi âm và tiến hành thu âm trực tiếp.
  • Trường hợp ghi âm qua Zoom, Meet, Teams: Chọn Tham gia cuộc họp và tiến hành dán đường dẫn cuộc họp. Khi được người tổ chức chấp nhận, phê duyệt tham gia cuộc họp, Memobot sẽ tự động ghi âm nội dung cuộc họp đang diễn ra. Kết thúc ghi âm bằng cách ấn vào biểu tượng Dừng lại.
  • Trường hợp sử dụng file ghi âm có sẵn: Chọn Thêm file âm thanh, đăng tải file âm thanh có sẵn.

 

Sau đó, Memobot sẽ xử lý toàn bộ các công đoạn trên trong thời gian thực.

Bước 2: Chỉnh sửa nội dung văn bản và đánh dấu nội dung

 

Người dùng có thể chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, chỉ cần gõ lại từ mà Memobot nhận diện sai, không cần gõ lại toàn bộ nội dung. Ngoài ra người dùng có thể sửa trực tiếp vào văn bản nếu thấy phần dịch của Memobot chưa được chính xác hay muốn bổ sung nội dung mới khi phần thu âm trước đó chưa đề cập đến nội dung đó.

 

Để đánh dấu phần ghi âm, người dùng tô đen phần chữ trong văn bản, Memobot sẽ đồng bộ phần tô đen giống với phần ghi âm, khi đó chỉ cần nhấp vào phần chữ tô đen thì phần thu âm giọng nói sẽ tự động phát đến đoạn tương ứng với với dòng chữ đó.

Bước 3: Xuất và chia sẻ văn bản chuyển đổi

 

Sau khi kết thúc quá trình chuyển đổi file ghi âm, Memobot hỗ trợ tải bản ghi qua nhiều định dạng khác nhau từ tệp word (doc), tệp âm thanh (mp3), tệp văn bản (txt), tệp phụ đề (srt),… và chia sẻ trực tiếp bản ghi thông qua những ứng dụng khác nhau như Instagram, Facebook, Zalo, Gmail, Drive, Twitter,..

Thành tựu nổi bật 

 

Công ty TNHH Hệ thống Trí thông minh Nhân tạo Việt Nam (VAIS) tự hào là một trong những đơn vị đi đầu trong nghiên cứu và phát triển các giải pháp xử lý ngôn ngữ tự nhiên, đặc biệt là xử lý và nhận dạng tiếng nói tiếng Việt. Với đội ngũ kỹ sư dày dặn kinh nghiệm và đam mê sáng tạo, Memobot đã gặt hái nhiều giải thưởng trong quá trình phát triển:

Những thành tựu nổi bật mà VAIS đã đạt được

 

Với những thành tựu nổi bật này, Memobot khẳng định vị thế là giải pháp đổi giọng nói thành văn bản hàng đầu tại Việt Nam. Memobot cam kết mang đến cho người dùng những sản phẩm và dịch vụ chất lượng cao, góp phần nâng cao hiệu quả công việc và tiết kiệm thời gian cho người dùng.

Thông tin website: https://memobot.io/ 

Thông tin

  • Tác giả: Công ty TNHH Hệ thống Trí thông minh Nhân tạo Việt Nam (VAIS)