Nguy cơ từ AI: Tạo ra khuôn mặt chính xác chỉ bằng giọng nói

Phan Anh
•
Chủ Nhật, 10/04/2022

Điện thoại thông minh chỉ có thể biến giọng nói thành văn bản, tuy nhiên, AI (công nghệ trí tuệ nhân tạo) thậm chí có khả năng biến giọng nói thành khuôn mặt một cách chính xác. Trên thực tế, nhiều người đã bày tỏ mối lo ngại trước AI khi cho rằng công nghệ này ẩn chứa những hậu quả khôn lường cho nhân loại, với nguy cơ thay thế con người trong tương lai.

khuôn mặt — (Ảnh minh họa: Rifrazione_foto/Shutterstock)

Những bức ảnh được tạo ra nhờ ánh sáng, nhưng nếu chân dung của mọi người có thể được tạo ra bằng âm thanh giọng nói của họ thì sao?

Cụ thể, các nhà khoa học về trí tuệ nhân tạo tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) lần đầu tiên công bố về thuật toán AI có tên là Speech2Face trong một bài báo được đăng tải vào năm 2019 và tiếp tục hoàn thiện cho đến nay.

Speech2Face: Learning the Face Behind a Voice
pdf: https://t.co/Gx0IIEt3sO
abs: https://t.co/HJ51Rx1RLm pic.twitter.com/uHVnxs0sVf
— AK (@ak92501) May 24, 2019

Trước tiên, các nhà nghiên cứu đã thiết kế và đào tạo một mạng neuron sâu (deep neural network) bằng cách sử dụng hàng triệu video cảnh mọi người nói chuyện từ YouTube và Internet. Trong quá trình huấn luyện này, AI đã học được mối tương quan giữa âm thanh của giọng nói và bề ngoài của người nói. Những mối tương quan này cho phép nó đưa ra phỏng đoán tốt nhất về độ tuổi, giới tính và sắc tộc của người nói.

Con người không trực tiếp tham gia vào quá trình huấn luyện, bởi các nhà nghiên cứu không cần phải phân loại thủ công bất kỳ dữ liệu nào. AI chỉ đơn giản là được cung cấp một lượng lớn video và có nhiệm vụ tìm ra mối tương quan giữa các đặc điểm về giọng nói cũng như đặc điểm khuôn mặt.

Sau khi được huấn luyện, AI có thể rất giỏi trong việc tạo ra các bức ảnh chân dung giống người thật khi chỉ dựa trên bản ghi âm giọng nói. Ngoài ra, AI này hoạt động tốt hơn khi các đoạn ghi âm dài hơn.

Để phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng một “bộ giải mã khuôn mặt (face decoder)” để tạo ra bản tham chiếu từ khuôn mặt gốc, bỏ qua những thứ không liên quan như tư thế và ánh sáng. Điều này sẽ giúp các nhà khoa học dễ dàng hơn trong việc so sánh hình ảnh được tạo từ giọng nói với ảnh khuôn mặt của người nói.

Kết quả của AI rất gần với khuôn mặt thật trong phần lớn các trường hợp. Tuy nhiên, có một số trường hợp AI gặp khó khăn trong việc hình dung người nói trông như thế nào. Các yếu tố như trọng âm, ngôn ngữ và cao độ giọng nói là những yếu tố gây ra sự không khớp giữa giọng nói và khuôn mặt, trong đó giới tính, tuổi tác hoặc dân tộc không chính xác.

Những người có giọng cao (bao gồm cả các em bé trai) thường được xác định là nữ trong khi những người có giọng thấp được coi là nam. Một người đàn ông châu Á nói tiếng Anh dẫn đến việc ngoại hình không giống người châu Á hơn so với khi người này nói tiếng Trung Quốc.

Theo các nhà nghiên cứu, họ đã có những cân nhắc về quyền riêng tư và đạo đức xung quanh dự án này. Tất cả các kế hoạch sử dụng công nghệ này trên thực tế cần phải được kiểm tra một cách cẩn thận.

Cơ quan thực thi pháp luật có thể sử dụng AI để tạo chân dung kẻ tình nghi nếu bằng chứng duy nhất là một đoạn ghi âm giọng nói. Dẫu vậy, điều này có thể gây ra rất nhiều tranh cãi liên quan đến đạo đức và quyền riêng tư của cá nhân.

Hơn nữa, công nghẹ này có thể có tác động tiêu cực đến các nhà sáng tạo nội dung (creator) trên YouTube, những người đang cố gắng bảo vệ cuộc sống riêng tư của mình khi chỉ lồng tiếng và không xuất hiện trước ống kính máy quay.

Dù cho việc một AI có thể tạo ra những chân dung chính xác của con người chỉ từ giọng nói của họ được xem là điều gì đó hấp dẫn và thứ này tưởng chừng như chỉ có trong khoa học viễn tưởng, nhưng đó lại không phải mục tiêu của các nhà nghiên cứu. Họ cho hay rằng nghiên cứu trên được thực hiện nhằm cung cấp một cái nhìn toàn diện hơn về mối tương quan giữa khuôn mặt với giọng nói, qua đó có thể giúp mở ra các cơ hội nghiên cứu cũng như ứng dụng mới.

Phan Anh (tổng hợp)