Cách tiếp cận có trí tuệ để AI cắt giảm tập dữ liệu thiên vị

Bộ dữ liệu thiên vị và AI đạo đức

Các giải pháp do AI hỗ trợ cần tập dữ liệu để hoạt động hiệu quả. Và việc tạo ra các tập dữ liệu đó chứa đầy một vấn đề thiên vị ngầm ở cấp độ hệ thống. Tất cả mọi người đều mắc phải những thành kiến ​​(cả ý thức và vô thức). Thành kiến ​​có thể ở bất kỳ hình thức nào: địa lý, ngôn ngữ, kinh tế xã hội, phân biệt giới tính và phân biệt chủng tộc. Và những thành kiến ​​có hệ thống đó được đưa vào dữ liệu, điều này có thể dẫn đến các sản phẩm AI duy trì và tăng cường sự sai lệch. Các tổ chức cần có một cách tiếp cận có ý thức để giảm thiểu sự thiên vị len lỏi vào các tập dữ liệu.

Ví dụ minh họa vấn đề thiên vị

Một ví dụ đáng chú ý về sự thiên vị tập dữ liệu này đã thu hút rất nhiều báo chí tiêu cực vào thời điểm đó là giải pháp đọc sơ yếu lý lịch ưu tiên các ứng viên nam hơn nữ. Điều này là do bộ dữ liệu của công cụ tuyển dụng đã được phát triển bằng cách sử dụng các bản lý lịch từ hơn một thập kỷ trước khi phần lớn ứng viên là nam giới. Dữ liệu bị sai lệch và kết quả phản ánh sự sai lệch đó. 

Một ví dụ khác được báo cáo rộng rãi: Tại hội nghị nhà phát triển Google I / O hàng năm, Google đã chia sẻ bản xem trước của một công cụ hỗ trợ khám da liễu do AI hỗ trợ giúp mọi người hiểu những gì đang xảy ra với các vấn đề liên quan đến da, tóc và móng tay của họ. Trợ lý da liễu nhấn mạnh cách AI đang phát triển để giúp chăm sóc sức khỏe - nhưng nó cũng nhấn mạnh khả năng thành kiến ​​đối với AI sau những lời chỉ trích rằng công cụ này không phù hợp với người da màu.

Khi Google công bố công cụ này, công ty đã lưu ý:

Để đảm bảo rằng chúng tôi đang xây dựng cho tất cả mọi người, mô hình của chúng tôi tính đến các yếu tố như tuổi tác, giới tính, chủng tộc và loại da - từ da nhợt nhạt không rám nắng đến da nâu hiếm khi bị bỏng.

Google, Sử dụng AI để giúp tìm câu trả lời cho các tình trạng da phổ biến

Nhưng một bài báo trên Vice cho biết Google không sử dụng được tập dữ liệu bao gồm:

Để hoàn thành nhiệm vụ, các nhà nghiên cứu đã sử dụng tập dữ liệu đào tạo gồm 64,837 hình ảnh của 12,399 bệnh nhân ở hai tiểu bang. Nhưng trong số hàng nghìn tình trạng da được mô tả, chỉ có 3.5% đến từ những bệnh nhân có loại da Fitzpatrick V và VI - những người đại diện cho da nâu và da nâu sẫm hoặc da đen, tương ứng. 90% cơ sở dữ liệu bao gồm những người có làn da trắng, da trắng sẫm hơn hoặc da nâu sáng, theo nghiên cứu. Do kết quả của việc lấy mẫu thiên vị, các bác sĩ da liễu cho biết ứng dụng này có thể kết thúc bằng việc chẩn đoán quá nhiều hoặc thiếu những người không phải là người da trắng.

Vice, Ứng dụng Da liễu mới của Google không được thiết kế cho những người có làn da sẫm màu hơn

Google đã phản hồi bằng cách cho biết họ sẽ tinh chỉnh công cụ này trước khi phát hành chính thức:

Công cụ hỗ trợ điều trị da liễu do AI của chúng tôi cung cấp là thành quả của hơn ba năm nghiên cứu. Kể từ khi công trình của chúng tôi được giới thiệu trên Nature Medicine, chúng tôi đã tiếp tục phát triển và cải tiến công nghệ của mình với việc kết hợp các bộ dữ liệu bổ sung bao gồm dữ liệu do hàng nghìn người quyên góp và hàng triệu hình ảnh về da được quản lý khác.

Google, Sử dụng AI để giúp tìm câu trả lời cho các tình trạng da phổ biến

Nhiều như chúng ta có thể hy vọng các chương trình AI và máy học có thể sửa chữa những thành kiến ​​này, nhưng thực tế vẫn là: chúng chỉ như thông minh vì tập dữ liệu của họ sạch sẽ. Trong một bản cập nhật cho câu ngạn ngữ lập trình cũ rác vào / rác ra, Các giải pháp AI chỉ mạnh bằng chất lượng tập dữ liệu của chúng ngay từ đầu. Nếu không có sự chỉnh sửa từ các lập trình viên, các tập dữ liệu này không có kinh nghiệm nền tảng để tự sửa - vì chúng đơn giản là không có hệ quy chiếu nào khác.

Xây dựng tập dữ liệu một cách có trách nhiệm là cốt lõi của tất cả trí tuệ nhân tạo đạo đức. Và con người là cốt lõi của giải pháp. 

AI có tư duy là AI có đạo đức

Sự sai lệch không xảy ra trong môi trường chân không. Các tập dữ liệu phi đạo đức hoặc thiên vị đến từ việc thực hiện sai cách tiếp cận trong giai đoạn phát triển. Cách để chống lại các lỗi thiên vị là áp dụng một cách tiếp cận có trách nhiệm, lấy con người làm trung tâm mà nhiều người trong ngành đang gọi là Trí tuệ nhân tạo. Trí tuệ nhân tạo có ba thành phần quan trọng:

1. Trí tuệ nhân tạo lấy con người làm trung tâm

Ngay từ khi bắt đầu dự án AI, trong giai đoạn lập kế hoạch, nhu cầu của con người phải là trung tâm của mọi quyết định. Và điều đó có nghĩa là tất cả mọi người - không chỉ là một tập hợp con. Đó là lý do tại sao các nhà phát triển cần dựa vào một đội ngũ đa dạng gồm những người trên toàn cầu để đào tạo các ứng dụng AI trở nên toàn diện và không thiên vị.

Nguồn lực từ cộng đồng các tập dữ liệu từ một nhóm đa dạng, toàn cầu đảm bảo các thành kiến ​​được xác định và lọc ra sớm. Những người thuộc các dân tộc, nhóm tuổi, giới tính, trình độ học vấn, nền tảng kinh tế xã hội và vị trí khác nhau có thể dễ dàng phát hiện các tập dữ liệu ưu tiên tập hợp giá trị này hơn tập hợp giá trị khác, do đó loại bỏ sự sai lệch ngoài ý muốn.

Hãy xem các ứng dụng thoại. Khi áp dụng phương pháp tiếp cận AI có đầu óc và tận dụng sức mạnh của nguồn nhân tài toàn cầu, các nhà phát triển có thể tính đến các yếu tố ngôn ngữ như phương ngữ và trọng âm khác nhau trong tập dữ liệu.

Thiết lập một khuôn khổ thiết kế lấy con người làm trung tâm ngay từ đầu là rất quan trọng. Đó là một chặng đường dài hướng tới việc đảm bảo rằng dữ liệu được tạo, sắp xếp và gắn nhãn đáp ứng được kỳ vọng của người dùng cuối. Nhưng điều quan trọng nữa là phải giữ cho con người luôn cập nhật trong toàn bộ vòng đời phát triển sản phẩm. 

Con người trong vòng lặp cũng có thể giúp máy móc tạo ra trải nghiệm AI tốt hơn cho từng đối tượng cụ thể. Tại Pactera EDGE, các nhóm dự án dữ liệu AI của chúng tôi, đặt trên toàn cầu, hiểu các nền văn hóa và bối cảnh khác nhau có thể tác động như thế nào đến việc thu thập và quản lý dữ liệu đào tạo AI đáng tin cậy. Họ có các công cụ cần thiết để gắn cờ các vấn đề, giám sát và khắc phục chúng trước khi giải pháp dựa trên AI đi vào hoạt động.

AI trong vòng lặp của con người là một “mạng lưới an toàn” của dự án kết hợp sức mạnh của con người - và nền tảng đa dạng của họ với khả năng tính toán nhanh của máy móc. Sự hợp tác giữa con người và AI này cần được thiết lập ngay từ đầu các chương trình để dữ liệu sai lệch không tạo thành nền tảng trong dự án. 

2. Trí tuệ nhân tạo có trách nhiệm

Có trách nhiệm là đảm bảo rằng các hệ thống AI không có thành kiến ​​và chúng được xây dựng dựa trên đạo đức. Đó là việc quan tâm đến cách thức, tại sao và nơi dữ liệu được tạo ra, cách nó được hệ thống AI tổng hợp và cách nó được sử dụng để đưa ra quyết định, các quyết định có thể có ý nghĩa đạo đức. Một cách để doanh nghiệp làm như vậy là làm việc với các cộng đồng ít được đại diện để hòa nhập hơn và ít thành kiến ​​hơn. Trong lĩnh vực chú thích dữ liệu, nghiên cứu mới đang làm nổi bật cách mô hình đa tác vụ nhiều chú thích xử lý các nhãn của mỗi chú thích như một nhiệm vụ con riêng biệt có thể giúp giảm thiểu các vấn đề tiềm ẩn vốn có trong các phương pháp xác thực cơ bản điển hình trong đó chú thích có thể không đồng ý với có thể bị bỏ qua trong việc tổng hợp các chú thích cho một sự thật cơ bản duy nhất. 

3. Đáng tin cậy

Sự đáng tin cậy đến từ việc một doanh nghiệp minh bạch và có thể giải thích được về cách mô hình AI được đào tạo, cách thức hoạt động và lý do tại sao họ đề xuất kết quả. Một doanh nghiệp cần có chuyên môn về bản địa hóa AI để giúp khách hàng của mình có thể làm cho các ứng dụng AI của họ trở nên toàn diện và cá nhân hóa hơn, tôn trọng các sắc thái quan trọng trong ngôn ngữ địa phương và trải nghiệm người dùng có thể tạo ra hoặc phá vỡ uy tín của một giải pháp AI từ quốc gia này sang quốc gia khác . Ví dụ: một doanh nghiệp nên thiết kế các ứng dụng của mình cho các ngữ cảnh được cá nhân hóa và bản địa hóa, bao gồm ngôn ngữ, phương ngữ và trọng âm trong các ứng dụng dựa trên giọng nói. Bằng cách đó, một ứng dụng mang lại trải nghiệm giọng nói ở cùng một mức độ tinh tế cho mọi ngôn ngữ, từ tiếng Anh đến các ngôn ngữ được trình bày ít hơn.

Công bằng và Đa dạng

Cuối cùng, AI có tâm sẽ đảm bảo các giải pháp được xây dựng dựa trên các tập dữ liệu công bằng và đa dạng, trong đó các hệ quả và tác động của các kết quả cụ thể được theo dõi và đánh giá trước khi giải pháp được đưa ra thị trường. Bằng cách quan tâm và bao gồm cả con người trong mọi phần phát triển của giải pháp, chúng tôi giúp đảm bảo các mô hình AI luôn sạch sẽ, ít thành kiến ​​và có đạo đức nhất có thể.

Bạn nghĩ gì?

Trang web này sử dụng Akismet để giảm spam. Tìm hiểu cách xử lý dữ liệu nhận xét của bạn.