편향적인 인공지능

슬프지만 인정합시다. 우리는 모두 편향적이에요. 그래서 그런지 요즘 인공지능을 이용해 편향적인 선택을 줄일 수 있다고 기대하는 사람들이 많은 것 같습니다. 대표적인 예시로 인공지능 판사나 인공지능 면접관을 들을 수 있겠네요. 그렇다면 인공지능은 편향적이지 않은 결정을 내릴 수 있을까요? 저는 아니라고 생각합니다. 제가 그렇게 생각하는 이유를 적어보겠습니다.

기계학습에 쓰이는 데이터들은 대부분 편향적인 사회에서 나온 것입니다. 편향적인 사회에서 나온 편향이 들어간 데이터로 학습한 인공지능은 당연히 편향적인 결론을 내릴 수밖에 없죠. 억지 같나요? 그렇다면 실재 사례들을 한번 보도록 하죠.

첫 번째 사례입니다. 3인칭 대명사에 성별 구분이 없는 터키어를 구글 번역을 이용한 영어로 번역하자 군인이나 엔지니어, 의사는 He로 번역하고 간호사나 선생님은 She로 번역한 사례입니다. 물론 구글 번역의 알고리즘은 편향되지 않았을 겁니다. 하지만 구글 번역을 학습시키기 위해 사용된 축적된 데이터들의 편향이 이런 결과를 가져왔겠죠.

비슷한 원리이지만 좀 더 웃픈 사례들을 두 개 더 가져왔습니다. 첫 번째는 MS의 테이(Tay)입니다. 테이는 사람들과 대화를 나누는 MS에서 개발한 인공지능입니다. “Hello, World!”를 외치며 테이가 공개되고 얼마 지나지 않아 4chan등의 커뮤니티에서 테이에게 욕설과 인종차별, 성차별, 극우 정치 발언등을 조직적으로 학습시켰고 결국 테이는 나치와 홀로코스트를 옹호하고 트럼프의 반이민 정책을 지지하며 사회적 약자를 향한 혐오 발언을 쏟아부었고 개발사인 MS에서는 결국 테이의 운영을 중단하게 되었죠.

두 번째는 IBM의 왓슨입니다. IBM의 개발자들은 왓슨에게 비속어를 이해시키기 위해 Urban Dictionary의 내용을 왓슨에게 학습시켰고 이게 나쁜 말인지 좋은 말인지 모르는 왓슨은 개발자들에게 쌍욕을 퍼붓게 되었죠.

사실 여기까지만 보면 인공지능의 편향이라고 해봤자 큰 영향은 없다고 생각하실 수도 있을 겁니다. 하지만 이걸 본다면 생각이 달라지실 겁니다. 아마존은 최근 인공지능 채용 프로그램을 폐기하였습니다. 그 이유는 바로 인공지능이 이력서에 여성이라는 단어가 들어가면 감점을 하는 편향을 가졌기 때문인데요. 아마존은 이 문제를 개선하긴 하였지만 같은 문제가 재발하지 않는다는 확신을 주지 못해 결국 프로젝트가 무산되었다고 합니다.

분명히 알고리즘이 편향적인 것은 아닐 겁니다. 하지만 학습한 데이터인 기존 아마존 채용 결과 데이터에 담긴 편향 때문에 그것을 이용해 학습한 아마존의 인공지능은 편향을 가지게 되었죠.

유전무죄 무전유죄, 인공지능 판사가 도입되면 없어질 문제일까요? 저는 오히려 기존의 데이터를 이용해 학습한 인공지능 판사는 무죄 판결이 떨어져야 할 사람에게 학습한 편향적인 데이터를 토대로 저소득층이라는 이유로 무거운 판결을 내리는 상황이 올 수 있다고 생각합니다. 인공지능 경찰이 잘못 없는 사람을 학습한 편향적인 데이터를 토대로 흑인이라는 이유만으로 체포할 수도 있겠죠.

우리 인간은 모두 편향적이지만 이성이라는 또 다른 편향으로 자신의 편향을 필터링합니다. 선과 악의 구분이라는 또 다른 편향으로 자신의 편향을 줄이려고 시도는 하죠. 하지만 인공지능은 그렇지 않습니다. 편향적이지 않은 알고리즘을 만들 수는 있어도 학습하는 기존의 데이터는 편향적입니다. 기술이 좋아지면 필터링이라는 또 다른 편향을 이용해 편향을 줄이려 노력할 수는 있겠지만 아직까지는 구글과 MS, IBM, 아마존도 성공하진 못한 것 같네요.

분명 정상적인 개발자들이 만들었다면 알고리즘 자체는 편향적이지 않을 것입니다. 나중에 필터링이라는 또 다른 편향이 만들어진다고 해도 인공지능의 편향을 완전히 없애는 것은 불가능할 것입니다. 필터링도 필터링 개발자의 편향이 섞여 있는 알고리즘이니까요. 그렇다고 포기하고 있자는 말은 아닙니다. 지금 우리가 할 수 있는 가장 쉬운 방법은 인공지능이 학습할 데이터의 편향, 즉, 인간 사회에서의 편향을 줄이려는 노력일 것 입니다.