알파고와 유희관, 참 닮았네

사회

알파고와 유희관, 참 닮았네

강화학습으로 잘못된 수 걸러낸 알파고, 재판에 활용할 수 있을까

16.03.17 15:51l최종 업데이트 16.03.19 17:04l

글: 홍순탁(sthong17)

편집: 김예지(jeor23)

원고료로 응원하기

공감8 댓글1

큰사진보기
▲ 알파고 vs. 이세돌 이세돌 9단이 13일 서울 종로구 포시즌스 호텔에서 열린 '구글 딥마인드 챌린지 매치'에서 구글 인공지능 바둑 프로그램 '알파고'와의 제4국에서 첫 수를 두고 있다.
ⓒ 연합뉴스	관련사진보기

최근 몇 년간 한국 프로야구에 새롭게 나타난 선수 중 유희관이라는 선수가 있다. 구속이 느려 누구도 칠 수 있다고 하는 공을 던지는 이 투수는 얼마 못 버틸 것이라는 세간의 예상을 비웃듯, 매년 승승장구하고 있다.

이 선수의 가장 큰 장점은 완급조절에 있다. 아리랑 볼 같은 공을 여러 번 던져 상대방을 방심하게 한 후, 전에 던졌던 공과 비교도 안 되는 구위의 공을 완벽한 제구력으로 꽂아 넣는다. 선발투수로 뛰는 이 선수는 이러한 완급조절을 무기로 작년에 20승에 근접하여 특급투수의 반열에 올랐다.

뜬금없이 야구 이야기를 한 것은 알파고의 바둑 스타일 때문이다. 3월 15일 이세돌 9단과 알파고의 대결이 1대4로 마무리되었다. 이세돌 9단이 마지막 대국을 이기는 아름다운 마무리를 기대했던 많은 사람이 아쉬워하고 있다. 그런 아쉬움 속에서 알파고의 바둑 스타일에 대해서 많은 이야기가 나오고 있다.

알파고의 바둑 스타일을 '어깨류'라고 말하는 사람도 있다. 많은 사람이 기억하는 2국의 37수처럼, 알파고는 어깨 짚는 수를 많이 두었다.

일관되지 않은 알파고, 완급 조절의 달인?

또 다른 알파고의 특징은 완급조절이 뛰어나다는 것. 어떤 때는 아마추어 하급수가 둘 만한 수를 두어 이세돌 9단을 방심하게 하고, 어떨 때는 그 어떤 프로기사도 흉내 낼 수 없는 최고의 수를 두었다.

물론, 이러한 것은 알파고가 의도하지 않았을 것이다. 하지만, 알파고의 의도하지 않은 완급조절 때문에 이세돌 9단은 심리전에서 밀렸다. 이러한 알파고의 바둑 스타일에 이름을 붙인다면, '유희관류'라고 붙일 수도 있겠다.

알파고의 일관되지 않은 바둑을 설명하는 여러 가지 이론이 있을 수 있다. 그중에서 알파고의 딥 러닝(컴퓨터가 사람처럼 판단하고 배우는 인공지능 학습법)에 활용된 데이터의 문제에 주목할 필요가 있다. 알파고는 정책망과 가치망으로 구성되어 있는데, 정책망은 아래 그림과 같이 지도학습과 강화학습의 단계로 완성되었다.

알파고의 지도학습을 완성하기 위해서는 빅데이터가 필요했는데, 한국기원에 등재된 16만 건의 기보를 활용했다고 한다. 바둑 한판이 약 200수를 구성되어 있으므로, '16만 건 × 약 200수 = 3000만 수'라는 빅 데이터를 활용하여 지도학습을 시킨 것이다.

큰사진보기
▲ 알파고의 지도학습과 강화학습. 알파고의 지도학습과 강화학습. (자료출처 : Mastering the game of Go with Deep neural networks and tree search, Nature)
ⓒ Nature	관련사진보기

여기에서 문제는 그 3000만 건의 데이터 중에는 참고하면 안 되는 데이터, 즉 악수가 포함되어 있다는 것이다. 프로 6단에서 9단까지의 기보만 활용했다고 하지만, 이번 대결에서 보았듯 이세돌 9단에게도 실수가 많이 나온다. 프로기사들의 끝내기 수순이 완벽하지 않다는 것이 알파고의 끝내기 실력에서 입증되기도 했다.

'좀 과장해서 말하면, 프로기사의 바둑도 서로 사소한 실수를 주고 받다가 덜 실수한 사람이 이긴다고도 할 수 있다. 프로기사의 기보에도 완착이나 패착이 섞여 있기 때문에 그 데이터를 걸러내야 하는 문제가 발생한다. 잘못된 데이터를 걸러내는 데 실패했다면, 알파고는 중급 정도의 프로기사가 될 수도 있었을 것이다.

공동 복기 없이도 악수 걸러낸 '무시무시한' 알파고

딥마인드는 이러한 데이터를 수작업으로라도 걸러내고 싶었겠지만, 본인들이 바둑 전문가가 아닌 이상 그 작업을 수행할 수가 없었다. 외부 전문가의 도움을 빌린다고 하더라도 양이 너무 많고, 그 전문가가 이세돌이나 커제 급이 아닌 이상 주어진 상황에서 최선의 수를 알려준다는 보장도 없다.

결국 이 부분이 정책망 강화학습에서 이루어진 것으로 보인다. 알파고1과 알파고2가 무수한 대국을 펼쳐 인공지능을 보완하는 정책망 강화학습에서 3000만 건의 데이터 중 문제가 있는 데이터를 걸러내는 작업을 반복했을 것이다.

잘못된 데이터를 걸러내는 작업이 바로 프로기사에게는 복기에 해당한다. 바둑이 끝나고 나면, 프로기사들은 공동으로 주어진 상황에서 최선의 수가 무엇이었는지 찾아낸다. 실전에서 둔 수보다 더 좋은 수를 찾아내면, 실전의 수는 잊어버리고 그 새로운 수를 기억에 저장한다.

그러나 알파고는 데이터 정제, 즉 3000만 건의 수 중 잘못된 수를 걸러내는 작업을 도와줄 사람이 없었다. 프로기사의 복기 데이터는 접근할 수 없고, 딥마인드 회사 내에는 정상급 프로기사가 없었다. 프로기사 여럿이 한 작업을 알파고는 혼자서 해야 한 것이다.

결국 이 데이터 정제 작업이 아직 완벽하지 않았기 때문에 들쭉날쭉한 수를 두었다고 봐야 한다. 반면, 완벽하지만 않았지만 이 데이터 정제 작업이 어느 수준 이상 이루어지지 않았다고 하면 알파고는 이세돌에게 상대가 안 되었을 것이다. 혼자서 수행한 데이터 정제 작업이 매우 뛰어났기에 이세돌을 이긴 것으로 봐야 한다.

연산의 측면에서 CPU 1202개와 GPU 176개로 구성된 알파고와 이세돌 1명의 두뇌의 대결로 1000대 1의 싸움이라고 표현했지만, 거꾸로 학습에 필요한 데이터 정제의 측면에서는 알파고가 1대 다수의 싸움을 했다고 말할 수 있다.

좋은 수와 악수가 뒤섞인 데이터를 주고 스스로 데이터 정제와 강화학습을 시켰는데 인간 최고수를 이길 수준에 도달했다고 하면, 그 데이터 정제 수준과 강화학습의 위력은 무시무시하다.

이는 같은 데이터에서 어떤 지향점이나 목표를 주고 데이터 정제와 강화학습을 시키면 강화학습 이전의 인공지능과 매우 다른 인공지능을 만들어 낼 수 있음을 의미한다. 이 부분은 중요한 시사점을 준다.

알파고를 재판에 활용하면?

큰사진보기
▲ 알파고 판사? 수많은 판례를 지도학습 시켜 완성된 판사 알파고에 강화학습을 시키면서 어떤 목표와 지향점을 주면 어떤 일이 발생할까.
ⓒ pixabay	관련사진보기

인공지능이 우선적으로 적용될 수 있는 분야로 판사의 영역이 언급된다. 딥 러닝을 효과적으로 수행하기 위해서는 많은 수의 입력값과 그에 대응하는 '신뢰'할 수 있는 출력값이 있어야 한다.

바둑의 경우 일부 출력값의 신뢰성에 문제가 있었지만, 판례는 다르다. 사회적으로 인정된 신뢰성 있는 출력값이 있는 셈이다. 많은 데이터와 신뢰할 수 있는 출력값이 존재하기 때문에, 판결은 딥 러닝을 통한 인공지능 개발에 적합한 영역으로 보여진다.

그런데 수많은 판례를 지도학습 시켜 완성된 '판사 알파고'에 강화학습을 시키면서 목표와 지향점을 주면 어떤 일이 발생할까? 알파고가 기보에서 악수를 효과적으로 걸러냈듯이, 기존 판례에서 특정 경향성이 있는 판례들을 제거하기 위한 작업을 수행한다면? 그렇게 데이터 정제 및 강화학습을 시킨 판사 알파고는 어떤 모습일까?

편향적이지만 공정하다고 포장을 아주 뛰어나게 하는 판사 알파고가 되지 않을까? 모든 판례를 빅 데이터로 활용한다고 해도, 그 데이터 정제 및 강화학습을 시키는 방법의 작은 변화로 엄청난 차이를 만들어 낼 수 있지 않을까? 빅 데이터 입력, 지도학습, 데이터 정제, 강화학습으로 이어지는, 기술적으로 중립적으로만 보이는 그 절차에 대한 시민사회의 적절한 감시와 통제가 이루어져야 할 필요성이 여기에 있다.

향후 인공지능이 적용될 많은 부분에서 동일한 데이터를 활용한다고 해도, 강화학습의 목표나 지향점에 따라 엄청나게 다른 인공지능이 태어나리라는 것은 순진한 기우일까?

오탈자 신고

태그:#알파고, #바둑, #지도학습, #강화학습, #인공지능