메뉴 건너뛰기

close

26.02.19 10:12최종 업데이트 26.02.19 10:12

튜링테스트는 여전히 유효한가?

기계는 정답을 말하지 않는다, 정답처럼 보일 뿐

 AI
AI ⓒ omilaev on Unsplash

"기계는 생각할 수 있나?"

이 물음은 오늘날 인공지능이 무서운 속도로 우리 생활 속에 파고들어오며 새롭게 던져진 것이 아니다. 오히려 우주의 다른 존재들, 곧 모든 생물과 무생물이 '인간과는 무엇인가 다른 것 같다'는 느낌을 가지면서 자연스레 생겨난 물음이라고 보아야 한다. 그래서 인간이 우주에서 가장 월등한 존재라고 '생각'하여 "인간은 만물의 영장"이란 오만한 표현도 나온 것이다.

인간이 인간 이외의 존재와 다르다는 것 자체는 너무 당연하니 문제가 되지 않는다. 그 다름을 월등함으로 인식하는 순간 문제가 생긴다. 우선 월등함이 무엇인지 정의되지 않았고, 특히 월등함이 존재 자체의 전반에 걸쳐 적용되고 있다는 생각에 인간이 아닌 존재에 대한 혐오나 지배 등을 정당화시키는 권력으로 바뀌는 것은 결단코 지양해야 한다.

AD
그러나 엄연히 다름은 있기에 우리는 이 다름을 조심스럽게 다루어야 한다. 다름을 말할 때는 그 다름의 성격이 구체적으로 드러나야 한다. 무엇보다 다름을 우월함으로 해석하면 안 된다. 위의 물음에 대한 답이 인간이 기계보다 우월하다는 점을 증명하기 위해 만들어진다면 매우 위험하다. 그래서 '기계는 생각할 수 있나?'라는 물음이 유효한 물음이 되려면, 기계란 무엇이고, 생각이란 무엇인가를 먼저 물어 답을 얻은 후에야 가능하다.

기계는 무생물이라고 확장해도 큰 문제를 일으키지 않으니 논외로 하자. 문제는 '생각'이다. 이는 철학에서도 매우 깊이 있는 논의를 거쳐야 비로소 그 윤곽 정도나 잡힐, 매우 고난도의 개념이다. 생각이란 무엇인가라는 거대한 담론은 차치하더라도, 적어도 타인과 소통하고 영향을 주고받는 지적 활동이라는 점에는 동의할 것이다. 그리고 생각을 생명체만이 할 수 있는 것으로 제한하려면, '자발성' 역시 매우 중요한 요소이지만 여기서는 논외로 하자.

이 글의 첫 문장인 질문을 학계에 처음 들이민 사람은 영국의 수학자이자 현대 컴퓨터 과학의 아버지인 앨런 튜링(Alan Turing)이라고 알려져 있다. 그러나 사실 표현만 다를 뿐 이런 물음은 철학이나 심리학 또는 언어학의 아주 오래된 주제이다. 다만 튜링은 "기계가 생각할 수 있는가?"라는 모호하고 형이상학적인 질문을 "기계가 인간의 반응을 완벽하게 모방할 수 있는가?"라는 실증적인 시험으로 전환시켰다.

튜링이 1950년 처음 제안한 '튜링 테스트'의 원형은 오늘날의 일반적인 인식보다 훨씬 복잡한 심리전인 '모방 놀이'에 기반을 두고 있다. 튜링은 이 게임에서 인간이 자주 속는다면, 해당 기계는 인간과 동등한 수준의 지적 능력을 갖춘 것으로 간주해야 한다고 주장했다.

오늘날 '튜링 테스트'가 인공지능이 실제로 '인간 같은' 지능을 가졌는지 알아보는 시험으로 자리 잡았다. 그런데 점차 이 시험을 통과하는 인공지능이 늘어남에도 불구하고 아직 인공지능이 '생각'할 수 있다거나, 더 정확하게는 지능을 가졌다고 주장하지 않는다.

2024년 GPT-4가 정밀한 튜링 테스트를 통과했다는 보고가 있었다. 튜링 테스트가 결국 인간을 '속이는 능력'을 평가하는 시험이라면, 현재 인공지능의 발전 속도를 고려할 때 머지않아 대부분의 인공지능이 이를 사실상 통과하게 될 가능성이 높다. 그럼에도 불구하고 사람들은 선뜻 인공지능이 '인간과 같은' 지능을 가졌다고 동의하지 않는다. 그래서 이제 튜링 테스트는 그 시효가 다 되었다는 주장이 더 설득력을 가진다. 과연 그럴까?

여기서 튜링 테스트와 관련하여 조금 더 깊이 논의해야 할 것들이 있다. 그것은 시험 결과에 대한 해석의 문제와 튜링 테스트가 본질적으로 가지고 있는 한계에 관한 것이다.

첫째, 흉내 내는 것과 지능의 관계이다. 사실 튜링은 완벽한 흉내가 곧 지능이라고 주장하지 않았다. 다만, 그 완벽한 흉내냄을 보고 '기계가 생각한다'고 말하더라도 반박당하지 않을 정도가 될 것이라고 했다. 바꾸어 말하면, '기계도 생각한다는 주장'이 사회적으로 배척당하지 않는다는 것이다. 기계의 지능 유무가 아니라 사회적 합의를 말하였다. 그런데, 현대 인공지능 성능을 시험하는 사람들이 질문을 교묘히 비틀어버렸다.

둘째, 튜링 테스트는 본질적으로 지능의 본질을 묻는 것이 아니라 '얼마나 잘 속이는가'에 초점을 맞추고 있다. 따라서 '속일 수 있는 능력'을 지능으로 보아야 한다면, 인간의 이성 뿐 아니라 감정까지도 이런 해석에 거부감을 가질 것이다. 속일 수 있는 능력은 자연에도 얼마든지 있다.

필자는 튜링이 사회적 합의가 아닌 '지능'의 유무를 말한 것이라고 인정하고, 또한 '속이는 능력'을 지능의 한 징표로 인정하더라도 본질적으로 튜링 테스트가 가지고 있는 한계 때문에 그 시효가 다 되었다고 말하려 한다. 그것은 튜링 테스트가 거대 언어 모형에 기초를 둔 현대 생성형 인공지능을 가능케 한 알고리즘, 트랜스포머(transformer)와 일정 부분 구조적으로 공유하는 특성 때문이라고 생각한다.

인공지능이 언어를 그 도구로 선택한 이유는 컴퓨터란 본질적으로 수량화되지 않은 존재를 직접 다룰 수 없기 때문이며, 인간의 사고를 표현하는 대표적인 도구 중 하나인 언어는 비교적 수량화가 가능하고 이미 상당 부분 이산화되어 있기 때문이다. 그래서 초기 인공지능 연구자들은 언어를 수량화하되 기계가 '알아듣게' 규칙, 곧 문법을 '학습'시키면 목적이 달성될 줄 알았다. 하지만 규칙은 너무 많았고, 규칙에 붙는 예외 역시 너무 많았다. 심지어 '예외의 예외'도 있다. 그래서 언어를 개별 낱말의 고정된 의미로 보기보다 낱말 사이의 관계 속에서 이해하려고 하였다.

이런 접근은 언어 의미를 개별 단어의 속성보다 관계 속에서 찾으려 했던 구조주의 언어학의 관점과도 일정 부분 닮아 있다. 구조주의 언어학 역시 낱말 하나하나에 고정된 의미가 담겨 있다기보다 문장, 문단, 더 넓게는 담화 전체 속에서 다른 낱말들과의 관계 속에서 의미가 드러난다고 본다. 이러한 관점이 직접적으로 현대 알고리즘을 낳았다고 말하기는 어렵지만, 의미를 관계 속에서 파악한다는 인식 전환이라는 점에서는 일정한 유사성이 있다고 볼 수 있다.

'관계'는 적절한 방법만 있으면 수량화가 가능하다. 예를 들면 두 낱말이 얼마나 자주 연달아 나오는가, 한 문장에서 얼마나 자주 함께 쓰이는가, 더 넓은 문맥에서 얼마나 함께 등장하는가 등을 셀 수 있고, 이러한 빈도나 확률 구조는 수량화될 수 있다. 현대 트랜스포머 기반 언어모형 역시 이러한 관계적 패턴을 통계적으로 학습하여 다음에 올 언어 표현을 예측하는 방식으로 작동한다.

문제는 '정답'이다. 우리는 많은 경우 절대적 의미의 정답을 명확히 알지 못한다. 문법 규칙이 많고 예외가 많은 것도 그 방증의 하나이다. 이때 인공지능 연구자들이 깨달은 것이 있다.

인공지능이 지향하는 '정답'이 진짜 정답일 필요가 없고,
그저 정답처럼 보이기만 하면 된다.

이것을 인공지능 연구자들이 깨닫는 순간 모든 것은 해결되었다. 정답을 모르더라도 주어진 데이터 분포 속에서 정답처럼 보이는 표현을 높은 확률로 산출할 수 있으면 실용적으로 충분하다는 관점이다. 실제로 많은 현대 인공지능 시스템은 절대적 정답을 이해한다기보다, 데이터 분포 속에서 '정답처럼 보이는 표현'을 확률적으로 생성하는 방식으로 작동한다.

여기서 말하는 '정답처럼 보임'은 의도적 속임이라기보다, 통계적 예측에 기반한 언어 생성의 구조적 특성에 가깝다. 그러나 사용자 입장에서는 유창함과 설득력 때문에 이를 실제 정답으로 받아들이기 쉽고, 그 결과 일종의 '속임 효과'가 발생할 수 있다. 인터넷에는 정답 그 자체라기보다 정답처럼 보이는 언어 자료들이 대량으로 존재하며, 현대 언어모형은 바로 이런 분포를 학습한다.

튜링 테스트의 숨은 의도는 본질적으로 '기계가 얼마나 인간을 닮을 수 있는가'를 확인하는 데 있다. 이를 드러내는 방법으로 인간 심판을 혼동시키는 대화 상황이 제안되었다. 즉 엄밀한 의미의 진리 판정보다는 인간이 구별하지 못하는 언어적 수행 능력을 평가하는 시험이라고 볼 수 있다. 그런데 현대 인공지능 역시 방대한 언어 자료 속에서 '정답처럼 보이는' 표현을 확률적으로 구성하는 데 강점을 가진다. 이 점에서 두 경우 모두 '진리 자체의 검증'보다는 '그럴듯함의 형성'이라는 공통된 구조를 갖는다.

이는 결국 지능 자체를 시험하기보다 인간을 설득하거나 혼동시키는 능력을 다시 확인하는 시험이 될 위험이 있다. 그런 점에서 마치 출제자가 직접 시험을 치르는 것과 비슷한 상황이 된다. 따라서 본질적으로 튜링 테스트는 현대의 트랜스포머 알고리즘에 기초한 인공지능의 '지능 여부'를 따지는 방법이 될 수 없다.

그렇다면 튜링 테스트는 그 시효가 정말 다 되었나? 필자의 생각은 조금 다르다. 우선 튜링이 원래 의도했던 '사회적 합의'가 매우 중요한 것이기는 하지만 여기서는 논외로 하자. 우리가 '기계의 지능 소유 여부'를 논할 때 기계의 '속일 수 있는 능력'도 중요하지만, 더 나아가 현재 인류가 갖고 있는 인공지능에 대한 공포심의 근원에는 지능만 있는 것이 아니라, 기본적으로 생명 현상에 대한 이해, 그것을 뛰어넘는 초지능 등이 모두 들어 있다. 따라서 튜링 테스트가 이런 문제들을 단 하나라도 속 시원히 풀어내는 데는 분명한 한계가 있다.

'속임'에는 속이는 방법론이나 도구 등의 문제도 있지만, 기계에는 없는 '속이려는 의도' 역시 중요하다. 아이러니한 것은, 튜링 테스트가 사실은 인간의 본질을 시험한 것이지 기계의 본질을 시험한 것이 아니라는 것이다. 기계가 설사 속이는 '지능'을 가졌다 해도 '속이려는 의도'가 있었다고 볼 수는 없다. 우리가 튜링 테스트에서 얻고 싶었던 답은, 기계가 얼마나 인간의 능력을 흉내 낼 수 있는지 보려는 것이 아니라 얼마나 인간의 속성을 빼 닮았는지 보려는 것이다. 따라서 '얼마나 인간을 닮았나'를 따지려면 '속일 수 있는 능력의 보유 여부' 보다는 '속이려는 의도의 보유 여부'를 판단의 기준으로 삼아야 한다.

만약 기계가 스스로의 이익이나 생존을 위해 인간을 기만하기 시작한다면, 우리는 비로소 기계가 생각한다고 인정해야 할지도 모른다. 하지만 그런 날은 오지 않을 것이라고 필자는 생각한다. 기만할 '능력'은 학습할 수 있어도, 기만해야 할 '이유'를 기계 스스로 만들어낼 수는 없기 때문이다.

튜링 테스트를 '속일 수 있는가'가 아니라 '속이려는 의도가 있는가'로 다시 정의한다면, 이 오래된 시험은 여전히 유효하며 앞으로도 인간과 기계를 가르는 가장 거대한 장벽으로 남을 것이다. 그리고 튜링 테스트를 여전히 유효한 시험 방법으로 쓸 수밖에 없는 이유는, 아직 인간이 갖고 있는 방법 중 이러한 '속임수' 이외에는 딱히 쓸 방법이 없기 때문이다.

#튜링테스트#트랜스포머#지능논쟁#기계와인간#자발적의도
댓글
이 기사가 마음에 드시나요? 좋은기사 원고료로 응원하세요
원고료로 응원하기

대학에서 물리학을 가르치다 정년 퇴직 하였다. 늘그막에 인공지능에 흠뻑 빠져 쓰다보니, 어떻게 쓰는 것이 바르게 쓰는 것인지 고민하게 되었다. 인공지능이 할 수 없는 것과 할 수 있는 것을 냉정히 바라보아야 한다. 그 능력을 과대평가해도 안되지만 지나치게 두려워할 필요도 없다.



독자의견0

연도별 콘텐츠 보기