이세돌 9단에 패배 안긴 ‘알파고’는 어떻게 태어났나

▲ 이세돌 9단이 '알파고'와의 첫 대국에서 패한 후 복기하는 모습 <사진=바둑TV >

[이뉴스투데이 김정우 기자] ‘세계 최강의 바둑기사’로 불리는 이세돌 9단이 구글의 인공지능(AI) 컴퓨터 ‘알파고(Alphago)’와의 첫 대결에서 불계패(계가까지 가지 않고 스스로 돌을 던져 패배를 시인하는 경우)를 당하며 바둑계와 과학자들에게 충격과 환희를 안겨줬다.

이번 대국 직전까지 많은 이들은 “아직은 인공지능이 인간의 직관을 따라오지 못할 것”이라며 이세돌 9단의 승리를 점쳤으며 이세돌 자신도 무난한 승리를 공언했지만 예상을 뒤엎은 결과가 나온 것이다.

알파고는 구글이 2014년 인수한 딥마인드가 ‘기계학습(machine learning·머신러닝)’ 기술을 바탕으로 개발한 인공지능 프로그램이다. 이세돌 9단과의 대국에 앞서 지난해 중국 프로기사 판 후이(Fan Hui) 2단을 상대로 5:0으로 낙승을 따내며 처음으로 바둑에서 인간에게 패배를 안긴 바 있다.

이번 대국에서 알파고는 이해하기 어려운 실수를 보이기도 했지만 이세돌 9단 역시 평소 기량을 보이지 못했다는 평가를 받으며 실수를 연발해 알파고에게 승리를 넘겨줬다.

대국을 중계한 유창혁 9단은 “이세돌 9단이 정상적인 컨디션이 아니었던 것 같다”며 “다음 경기에서는 평정심을 찾고 제 실력을 보여줄 것”이라고 평가하기도 했다.

◆ 알파고의 도전이 갖는 의미… 인간의 ‘직관’에 맞서

이번 결과가 바둑계 뿐 아니라 과학계의 이목을 집중시키는 이유는 과거 인간과 인공지능의 단골 대결 종목이었던 체스에 비해 바둑이 갖는 복잡성에 있다.

바둑 기사들이 흰돌과 검은돌을 번갈아 놓으며 상대의 돌을 들어내거나 빈 공간을 둘러싸 ‘집’을 만드는 단순한 규칙에 비해 그 경우의 수는 체스와 비교할 때 10의 100제곱 이상 많은 10의 170승에 달한다.

데미스 하사비스(Demis Hassabis) 구글 딥마인드 CEO는 “바둑의 경우의 수는 우주에 있는 원자의 수보다 많다”며 “바둑을 둘 때에는 주로 직관과 느낌이 작용하게 되며 이러한 아름다움, 미묘함, 지적 깊이로 인해 바둑은 지난 수백 년 간 인류의 상상력을 사로잡았다”고 바둑의 묘를 설명했다.

그는 또 “이 같은 복잡성은 컴퓨터가 바둑을 두는 것을 아주 어렵게 만들었으며 따라서 바둑을 인공지능을 연구하는 사람들에게 아주 매력적인 도전과제로 만들었다”며 인공지능으로 바둑에 도전한 배경을 밝혔다.

컴퓨터가 마스터한 최초의 게임은 1952년 ‘틱택토’라고 불리던 ‘삼목놓기’였다. 이후 1994년에는 체커를 마스터했고 1997년에는 ‘딥 블루’ 컴퓨터가 체스에서 인간에게 승리를 거뒀다.

컴퓨터의 활약은 보드게임에서 그치지 않았다. IBM의 ‘왓슨(Watson)’ 컴퓨터는 2011년 퀴즈대회 ‘제퍼디’에서 우승했고 2014년에는 딥마인드가 자체 개발한 알고리즘이 픽셀 입력값만으로 아타리 사의 여러 게임을 플레이하는 방법을 학습했다.

반면 알파고 이전까지 컴퓨터의 바둑 실력은 아마추어 기사 수준에 머물러 인공지능 연구자들을 계속 좌절시켰다. 따라서 알파고가 이번에 이세돌 9단을 상대로 얻은 1승은 인공지능 연구에 있어 큰 성과로 남게 됐다.

아직 알파고와 이세돌 9단은 4번의 대국을 남겨놓고 있지만 인공지능이 인간의 ‘직관’을 상대할 적수가 됐다는 인상을 남기기에는 충분했다.

◆ 핵심은 ‘딥러닝’과 ‘강화학습’… 스스로 진화하는 인공지능

알파고의 원리는 크게 ‘딥러닝(deep learning)’과 ‘강화학습’이라는 기계학습 방법론으로 구성된다. 인공신경망을 기반으로 기계가 복잡한 문제를 스스로 학습·해결하고 스스로 훈련을 통해 진화해 가는 것이다.

하사비스는 알파고가 바둑을 학습하는 방식에 대해 “모든 가능한 위치에 ‘탐색 트리(search tree)’를 구성하는 전통적 방식의 인공지능은 바둑에서만큼은 빛을 발하지 못했다. 그래서 고급 트리 탐색과 ‘심층 신경망(deep neural network)’을 결합한 새로운 접근방식으로 알파고라는 시스템을 구축했다”고 밝혔다.

심층 신경망은 수백만 개의 신경세포와 같은 연결고리를 포함하는 12개의 프로세스 레이어를 통해 바둑판을 분석한다. ‘정책망(policy network)’이라는 하나의 신경망이 다음 번 돌을 놓을 위치를 선택하고 ‘가치망(value network)’이라는 또 다른 신경망이 승자를 예측하는 방식이다.

딥마인드는 전문가가 플레이하는 게임으로부터 3000만개의 움직임에 대해 신경망을 훈련시켜 57%의 확률로 인간의 움직임을 예측할 수 있게 됐다고 설명했다.

하사비스는 “인간을 흉내내는 것이 아닌 실제 대국에서 인간을 이기기 위해 알파고는 자체 신경망 간에 수천만 회의 바둑을 두고 강화학습이라는 시행착오 프로세스를 사용해 스스로 새로운 전략을 발견하는 법을 학습했다”고 설명했다. 이어 “이를 위해 강력한 컴퓨팅 능력이 필요했기 때문에 구글 클라우드 플랫폼을 폭넓게 활용했다”고 덧붙였다.

그 후 알파고는 실제 대국에 투입돼 테스트를 거쳤다. 기존 최고의 바둑 프로그램들과의 총 500회 대국 중 단 한 번을 제외한 모든 대국에서 승리하고 유럽 바둑대회에서 3회 우승한 판 후이와의 대국에서도 5전 전승을 거뒀다.

하사비스는 알파고의 성과에 대해 “바둑의 규칙을 하나하나 직접 입력하여 개발된 전문가 시스템이 아니라 일반적인 기계학습 기술을 사용해 스스로 바둑에서 이기는 법을 파악했다는 점에서 큰 의미를 갖는다”며 “알파고에 사용된 방법들이 언젠가 기후 모델링, 복합성 질환 분석 등 사회적 난제들을 해결하는 데 쓰이기를 기대한다”고 밝혔다.

김정우 기자 tajo@enewstoday.co.kr 다른기사 보기

※ 여러분의 제보가 뉴스가 됩니다. 각종 비리와 부당대우, 사건사고와 미담, 소비자 고발 등 모든 얘깃거리를 알려주세요

이메일 : webmaster@enewstoday.co.kr

카카오톡 : @이뉴스투데이