본문 바로가기
기술공학/세상을 바꾼 IT

[세상을 바꾼 IT: 미래] AlphaGo, 인간을 압도한 인공지능

by 롱카이 2024. 7. 3.
반응형
  • 동물의 학습을 모방한 강화 학습Reinforcement Learning
옳은 일을 하면 보상하는 방식으로 학습시키는 강화 학습
옳은 일을 하면 보상하는 방식으로 학습시키는 강화 학습

초창기 인공지능의 학습 모델은 사람이 정답을 알려주는 지도 학습Supervised Learning이었습니다. 하지만 지도 학습Supervised Learning은 많은 한계에 봉착했고 이를 해결할 방법의 필요성이 대두되었습니다. 지도 학습Supervised Learning이 한계를 넘지 못하고 있는 동안 지도 학습Supervised Learning과 다른 방법의 학습은 꾸준히 발전했는데 그것은 옳은 행위를 하면 보상을 주는 강화 학습Reinforcement Learning이었습니다.

인간이 원하는 행동을 하면 보상하는 입력을 제공해 인공지능을 학습시키는 강화 학습
인간이 원하는 행동을 하면 보상하는 입력을 제공해 인공지능을 학습시키는 강화 학습

강화 학습Reinforcement Learning은 말이 통하지 않는 동물을 가르칠 때 사용하는 옳은 행위 후 보상 방식을 모방했습니다. 이는 특정 행위를 했을 때 좋은 것을 받으면 그 행위를 좋은 행위로 인식해 그 행위를 하려는 행동심리학을 반영한 학습법이었습니다. 즉 정의된 주체(Agent)가 어떤 상태(State)인지 파악한 뒤 인간이 원한 상태(State)면 인간이 주체(Agent)에게 보상(Reward)를 제공해 주체(Agent)가 학습(Learning)을 취하는(Action) 것을 유도한 학습법입니다. 이 학습법은 경우의 수가 많고 복잡하지만 원하는 결과물은 명확할 때 효력을 발휘하는 학습법이었습니다.
 
 
 

  • 강화 학습Reinforcement Learning으로 게임을
인공지능과 체커 게임을 두며 인공지능에게 강화 학습을 시키는 아서 사무엘
인공지능과 체커 게임을 두며 인공지능에게 강화 학습을 시키는 아서 사무엘

강화 학습Reinforcement Learning을 적용한 연구는 인공지능 연구 초창기부터 있었습니다. 튜링 테스트를 창시한 앨런 튜링은 강화 학습Reinforcement Learning은 체스 게임에 적용할 인공지능 알고리즘에 대해 연구했고 1953년 아서 사무엘은 IBM 701 컴퓨터와 체커 게임을 두며 IBM 701 컴퓨터에 강화 학습Reinforced Learning된 인공지능을 주입했습니다.

컴퓨터가 학습한 체커 게임
컴퓨터가 학습한 체커 게임

그는 컴퓨터에게 체커 게임의 규칙을 알려주고 체커 게임을 둘 경우 발생하는 경우의 수들을 컴퓨터가 학습하게 했습니다. 그래서 컴퓨터는 상대방이 체커 말을 특정 위치에 둘 경우 컴퓨터는 어디에 체커 말을 두면 어떤 경우의 수들이 존재하는지 아서 사무엘과 직접 체커 게임을 하며 학습했고 게임에서 이기면 보상을 받았습니다. 그 결과 컴퓨터는 게임에서 이겨 보상을 받기 위해 게임에서 이길 경우의 수들을 찾고 질 경우는 제거하며 실력을 향상했습니다. 그 결과 컴퓨터는 인간 수준과 비슷하게 체커 게임을 둘 수 있게 되었습니다. 아서 사무엘은 이 공로를 인정받았으며 1959년 그가 주장한 머신 러닝Machine Learning이 인공지능의 주요 용어가 되었습니다.

체커 월드 챔피언을 이긴 치누크 인공지능
체커 월드 챔피언을 이긴 치누크 인공지능

아서 사무엘 이후 강화 학습Reinforcement Learning을 위한 게임은 주로 체커가 사용되며 더 실력이 뛰어난 인간과 대결을 했습니다. 그리고 마침내 1994년 치누크라는 이름을 가진 인공지능이 체커 월드 챔피언인 마리온 틴슬리와의 대결에서 승리하며 체커 게임에서 인간을 능가했음을 증명했습니다. 그리고 체커 게임에서 인공지능이 우수한 실력을 쌓아가자 일부 연구원들은 인공지능에게 체커보다 더 어려운 게임을 가르치는 것에 도전했습니다.

IBM 딥블루
IBM Deep Blue

일부 인공지능은 채커보다 더 복잡한 규칙을 가진 체스를 강화 학습Reinforcement Learning하며 체스 게임을 했습니다. 그 인공지능 역시 인간과 체스를 두며 체스에서 경우의 수를 계산하고 이길 경우의 수를 골라 그 수로 유도하며 승리를 유도했습니다. 하지만 채커보다 훨씬 복잡한 체스는 인공지능이 생각해야 하는 경우의 수가 너무 많았고 인간의 수준을 따라가기 어려워했습니다. 그러던 중 카네기 멜론 대학교의 쉬펑숭 교수는 RS/6000 컴퓨터에 VLSI 체스 칩 480개를 추가해 성능을 두배로 올려 12 수 앞을 예상하게 만들었습니다. 그리고 이 컴퓨터를 IBM Deep Blue라고 불렀습니다.

가리 카스파로프와 IBM Deep Blue의 대결
가리 카스파로프와 IBM Deep Blue의 대결

1996년 IBM Deep Blue는 인간 체스 챔피언인 가리 카스파로프에게 도전장을 내밀었습니다. 그렇게 컴퓨터와 인간 간의 체스 대결이 시작되었고 결과는 4 : 2로 인간인 가리 카스파로프가 승리했습니다. 하지만 가리 카스파로프는 IBM Deep Blue와 대결을 하며 대결 중에도 IBM Deep Blue가 학습하는 것에 흥미를 느껴 1997년 재대결에 응했고 1997년에는 IBM Deep Blue가 3 : 2로 승리했습니다. 이로서 더 정교한 신경망을 가진 인공지능은 복잡한 체스도 정복했습니다.
 
 
 

  • 비디오 게임에서 발전한 인공지능
Pong(1972)처럼 단순한 수학적 계산으로 구현한 코딩으로 돌아간 초창기 비디오 게임
Pong(1972)처럼 단순한 수학적 계산으로 구현한 코딩으로 돌아간 초창기 비디오 게임

체커와 체스 등의 고전적 보드게임에서 인공지능이 우수한 성적을 거두자 연구원들은 법칙이 명확히 정해져 있는 보드게임을 넘어 훨씬 다양한 경우의 수가 있는 비디오 게임에도 인공지능을 학습하려는 시도를 했습니다. 이는 주어진 코드로 단순히 말과 간단한 행동만 취할 수 있는 NPC에 불만을 품은 게임 개발사도 중요하게 생각한 기술로 게임회사와 연구실에서 비디오 게임을 할 수 있는 인공지능에 대한 연구가 진행되었습니다.

Speed Race(1974)는 아케이드 게임에 인공지능을 성공적으로 구현한 첫 게임이다
Speed Race(1974)는 아케이드 게임에 인공지능을 성공적으로 구현한 첫 게임이다

특히 인간과 컴퓨터끼리 대결하는 게임에서 인간처럼 생각하고 인간처럼 게임을 하는 인공지능이 필요했습니다. 초창기에는 단순히 수학적으로 경우의 수를 생각하고 계산해 게임을 하는 것처럼 모방했지만 점점 더 복잡한 규칙을 가진 게임에서는 수학적으로 계산해 구현하기가 어려웠습니다. 또한 그럴수록 티가 나서 사람은 게임이 스릴있기보다는 어색해 흥미를 잃었습니다. 이에 따라 게임 회사와 연구원들은 인공지능에게 게임을 시켜 강화 학습Reinforcement Learning을 시켜 인간 수준과 비슷한 게임 플레이를 구현했습니다. 특히 마이크로프로세서Microprocessor가 나와 더 복잡한 계산이 가능해지면서 인간과 경쟁하는 인공지능을 기술적으로 구현할 수 있게 되었습니다. 1974년에는 Speed Race라는 아케이드 게임에 인간과 경쟁하는 인공지능 레이서가 성공적으로 구현되며 본격적으로 게임에 인공지능이 적용되었습니다.

인간 플레이어를 농락하는 수준의 지능을 가진 Saiko no Sutoka 게임의 인공지능
인간 플레이어를 농락하는 수준의 지능을 가진 Saiko no Sutoka 게임의 인공지능

1980년에는 Pac-Man에 미로에서 주인공을 추격하는 인공지능이, 1984년 カラテ・チャン에서 격투게임을 하는 인공지능이 구현되어 게임에 들어가며 게임에서 인공지능은 인간 플레이어와 비슷한 수준에서 인간과 함께 게임을 할 수 있는 상태로 성장했습니다. 각 게임 기업들은 그들의 게임 규칙을 판단하고 그 규칙을 따르며 인간과 경쟁하고 소통하는데 특화된 인공지능을 적용하며 게임을 보다 더 풍성하게 만들었습니다. 그렇게 게임에서 인공지능은 발전하며 인공지능의 성장을 촉구했습니다.
 
 
 

  • 인간의 영역에 도전한 AlphaGo
매우 복잡하고 어려운 보드게임인 바둑
매우 복잡하고 어려운 보드게임인 바둑

인공지능은 강화 학습Reinforcement Learning으로 여러 게임을 플레이하며 게임에서 인간 수준, 혹은 그 이상의 지능을 가졌지만 인공지능 연구자들이 생각한 인공지능이 이길 수 없는 게임이 있었습니다. 그것은 바로 바둑이었습니다. 바둑은 체커나 체스처럼 상대 진영을 공격해 점령하는 것이 아닌 상대 바로 옆에 돌을 두는 독특한 규칙을 가지고 있었고 본인이 둔 돌의 공간을 본인의 영역으로 두어 영역을 더 확보한 대상이 승리하는 게임이었습니다. 그렇기에 본인 영역을 사수하기 위해 상대 진영이 본인 진영에 오지 못하도록 방어도 하면서 상대 진영을 공격해야 했습니다. 그 가운데 상대방의 돌을 포위해 뺏는 전술은 덤으로 있었습니다.

2001년 데미스 허사비스가 개발한 Black & White 게임
2001년 데미스 허사비스가 개발한 Black & White 게임

때문에 바둑은 매우 복잡하고 어려우며 승리할 경우의 수를 계산하려면 매우 방대한 수를 두어야 했습니다. 그래서 인공지능 연구자들에게 바둑은 언젠가 뛰어넘어야 하지만 막막한 게임이었습니다. 그러나 바둑에 도전한 연구자는 항상 존재했습니다. 2001년 신이 되어 영역을 확장하는 게임인 Black & White를 개발한 데미스 허사비스는 Black & White의 인공지능을 개발했고 Black & White 게임과 비슷한 규칙을 가진 바둑에 흥미를 느꼈습니다. 그래서 그는 2010년 DeepMind를 설립해 인공지능 AlphaGo 개발을 시작했습니다. 그 사이에 Google이 DeepMind를 주목하고 인수해 Google DeepMind가 되었습니다.

자기 자신과 바둑을 두며 학습한 AlphaGo
자기 자신과 바둑을 두며 학습한 AlphaGo

2015년 Google DeepMind의 연구원들은 AlphaGo에게 바둑을 두게 하며 강화 학습Reinforcement Learning을 시켰습니다. AlphaGo는 본인 자신과 대결을 하며 무수히 많은 횟수의 바둑 대결을 펼쳤습니다. 그러면서 바둑에서 승리하는 수를 스스로 터득했습니다. 이는 강화 학습Reinforcement Learning에 딥러닝Deep Learning을 융합한 기술이었습니다. AlphaGo는 바둑을 학습했고 사내 테스트에 통과했습니다. 이어 Crazy stone과 Zen 등 먼저 연구된 다른 바둑 인공지능과 대결해 494승 1패로 압도적인 승리를 자랑하며 성능을 입증했습니다. 남은 것은 인간과의 대결이었습니다.
 
 
 

  • 세계에 인공지능 파장을 불러온 AlphaGo
판 후이(좌) vs AlphaGO(우)
판 후이(좌) vs AlphaGO(우)

2015년 AlphaGo는 바둑 二단이자 유럽 바둑 챔피언인 판 후이에 도전장을 내밀었습니다. 그리고 대결 결과 5 : 0으로 인간과의 대결에서 압도적인 승리를 거두었습니다. 이는 대중에게 잘 안 알려졌지만 인공지능을 연구하는 연구원과 바둑기사들에게 충격적인 소식이었습니다. 특히 바둑기사들은 기계가 절대 따라할 수 없을 것이라고 생각한 바둑에서 비록 二단이지만 인간을 이겼다는 소식에 긴장했습니다.

AlphaGo(좌) vs 이세돌(우)
AlphaGo(좌) vs 이세돌(우)

AlphaGo는 이어 2016년에는 대한민국 바둑 九단 이세돌에게 도전했습니다. 그리고 둘의 대결은 전세계에 생중계되며 인공지능 vs 인간으로 화두되어 대중이 둘의 경기에 주목했습니다. 대부분은 이세돌의 압승을 예상했으며 화두는 AlphaGo가 이세돌의 공격을 어떻게 막을 것이었습니다. 이세돌 본인도 이세돌이 AlphaGo를 압도할 것이라고 예상했습니다. 하지만 막상 경기를 하니 AlphaGo는 이세돌을 상대로 4 : 1의 전적을 내며 九단 프로 바둑기사를 비롯한 전세계 대중을 충격에 빠뜨렸습니다. 둘의 경기를 중계하는 프로 중계원들도 AlphaGo의 수를 이해하지 못하다 나중에 복기하며 AlphaGo의 허를 찌르는 수에 놀라움을 감추지 못했습니다.

커제(좌) vs AlphaGo 2.0(우)
커제(좌) vs AlphaGo 2.0(우)

이어 2017년에는 중국 바둑 九단 커제와도 대결했습니다. 이때는 이세돌과 대결하던 AlphaGo보다 성능이 더 향상된 AlphaGo 2.0으로 대결했습니다. 결과는 AlphaGo 2.0이 3 : 0으로 압승하며 인간은 AlphaGo의 수를 따라잡을 수 없음을 증명했습니다. 이 대결로 AlphaGo는 인간을 압도한 인공지능이라는 평가를 받으며 전세계 사람들이 인공지능에 관심을 가지게 했습니다.
 
 
 

  • 생물학계에 충격을 준 AlphaFold 2
단백질의 구조는 단백질의 역할을 결정하기 때문에 단백질 구조를 정확하게 파악하는 것이 중요하다
단백질의 구조는 단백질의 역할을 결정하기 때문에 단백질 구조를 정확하게 파악하는 것이 중요하다

AlphaGo는 커제와의 대국을 마지막으로 은퇴했습니다. 그리고 Google DeepMind는 바둑에서 압승을 거둔 뒤 다른 분야에서 인간과의 대결을 준비했습니다. Google DeepMind는 모기업 Alphabet의 사업 분야인 IT와 바이오에 따라 바이오 분야에 도전했습니다. 바이오 분야에서 가장 중요한 연구분야 중 하나는 단백질 구조 연구였습니다. 단백질은 생명현상의 거의 대부분을 담당하며 단백질 구조에 따라 단백질이 하는 역할이 정해져 있습니다. 그래서 생명활동 중 특정 매커니즘을 파악하려면 그 매커니즘에 관여하는 단백질의 구조를 정확하게 파악해 화학적으로 어떤 작용으로 생명활동이 발생하는지 파악해야 합니다.

생물학 연구는 시간과 비용이 너무 많이 드는 연구이다
생물학 연구는 시간과 비용이 너무 많이 드는 연구이다

그래서 수많은 생명과학 석학들은 다양한 방법으로 단백질의 구조를 파악했습니다. 하지만 항상 모양이 변하는 단백질의 구조를 파악하기란 정말 어려웠습니다. 석학들은 단백질을 얼려 현미경으로 관찰하거나 X선을 쬐거나 금박을 입히는 등 수많은 방법으로 단백질의 구조를 파악하려고 했습니다. 하지만 이는 실험과정 자체가 매우 어렵고 시간이 많이 걸려 단백질 구조 연구에 드는 비용이 상당했습니다. 이는 기업 입장에서 좋지 않은 일이었습니다. 그래서 Google DeepMind는 단백질을 연구하는 인공지능 개발에 도전했습니다.

AlphaFold 1은 고작 2시간 만에 단백질을 가장 정확하게 예측했다
AlphaFold 1은 고작 2시간 만에 단백질을 가장 정확하게 예측했다

2018년 Google DeepMind는 AlphaFold 1라는 인공지능을 개발해 단백질 구조 예측 학술대회CASP에서 많은 단백질 구조 예측 프로그램 및 인간 석학들과 단백질 구조 예측 대결을 펼쳤습니다. 그 결과 다른 도전자들은 2주 정도 시간을 소요해 단백질 구조를 예측했으며 정확도도 50%를 넘지 못한 반면 AlphaFold 1은 고작 2시간 만에 58%나 정확하게 단백질 구조를 예측했습니다.

90%라는 압도적인 예측률로 '알파폴드 쇼크'를 일으킨 AlphaFold 2
90% 이상이라는 압도적인 예측률로 '알파폴드 쇼크'를 일으킨 AlphaFold 2

2020년에는 AlphaFold 2를 발표했으며 중국 정부가 COVID-19 바이러스의 유전자 정보를 공개하자 바로 COVID-19 바이러스의 단백질 구조를 정확하게 밝혀내 COVID-19 백신과 치료제 개발에 기여했습니다. 또한 2020년 벌어진 CASP에서는 무려 90% 이상의 정확도로 예측하는 기염을 토하며 생물학계 전체를 충격에 빠뜨렸습니다. 일부 학자들은 이를 '알파폴드 쇼크'라고 불렀습니다. 인간 석학들은 한 단백질의 구조를 몇십년 이상 연구해야 밝혀내는 반면 AlphaFold 2는 30분 ~ 1시간 안에 90%를 넘는 정확한 예측률로 판단하며 시간과 정확도, 비용 모든 면에서 인간 생물학 석학들을 능가했습니다.
 
 
 

  • 짧은 열풍 후 조용히 잊혀진 인공지능
여전히 일부 연구실에서나 사용된 인공지능
여전히 일부 연구실에서나 사용된 인공지능

AlphaGo가 보여준 인공지능의 압도적인 성능은 사람들에게 큰 화두가 되었습니다. 2016년부터 2017년까지 전세계에서 인공지능에 대한 전문가의 예측이 쏟아졌고 사람들은 인공지능 시대가 도래할 것이라고 생각했습니다. 하지만 인공지능은 여전히 일부 연구실이나 게임에서만 만날 수 있는 존재였고 일반 대중이 인공지능을 조작하며 이용할 수 없었습니다. 그렇기에 일상에서 비디오 게임을 제외하면 인공지능을 만날 일은 없었고 인공지능에 대한 관심은 시간이 지나 다른 사건들이 더 주목받으며 사람들에게 잊혀졌습니다.

모두의 관심이 꺼질 때 인공지능은 모두가 인공지능을 이용할 수 있게 준비했다
인공지능에 대한 대중의 관심이 꺼지는 동안 인공지능은 모두가 인공지능을 이용할 수 있게 준비했다

특히 2019년 말 COVID-19가 전세계에 유행하며 인공지능에 대한 관심은 감소했습니다. AlphaFold 2가 COVID-19 단백질 구조를 정확하게 예측해 COVID-19에 대항하는데 큰 기여를 했지만 대중은 이 사실을 잘 몰랐습니다. 그렇게 인공지능이 일부 연구실과 기업 사무실에서 벗어나지 못하며 대중과 멀어질 즈음에 어느 한 논문의 내용을 실제로 구현한 한 위대한 도전이 전세계를 인공지능으로 완전히 재패할 준비를 마쳤습니다.
 
 
 
 

반응형

댓글