책 커버 표지
일경컴퓨터_2022/06/23(2)_구글 I/O에서 선보인 클라우드ㆍAI
  • 저자 : 日経BP社
  • 발행일 : 20220623
  • 페이지수/크기 : 98page/28cm

요약

Nikkei Computer_2022.6.23 특집 요약 (p52~57)

구글 I/O에서 선보인 클라우드ㆍAI
구글의 차세대 무기

구글은 올 5월, 연례 컨퍼런스 '구글 I/O 2022'를 일부 청중을 대상으로 본사 인근에서 라이브 형태로 개최했다. 퍼블릭 클라우드 시장에서 점유율은 3위이지만, 기술의 선진성에서는 경쟁사보다 한발 앞서가고 있는 구글이 클라우드, AI(인공지능), 보안 분야에서 보여준 차세대 무기를 소개한다.

이번 발표의 핵심은 구글 클라우드의 새로운 데이터베이스(DB) 서비스 ‘AlloyDB for PostgreSQL’이다. 구글이 독자적으로 개발한 DB 서비스로, 오픈소스 소프트웨어(OSS)의 관계형 DB(RDB)인 ‘PostgreSQL’과 호환성이 있다. 사용자는 PostgreSQL용 SQL 쿼리 및 확장 기능을 그대로 사용할 수 있다.

AlloyDB for PostgreSQL의 특징은 트랜잭션 처리(OLTP) 성능과 데이터분석(OLAP) 성능을 양립한 점이다. 구글에 따르면 AlloyDB for PostgreSQL은 표준적인 PostgreSQL에 비해 같은 수의 CPU를 사용할 경우의 트랜잭션 성능이 4배 고속이며 데이터 분석 성능은 최대 100배 고속이라고 한다.

트랜잭션 처리 성능과 데이터 분석 성능을 양립한 DB는 HTTP(Hybrid Transaction Analytical Processing)라고 불린다. 기존에는 데이터 분석 성능을 추구하려면 트랜잭션 처리를 담당하는 RDB와는 별도로 데이터 분석 처리 전용 데이터웨어하우스(DWH)를 준비해야 했다.

하지만 RDB에서 DWH로 데이터를 복사할 필요가 있어 최신 데이터를 즉시 분석하기가 어려웠다. 이에 반해 HTTP는 하나의 DB로 두 가지 모두 실행할 수 있기 때문에 최신 데이터를 분석할 수 있다.

구글 클라우드는 지금까지 표준 RDB 매니지드 서비스인 ‘클라우드 SQL’과 DWH 서비스인 ‘빅쿼리(Big Query)’, 트랜잭션 처리에 특화된 RDB 서비스 ‘클라우드 스패너(Cloud Spanner)’를 제공해왔다. 여기에 HTTP인 ‘AlloyDB for PostgreSQL’을 추가한 것이다.

AlloyDB for PostgreSQL의 데이터 분석 성능은 '스케일 아웃' 방식으로 향상된다. 노드 대수를 늘리면 이에 비례해 데이터 분석 성능이 향상되는 것이다. AlloyDB for PostgreSQL이 사용하는 가상 CPU를 1,000개 이상으로 늘려도 데이터 분석 성능은 규모에 비례해 향상된다고 한다.

AlloyDB for PostgreSQL 내부는 스토리지 층과 쿼리 처리 등을 담당하는 컴퓨팅 층이 서로 다른 클러스터로서 분리되어 있다. 또한 스토리지 층은 트랜잭션 로그 처리를 담당하는 ‘DB 스토리지 엔진’ 층과 여러 존에 걸쳐 데이터를 저장하는 분산 파일 시스템 층으로 나뉜다. 분산 파일 시스템에는 구글이 자체 개발한 '콜로서스(Colossus)'가 사용된다.

-- 각 노드에 컬럼형 캐시 --
컴퓨팅 층의 각 노드는 데이터 분석용 컬럼(열)형 캐시가 탑재되어 있어 스토리지 층에서 데이터를 로딩하지 않아도 분석 처리가 가능한 구조로 되어 있다. 따라서 스토리지 층의 성능을 의식하지 않고 컴퓨팅 층의 노드를 늘리는 것만으로 데이터 분석 처리 성능을 스케일아웃으로 증강할 수 있다.

기존의 DB 중에는 트랜잭션 처리를 담당하는 로우(행)형 테이블과는 별도로 데이터 분석용 컬럼형 테이블을 마련해 데이터 분석 성능을 향상시켜야 하는 것이 있다. 반면, AlloyDB for PostgreSQL은 컬럼형 캐시를 통해 데이터 분석 성능을 향상시킨다. 어떤 노드에 어떤 데이터를 컬럼 형태로 캐시(Cache; 임시저장소에 저장)할 지에 대해서는 구글이 기계학습을 통해 개발한 AI(인공지능)가 판단한다.

AlloyDB for PostgreSQL에서의 트랜잭션 처리는 프라이머리 노드가 데이터베이스 스토리지 엔진 층에 대해 트랜잭션 로그(WAL, Write Ahead Log)를 입력한 시점에서 완료된다. 분산 파일 시스템으로의 DB 블록 저장은 DB 스토리지 엔진 층이 비동기 방식으로 실행한다. 프라이머리가 갱신한 로그는 프라이머리에서 레플리카의 각 노드로 스토리지 층을 통하지 않고 직접 전송한다.

트랜잭션 처리는 프라이머리의 노드만이 담당하는 구조이기 때문에 처리 성능은 스케일아웃 방식이 아니다. AlloyDB for PostgreSQL의 트랜잭션 성능은 프라이머리 노드의 하드웨어 성능에 비례해 '스케일업' 방식으로 향상된다.

-- 언어모델이 점점 똑똑해져 --
이어서 AI에 관한 발표를 살펴보자. 구글의 피차이 CEO는 구글 I/O 기조강연에서 글의 내용을 이해하거나 새롭게 생성할 수 있는 언어모델로 불리는 2가지 AI를 소개했다. 하나는 자연스러운 질의응답이 가능한 AI인 'LaMDA2', 다른 하나는 자연어에 관한 다양한 태스크를 하나의 모델로 처리할 수 있는 범용 AI인 'PaLM(팜)'이다.

AI Test Kitchen이 구비하고 있는 데모 기능은 세 가지다. 첫 번째는 사용자가 어떤 장소의 이름을 제공하면 그 장소에서 일어날 것 같은 재미있는 일들을 AI가 창작하는 'Imagine It' 기능이다. 예를 들어 '바다에서 가장 깊은 장소'라고 입력하면 AI는 ‘해저에는 거대한 뱀과 같은 생물이 당신의 머리 위를 헤엄치고 있습니다. 마치 곰치가 손을 흔드는 것처럼 보이네요’라는 등의 문장을 창작한다.

두 번째는 사용자가 어떤 태스크를 주면 그 태스크를 처리하기 위한 To Do 목록을 AI가 만들어내는 'List It' 기능. 예를 들어 '텃밭을 만들고 싶다'라고 입력하면 AI는 텃밭을 가꾸기 위한 To Do 목록을 '텃밭 종류 고르기', '모종 사오기', '물 뿌리기' 등으로 창작한다. 또한 텃밭에서 채소를 재배할 때의 유의점 등도 알려준다.

-- ‘편견’ 제거가 목적 --
구글이 AI Test Kitchen을 공개하는 목적은 언어모델을 둘러싼 편견과 신뢰성에 관한 문제를 개선하는 것에 있다. 언어모델은 학습 데이터가 내포하는 편견(바이어스)을 그대로 이어받는다는 문제를 안고 있다. 차별적인 표현이 포함된 문장을 학습하다 보면 차별적인 문장을 생성하게 되는 것이다.

구글은 지난해 구글 I/O 2021에서 ‘람다2(LaMDA2)’의 이전 버전인 '람다(LaMDA)'를 발표한 이래 사내에서 람다를 직원들이 테스트하고 폭력적·차별적 발언을 하지 않는지 체크. 문제가 있는 발언이 발견되었을 때는 개발팀에 연락해 모델을 수정해왔다. AI Test Kitchen 공개를 통해 AI를 개선하는 대응을 사외로도 확대해 가속화해 나갈 방침이다.

-- 논리적인 사고를 할 수 있는 PaLM --
피차이 CEO가 소개한 또 다른 언어모델 팜(Pathways Language Model, PaLM)은 하나의 기계학습모델에서 최대 수 백만 가지 태스크에 대응할 수 있는 범용 AI인 '패스웨이(Pathways)'를 사용해 개발한 것이다. 하나의 기계학습모델로 질문응답과 문서생성, 다단계의 논리적인 사고, 번역, 소스코드 생성 및 수정, 또는 농담 해설 등의 작업을 처리할 수 있다.

피차이 CEO는 팜이 가지고 있는 여러 능력 중에서도 흥미로운 두 가지를 기조강연에서 소개했다. 하나는 팜이 가지고 있는 ‘사고의 연쇄(Chain of Thought)’라고 하는 능력이다.

팜은 어떤 질문할 때 그에 앞서 예제와 답변 사례를 입력하면 예제에서 제시된 답변 패턴에 따라 질문에 답한다. 또한 예제를 줄 때 답변 사례 중 최종적인 답변뿐만 아니라 답을 내기까지의 해법(추론)을 추가해 제공하면 팜은 해법을 포함해 답을 출력할 수 있게 된다.

즉, 팜은 인간이 제시한 해법에 따라 질문에 답한 결과 올바른 답에 도달한 것이다. 이것이 사고의 연쇄다. 이처럼 AI에게 주는 예제와 답변 사례에 대해 연구하는 것이 '프롬프트 엔지니어링'이며 현재 AI 분야에서 주목 받고 있다.

피차이 CEO가 소개한 팜의 또 다른 능력은 다국어 대응이다. 단순히 기계 번역이 가능한 것뿐만 아니라, 팜은 한 언어로 기술된 문장을 배우고 이를 통해 얻은 지식을 바탕으로 다른 언어로 질문 응답을 할 수 있다.

-- 이미지와 언어를 조합해 검색 --
피차이 CEO는 구글이 개발한 고도의 AI를 소비자를 대상으로 제공하는 서비스에 탑재할 계획도 밝혔다. 예를 들어 '구글 검색'에는 머지않아 이미지와 언어를 조합해 검색 쿼리에 이용할 수 있는 멀티모달(Multi Modal) 기능이 탑재된다.

람다2와 팜이 가지고 있는 자연어 능력을 구글어시스턴트에 탑재할 계획은 밝히지 않았다. 람다2와 팜은 파라미터 수가 수 백억에 달하는 매우 거대한 신경망으로 방대한 컴퓨터 자원을 소비한다. 수 천만 명이 동시에 사용하거나, 스마트폰으로 가동시키는 것은 아직 어렵다. 하지만 머지않아 소비자용 서비스나 스마트폰에 탑재될 것으로 전망된다.

-- AMD와의 제휴 강화--
기업용 보안에 대해서는 구글 I/O 전후로 새로운 시책 2가지가 발표되었다. 하나는 ‘컨피덴셜 컴퓨팅(Confidential Computing)’에 관련된 미국 AMD와의 제휴 강화이다. 컨피덴셜 컴퓨팅이란 프로세서가 탑재하고 있는 보안 기능을 사용해 가상머신(VM) 메모리의 데이터를 암호화하는 기술이다.

지금까지도 주요 퍼블릭 클라우드에서는 VM 스토리지에 저장된 데이터 및 VM과 스토리지 간에 전송되는 데이터는 암호화되었지만, 메모리 상의 데이터는 암호화되지 않았다.

반면, 컨피덴셜 컴퓨팅에서는 데이터가 메모리 상에 있고 프로세서가 처리하는 동안에도 데이터가 암호화된다. 이 때문에 하이퍼바이저 등 VM 아래에서 움직이는 소프트웨어에 보안의 취약성이 있어도 사용자의 데이터를 읽을 수 없다. 마찬가지로 퍼블릭 클라우드 운영 측도 데이터를 읽을 수 없다.

구글은 2020년 7월부터 구글 클라우드에서 AMD 서버용 프로세서 EPYC에 탑재된 보안 기능 AMD SEV(Secure Encrypted Virtualization)를 이용해 컨피덴셜 컴퓨팅 대응 VM을 제공하고 있다.

올 5월 10일, 구글과 AMD는 AMD가 프로세서에 구현해온 보안 기능을 구글 보안팀인 '프로젝트제로'와 구글 클라우드보안팀이 리뷰해 그 안전성을 검증하는 프로젝트를 발표했다.

-- 구글, 19가지 문제점 발견 --
프로젝트제로 팀이 검증한 것은 3세대 EPYC 프로세서(개발코드명은 밀란)의 보안 기능이다. 3세대 EPYC 프로세서에는 새로운 보안 기능인 SEV-SNP(Secure Nested Paging)가 추가되어 있다. SEV-SNP는 서버 하드웨어의 물리적 현상(전원 전류 등)을 관찰해 데이터가 있는 곳을 추정하는 ‘사이드채널 공격’을 방어할 수 있는 기능이다. 실제로 사이드채널 공격을 방어할 수 있는지에 대해 물리적 테스트 등도 포함해 보안을 검증했다.

프로젝트제로 팀이 검증한 결과, AMD의 펌웨어 등에서는 19가지의 문제점이 발견되었다고 한다. 19가지 문제점에는 펌웨어의 보안 취약성이 포함되어 있어 악용되면 메모리 상의 데이터가 파괴될 우려가 있었다. 이미 AMD는 구글로부터 지적된 문제점을 수정한 상태이다.

보안에 관한 구글의 또 다른 새로운 대응은 'Assured Open Source Software(OSS)'로, 5월 18일에 발표되었다. 다양한 OSS에 관련해 구글이 취약성 분석 및 보안 테스트 등을 실행해 검증한 패키지를 구글 클라우드 고객에 제공할 방침이다.

최근에는 ‘Log4j’ 등의 OSS에 존재하는 보안 취약성을 노린 사이버 공격이 증가하고 있다. Assured OSS는 이러한 OSS의 보안 체크를 구글이 실시하는 것이다. 지금까지도 구글은 사내 개발자를 대상으로 보안팀이 체크를 끝난 OSS 패키지를 제공해왔다고 한다. 이것을 구글 클라우드 고객에게도 확대하는 것이다. 서비스 개시 시기는 올 하반기가 될 예정이다.

구글이 실시하는 AMD의 펌웨어 및 OSS의 보안 체크는 자사의 공급망에 대한 공격을 막는다는 점에서 중요한 대응이라고 할 수 있다.

 -- 끝 --

Copyright © 2020 [Nikkei Computer] / Nikkei Business Publications, Inc. All rights reserved.

목차