니케이로보틱스_2020/11_구글 출신자가 창업한 드론 벤처, Skydio

책 커버 표지
목차

요약

Nikkei Robotics_2020.11 Cool Topic (p3-11)

구글 출신자가 창업한 드론 벤처, Skydio
심층학습으로 3차원 지도, 비(非) GPS 옥내 자유 비행

미국 구글의 연구 조직 ‘X’에서 드론 프로젝트 ‘Project Wing’을 주도했던 기술자들이 지금은 구글을 떠나 새로운 드론 벤처기업을 창업했다. 그 이름은 스카이디오(Skydio)다. 일본에서는 아직 지명도는 없지만 2014년에 창업한 실리콘밸리의 기업으로, 지금까지 약 180억엔의 자금을 조달한 거대 벤처기업이다.

“드론 분야는 중국 DJI의 1강 체제다” “이제 와서 DJI에는 이길 수 없다”라고 생각하는 사람도 많을 것이다. 그러나 Skydio는 새로운 방식으로 승부에 나섰다. 심층학습 기술을 풀 활용해 드론이 스스로 공간 내부의 3차원 지도를 자동으로 만들 수 있도록 한 것이다.

초당 100만개의 점군을 경신하면서 주위 360도의 3차원 지도를 만든다. 그리고 이 3차원 지도를 바탕으로 동적으로 비행 경로를 계획하고 장해물도 회피한다. 예를 들면, 나뭇가지가 많은 산림 속이나 GPS 신호가 없는 옥내 환경, 교량 밑 등 기존의 드론으로는 자율비행이 어려웠던 복잡한 공간에서 드론이 직접 궤도를 계획해 안정적으로 무인 비행할 수 있도록 했다. 장해물이 많은 환경에서도 그것들을 피하면서 안정적으로 비행할 수 있기 때문에 숲 속을 러닝 중인 사람을 놓치지 않고 완벽하게 자동 추적할 수 있다.

지금까지도 자율비행 드론은 있었지만 그 대부분이 전망이 좋고 GPS를 활용할 수 있는 옥외 환경을 대상으로 한 것이다. 삼림 속이나 옥내 공간에서 visual SLAM(
Simultaneous Localization and Mapping)에 의해 자유롭게 무인 비행할 수 있는 드론은 적었다. 주위의 3차원 구조를 인식해 장해물을 회피하는 기능 자체는 DJI도 실장하고 있다. 그러나 “우리의 드론은 복잡한 환경에서 심층학습 기술을 바탕으로 장해물을 회피하는 최초의 드론이다”(Skydio).

미중 마찰의 영향으로 DJI 등 중국제 드론을 꺼리는 분위기도 있다. Skydio는 실리콘밸리에 본사를 두고, 드론도 미국 내에서 제조한다. 기술력뿐만 아니라 안전보장 상의 관점에서도 Skydio처럼 중국제가 아닌 드론을 원하는 수요가 착실하게 증가하고 있다. Skydio의 드론은 이러한 수요에도 대응할 수 있다.

-- MIT의 연구를 바탕으로 창업 --
Skydio의 공동창업자이자 CEO인 Adam Bry 씨와 CTO인 Abraham Bachrach 씨는 모두 구글 출신이지만 그 이전에는 미국 MIT에서 고정익기의 자율비행 연구를 진행했었다. Skydio의 드론도 큰 틀에서는 이 때의 기술을 베이스로 하고 있다.

공동창업자들이 MIT 시절에 특히 주력하고 있던 것은 나뭇가지 등의 장해물을 고속으로 검출해 회피하는 기술이다. 15년에 MIT가 고정익기를 시속 50km 정도의 고속으로 비행시켜, 나뭇가지 사이를 누비듯이 순식간에 회피하는 동영상을 기억하고 있는 사람도 있을 것이다. MIT는 장해물 회피를 위해 특정 거리(시차(視差))에 있는 물체에 대해서만 스테레오비전 처리를 하는 ‘pushbroom stereo’라는 알고리즘을 고안. 이를 통해 스테레오의 실시간성을 향상시켜, 고속 비행을 하고 있어도 스테레오 카메라로 순식간에 장해물을 검출해 피할 수 있도록 했다. 검출한 후의 동작(궤도) 계획에 대해서도 경량의 알고리즘을 채용해 고속 드론이 나뭇가지를 교묘하게 피하면서 자유자재로 비행하는 기술을 실현했다.

자율주행 차량이라면 주변 환경의 인식∙검출은 미국 벨로다인 등의 3차원 LIDAR를 이용하면 된다. 그러나 드론은 경량화가 필요하기 때문에 3차원 LIDAR와 같은 대형 센서는 장착하기 어렵다. 또한 지상을 주행하는 자율주행 차량용으로 개발된 3차원 LIDAR는 수평방향에 대해서는 360도의 화각이 있지만 수직방향의 화각은 한정적이어서 공중을 비행하는 드론에는 그다지 적합하지 않다. 만약 비행 중에 전방에 수평으로 펼쳐진 장해물이 있다면 상하방향으로 피할 수밖에 없다. 그 경우, 센서에 수직방향에 대한 충분한 화각이 없다면 피하는 방향을 적절하게 결정하지 못하기 때문이다.

Skydio의 드론도 이 MIT의 고정익기와 마찬가지로 스테레오 카메라를 베이스로 한다. 주력 제품 ‘Skydio 2’에는 전면에 있는 공중촬영용 4K 카메라와는 별도로 내비게이션 전용 스테레오 카메라가 총 6개나 탑재되어 있다. 각 카메라는 어안렌즈이며 화각은 200도다. 이것으로 기체 주위 360도를 사각 없이 계측한다.

구체적으로는 기체 상부에 위를 향하는 어안렌즈 카메라 3개, 하부에 밑을 향하는 어안렌즈 카메라 3개를 탑재한다. 스테레오로 거리 계측을 할 때는 각 면 3개 중 임의의 2개를 조합한다. 이를 통해 상측과 하측, 각각의 반구의 점군(거리 이미지)을 취득해, 최종적으로 상반구와 하반구를 통합해 360도의 점군을 생성한다.

또한 어안렌즈를 설치하면 드론의 로터가 화각 내에 들어가 방해가 된다. 이 때문에 Skydio 2에서는 4개 있는 로터 중에 절반을 하측 면에 장착, 각각의 로터의 반대 측 위치에 4개의 어안렌즈를 설치하도록 했다. 4개의 로터 중 앞부분의 2개를 하부에 아래를 향하게 장착하고, 그 뒤편에 해당하는 윗면에 어안렌즈를 설치한다. 뒷부분은 이 반대다. 이렇게 함으로써 4개의 로터 중에 적어도 2개는 어안렌즈의 화각 내에 전혀 들어가지 않는다. 나머지 2개도 어안렌즈에서 떨어진 위치에 달 수 있다. 6개의 카메라 중 나머지 2개는 본체 중앙부에 설치했다.

공동창업자들의 MIT 시절의 연구와 달리, Skydio 창업 후의 현재는 심층학습 기술을 활발하게 사용한다. 때문에 Skydio는 MIT 시절에 축적한 스테레오 비전의 자율비행 기술을 베이스로 하면서도, 주위의 3차원 구조를 인식하는 부분에 최신 심층학습 기술을 적용해 복잡한 환경에서의 안정된 비행을 실현하며 제품화에 성공했다.

-- ALSOK가 옥내 경비에 도입 --
스테레오 카메라라는 경량의 센서를 탑재해, 주위 360도의 모양을 완전히 인식해 자율 비행할 수 있는 Skydio의 드론은 미국 내에서 평판을 받고 있다. 높은 자율성으로 조종 오퍼레이터가 없어도 가능하기 때문에 유저가 운용하기 쉬운 점이 평가를 받고 있다.

예를 들면, 매사추세츠주 벌링턴 경찰은 수색 구조 임무에서, 유타주 Weber County Search and Rescue의 구조팀은 부상한 하이킹 관광객의 상황 인식과 감시에, 캘리포니아주 출라비스타 경찰은 무장한 용의자의 추적 등에 각각 Skydio의 드론을 이용하고 있다. Skydio는 군사 전용의 기종을 투입해 미국방성으로부터 ‘trusted drone platform’으로서 인정을 받을 정도다.

이러한 미국 내의 평판을 듣고 일본의 유저도 Skydio의 드론을 사용하기 시작했다. 우선은 NTT서일본의 자회사에서 드론을 이용한 인프라 점검 등을 전개하는 Japan Infra Waymark(JIW)가 대량 도입했다. 미국 내에서는 보안, 감시와 같은 옥외에서의 용도가 주였다. 그러나 스테레오 카메라로 주위 360도 3차원 지도를 구축하면서 자율 비행하는 Skydio의 드론은 GPS 신호가 없는 옥내나 교량 밑 등의 비행에도 상당히 적합하다. 이 때문에 JIW는 일본 사양의 기종 개발을 Skydio에 요청해 인프라 점검용 기체 ‘J2(Skydio R2 for Japanese Inspection)’가 완성. 지금까지 180개의 기체로 19년 1년 동안에만 1,500번에 달하는 철탑이나 교량 등의 점검에 이용했다.

GPS 신호가 없는 옥내 환경에서도 확산되기 시작했다. Skydio의 높은 기술에 주목해 대형 경비업체인 ALSOK이 옥내 순찰 경비용으로 2기 도입했다. JIW의 소개로 도입해, 위에서 언급한 인프라 점검용 기체 ‘J2’를 ALSOK용으로 주문 제작했다. 21년도 안에 순찰 경비에 본격 이용할 계획이며, 20년 7월에는 ALSOK이 상주 경비를 담당하는 ‘도쿄 스카이 트리 타운’에서 실증실험을 했다.

-- 에스컬레이터 상부를 비행 --
ALSOK은 경비원의 노동력 부족에 대처하기 위해 지금까지 ‘REBORG-Z’ 등의 경비 로봇을 자사 개발해 빌딩이나 공항 등에 도입했다. 그러나 드럼통 크기의 대형 로봇은 이동 속도가 사람보다 느렸다. 또한 계단이 있는 장소는 어려웠기 때문에 경비 업무의 극히 일부만 대체할 수 있었다.

드론이라면 고속 이동이 가능하고, 계단이나 에스컬레이터처럼 차륜형 로봇으로는 대처할 수 없는 환경에서도 3차원적으로 쉽게 이동할 수 있다. 옥내 경비에 드론이 적합하다는 점은 이전부터 업계에서 인식되고 있었다. 그러나 기존의 드론은 visual SLAM 등의 기능이 미성숙하고, 옥내 환경을 자율 비행시켜 무인으로 운용하기에는 어려움이 있었다. 심층학습 기술을 풀 활용해 주위의 3차원 구조를 완벽하게 인식할 수 있는 Skydio의 드론이 등장함으로써 드론에 의한 옥내 무인 순찰이 현실적이 되었다.

ALSOK은 조종형 드론은 이미 도입을 했으며, 태양전지 패널 점검이나 외벽 조사 사업도 전개하고 있지만 조종을 담당할 오퍼레이터의 육성이나 조달에 어려움을 겪었다. 노동력 부족에 대한 대처로 로봇에 주목했음에도 불구하고 조종할 오퍼레이터가 필요하다는 것은 본말전도다. 따라서 무인 운용이 가능한 드론을 찾고 있던 참이었다. “타사의 자율형 드론도 검토했지만 Skydio를 선택한 가장 큰 이유는 드론 가격이 십만 엔대라는 것이었다. 도쿄 스카이 트리 타운과 같은 대형 시설의 경비라면 최저 5기는 준비해야 한다. 1기에 300~400만 엔의 기체는 비용 면에서 부담되는 가격이다”(ALSOK 개발기획부 구와바라(桑原) 씨).

또한 JIW는 NTT서일본그룹 내의 드론 사업이 19년에 스핀아웃해 창업했다. 인프라 점검을 자동으로 시행하기 위해 전세계의 드론업체를 10사 이상 방문했다. 그 중에 유망한 몇 개 업체에는 JIW가 개발비를 제공해 인프라 점검용 기체 개발을 의뢰했고, 그 중에 하나가 Skydio였다. “Skydio는 처음에 컨슈머용으로 조준을 맞췄지만 우리들이 일본의 인프라 점검 사정을 전달하자 산업용 개발도 강화해 주었다. Bry CEO는 일본에 여러 번 방문하며 교량 점검 현장을 시찰. 교량의 상판 뒤쪽을 촬영할 수 있도록 촬영용 카메라가 바로 위를 향하도록 개조해 J2를 완성할 수 있었다”(JIW의 시바타(柴田) 사장).

ALSOK은 Skydio의 드론을 어떻게 이용할까? 도쿄 스카이 트리 타운에서의 순찰 경비 업무를 간단히 살펴보자. 적용한 곳은 2곳. 지상 350m 높이에 있는 전망대와 상점가 등이 있는 상업시설에서 각각 1개씩 배치했다. 사전에 수동 조종으로 3차원 지도를 작성해 두고 경로 등을 지정. 순찰 경비 때는 스테레오 카메라로 자기 위치를 추정하면서 그 경로를 무인으로 순찰한다. 소화기나 쓰레기통 등 경비원이 자주 확인하는 포인트를 경로로 지정한다. 드론 촬영 영상은 경비실 등에서 실시간으로 확인할 수 있도록 했다.

상업시설부는 1층부터 4층까지 복수의 층으로 구성되어 있기 때문에 드론은 에스컬레이터 상부 공간을 비행하며 층 간을 이동한다. 차륜형 경비 로봇처럼 엘리베이터를 연계시킬 필요는 없다. 드론은 1회 충전으로 23분간 비행할 수 있으며, 1층부터 4층까지라면 1회 비행으로 커버할 수 있다.


-- 왜 스테레오에 심층학습일까? --
여기서부터는 Skydio가 드론에 적용한 심층학습 기술의 상세에 대해 살펴보자. 드론에서 심층학습 기술이라고 하면 자동 추적을 하기 위해 인물 등을 검출하는 등의 용도를 생각하기 쉽다. 그러나 Skydio가 적용하고 있는 것은 그러한 용도가 아니다. 앞에서 말했듯이 6개의 스테레오 카메라에 의한 거리 이미지 추정을 위해 심층신경망(DNN)을 이용한다.

Skydio가 스테레오비전에 심층학습 기술을 채용한 것은 밀집(dense)한 거리 이미지를 얻기 위해서다. 고전적인 스테레오비전에서는 특징점 베이스로 좌우 카메라간 매칭을 하는 경우가 많고, 그 경우 얻어지는 시차(視差)는 이미지 내에서 밀도가 낮다(sparse). 얻어지는 점군(3차원 지도)도 누락이 많은 듬성듬성한 것이 된다. 이것으로는 장해물 회피나 원활한 궤도 계획을 실현하기 어렵다. 또한 Skydio는 전선이나 나뭇가지처럼 가는 장해물도 완벽하게 검출해 회피할 수 있도록 하는 것이 목표기 때문에 이러한 작은 장해물을 누락할 가능성이 있는 밀도가 낮은 거리 이미지는 바람직하지 못하다.

-- SegNet의 고안자가 개발 --
그래서 Skydio는 스테레오비전용 DNN ‘GC-Net(geometry and context Network)’을 개발했다. 기계학습에 의한 사전 지식을 풀 활용해, 텍스처가 없는 하얀 벽이나 하늘처럼 명시적인 특징점이 없는 영역에서도 이미지 전체의 콘텍스트로 거리 이미지를 추정할 수 있도록 했다. 예를 들면 하얀 벽이라도 이미지 전체를 글로벌하게 바라보면 그 영역을 벽이라고 추정해서 좌우 이미지 간 시차를 추정할 수는 있다. Skydio는 이를 심층학습 기술을 통한 기계학습으로 실현했다.

이 Skydio의 GC-Net을 개발한 것은 DNN으로 semantic segmentation을 실현하는 ‘SegNet’의 고안자 Alex Kendall 씨다.

Alex Kendall 씨는 영국 캠브리지대학 박사과정에 있을 때, 16년~17년에 걸쳐 인턴으로 Skydio에서 연구개발을 했다. 그 때 직접 심층학습 연구의 최첨단 지식을 투입해 드론용으로 GC-Net을 고안했다. Skydio에는 공동창업자를 비롯해 MIT 항공계 출신 기술자들이 많다. 그러나 Kendall 씨처럼 심층학습 기술의 영역에서 저명한 업적을 올린 기술자도 관여하고 있다.

-- 좌우의 매칭에 표현 학습 --
Skydio의 GC-Net은 어떤 구성일까? 최대 핵심은 좌우 이미지 사이에서 상관 정도를 추측할 때 심층학습 기술에 의한 표현학습을 이용하고 있다는 것이다.

일반적으로 고전적인 스테레오비전의 경우, 밀접한 거리 이미지를 얻기 위해서는 좌우 이미지 사이에서 국소적인 화소 패치마다 상관 연산을 하는 경우가 많다. GC-Net은 이 좌우에서의 매칭을 실시할 때의 ‘코스트 함수’에 대해 인간이 자의적으로 설계한 함수가 아니라 기계학습으로 도출하도록 했다. DNN의 출력부에서 교사데이터로서 시차를 주고, 그 오차를 DNN 내부에서 역전파시켜 코스트 함수를 간접적으로 학습시킨다.

구체적으로는 우선 DNN의 전단계에서 좌우 이미지 각각에 독립적으로 특징을 추출한다. 그리고 좌우 각각의 라인에 반대측의 이미지를 주입해 시차를 추정할 수 있도록 한다. 주입 후에는 이미지 높이hⅹ폭w라는 차원이 아니라, 시차 방향에 대해서도 차원을 설계해 3D Convolution 연산을 한다. 마지막으로 시차 차원에 대해 soft argmax 연산을 실시해 화소 별 시차 값을 서브 픽셀 레벨에서 얻는다. 통상의 argmax 연산을 하면, 시차는 화소로 이산화되며 정수 값으로만 얻을 수 있지만 GC-Net에서는 soft argmax를 이용해 보다 고정밀도로 시차를 얻을 수 있도록 했다.

-- KITTI로 당시 최고 정밀도 --
이 GC-Net은 자율주행용 벤치마크 ‘KITTI’에서 당시에 세계 최고의 정밀도를 실현했다. GC-Net의 논문 자체는 그 후에 컴퓨터비전 분야에서 많은 논문에 인용되며, 스테레오비전에서 GC-Net처럼 코스트 함수를 도출하는 어프로치는 확산되었다. 그러나 GC-Net 자체는 3D Convolution 연산 등이 있어, GPU ‘TITAN X’를 이용해도 프레임 속도가 1프레임/초에 머물렀다. 이대로는 민첩한 장해물 회피가 불가능하기 때문에 Skydio는 그 후에 GC-Net을 경량화하고, TITAN X 상에서 1000프레임/초로 작동되도록 했다. Skydio 2에는 모바일용 GPU ‘Tegra X2’를 탑재했다.

또한 Skydio의 드론은 어안렌즈를 이용하고 있어 왜곡이 크다. 옥외를 비행하는 드론에서는 렌즈의 온도 변화에 의한 왜곡 변화량도 커지기 때문에 온도에 의한 왜곡 수차의 보정도 하고 있다. Skydio는 최초 기종 ‘Skydio R1(현재는 판매 종료)’에서는 내비게이션용 카메라에 글로벌 셔터 센서를 이용했지만 Skydio 2에서는 저비용화로 인해 롤링 셔터의 CMOS 센서로 바꿨다. 화소 별 촬영 타이밍의 차이도 보정하고 있는 것으로 보인다.

Skydio의 오피스 내를 비행시켜 보았다. 하얀 벽과 파란 벽, 천장 등 텍스처가 적은 영역에서도 점군은 끊어지지 않고 파탄 없이 주위의 3차원 구조를 추정할 수 있다는 것을 알았다. 또한 자전거의 바퀴처럼 작은 물체도 검출할 수 있었다.

자기위치 추정을 위한 visual inertial odometry(VIO)에 대해서는 어안렌즈의 이미지를 바탕으로 특징기술자 ‘SIFT’ 등으로 희박한 특징점을 찾아 추적하고 있는 것 같다. 동작 계획에 대해서는 비선형 model predictive control(MPC)를 채용한다.

 -- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

TOP