책 커버 표지
텔레커뮤니케이션_2018/08_영상 IoT의 본격화
  • 저자 : リッコテレコム
  • 발행일 : 20180725
  • 페이지수/크기 : 72page/28cm

요약

Telecommunication_2018.8 특집 요약 (p6-23)

영상 IoT의 본격화
가속 되는 ‘공간’의 지능화

AI로 영상을 분석하여 사람이나 사물의 움직임을 인식하는 ‘영상 IoT’가 본격화되기 시작하였다. 카메라를 센서 디바이스로 활용함으로써 지금까지 보지 못했던 정보를 가시화하고 생산성과 매출 향상 등의 성과를 창출하는 케이스가 속속 등장하고 있다. 소매, 제조, 농업 등 다양한 업계에서 시작된 영상 IoT의 다양한 시도를 소개한다.

Part 1. 다양한 업계로 확산되는 영상 IoT
가속화 되는 ‘공간의 지능화’


카메라 영상을 AI가 분석하여 공간 안의 사람과 사물의 움직임이나 변화를 완벽하게 알 수 있다. 그런 영상 IoT의 활용이 소매, 제조, 교통 등 다양한 분야로 확산되고 있다. 의외로 구입이 용이하다는 점도 보급의 순풍으로 작용하고 있다.

Ambient Intelligence(환경지능)라는 말을 들어본 적이 있을 것이다. ‘환경 그 자체에 지능이 내장되어 있다’는 것을 의미하는, 1990년대 말에 생겨난 키워드다. 사람이나 사물의 움직임이나 환경 변화 등을 센싱하여 가시화하거나 적응하는 액션을 취함으로써 사람의 활동을 지원하려는 생각이다. 90년대 말에는 ‘꿈’에 불과한 이야기였지만 IoT가 본격화된 현대의 우리들에게는 충분히 현실 가능한 목표다.

그러나 하나의 큰 과제가 있다. 우리들이 생활하고 일을 하는 공간에 무수한 센서를 설치하고 네트워크로 연결해야만 한다. 소형 경량에 저비용 센서, LPWA와 같이 저요금 통신 서비스가 등장하였지만 그에는 역시 방대한 시간과 비용이 든다.

-- 무수한 센서는 필요 없다 --
이러한 수고를 덜고 한달음에 공간 전체를 센싱할 수 있는 가능성을 갖고 있는 것이 ‘영상’이다.

지능화하고 싶은 공간을 카메라로 촬영하고, 그 영상을 AI로 분석하면 영상에 비치는 사람이나 사물의 상태나 움직임을 인식할 수 있다. 카메라를 센서로서 사용하는 ‘영상 IoT’다. 영상 IoT는 사람이나 사물에 일일이 센서를 장착할 필요는 없다.

온도나 습도와 같은 지표도 온도계 등의 표시 장치가 있다면 그것을 촬영하여 AI에게 학습시키면 된다. 일부러 통신 기능이 있는 계측기를 만들 필요가 없는 것이다. 사람이 눈으로 보고 인식∙판단하고 있는 것은 거의 영상 IoT로 대체할 수 있다. 게다가 사람이 하는 것보다 훨씬 정확하고 고속이다.

이러한 사실은 영상의 고정밀화나 카메라의 저렴화, 이미지인식 AI의 진화와 같은 다양한 요소가 결합됨으로써 가능해졌다. 통신기술의 발전도 그 하나다. 무선통신에 의해 대용량의 영상 데이터를 전송할 수 있게 되면서 카메라 설치 장소에 대한 제약이 없어져 옥내에서도 옥외에서도 영상 IoT를 사용하여 공간을 지능화할 수 있다.

-- 일본에도 있는 무인 점포 --
이 영상 IoT의 활용이 앞서고 있는 곳이 소매업이다. IoT 플랫폼이나 이미지해석 AI 등을 개발∙제공하는 OPTiM과, 공업용 간접자재를 판매하는 MonotaRO가 2018년 4월에 문을 연 ‘모노타로 AI 스토어’ 매장이다. 이곳은 무인 점포로, 이용객은 스마트폰 앱으로 입구 게이트를 열고 들어가 상품에 달린 바코드를 읽어서 결제한다. 매장에는 5대의 카메라가 설치되어 있어 방문객 수나 속성, 행동을 AI가 인식하고 있다. 목적은 방범이나 고객의 방문 상황을 분석하는 것이다.

무인 점포로는 미국 아마존의 ‘Amazon Go’가 유명하다. 그러나 고객이 손에 든 상품까지 영상으로 인식하여 결제까지 하는 Amazon Go와는 달리, 이 ‘모노타로 AI 스토어’에서는 결제는 바코드와 스마트폰 앱으로 한다. 카메라의 목적은 어디까지나 사람의 속성이나 행동 분석이다. 이유는 비용이다.

Amazon Go는 다수의 카메라를 설치하여 사람과 상품을 빠짐없이 감시하고 있다. 일반적인 소매점에 설치하기에는 비현실적인 비용이다. 한편, “우리들의 시스템이라면 거의 동일한 크기의 점포에서 설치 카메라는 5대. 현실적인 출점 비용이다”라고 옵팀 플랫폼사업본부의 야마모토(山本) 씨는 말한다.

-- ‘구입하지 않은 고객’도 가시화 --
-- 음료업체에도 데이터를 판매 --
-- 리피터의 행동을 상세 분석 --
-- 중소 공장에서 ‘간편 IoT’ --
-- 역에서의 위험 행동도 자동 검출 --


Part 2. 1차산업에서 시작한 현장 혁신
카메라와 AI로 스마트 농업

고령화와 후계자 부족, 생산성 저하에 고민하는 일본의 1차산업. 이를 해결하기 위해 영상 IoT의 활용이 추진되고 있다. 카메라를 달고 Wi-Fi로 비행시키기만 하면 되는 간편한 것부터 드론을 활용한 공중 촬영까지 다양한 시도를 소개한다.

미니토마토의 색깔이나 크기로 다음날의 수확량을 예측하여 작업에 필요한 인원을 확보하고 바이어에게 출하 예측을 전달한다. 농원에서는 당연한 이 작업을 영상 인식 AI에게 맡기려는 시도가 추진되고 있다. 야마나시현의 농업법인 Salad Bowl과 NTT동일본 등이 야마나시현 호쿠토시에서 실시하고 있는 농업 IoT의 공동 실증이다.

비닐하우스 안을 이동하는 작업 대차에 카메라를 장착하여 토마토의 모양을 촬영한다. 이를 Wi-Fi로 클라우드에 업로드하여 AI의 이미지 해석을 통해 다음날에 수확 가능한 토마토를 식별한다. 지금까지는 경험을 축적한 작업자가 수확할 수량을 예측해 왔다. NTT동일본의 사카이(酒井) 씨에 따르면 “노하우를 갖고 있는 사람이 예측한 결과를 웃도는 정밀도로 예측할 수 있었다”라고 말한다.

예측 정밀도가 높아지면 수확이나 포장 출하 등의 작업 별로 적정한 인원을 배치할 수 있다. 배송 트럭의 배치도 적정화할 수 있다. 또한 수량 예측의 노하우를 갖고 있는 재배 책임자의 부담을 줄일 수 있고 업무 스킬의 평준화도 실현할 수 있는 등 이점은 크다.

-- 재배 초보자를 원격 지도 --
농업이나 축산, 수산업에서 지금 영상 IoT에 의한 현장 혁신이 시작되고 있다. 작업자 부족이나 낮은 생산성과 같은 과제를 해소할 가능성이 있다.

NTT동일본은 야마나시시(市), JA프루트 야마나시, Synaptech와 공동으로 작년에 개인 농가를 대상으로 한 농업 IoT 프로젝트도 실시하였다. 온습도 센서로 논밭의 환경 변화를 원격 감시하고 카메라로 작물의 상태도 촬영한다. 이들 데이터를 바탕으로 JA가 재배자에게 영농 지도를 한다.

이 케이스에서는 AI에 의한 영상 분석이 아니라 사람이 영상을 보고 작물의 상태를 판단하고 있지만 그래도 효과는 크다. JA는 영상이나 환경 데이터를 바탕으로 원격 지도가 가능하기 때문에 에너지를 절약할 수 있다. 재배자는 경험이 적어도 안정적으로 재배할 수 있고, 온도 등을 원격으로 감시함으로써 불필요하게 돌아다니며 살필 필요가 없다. 20%의 가동 삭감 효과가 상승했다고 한다. 또한 하우스 내에 이상을 감지한 경우에는 자동적으로 비상 경고를 통지하거나 위협을 가함으로써 도난이나 야생동물 피해를 방지할 수도 있다.

-- 소를 사고사에서 구하라! --
-- 해수어 양식에도 영상 IoT --
-- 용도 개척의 비장의 카드는 드론 --
-- 공중촬영의 활용사례는 아직도 많다 --


Part 3. 방범 카메라도 새로운 차원으로
가려져 있는 얼굴도 찾아낸다


다양한 영역에 영상 IoT가 확산되는 가운데 예부터 우리들의 안전을 지켜준 방범 카메라도 AI의 힘을 얻어 진화하고 있다. 방대한 영상 속에서 수상한 인물을 찾아내는 기술을 개발하고 있다.

여기서 문제! 다른 장소와 다른 시간에 촬영한 9장의 사진 속에 같은 인물이 있다. 이를 찾아낼 수 있을까? 사진을 확대하여 선명하게 해서 봐도 찾기 어렵다. 얼굴을 지정해서 “이 사람을 찾아라”라고 하면 몰라도 모든 얼굴을 대조하는 작업은 난이도가 높다. 게다가 이것이 영상이라면 계속해서 사람들이 움직이기 때문에 찾아내는 것은 거의 불가능하다.

-- 동일 인물을 고속 검색 --
그러나 AI에 의한 얼굴 인식이라면 놀랄 정도로 단시간에 특정할 수 있다. 자동 검색한 얼굴 이미지에서 특징을 추출하여 고속으로 대조하여 동일 인물을 특정할 수 있다.

이 기술에 특화된 곳이 NEC다. 강점은 스피드다. 일반적으로는 얼굴을 일일이 대조하기 때문에 작업량은 방대해진다. 10장의 이미지라면 45회, 1,000장이라면 약 50만회, 10만장이라면 약 50억회의 대조가 필요하다. 아무리 컴퓨터를 사용해도 상당한 시간이 걸린다.

이러한 작업을 유사 데이터를 효율적으로 그룹별로 분류하는 독자 기술을 사용하여 고속으로 동일 인물의 얼굴을 특정할 수 있도록 한 것이 NEC의 영상 해석 AI ‘NeoFace Image data mining’이다. “대량의 이미지 속에 가려져 있는 하나의 얼굴을 단시간에 찾아낼 수 있다”(NEC의 Safer City Solution사업부 스즈키(鈴木) 씨).

“기존의 얼굴 대조는 미리 알고 있는 사람만이 대조할 수 있었다. ‘수상한 사람 리스트’에 없는 얼굴을 찾을 수 없다. 그러나 실제로는 ‘그래도 뭔가 식별하고 싶다’라는 요구가 있다. 대량의 이미지에서 동일 인물을 고속으로 특정할 수 있다면 지금까지는 알 수 없었던 정보를 이미지를 통해 얻을 수 있다”

-- “자주 보이는 사람’을 찾아낸다 --
예를 들면 사건, 사고 현장 주변에 빈번하게 나타나는 사람, 특정 장소를 배회하는 수상한 사람, 입퇴장을 반복하는 사람 등 아무런 정보도 없는 상태에서 요주의 인물의 얼굴 리스트를 만들 수 있다.

최근에는 거리에 방범 카메라가 증가하고 있다. 그 영상들을 사용하면 수상한 사람의 이동 경로나 행동을 파악하는 것도 가능하다.

경비 이외의 용도도 있다. 매장이나 대규모 집객시설, 이벤트 회장의 카메라 영상에서 자주 방문하는 단골을 특정할 수 있다. 복수 시설의 카메라 영상을 사용하면 이벤트에 참가한 사람이 그 후에 어떤 매장을 이용했는지 등의 광역의 동선 분석도 할 수 있다.

미아를 수색하는데도 도움이 된다. 이전의 카메라 영상에서 부모를 검색하면 미아가 되기 전의 아이의 얼굴 정보를 얻을 수 있다. 그것을 사용하여 실시간 영상으로 검색하거나 과거의 영상으로 행방을 쫓아 현재 있는 곳을 추정하는 것도 가능하다.

범죄 수사에서도 절도나 방화 등이 빈발하는 지역의 영상에서 자주 등장하는 사람을 특정하는 등 활용할 수 있는 범위는 넓다.

이 얼굴인증 기술은 이 기술만으로도 큰 효과를 발휘하지만 NEC는 사람의 행동이나 사물의 움직임을 자동 인식하여 움직임을 추적하는 행동감지시스템 ‘IAPRO’와 조합하여 제공하고 있다. “얼굴인증 등의 생체인증과 영상 분석을 조합하여 제안하는 것은 최근에 증가하고 있다”라고 스즈키 씨는 말한다.

수상한 사람의 침입이나 배회, 방황 등을 검출할 수 있다. 또한 수상한 물건을 검출했다면 그것을 두고 간 인물까지 특정할 수 있다. 사람이 많이 왕래하는 역 등에서 수상한 물건을 인식하는 것도 가능하다고 한다.

-- 수상한 거동도 AI가 식별한다 --
-- 적외선 카메라와 조합 --


●도입 사례: 베이시아(Beisia)
AI 예측으로 ‘붐비지 않는 계산대’

슈퍼를 이용하는 고객이 가장 스트레스를 받는 것은 계산대 앞의 혼잡이다. 그것을 AI의 영상 해석으로 해소하는 시스템을 도입한 곳이 대형 유통업체 베이시아 미요시점이다. 고객 만족도 향상과 업무 효율화에도 공헌하고 있다.

주말에는 하루 평균 6,000명의 고객이 방문하는 ‘베이시아 슈퍼센터 미요시점’(아이치현). 매장 안에 20대 정도 마련된 계산대 근처에는 계산하는 모습을 지켜보는 한 명의 스태프가 있다.

그녀의 역할은 계산대 대수를 조정하여 혼잡을 미연에 방지하는 것이다. 혼잡해질 것 같으면 계산대 앞의 행렬이 늘어나기 전에 응원 스태프를 부른다. 혼잡이 해소되면 계산대를 접고 원래 자리로 돌아간다. 이른바 ‘사령탑’이다. 필요 없는 계산대를 없애서 사람의 배치를 적정화하면서도 고객은 기다리지 않는다. 그 판단에는 높은 경험과 노하우가 필요하다.

베이시아는 ‘슈퍼센터’라고 부르는 대형점을 중심으로 이러한 사령탑 역할을 배치하고 있는데 미요시점에는 다른 매장과 다른 점이 하나 있다. 이 판단을 도와주는 든든한 ‘어시스트 역할’이 있다. 계산대의 혼잡을 예측해 주는 AI다. 15분 후, 30분 후에 필요할 것으로 예상되는 적정 계산대 대수가 스태프의 스마트폰에 도착한다. “현재 7대, 15분 후에는 9대, 30분 후에는 8대” 이와 같은 방식이다.

일반적인 슈퍼마켓에서는 계산대 앞에 행렬이 생기고 나서야 응원 스태프를 부른다. 미요시점에서는 사령탑 역할과 예측 AI의 활약으로 혼잡 전에 계산대를 추가하여 혼잡을 미연에 방지하고 있다.

-- 영상으로 입점 수와 계산대를 파악 --
-- 응원은 ‘혼잡해지기 전에 부른다’ --
-- 철저한 운용으로 혼잡 개선 --
-- 결함품의 자동 판정도 시야에 --


Part 4. 영상 IoT를 지원하는 네트워크 구축의 포인트
엣지에서 영상은 버린다


영상 IoT에 있어서 최대 걸림돌은 데이터의 대용량화다. 통신 트래픽의 증대는 회선 대역의 핍박, 통신/스토리지 비용의 급증 등 다양한 문제를 초래한다. 고정밀 영상을 효율적으로 다루기 위한 포인트를 정리한다.

영상 IoT의 활용에는 고정밀 동영상 데이터의 취득이 필수다. 구체적으로 어느 정도의 품질이 요구될까? 용도에 따라서도 다르지만 예를 들면 Part1에서 소개한 사람의 동작 감지나 인원수 카운트 등을 하기 위해서는 화질(해상도)은 적어도 HD이상, 프레임 레이트(fps)는 10이 필요하다고 한다. 또한 얼굴인증처럼 사람의 특징을 상세하게 확인하는 용도에서는 풀HD 영상이 필요한 경우도 충분히 있을 수 있다.

네트워크 카메라의 경우는 풀HD 대응의 제품이 일반적이며 최근에는 4K를 지원하는 카메라도 등장하고 있다. 지금은 스마트폰의 카메라도 풀HD 품질을 당연시한다. 시판 웹카메라를 사용하면 수천 엔 정도로 고화질 촬영이 가능하다. 지금은 영상 IoT의 ‘소재’인 고정밀 영상 취득에는 아무런 문제도 없다.

-- 엣지 처리는 필수 --
과제는 영상 데이터의 취급이다. 구체적으로는 영상을 ‘처리하는 장소’와 ‘전송 방법’이 영상 IoT를 실천하는데 유의해야 할 포인트가 된다.

영상 IoT는 기본적으로 대상물을 계속 촬영하여 분석을 하는 어플리케이션으로 데이터를 계속 전송하는 것이다. 고정밀 영상으로 이 방법을 계속하기 위해서는 어디에서 영상을 처리하는가, 어떻게 데이터를 전송하는지가 중요하다.

결론부터 말하면 카메라에 최대한 가까운 엣지에서 영상 처리를 할 필요가 있다. 영상 데이터를 모두 클라우드/데이터센터에 보내는 시스템 설계의 경우는 네트워크 역대를 압박하거나 통신비나 스토리지 비용이 끊임없이 올라가는 등의 문제를 초래한다. 안정적으로 사용할 수 있고 비용 대비 효과가 높은 영상 IoT 시스템을 구축하기 위해서는 엣지 컴퓨팅의 활용이 필수다.

-- 영상 IoT에 필요한 비트 레이트 --
구체적으로 영상 IoT 시스템의 구성을 보기 전에 우선 영상 데이터의 기본을 살펴보자. 현재 사용되고 있는 해상도는 주로 SD, HD, 풀HD, 4K의 4종류다. 해상도는 각각 다음과 같다.

• SD: 720 X 480픽셀
• HD: 1440 X 1080픽셀
• 풀HD: 1920 X 1080픽셀
• 4K: 3840 X 2160픽셀

풀HD 해상도는 SD의 약 6배다. SD에서 인식하지 못했던 것을 인식할 수 있고 촬영 범위가 넓다는 점도 이점이다. 그러나 네트워크의 부하는 무거워진다. 풀HD의 비트 레이트는 SD의 약 5배다.

비트 레이트는 기본적으로 해상도가 높고 움직임이 많은 영상일수록 높아진다. 참고로 인터넷 동영상 서비스는 프레임 레이트가 30fps(1초간 30코마)의 경우, 풀HD에서 8Mbps, HD에서 5Mbps, SD화질에서 1~2Mbps 정도가 일반적이다. 또한 이는 동영상 압축 부호화 방식의 표준 규격인 H.264를 이용한 경우의 수치다.

영상 IoT의 경우, 움직임이 그렇게 많지 않는 케이스가 절반으로 풀HD에서 5Mbps, SD에서 1Mbps 정도로 생각해도 좋을 것이다. 코마 수를 떨어뜨려 5fps로 한 경우는 풀HD에서 약 1Mbps, SD에서 0.2Mbps가 된다.

-- 영상 IoT의 다양한 문제 --
-- 메타 데이터만 클라우드에 --
-- 통신 빌딩을 엣지 기반으로 --
-- 그래도 전송하고 싶을 때는? --
-- 3단계 대비로 영상을 전송한다 --


  -- 끝 --

목차