三菱電機技報

미츠비시전기기보_2018/08_AI를 활용한 영상해석솔루션 'kizkia'三菱電機技報

저자 : 三菱電機
발행일 : 20180820
페이지수/크기 : 54page/28cm

요약

미쓰비시전기기보_2018.8 특집논문 (p2-6)

AI를 활용한 영상해석솔루션 'kizkia'
나카오 타카마사(中尾尭理) 외 4인 / 미쓰비시전기 인포메이션시스템즈㈜

요지
거리에 감시카메라가 넘쳐나고 있다. 그러나 기존에는 사건이 발생했을 때 촬영된 영상을 검증하는 용도 외에는 귀중한 영상정보가 유효하게 활용되지 못했다. 2020년 도쿄올림픽∙패럴림픽을 앞두고 안전이 요구되면서 감시카메라 시장은 확대되고 있다. 또한 일본을 찾는 외국인과 고령자 등 도움이 필요한 사람에 대한 지원을 기대할 수 있다.

이와 같은 기대에 부응하기 위해 미쓰비시전기 인포메이션시스템즈(MDIS)는 최근에 급속하게 발전하고 있는 AI기술을 활용한 영상해석솔루션 ‘kizkia’를 개발하였다. kizkia는 사람속성감지, 방치된 물건이나 비틀거리는 사람을 감지하는 기능이 있어, 기존의 기계학습으로는 정의하기 어려웠던 애매한 속성과 사람들이 놓치기 쉬운 것들을 찾아낼 수 있다. 또한 새로이 사물속성감지 개발을 추진하고 있으며 이것도 kizkia에 장치할 예정이다. kizkia는 미쓰비시전기의 AI기술 브랜드 ‘Maisart’기술을 활용하여 GPU없는 영상처리를 실현하고 있다. 이러한 기능을 통해 도움이 필요한 사람에게 ‘실시간 대응’하고, 기존에는 분석∙상정이 어려웠던 ‘미래 예측’ 지원을 가능하게 하여 안심∙안전∙쾌적한 사회 실현에 공헌한다.

MDIS에서는 kizkia에서 이용하는 AI에 필요한 학습데이터의 작성에서, 다양한 실증실험의 경험과 지식을 활용한 효율적인 학습프로세스를 확립하고 있다. 앞으로는 영상 이외의 데이터와의 연동으로 다양한 이용 장면에서의 활용이 기대된다.

1. 머리말
거리의 감시카메라나 드라이브레코더 등의 영상이 다양한 사건의 해석에 활용되는 일이 많아졌다. 그러나 사건이 발생한 후에 축적된 방대한 영상에서 관계 영상을 사람이 직접 찾아야 한다. 그래서 실시간으로 중요한 영상을 찾아내서 사건을 해결하는 데는 활용되지 못했다.

2020년 도쿄올림픽∙패럴림픽을 앞두고 안심∙안전 향상이 요구되면서 카메라 시장은 확대되고 있다. 또한 일본을 찾는 외국인과 고령자 등 도움이 필요한 사람에 대한 배려를 기대할 수 있다. 이와 같은 기대에 부응하기 위해 MDIS는 최근에 급속하게 발전하고 있는 AI 기술을 활용하여 카메라 영상을 실시간으로 해석하는 솔루션 ‘kizkia’를 개발하였다.

본고에서는 AI 기술을 활용한 영상해석솔루션 kizkia의 특징과 학습프로세스의 일례에 대해 소개한다.

2. 딥러닝
지금 주목을 받고 있는 AI는 기존의 AI와 무엇이 다를까? 예를 들면 기존의 기계학습에 의한 얼굴인증의 경우는 기술을 보유한 기술자가 얼굴의 특징량인 눈의 중심이나 입술 끝 등의 위치나 거리로 계산되는 수치를 정의하고, 그것을 검출하는 알고리즘을 만들 필요가 있었다. 사람에 의한 설계는 검출 정밀도에 한계가 있었다.

그러나 2012년의 이미지처리콘테스트에서 딥러닝이 기존 방법에 비해 압도적인 정밀도로 승리하면서 유명해졌다. 현재의 AI붐을 불러일으켰다. 딥러닝으로 이미지인식을 하면 지금까지 사람이 정의했던 대상의 특징을 AI가 캐치할 수 있다. 예를 들면, 휠체어나 유모차를 인식시키기 위해 각각의 대량의 이미지를 준비하면 AI가 스스로 주목해야 할 특징을 발견하고, 각각을 식별할 수 있게 된다.

kizkia는 딥러닝으로 영상을 해석하여 기존의 기계학습으로는 발견할 수 없었던 애매한 속성의 차이나 사람이 눈으로 봐서는 알아챌 수 없었던 것을 찾아내서 도움이 필요한 사람에게 ‘실시간 대응’하거나, 지금까지는 분석 및 상정이 어려웠던 ‘미래 예측’을 지원할 수 있게 된다.

3. 영상감시에 있어서의 과제
대규모 빌딩이나 공공시설 등의 감시센터에서는 스태프가 다수의 모니터로 감시카메라 영상을 감시하여 이상이 없는지를 확인하고 있다. 그러나 사람은 쉬지 않고 계속 감시할 수 없기 때문에 사건이나 사고를 놓치지 않고 발견하기 어렵다. 미연에 방지하는 것도 불가능하다. 그래서 거의 대부분의 경우는 사건이 발생하고 나서 레코더에 축적된 과거의 영상에서 사건을 검색하는 방법으로밖에 사용되지 못했다.

또한 카메라 대수가 증가하면서 대량의 카메라영상을 네트워크로 보낼 필요가 있어 설비비용과 배치할 인원의 증가 등의 문제가 있었다.

4. 영상해석 솔루션 ‘kizkia’

4.1 kizkia
kizkia는 네트워크카메라나 레코더로 영상을 취득하여 AI기술을 사용해 사람의 속성이나 행동, 소유물, 사물의 종류와 속성을 실시간을 감지하는 영상해석솔루션이다.

많은 카메라에 대응하기 때문에 영상처리를 카메라에 가까운 곳에서 실시, 해석결과를 센터에 송신하는 엣지컴퓨팅 구성으로 실현하고 있다. 또한, 실시간 해석을 실현하기 위해 다양한 영상처리 경량화나 멀티CPU에 의한 다중처리를 하는 소프트웨어아키텍처가 되었다. MDIS의 시스템화 기술로 인해, 미쓰비시전기의 ‘콤팩트한 인공지능’을 장착하여 AI 제품에서 일반적으로 사용되는 GPU없는 상태에서의 영상처리를 실현하였다.

또한 기계학습에서 중요한 학습데이터의 작성에서는 다수의 실증실험의 경험∙지식을 활용한 효율적인 학습프로세스를 확립하였다.

4.2 kizkia의 아키텍처
kizkia는 개인정보유출과 네트워크 부하를 줄이기 위해 네트워크카메라 영상처리는 카메라가 설치되어 있는 거점(해석서버)에서만 시행, 감지한 이벤트 정보만을 추출하여 감시센터(통합서버)에 송부하는 엣지컴퓨팅 아키텍처가 되었다. 영상을 카메라나 레코더에서 스트림으로 수신하고 처리가 끝나면 파기하는 보안에 신경 쓴 구조로 되어 있다. 카메라 영상처리는 카메라 별로 독립∙병행하여 실행하는 분산처리구조로 되어 있어, 카메라의 증감, 카메라 별 감시기능의 온오프, 감지대상 변경 등 세세하고 유연한 운용이 가능하다.

또한 실시간성을 실현하기 위해 스트림 영상처리(편집이나 판정 등의 처리)를 프레임 단위로 병행하여 실행하는 멀티태스크 처리는 물론, 딥러닝 기술로 소지품∙종류별 판정 처리의 콤팩트화를 통해 계산량을 기존의 1/10이하로까지 줄여 GPU없는 상태에서의 영상처리를 실현하였다. 또한 복수의 해석서버의 설정 변경이나 카메라 별 감시기능의 온오프를 감시센터에서 원격으로 조작할 수 있기 때문에 보수성이 높은 시스템 구축을 가능하게 한다.

4.3 사람의 속성∙소유물의 식별
kizkia는 딥러닝을 통해 기존의 AI에서는 어려웠던 사람의 속성이나 소유물 등의 애매한 차이도 실시간으로 파악할 수 있다. 이를 통해 유모차를 미는 사람, 휠체어를 미는 사람, 지팡이를 짚고 있는 사람 등 사람의 특징을 파악하는 ‘사람속성감지’를 할 수 있다. ‘유모차를 미는 사람’ 등의 특징을 속성이라고 부르며, 딥러닝에 속성을 가진 이미지를 대량으로 학습시킴으로써 특징량의 설계나 프로그래밍을 하지 않고 이미지 속에서 속성을 식별하는 파라미터를 자동 산출한다.

4.4 사물의 종류∙속성의 식별
4.5 행동 감지
4.6 학습프로세스와 정밀도

5. 향후 전개
kizkia는 네트워크카메라의 영상데이터 해석이 대상이지만 앞으로는 카메라 이외의 영상데이터나 SNS상의 텍스트, 거리나 공장 등에 설치된 센서정보(냄새, 소리 등도 포함하여), 개인 ID정보, 이동체의 정보 등 다양한 종류의 미디어데이터 해석 결과와 연계시킴으로써 다양한 용도에서 활용할 수 있도록 한다.

6. 맺음말
AI기술을 활용한 영상해석솔루션 kizkia는 공공기관이나 제조라인 등 다양한 장소에서 사람이나 업무를 지원하는데 널리 이용되기 시작하였다. 영상데이터에서 다양한 사태를 감지할 수 있기 때문에 그 응용 범위는 확산될 가능성이 높다.

그러나 모든 분야에서 효과가 높아지는 것은 아니다. kizkia를 도입할 때는 업종∙업무별로 해결하고 싶은 과제를 찾아 감지하고 싶은 사태를 명확하게 정의한 후에 학습 기반이 되는 영상데이터를 수집하는 것이 중요하다. 다양한 업종∙업무 현장의 사람들과 함께 목적을 공유하고 현장에서 충분한 실증을 한 후에 시스템을 도입해야 한다. 이를 통해 안심∙안전∙쾌적하게 생활할 수 있는 사회 실현에 공헌한다.

-- 끝 --

요약

목차