오류 메시지

Deprecated function: Array and string offset access syntax with curly braces is deprecated in include_once() (line 20 of /hjtic1/www/includes/file.phar.inc).

니케이 로보틱스 2025/7 오므론의 AI 자회사, 방책 최적화를 위한 새로운 기술 개발

책 커버 표지
목차

Nikkei Robotics_2024.7 목차

[Sexy Technology]
〮 3차원 기반 모델링으로 SLAM 진화, MASt3R의 위력
  카메라 정보 없이 임의의 RGB를 통해 3차원 재구성
〮 오므론의 AI 자회사가 방책 최적화의 새로운 기술 개발
  제약이 있는 불안정한 환경에서 최적성을 보증

[Robotics 법률 상담실]
제 119회 능동적인 사이버 방어에 관한 법률이란 어떤 것일까?

[AI 최전선]
제 120회 AI 개발은 후반전에 돌입했나?

[Case Study]
바이오 신약 개발 연구의 분석 실험을 초저가 로봇팔로 자동화
카르나바이오가 중국 Dobot의 로봇 도입, 야간에 작업

[Global Watch]
<미국>
〮 파괴된 건물의 잔해 안을 탐색하는 호스형 로봇
  공기압을 이용해 진행 방향도 자유자재로 조절
<한국>
〮 한국의 TV 방송 제작에서 추진되고 있는 AI 활용
  높은 즉시성과 성인화(省人化)를 양립

 -- 끝 --

Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

요약

닛케이 ROBOTICS_25.07호 (P30~35)

오므론의 AI 자회사, 방책 최적화를 위한 새로운 기술 개발
제약이 있는 불안정한 환경에서 최적성을 보증

강화학습의 적용 범위를 크게 확대할 수 있는 기초 기술이 등장했다. 바로 오므론의 연구 자회사인 오므론사이닉스(OSX) 등이 개발한 ‘EpiRC-PGS(Epigraph Robust Constrained Policy Gradient Search)’이다.

강화학습의 전제인 마르코프결정과정(MDP)을 대상으로 하는 방책의 최적화 기술로, 올 4월에 개최된 기계학습 관련 국제회의 ‘ICLR2025’에서 OSX, 도쿄대학 등의 연구자들이 연명으로 발표했다.

이 새로운 방식은 기본적인 MDP에 2가지 조건을 추가한 상황에서 최적의 방책을 이끌어낼 수 있다. 2가지 조건이란 복수의 제약 조건을 최적화와 동시에 충족하는 것과 상태의 전이확률이 변동해도 최악의 상황에서 최적으로 동작하는 것이다. 전자는 제약이 있는 MDP(CMDP), 후자는 로버스트MDP(RMDP)라고 부른다. 각각 대응하는 기술이 개발되어왔지만, 두 가지를 동시에 만족시킬 수 있는 것은 지금까지 없었다.

OSX의 방식은 CMDP와 RMDP를 합친 ‘RCMDP(Robust Constrained Markov Decision Processes)’의 최적해를 아주 작은 오차로 근사(近似)할 수 있다. OSX에 따르면, 이 점을 이론적으로 증명한 것은 이번이 처음이라고 한다. 현실 문제에서는 안전성 등에 대응하는 제약의 충족과 최악의 상황에 대한 대응을 양립하는 것이 바람직하며, 이 점을 이론적으로 보증할 수 있는 이번 방식은 획기적이라고 말할 수 있다.

현재의 EpiRC-PGS는 환경의 전이확률이나 보수(報酬) 등의 정보가 모두 알려져 있다는 것이 전제이다. 하지만, 이러한 정보들이 알려지지 않은 상황에서 사용되는 강화학습이나 행동가치, 방책을 DNN으로 근사하는 심층강화학습에 응용하는 것은 충분히 가능하다. 가치 등을 함수 근사했을 경우에는 최적성에 대한 보증은 어렵지만, 기존 기술로 대응할 수 없었던 문제의 해결은 기대할 수 있을 것으로 보인다. OSX는 기존 방식과 비교해 안전하고 견고한 최적치를 구하는 능력이 높다는 것도 실험을 통해 보여주었다.

-- 라그랑주에서는 국소해의 경우도 --
OSX는 이 새로운 방식에 대한 검토를 기존 방식의 재검토에서 시작했다. OSX가 대상으로 삼은 것은 CMDP에서 널리 사용되고 있는 라그랑주 쌍대문제를 푸는 방식이다. 이 방식은 CMDP에서 최적해를 이끌어낸다고 알려져 있지만, 로버스트MDP의 조건을 추가하면, 이상적인 해에 도달한다고 보증할 수 없다는 것을 OSX는 밝혔다.

라그랑주 방식에서는 CMDP를 목적(누적 코스트의 최소화)의 항과 제약의 항의 합으로 이루어진 라그랑주 함수로 표현한다. 그런 다음, 원래 문제의 max 연산과 mini 연산의 순서를 바꾼 쌍대문제로서 푼다. 이때 전이확률에 불확실성이 없는 CMDP인 경우, 쌍대문제의 해가 원래 문제의 해와 일치하는 강쌍대성(强雙對性)이 성립된다.

하지만, 전이확률이 불확실한 상황에서는 강쌍대성의 성립은 명확하지 않다. 더 나아가 강쌍대성이 성립했다고 하더라도, 라그랑주 방식으로 구한 해가 최적이 아닐 경우도 있다는 것을 OSX는 증명했다. OSX가 밝힌 것은 최적해를 방책 경사법으로 구할 경우, 라그랑주 방식으로는 국소해에 빠질 수도 있다는 사실이다.

인공적으로 설정한 환경에서 이 상황을 가시화한 것이 그림 4이다. 이것은 모든 방책에 대응하는 라그랑주 함수 값과 기울기를 나타낸 것으로, 갱신이 진행되지 않는 정류점으로서 우측 상단의 π1과 좌측 하단의 π2가 있다. 라그랑주 함수의 값이 작은 π1이 최적해이고, π2는 국소해가 된다.

π2에서 갱신이 진행되지 않는 것은, 라그랑주 함수의 목적 항과 제약 항의 기울기가 각각 π2 주변에서 경합해 상쇄하기 때문이다. 그림 4의 상황에서는 목적 항이 최대가 되는 상황의 전이확률 집합 P1과 제약 항이 최대가 되는 상황의 전이확률 집합P2가 다른 것이 국소해에 있어서의 기울기의 경합을 일으킨다.

-- 목적을 제약 측에서 고려 --
이 문제를 피하기 위해 OSX가 제안한 것이 에피그래프 방식의 이용이다. 에피그래프 방식에서는 최적화의 목적인 누적 코스트의 최소화를 (1)새롭게 도입한 변수 b0의 최소화와 (2)누적 코스트 J0(π)가 b0를 넘지 않는다 제약, 이 두 가지로 구분한다. (2)에 의해 최적화 목적의 일부를 제약과 동렬로 다룰 수 있게 된다. 라그랑주 방식이 목적 함수에 제약을 추가하는데 반해, 에피그래프 방식은 제약 측에서 목적을 고려하는 방법이라고 볼 수 있다.

OSX는 이 문제를 정리하여 (2)의 제약을 제약 코스트의 누적값 Jn(π)이 역치(閾値) bn을 넘지 않는다는 N개 (n=1~ N)의 제약과 조합했다. 구체적으로는, (2)의 제약을 추가한 N+1개의 제약 충족을 각각의 위반량(Jn(π)-bn, n=0~N) 중에서 최대값 *b0를 구하고, 이것을 0 이하로 한다는 문제로 간주한다.

이 방법에서는 라그랑주 방식과 달리, 목적 항과 제약 항을 가산할 필요가 없다. 이 때문에 각각의 기울기의 경합이 발생하지 않는다.

-- 최소화와 탐색을 반복 --
이러한 발상을 구체적인 알고리즘에 반영한 것이, EpiRC-PGS로, 크게 2가지 처리를 통해 이루어진다. 양의 변수 b0를 최소화하는 외측 루프와 주어진 b0를 전제로 위반량의 최대치 *b0를 최소화하는 방책 πb0를 구하는 내측 루프이다. 내측 루프로 구한 방책 πb0가 모든 제약을 만족시킬지( *b0를 0이하로 할 수 있을지) 여부는 b0의 값에 좌우된다. 외측 루프는 b0의 값을 움직이면서 πb0가 실행 가능해지는 범위 안에서 최소인 b0의 값을 찾는다.

내측 루프는 최대 위반량 *b0를 구하는 함수를 방책 π로 미분한 기울기를 사용해 위반량을 줄이는 방향으로 π를 갱신한다. 이 함수는 max 연산을 포함하고 있기 때문에 미분할 수 없지만, 각 갱신 단계에서 위반량이 최대인 누적 코스트의 기울기가 이 함수의 열미분(劣微分)에 상당한다는 것을 OSX는 밝혔다. 그래서 EpiRC-PGS는 우선, 위반량이 최대가 되는 n=n*을 구하고, 그 누적 코스트의 기울기 ∇Jn*(π)를 사용해 π를 갱신해 나간다. 이 루프를 규정된 회수로 실행하여 처리 중에 가장 큰 위반량을 줄일 수 있었던 π를 방책 πb0로서 외측 루프에 전달한다.

-- 최대 위반량이 0에서 최적 --
πb0를 전달 받은 외측 루프는 πb0에서 발생할 수 있는 최대 위반량 *b0를 추정하고, 그 값을 바탕으로 b0의 최소값을 찾는다. 여기서 *b0를 b0의 함수라고 하면, πb0가 실행 가능하기 위해서 b0는 *b0를 0 이하로 하는 값이어야 한다. 또한 OSX는 b0에 대해 *b0는 단조감소한다는 것을 밝혔다. 이 때문에 πb0를 실행 가능한 범위에서 b0를 줄여나가면, *b0는 서서히 증가해 *b0=0가 되는 값이 b0의 최소값 b*0에 상당하게 된다.

*b0=0이 되는 b0를 찾기 위해 외측 루프는 이분(二分) 탐색을 실행한다. 우선, b0가 취득할 수 있는 값의 범위 전체를 탐색 대상의 초기값으로 하고, 그 중점의 값을 b0로써 *b0를 계산한다. 그 값이 음수라면 최소치는 더 작기 때문에 중점보다도 하반(下半) 분, 양수라면 최소값은 보다 크기 때문에 중점보다 상반(上半) 분을 다음 탐색 범위로 한다.

탐색 범위를 정하고 그 중점에서의 *b0의 양수, 음수로 범위를 반감시키는 조작을 반복하면, 언젠가는 b0의 최소값인 b*0에 도달한다. b*0에 대응하는 방책이 최적 방책인 π*이다.

OSX는 제안한 알고리즘을 통해 구한 방책이 최적 방책에 근소한 오차로 근사할 수 있다는 것을 수학적으로 증명했다. 전제 조건은 있지만, Jn(π)나 ∇Jn*(π)의 근사 오차가 충분히 낮아, 불확실성 집합(전이확률의 집합의 집합)에 특정 성질을 구하는 등의 계산을 성립시키기 위해 필요한 가정이라 할 수 있다.

-- 최적해의 도출 실증 --
OSX는 EpiRC-PGS의 실제 동작을 인공적으로 설정한 환경에서 확인했다. 불확실성 집합의 성질을 바꾼 2종류의 RCMDP와, 확률의 변동이 없는 3종류의 CMDP이다. 비교 대상으로 통상적인 라그랑주 방식과 함께 일반적으로 자주 사용되는 방법인 갱신 도중의 π의 평균과 상태의 점유측도 d(s)의 평균을 사용하는 방법도 시도했다.

그 결과가 그림 7이다. 가로축은 외측 루프의 처리 횟수로, EpiRC-PGS는 어느 라그랑주 방식보다도 빠른 횟수로 종결, 누적 코스트도 낮은 해에 도달해 있다.

라그랑주 방식에서는 실행 가능한 방책에 도달하지 못하는 경우도 적지 않았다. 라그랑주 방식을 많이 이용하는 CMDP에서도 이러한 경향은 같아, EpiRC-PGS가 CMDP에서도 유망하다는 것을 보여주고 있다.

EpiRC-PGS의 과제 중 하나로 OSX가 꼽는 것은 근사해와 최적해의 차이를 로 했을 때갱신 횟수의 복잡도(iteration complexity)가 O(∈-4)로 크다는 점. 대상으로 하는 문제에 따라 다르지만, ∈를 줄여 해의 정밀도를 높이려고 하면 그 -4승에 비례하여 계산량이 단번에 늘어나게 된다.

RMDP를 대상으로 한 경우, 불확실성 집합이 특정 조건을 충족하는 경우(그림7의 (s,a) 직사각형 KL 불확실성 집합)에 O(∈-2)로 실행 가능한 알고리즘이 알려져 있어 개선의 여지가 있다.

이 밖에도 현재의 이중 루프는 실제 응용에서 계산 효율이 나쁠 경우가 있기 때문에
OSX는 알고리즘의 1루프화도 검토하고 있다고 한다.

 -- 끝 –

 

Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

 

Nikkei Robotics_2024.7 목차

[Sexy Technology]
〮 3차원 기반 모델링으로 SLAM 진화, MASt3R의 위력
  카메라 정보 없이 임의의 RGB를 통해 3차원 재구성
〮 오므론의 AI 자회사가 방책 최적화의 새로운 기술 개발
  제약이 있는 불안정한 환경에서 최적성을 보증

[Robotics 법률 상담실]
제 119회 능동적인 사이버 방어에 관한 법률이란 어떤 것일까?

[AI 최전선]
제 120회 AI 개발은 후반전에 돌입했나?

[Case Study]
바이오 신약 개발 연구의 분석 실험을 초저가 로봇팔로 자동화
카르나바이오가 중국 Dobot의 로봇 도입, 야간에 작업

[Global Watch]
<미국>
〮 파괴된 건물의 잔해 안을 탐색하는 호스형 로봇
  공기압을 이용해 진행 방향도 자유자재로 조절
<한국>
〮 한국의 TV 방송 제작에서 추진되고 있는 AI 활용
  높은 즉시성과 성인화(省人化)를 양립

 -- 끝 --

Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP