Nikkei Computer

닛케이컴퓨터_2025/07/10 AI의 ‘깊은 사고’에 대한 벤치마크 테스트

Nikkei Computer

목차

더보기+

요약

Nikkei Computer_2025.7.10

AI의 ‘깊은 사고’에 대한 벤치마크 테스트
Sakana AI가 AtCoder와 공동 개발
　
Sakana AI는 6월 17일, 프로그래밍 콘테스트 서비스를 제공하는 AtCoder와 공동으로 AI(인공지능)가 출력한 프로그램이 조합 최적화 문제를 푸는 능력을 측정하는 벤치마크 테스트 ‘ALE-Bench’를 개발했다고 발표했다. 현실적인 시간에서 엄밀한 정답을 구하기 어려운 문제에 대해 얼마나 좋은 답을 찾는 프로그램을 만들 수 있는지를 평가한다. 이를 통해 지금까지 측정이 어려웠던 AI가 사물을 오랜 시간에 걸쳐 깊이 사고하는 능력을 측정할 수 있다.

AtCoder가 조합 최적화 문제를 푸는 콘테스트의 문제를 제공했고, 이를 바탕으로 Sakana AI가 ALE-Bench 를 개발했다. Sakana AI의 이마주쿠(今宿) 리서치 엔지니어는 "벤치마크 테스트가 개발되면 스코어를 올리는 것처럼 AI 개선이 진행될 것이다"라고 지적한다. ALE-Bench의 등장으로 인해 대규모언어모델(LLM)과 AI 에이전트가 조합 최적화 문제를 푸는 능력이 향상될 것으로 기대된다.

조합 최적화는 생산 계획이나 배송 계획 등 다양한 기업 활동에 도움이 된다. 전력이나 물류, 제조와 같은 사회 기반과 관련된 업계에서 위력을 발휘할 수 있는 방법이다. 이번 연구의 책임자를 맡고 있는 아키바(秋葉) Staff Research Scientist에 따르면, AI가 조합 최적화 문제를 풀 수 있게 되는 것은 사회적인 의의가 크다고 한다. 그는 “(AI가 조합 최적화 문제를 풀 수 있게 되면) 지금까지 전문 기술자가 담당하던 문제를 더 많이 해결할 수 있다. 더 나아가 일부러 전문 기술자를 고용할 정도는 아니라고 생각되었던 문제도 대상이 될 가능성이 있다”라고 말한다.

-- 1,000명 중 21위 기록 --
Sakana AI는 조합 최적화 문제를 자동으로 푸는 AI 에이전트 'ALE-Agent'도 개발했다. 콘테스트에서 1,000여 명의 참가자 가운데 21위의 성적을 기록하기도 했다고 한다.

ALE-Agent에서는 빈번히 사용되는 알고리즘이나 프로그래밍 기술 등의 도메인 지식을 프롬프트로써 LLM에 제공하여 복수의 답변 후보 코드를 생성. 이것들을 평가해 정답 가능성이 높은 코드를 선택한다. 이 조작을 반복함으로써 가능한 한 좋은 답변을 모색한다. 이 AI 에이전트의 개발에는 ALE-Bench는 사용되고 있지 않다고 한다.

ALE-Agent는 AtCoder의 협력 하에 콘테스트에 실시간으로 2회 참가해 각각 상위 16%와 상위 2%의 성적을 거두었다. ALE-Bench의 평가에서는 사람의 상위 6.8%에 해당하는 결과를 기록했다.

-- 끝 –

TOP

목차 Nikkei Computer_2025.7.10

이노베이션 워치
인공지능(AI)이 자기 코드를 수정하며 진화
IT가 위험하다
‘연봉의 벽’ 변경이 급여 계산에 영향, 연말 정산의 급박한 정정도 다발
특집
- AI 에이전트의 원년
- 유력한 주자인 '멀티' 부상
［Part 1］
도입을 서두르고 있는 해외 대기업들, 멀티로 전문성 추구
［Part 2］
혼다와 후지쯔, 잇따라 멀티 실증
［Part 3］
실용화에 많은 과제, 정밀도 및 비용이 장벽
특집
- '정말로 규모가 큰' 데이터센터
온난화가스 배출량을 통해 찾다
포커스
‘Active! mail에 취약성, 긴급 대응의 이면
인터뷰
미국 Box의 레비 CEO
축적한 데이터는 ‘조직의 기억’, AI로 정보의 가치 10배로 증가
뉴스&리포트
- AI 에이전트를 확충한 국내 대형 IT 4개 사, 우선 강점 영역부터 공략
- 미국의 킨드릴이 AI 도입 컨설팅 강화, '옛집'인 IBM과 비슷해지는 사업 모델
- 이온FS가 AEON Pay와 WAON을 통합, 코드 결제에서 앞서있는 PayPay에 대항
- 도코모가 AI 에이전트 서비스를 올해 안에 제공, 젊은 층의 '팬 활동' 지원
- 요코하마은행이 후지쯔의 ATM을 교체, 후지쯔 철수와는 '관련 없어'
- 미·일의 생성 AI의 업무 도입률 비교, '도입하지 않는 이유'에서 차이가 분명
- AI의 '깊은 사고'에 대한 벤치마크 테스트, Sakana AI가 AtCoder와 공동 개발
<난반사>
- '생성 AI 이용 기술'이 급속도로 보급, 실적 지수가 1년 만에 20.5포인트 증가
데이터는 말한다
랜섬웨어로부터의 복구, '완전한 원상태로의 복구'는 30%
케이스 스터디
[야마에그룹홀딩스]
수요 예측으로 발주 업무 시간을 반감, 500대의 업무용 단말기 교체
AI리더
다이킨공업 기술혁신센터의 히도(比戶) 기술장
정답 없는 질문이 사람의 가치
작동하지 않는 컴퓨터
[가가와현 교육위원회]
39개 학교에서 47일간 17,226건의 계정이 부정 삭제, 학교 운영에 차질
연재
<결산 조사에서 판명, 사이버 피해를 입은 52개 사의 실상>
- 한 기업에서 10억엔 넘는 손실도, 국내 기업을 표적으로 한 사이버 공격
<AI 에이전트 활용의 최전선, 그 기대와 과제>
- 속속 등장하고 있는 AI 에이전트, 올바른 활용이 실무 도입의 문을 연다
<사장의 의문에 답하는 IT전문가의 대화 기술>
- 일본의 CIO가 배워야 할 것, 개혁 방법의 본질과 해외의 움직임
키워드
개인정보보호법의 긴급 명령
오피니언
<극언정론>
- AI가 'DX로부터의 도피처'로, 변혁을 기피하는 일본 기업에 미래는 없다
<모바일의 일도양단>
- 모두를 깜짝 놀라게 한 KDDI의 요금 개정, 소프트뱅크는 8월까지 관망세인가?
<GAFA의 심층 분석>
- Siri 개선을 내년으로 미룬 Apple, 데이터센터 가동 시기가 관건
<프로그래밍으로 가자>
- Python 코드를 쓰면 안 돼, 프로그래밍이 싫어질 수 있기 때문
<’오늘도 누군가를 노린다’>
- 모든 것이 다 노출될 수 있는 네트워크 카메라, 범죄에 악용되는 위험한 현실
독자의 목소리
편집 후기

-- 끝 –

TOP

전기전자/정보통신

닛케이컴퓨터_2025/07/10 AI의 ‘깊은 사고’에 대한 벤치마크 테스트

요약

목차