니케이 컴퓨터 2024/05/16(1) 벡터 데이터베이스(Vector Database) -- 생성형 AI를 활용한 데이터베이스 구축

책 커버 표지
목차

IT가 위험하다
생성형 AI를 악용하는 웜(Worm), 시큐리티 연구자가 경종

특집
・중외제약, 공방일체의 DX -목표는 ‘세계 최고의 이노베이터’
・중외제약, 공방일체의 DX
・생성형 AI를 풀 활용, 범용/특화로 구분하여 사용
・3종의 클라우드 병용, 운용 비용은 36% 감소
・회사 전체가 안전대책, 훈련에 사장도 참가
・성장전략의 주인의식화에 반응, 제약회사의 중심을 디지털 변혁, -오쿠다 오사무 중외제약 사장-

요약

Nikkei Computer_2024.5.16 (p71)

키워드
벡터 데이터베이스(Vector Database)
생성형 AI를 활용한 데이터베이스 구축

벡터 데이터베이스(Vector Database)는 이미지나 음성, 문장 등의 데이터를 수치의 배열로 나타내는 벡터 형식으로 인덱스화해 저장, 고속으로 검색할 수 있는 데이터베이스이다.

구조화 데이터뿐만 아니라 비구조화 데이터나 반구조화 데이터 등 다양한 구조의 데이터를 다룰 수 있다. 예를 들면, 이미지에 대해서 이미지의 특징을 색이나 채도, 휘도 등의 요소로 파악해 각각 수치화하여 다차원으로 표현하는 것이다.

벡터 데이터베이스는 유사성이 높은 데이터를 찾는 처리에 능하다는 점이 특징이다. 시장조사 기관인 가트너 재팬의 이치시(一志) 애널리스트는 "근사성이 높은 데이터를 고속으로 찾아내는 것이 기술의 포인트다"라고 말한다.

생성형 AI(인공지능)를 활용하는 애플리케이션은 방대한 양의 데이터를 학습한 기계학습 모델인 LLM(대규모 언어모델)을 사용한다. 기계학습을 할 때 이미지나 음성 등의 비구조 데이터 등도 포함해 데이터의 특징을 수치화해 다차원으로 표현함으로써 데이터를 쉽게 다룰 수 있다. 생성형 AI에 대한 기대감이 높아지는 가운데 벡터 데이터베이스의 주목도도 높아지고 있다.

-- RAG에서 활용되다 --
생성형 AI로부터 이끌어내는 응답의 정밀도를 높이는 수단의 하나로 RAG(Retrieval Augmented Generation, 검색 확장 생성)가 있다. RAG는 LLM이 답변을 생성할 때 사용자의 프롬프트(지시문)를 받아 외부의 지식 정보를 참조한다. 이 외부 지식을 검색할 때 벡터 검색이 자주 이용된다.

이 검색에서는 텍스트나 이미지 등의 데이터를 다차원의 수치 벡터로 표현. 그 위에서 유저가 검색에서 입력하는 텍스트 등의 프롬프트도 벡터화하고, 벡터끼리 어느 정도 닮았는지를 나타내는 유사도에 근거해 유사성을 계산하고 출력한다.

LLM의 이용자에게는 방대한 데이터를 고속으로 검색/처리하거나, 유사성이 높은 정보를 효율적으로 찾아내고 싶은 니즈가 있다. 이러한 니즈에 따라 벡터 데이터베이스에 대한 기대가 높아지고 있다.

벡터 데이터베이스를 둘러싸고 다양한 스타트업 기업이 서비스를 전개한다. 예를 들면, 미국 Chroma의 ‘Chroma’와 Pinecone의 ‘Pinecone’, 네덜란드 Weaviate의 ‘Weaviate’ 등이다. Chroma나 Weaviate는 오픈 소스로서 제공하고 있다.

기존 클라우드 서비스 등에서 벡터 검색 기능을 추가하는 움직임도 있다. 예를 들면, 미국 아마존웹서비스(AWS)의 ‘Amazon OpenSearch’와 미국 구글의 ‘Vertex AI Search’, 미국 마이크로소프트의 ‘Azure AI Search’, 미국 오라클의 ‘OCI Search with OpenSearch’ 등이다.

 -- 끝 --

Copyright © 2020 [Nikkei Computer] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

Nikkei Computer_2024.5.16 목차

IT가 위험하다
생성형 AI를 악용하는 웜(Worm), 시큐리티 연구자가 경종

특집
・중외제약, 공방일체의 DX -목표는 ‘세계 최고의 이노베이터’
・중외제약, 공방일체의 DX
・생성형 AI를 풀 활용, 범용/특화로 구분하여 사용
・3종의 클라우드 병용, 운용 비용은 36% 감소
・회사 전체가 안전대책, 훈련에 사장도 참가
・성장전략의 주인의식화에 반응, 제약회사의 중심을 디지털 변혁, -오쿠다 오사무 중외제약 사장-

특집
・미즈호, ‘4번째 정직’
・재기를 도모하는 미즈호, ‘전시실’에 새긴 원점
・생성형 AI도 채택해 대비, 에러 자동 판독 처리
・탈 ‘만들면 끝’이라는 의식, 전 CIO가 바라는 업무 개선의 끝 -요네이 코지 씨 미즈호 리서치 & 테크놀로지스 회장-

포커스
시스템 개발의 신조류, 모듈러 모놀리스(Modular Monolith)

뉴스 & 리포트
・미국 GitHub가 개발 자동화 툴, AI가 보수 플랜 제안, 코드도 생성
・LINE 야후 재발 방지책에 '노', 총무성이 2번째 행정지도
・개발 시에도 CO2 배출량 산정 규칙, NTT계/NEC/후지쓰/히타치가 책정
・리버스 엔지니어링에 생성형 AI, 도시바계가 생산성 2배 실적
・클라우드 업체들, 대일 투자를 가속화
・새로운 사이버 공격 'Loop DoS', 공격자의 패킷 하나로 무한히 계속
・거래 이력으로 가맹점의 자금 융통 지원, PayPay나 미쓰이스미토모카드가 제공

난반사
거대 클라우드 5사가 조달을 독점?, 서버를 구매하지 않는 시대가 오다

데이터는 말한다
‘풀 클라우드화’ 달성이 13.6%, 반수가 자사의 선정 기준을 갖고 있다

케이스 스터디
[노지마]
방문 고객용 앱으로 구입 지원, 위치 표시 기능을 애자일 개발

CIO가 도전하다
현장의 목소리를 듣는 힘으로 DX, 추진 조직을 자회사로부터 이관
메이지홀딩스 DX전략부 관장 고가 타케후미(古賀 猛文) 씨

움직이지 않는 컴퓨터
[에자키 글리코]
기간 시스템의 변경으로 트러블, 1개월이 지나도 상품 출하 정지가 계속

연재
트러블에서 배우는 데이터베이스 구축법
데이터베이스 감사의 ‘오해’, 이해 부족이 트러블을 초래

스미토모생명보험의 디지털 인재 육성 학원
발상력과 구상력을 연마하는 연수, 생성형 AI가 인재를 조기 육성

‘스킬 가시화’가 여는 IT 업계의 미래
인재 부족의 정체는 사람과 업무의 미스매치

사장의 의문에 답하는 IT 전문가의 대화술
테슬라의 로봇택시에서 보다, 엔터프라이즈 시스템의 지금

키워드
벡터 데이터베이스(Vector Database)

오피니언
극언 정론
제조업에서 시스템 장해가 이어지다, 사업을 흔드는 사태의 속사정

모바일 일도양단
스마트폰 할인 규제가 재검토로, 대형 이동통신사도 원하지 않는 ‘밀리미터파’ 추천

나카타 아쓰시의 GAFA 깊이 읽기
LLM은 ‘복합 AI 시스템’으로 진화, 데이터브릭스(Databricks) CTO의 주장

오모리 도시유키의 프로그래밍으로 가자
Java는 왜 멋이 없을까?, 챗혰와 원인을 찾아 보았다

가쓰무라 유키히로의 ‘오늘도 누군가를 노린다’
딥페이크 음성을 간파하다, 대화 중의 ‘숨 돌림’으로 정확도 80% 이상

 -- 끝 --


TOP