1. IT NEWS

[AIㆍML / 데이터ㆍ분석] “구현부터 활용, 진화까지” 데이터 파이프라인 최종 가이드

Dorothy. 2024. 9. 2. 14:37
Isaac Sacolick | InfoWorld3일 전
 
 데이터 처리 아키텍처를 쉽게 이해하기 위해 집의 구조와 기능을 생각할 수 있다. 집의 기초는 저장, 쿼리, 트랜잭션, 보안 및 기타 기본적인 데이터 기능을 제공하는 데이터 관리 플랫폼이다. 집 안에는 마이크로서비스, API, 애플리케이션, 분석, 머신러닝 모델, 생성형 AI 모델 등 다양한 어플라이언스가 있다. 이런 어플라이언스는 데이터를 검색, 분석하고 최종 사용자 및 기타 서비스에 퍼블리싱하는 데 사용된다.

 이런 모든 시스템을 연결하는 것은 한 시스템에서 다른 시스템으로 데이터를 이동하는 데이터 처리 도구인 파이프, 배관, 필터인 셈이다. 데이터 소스와 어플라이언스가 적은 소규모 조직에서는 데이터 프로세스가 비교적 간단하다. 하지만 대기업은 최종 사용자의 요구와 다양한 데이터 유형을 충족하기 위해 더 광범위한 애플리케이션이 필요한 경우가 많다.
 
ⓒ Getty Images Bank

 여기서는 한 시스템에서 다른 시스템으로 데이터를 이동하는 데이터 처리 도구인 데이터 파이프라인에 대해 자세히 살펴본다. 데이터 파이프라인의 기본 사항과 이를 구현하는 데 사용되는 다양한 아키텍처 및 플랫폼을 소개한다. 또한 데이터 파이프라인이 지원하는 다양한 비즈니스 목표와 생성형 AI와 함께 등장한 몇 가지 새로운 사용례도 살펴보겠다. 마지막으로 데이터 변환, 데이터 운영, 데이터 파이프라인의 향후 발전 방향에 대해서도 논의할 것이다. 
 

1. 데이터 파이프라인 : 데이터를 이동하는 한 가지 방법

데이터 이동에는 데이터 복제, 데이터 마이그레이션, 데이터 동기화 등 여러 가지 운영 기능이 포함된다. 하지만 비즈니스 요구에 따른 데이터 이동을 생각할 때, 다음 세 가지 기능이 가장 많이 사용된다.
 
  • 데이터 통합은 여러 소스에서 데이터를 추출해 다운스트림 사용을 위해 결합하는 것으로, 자동화와 수동 데이터 처리를 혼합해 사용하는 경우가 많다.
  • 데이터 파이프라인은 자동화를 의미하며, 한 시스템의 데이터를 다운스트림 소비자가 액세스할 수 있도록 하지만 반드시 실시간일 필요는 없다.
  • 데이터 스트림은 성능, 지연 시간, 오류율과 관련된 목표 서비스 수준 목표를 충족하는 확장성이 뛰어난 실시간의 강력한 데이터 파이프라인을 의미한다.

다시 한번 강조하지만, 데이터 통합, 파이프라인, 스트림은 시스템 간에 데이터를 이동하고 공유할 수 있는 배관이다. 데이터 관리 아키텍처가 여러 위치에 있는 여러 건물의 아파트처럼 분산되어 있다면, 보다 강력하고 확장 가능한 데이터 공유를 지원하기 위해 데이터 메시와 데이터 패브릭, 마스터 데이터 관리 기술과 같은 도구도 필요할 수 있다.
 

2. 데이터 파이프라인 기술

데이터 파이프라인은 다양한 형태를 취하지만, 데이터 자동화 및 공유를 위한 기본 요소이다. 데이터 파이프라인은 웹후크, API, 퍼브-서브 패턴(Pub-sub pattern) 또는 IFTTT 서비스처럼 간단할 수도 있고, 더 정교한 데이터 파이프라인 설계 패턴을 통합하도록 확장할 수도 있다. 데이터 파이프라인에는 다음과 같은 요소가 포함된다.
 
  • 일괄 처리 아키텍처. 데이터 이동이 실시간이 아니며, 레코드 그룹이 고정된 일정에 따라 한 시스템에서 다른 시스템으로 이동되거나 이벤트에 의해 트리거되는 아키텍처.
  • 이벤트 중심 아키텍처. 데이터 생산자, 소비자, 변환 서비스를 연결하는 확장 가능한 접근 방식을 제공한다.
  • 람다 및 카파 아키텍처. 실시간 및 일괄 처리 기능을 결합한다. 
  • 마이크로서비스 기반 데이터 파이프라인. 상대적으로 규모가 작으며, 독립적으로 릴리즈할 수 있고, 보통 단일 개발팀에서 관리한다.

프리사이즐리(Precisely)의 제품 관리 수석 부사장 에밀리 워싱턴은 “데이터 파이프라인은 데이터를 이동, 변환, 관리해 가치 있는 보고서와 분석이 되기 때문에 모든 엔터프라이즈 데이터 전략의 기본이다"라며, “이런 파이프라인 내에서 데이터 무결성을 보장하는 것은 매우 중요하며, 소스에서 대상으로 데이터를 효율적으로 통합하고, 데이터가 있는 곳에서 데이터를 정리하고, 속성을 추가해 데이터가 의도된 용도에 적합하고 의사 결정 프로세스에 정보를 제공하는지 확인해야 한다”고 설명했다.
 

3. 데이터 파이프라인, 통합 및 스트리밍을 위한 플랫폼

데이터 파이프라인 설계 패턴은 AWS 람다, 애저 펑션즈, 또는 구글 클라우드 펑션즈와 같은 서버리스 아키텍처에 배포할 수 있다. 데이터 파이프라인은 데이터 웨어하우스와 데이터 레이크의 구성 요소로 데이터를 이동하고 변환하거나 독립적인 서비스로 배포할 수 있다. 개발자는 거의 모든 언어로 데이터 파이프라인을 코딩할 수 있지만, 데이터 과학자와 엔지니어는 일반적으로 파이썬을 사용한다.

파이프라인, 통합 및 스트림을 개발하기 위한 주요 플랫폼과 제품은 다음과 같다.
 
  • SaaS 플랫폼을 연결하는 데이터 파이프라인은 IFTTT, 인테그레이틀리(Integrately), 메이크(Make, 이전의 Integromat), 마이크로소프트 파워오토메이트(PowerAutomate), 퀵베이스(Quickbase), 워카토(Workato), Tray.io, 조호 플로우(Zoho Flow) 등의 데이터 자동화 플랫폼에서 수행할 수 있으며, 이런 도구에서 생성된 파이프라인은 일반적으로 하나의 소스를 하나의 대상으로 연결하고 공통 데이터 변환 기능을 제공한다.
  • 가트너 매직 쿼드런트의 상위 데이터 통합 플랫폼 업체로는 앱 이니시오(Ab Initio), AWS, 디노도(Denodo), 파이브트랜(Fivetran), 구글, IBM, 인포매티카, K2view, 오라클, 마틸리언(Matillion), 마이크로소프트, 팔란티어(Palantir), 프리사이즐리 클릭(Precisely Qlik), SAP, 스냅로직(SnapLogic), 탈렌드(Talend), 팁코 등이 있다.
  • 데이터 파이프라인 플랫폼에는 액티언(Actian), 아파치 에어플로우(Apache Airflow), 어센드아이오(Ascend.io), 아스테라(Astera), 아스트로노머(Astronomer), AWS 글루, 씨데이터(Cdata), 데이터브릭스, 드레미오, 디비티 랩스(dbt Labs), 헤보(Hevo), Integrate.io, 넥슬라(Nexla), 펠리칸(Peliqan), 프로페시(Prophecy), 리버리(Rivery), 스카이비아(Skyvia), 스티치(Stitch), 스톤브랜치(Stonebranch). 스팀세트(StreamSets)가 있다.
  • 데이터 파이프라인은 서비스형 통합 플랫폼(IPaaS)의 기능이기도 하며, 가트너의 2024년 매직 쿼드런트에는 부미, 셀리고, 인포매티카, 지터빗, 마이크로소프트, 오라클, 세일즈포스, SAP, 스냅로직, 소프트웨어 AG, 트레이.io, 워크아토의 플랫폼이 포함돼 있다.
  • 데이터 스트리밍 플랫폼에는 아파치 핑크(Apache Fink), 아파치 카프카, 아파치 펄사, 아파치 스톰, AWS 키네시스, 아타카마(Ataccama), Azure 스팀 애널리틱스, 클라우데라, 콘플루언트(Confluent), 데이터스택스(DataStax), 구글 클라우드 데이터플로우, 헤이즐캐스트(Hazelcast), 프라베가(Pravega), 레드햇, 레드판다, 레디스, 스파크 스트럭처드 스트리밍(Spark Structured Streaming), 스트림네이티브, 팁코가 포함된다.

데이터 통합 및 파이프라인 기능은 또한 많은 데이터베이스, 데이터 웨어하우스, 데이터 레이크, AI/ML 워크플로우우 플랫폼에 내장되어 있다.

레이턴트뷰 애널리틱스(LatentView Analytics)의 데이터 엔지니어링 책임자인 수닐 칼라는 “데이터 파이프라인 구축은 최신 데이터 관리의 중요한 측면이지만, 많은 기술과 아키텍처 및 설계 패턴이 있기 때문에 복잡할 수 있다"라며, “데이터 양이 증가함에 따라 효율적인 데이터 파이프라인의 중요성이 점점 더 커지고 있다”고 강조했다. 
 

4. 다양한 비즈니스 목표를 지원하는 파이프라인

기본적인 데이터 파이프라인은 여러 기록 시스템에서 정보를 공유할 때마다 필요하다. 예를 들어, 직원 온보딩 워크플로우우에서는 HR, 재무, IT 및 기타 시스템에서 신규 직원을 설정해야 하는 경우가 많다. 일부 사용자 정보는 마이크로소프트 엔트라 ID 같은 디렉터리에 저장할 수 있지만, 각 기록 시스템에서는 신규 직원을 설정하기 위해 몇 가지 공통 사용자 데이터가 필요하다. 데이터 파이프라인은 이런 시스템 간에 워크플로우와 데이터 공유를 트리거하는 한 가지 방법이며, 가장 기본적인 파이프라인은 최소한의 데이터 변환을 통해 한 기록 시스템에서 다른 시스템으로 하나의 정보 레코드를 푸시한다.

보다 정교한 데이터 통합 플랫폼은 여러 소스의 데이터를 조인(join)하고, 정교한 다중 레코드 데이터 변환을 수행하고, 하나의 데이터 파이프라인에서 여러 다운스트림 시스템에 연결할 수 있다.

기본적인 단순 데이터 파이프라인 외에도 복잡한 워크플로우를 조율하고, 데이터 과학 활동을 지원하고, IoT 센서 데이터를 처리하는 다양한 비즈니스 사용례가 있다. 생성형 AI, 컴퓨터 비전, AR/VR을 비롯한 새로운 기술을 도입하면, 데이터 파이프라인의 복잡성은 극적으로 높아진다. IT 및 데이터팀은 데이터 관리 전략의 일환으로 현재와 미래의 비즈니스 요구사항을 고려해야 하며, 점점 더 많은 데이터 파이프라인을 개발하고 지원할 방법을 고려해야 한다.

예를 들어, 데이터 과학자는 데이터 파이프라인의 소비자인 동시에 생산자이기도 한다. 쿠모(Kumo)의 엔지니어링 담당 부사장 헤마 라가반은 “데이터 과학자는 데이터를 머신러닝에 적합한 형태로 만들기 위해 몇 주 또는 몇 달 동안 데이터를 큐레이팅한다. 예를 들어, 애플리케이션 페이지 보기 및 클릭 로그를 조작해 데이터 과학자에게 필요한 필드를 추출하거나 사일로화된 엔지니어링 조직에서 수집한 이벤트에서 제품 이름을 확인하는 등의 작업을 할 수 있다”고 설명했다.

마찬가지로, 개발팀은 애플리케이션 상태를 이해하고, 성능 문제를 진단하며, 오류를 해결하기 위해 데이터 파이프라인을 만든다. 애피카(Apica)의 최고 제품 및 기술 책임자인 란잔 파타사라티는 “데이터 파이프라인의 중요한 하위 집합은 로그, 메트릭, 추적, 알림, 이벤트, 프로필 등 다양한 데이터 유형을 캡처하는 원격 분석 파이프라인으로, IT 운영, 개발, 보안 환경으로부터 수집한다"라며, “텔레메트리 파이프라인은 데이터 정규화, 품질 개선, 혼란 감소, 컨텍스트 지원, 가장 필요한 곳에 데이터의 온디맨드 가용성을 제공해 상당한 비용 절감 효과를 가져온다”고 강조했다.
 

5. 데이터 파이프라인을 위한 생성형 AI 사용례

워크플로우, 개발 및 데이터 과학 외에 새로운 생성형 AI 사용자 경험도 있다. 데이터 파이프라인은 검색 증강 생성(RAG)을 지원하기 위해 벡터 데이터베이스, 데이터 레이크, 대규모 언어 모델(LLM)을 연결하는 데 필요하다. 이런 연결은 기본적으로 기업 데이터를 생성형 AI 기능과 연결할 수 있게 해 준다.

퀵베이스의 엔지니어링 수석 부사장인 존 케네디는 “누구나 프로세스를 간소화하고 생산성을 높이는 AI를 원하지만, 정보, 워크플로우, 팀, 프로젝트를 연결하는 양질의 데이터 파이프라인 없이는 이런 이점을 실현할 수 없다"라며, “데이터의 출처를 이해하고, 무결성을 검증하고, 조직 전체에서 데이터가 사용되면서 어떻게 변화하는지 파악하는 것이 훨씬 더 중요해졌다”고 지적했다.

많은 기업이 머신러닝과 AI를 지원하기 위해 데이터 소스와 분석 기능을 추가하고 있다. 이는 기본 데이터 파이프라인이 머신러닝 모델의 전체 개발, 테스트, 배포, 모니터링 및 재교육을 지원하고(MLOps), 데이터 및 AI 거버넌스 모델을 준수해야 한다는 것을 의미한다.

도미노의 데이터 과학 전략 및 에반젤리즘 책임자인 키엘 칼슨은 “생성형 AI 파이프라인에는 데이터 엔지니어링 단계를 생성하고 조율하는 것도 포함되지만, 더 중요한 것은 모델, 벡터 스토어, 신속한 엔지니어링 단계, 업스트림 예측 AI 모델, 다운스트림 LLM, 다운스트림 시스템과의 통합을 임베딩해야 한다는 것”이라며, “기업은 최소한 데이터 파이프라인 기능을 새로운 데이터 저장소, MLOps 및 ML 거버넌스 기능과 통합해야 한다”고 설명했다.

견실한 데이터 파이프라인에 범위와 비즈니스 수요가 추가되면서 대규모 조직은 데이터 파이프라인 개발 및 업데이트 프로세스를 확장하는 방법을 고려해야 할 것이다. 리버리의 솔루션 엔지니어링 담당 부사장인 테일러 맥가스는 “이런 볼륨을 성공적으로 처리하고 병목 현상을 방지하려면 중앙 집중식 데이터 플랫폼팀은 분산된 팀이 자체 파이프라인을 구축할 수 있도록 지원하는 동시에 데이터 액세스, 클라우드 컴퓨팅 사용량, 실행된 데이터 파이프라인의 상태에 대한 올바른 거버넌스를 유지하는 것 사이에서 적절한 균형을 찾아야 한다”고 제안했다.
 

6. 데이터 파이프라인에서 혁신 구현하기

데이터 파이프라인의 핵심은 소스 시스템에서 다운스트림 시스템의 요구 사항에 맞게 데이터를 변환하는 데 필요한 데이터 변환이다. 간단한 변환은 파이프라인의 사비자를 위해 단일 레코드를 매핑, 결합 및 정리한다. 보다 복잡한 변환에는 레코드, 문서 및 기타 데이터 유형의 그룹을 집계, 조인, 요약 및 보강하는 것이 포함된다.

제비아 데이터(Xebia Data)의 지오바니 란자니는 “전통적으로 데이터 웨어하우스는 소스에서 원시 데이터를 추출하고 변환한 다음 저장하는 추출-변환-로드(ETL) 프로세스를 통해 채워져 왔다. 저장 및 처리 비용이 절감되자 데이터팀은 원시 데이터를 변환(ELT)하기 전에 데이터 웨어하우스에 저장하기 시작했고, 새로운 인사이트를 창출할 수 있는 유연성이 높아졌다.”

아스트로노머의 CTO 줄리안 라네브는 “ETL은 분석을 위해 사전 처리된 데이터가 필요한 시나리오에 적합한 반면, ELT는 데이터 레이크나 클라우드 기반 데이터 웨어하우스와 같은 최신 시스템의 처리 능력을 활용하여 더 많은 양의 데이터를 더 효율적으로 처리할 수 있다"라고 덧붙였다.

ETL과 ELT 변환은 일반적으로 데이터 웨어하우스와 데이터 레이크에 데이터를 로드하는 데이터 파이프라인에 사용되는 용어이다. 전송 중 및 스트리밍 데이터 변환은 데이터 파이프라인이나 스트림이 결과 데이터를 저장하지 않고 프로세스 흐름에서 데이터를 변환할 때 사용되는 용어이다. 사용례로는 실시간 분석, IoT 데이터 스트림, 신용카드 거래 처리, 사기 탐지 등이 있다. 데이터 변환에는 필터링, 집계, 윈도우, 강화 및 이상 징후 탐지가 포함된다.

데이터 파이프라인의 핵심 기능은 데이터의 계보를 추적하는 것이다. 여기에는 데이터의 수명 주기를 드러내고 누가, 언제, 어디서, 왜, 어떻게 데이터가 변경되는지에 대한 질문에 답하는 데 도움이 되는 방법론과 도구가 포함된다. 데이터 파이프라인은 데이터 계보 범위의 일부인 데이터를 변환하며, 데이터 변경을 추적하는 것은 규제를 받는 산업이나 사람의 안전을 고려해야 할 때 매우 중요하다. 데이터 계보 기능을 갖춘 플랫폼으로는 알렉스 솔루션(Alex Solutions0, 앨레이션(Alation), 아틀란(Atlan), 부미, 콜리브라(Collibra), 어윈(Erwin), IBM, 인포매티카, 만타(Manta), 마이크로소프트, 옥토파이(Octopai), 오라클, 프리사이즐리, 세코다(Secoda), 솔리데이터스(Solidatus), SAP, SAS, 탈렌드 등이 있다. 데이터 카탈로그, 데이터 거버넌스, AI 거버넌스 플랫폼 중에도 데이터 계보 기능을 제공하는 솔루션이 있다.

콜리브라의 CEO 펠릭스 반 데 말레는 “비즈니스 및 기술 이해관계자는 심층적인 영향 분석, 규제 준수 개선, 더욱 신뢰할 수 있는 분석을 위해 엔드 투 엔드 계보를 통해 소스 간에 데이터가 어떻게 흐르고, 변환되고, 사용되는지 동등하게 이해해야 한다"라고 강조했다.
 

7. 데이터 파이프라인을 뒷받침하는 데이터 운영

파이프라인을 배포할 때 파이프라인이 데이터를 정확하게 수신, 변환, 전송하는지 어떻게 알 수 있을까? 데이터 오류가 캡처되고, 단일 레코드 데이터 문제로 인해 파이프라인이 중단되는 일은 없는가? 부하가 많은 상황에서도 파이프라인이 일관성있게 작동하는가? 데이터 원본에 전송 오류가 있을 때 변환이 무력화되거나 중복 레코드가 스트리밍되지는 않는가?

이는 데이터 파이프라인에서 발생하는 데이터 운영(DataOps) 문제 중 일부에 불과하다. 쿠모의 라가반은 “일련의 데이터 흐름이 다음 데이터 흐름에 데이터를 공급하는 경우가 많기 때문에 AI 워크플로우의 운영은 특히 어려울 수 있다. 하나의 흐름에서 데이터 손상이 발생하면 다운스트림 파이프라인에 복합적인 영향을 미칠 수 있다”고 지적했다.

머신러닝 모델과 생성형 AI 및 LLM을 지원하는 데 사용되는 데이터 파이프라인은 필요한 데이터 규모와 모델 성능에 대한 사용자의 기대치 때문에 성능과 품질에 대한 우려가 더 크다. VAST 데이터의 현장 현장 CTO이자 전략 책임자인 콜린 타토우는 “생성형 AI 파이프라인과 모델 학습에 사용되는 비정형, 정형, 반정형 데이터 세트의 복원력, 복구 가능성, 재현성은 AI 규모에서 데이터 거버넌스를 더욱 복잡하게 만든다”고 덧붙였다.

데이터옵스 개선을 위한 주요 접근 방식에는 데이터 파이프라인 통합 가시성 보장, 모니터링 도구를 사용해 성능 문제 경고, 데이터 품질 추적, 모델옵스에서 데이터 드리프트에 대한 ML 모델 모니터링 등이 있다. 데이터 통합 가시성 기술로는 액셀데이터(Acceldata), 애피카(Apica), 크리블(Cribl), 데이터키친(DataKitchen), IBM 데이터밴드, 메타플레인(Metaplane), 몬테 카를로(Monte Carlo), 시플렛(Sifflet), 소다(Soda), 언레이블(Unravel), 발리디오(Validio) 등이 있다.

프리사이즐리의 워싱텅은 “파이프라인을 통해 이동하는 데이터를 모니터링하는 것은 분석 및 AI 이니셔티브에 사용되는 데이터의 품질에 영향을 미치기 때문에 매우 중요하다”라며, “데이터 통합 가시성은 실시간 정보를 살펴보고 분석가가 사용하는 데이터를 즉시 신뢰할 수 있게 해준다. 파이프라인을 통해 데이터 통합 가시성을 구현하면 데이터 이상 징후와 이상값을 사용자에게 사전에 경고할 수 있으므로 비즈니스 중단과 비용이 많이 드는 다운스트림 데이터 및 분석 문제를 방지하는 데 도움이 된다”고 설명했다.

데이터옵스의 어려운 측면 중 하나는 API 및 데이터 소스 스키마의 변경으로 인해 발생하는 데이터 파이프라인 문제를 감지하고 신속하게 수정하는 것이다. 생성형 AI는 데이터 파이프라인 개발과 지원을 간소화하는 데이터옵스 및 데이터 엔지니어링 플랫폼으로 부상하고 있다.

앤서로켓(AnswerRocket)의 CTO 마이크 핀리는 “데이터 파이프라인의 스크립트 가능성과 언어 모델의 코드 생성 기능을 결합하면 동적으로 자체 업데이트되는 ETL 프로세스를 얻을 수 있다"라며, “언어 모델의 오류 이해 및 수정 기능을 사용하면 이전에는 일반적인 스키마 변경이나 숫자 오버플로우와 같은 중단으로 인해 파이프라인이 마비됐을 ETL이 자체적으로 복구할 수 있다”고 강조했다.
 

8. 데이터 파이프라인의 미래

대다수 기업이 분석 및 AI 기능에 대한 투자를 늘리면서 새로운 데이터 세트를 통합하고 플랫폼 간에 데이터를 연결하는 데이터 파이프라인을 만들어야 할 필요성이 점점 더 커질 것이다. 데이터의 규모와 다양성, 새로운 AI 기능, 새로운 최종 사용자 경험으로 인해 IT 및 데이터 엔지니어링팀은 사실상 데이터 관리 및 통합 전략을 발전시켜야 한다.

액셀데이터의 CTO 애쉬윈 라지바는 “데이터 파이프라인은 소스에서 목적지까지 원활한 데이터 흐름을 보장하는 최신 데이터 관리의 토대 역할을 한다"라고 강조했다.

앞서 설명한 비유로 돌아가 보자. 기업은 깨끗한 물을 공급하고 폐기물을 제거하는 중추 역할을 하는 파이프라인이 있는 마을과 도시에 비유할 수 있다. 기업은 기존 데이터 파이프라인을 지속적으로 모니터링하고 개선하는 동시에 확장 영역을 위한 새로운 파이프라인을 개발해야 할 필요가 있다.
editor@itworld.co.kr



원문보기:
https://www.itworld.co.kr/topnews/348975#csidx1a06440a6a9b676b8ba30d27e36f401