AWS 기술 블로그
LG 에너지 솔루션의 HAQM DataZone을 활용한 데이터 거버넌스 혁신 전략
LG 에너지 솔루션은 다양한 부서와 시스템에 분산된 데이터를 통합적으로 관리하고 활용하는 데 한계가 있었기 때문에, 데이터 관리 및 활용에 혁신이 필요하다고 판단하여, 데이터 거버넌스의 체계화에 착수했습니다. 이를 위해 AWS와 협력하여 HAQM DataZone을 도입하여 데이터 거버넌스를 마련했습니다. 이 과정을 통해 데이터 접근 권한 관리 및 규정 준수 측면에서의 거버넌스 복잡성을 줄이고 BI/ML 서비스의 생산성을 크게 증진시켰습니다. LG에너지솔루션의 경험을 공유함으로써, 거버넌스 구축을 모색하는 많은 기업들에게 도움을 제공하고자 합니다.
Data와 ML 거버넌스 혁신의 배경
LG 에너지솔루션은 배터리 관리 토탈 솔루션 사업을 본격화하며 ‘B.around’라는 신규 브랜드를 런칭했습니다. B.around는 고객 곁에 상시 머물며 최적의 배터리 관리 솔루션(Battery Management Solution, BMS)을 제공한다는 의미를 담고 있습니다. 이 서비스는 차량의 주행 데이터를 클라우드에 저장하여 배터리 수명, 안전 진단 및 충전 패턴 분석 등 다양한 예측 정보를 제공합니다. LG에너지솔루션의 데이터 플랫폼은 50TB 규모의 데이터를 처리, 13종 이상의 알고리즘을 서비스하고 있습니다. 매일 1만대 이상의 차량 데이터를 분석하여 배터리 진단 리포트와 맞춤형 관리 서비스를 제공하며, 2021년부터 시작된 이 플랫폼은 5년차를 맞이하고 있습니다.
[B.around를 위한 데이터 ML 플랫폼 아키텍쳐]
< 그림 1. LG 에너지솔루션의 Data ML Platform >
단계 1: 데이터 수집: 현재 수집 중인 필드 데이터에는 LGES 자체 개발 단말기 데이터, 데이터 파트너 회사가 수집한 데이터, 그리고 이륜 전기차 서비스 업체인 ‘KooRoo’가 수집한 데이터가 포함됩니다.
단계 2: 데이터 파이프라인: 다양한 데이터 소스에서 전송된 데이터는 데이터 레이크에 저장되며 각 서비스 요구사항에 맞게 처리됩니다. 처리된 데이터는 데이터 웨어하우스로 이동되고, 데이터 통합을 위해 AWS Glue Data Catalog사용을 점차 확대하고 있습니다.
단계 3:데이터 분석 및 ML 파이프라인: 웨어하우스의 데이터는 서비스 알고리즘의 입력 데이터로 활용되며, 분산 처리를 통해 빠르게 결과를 확인할 수 있습니다. 분석 완료된 데이터는 데이터 마켓에 저장되고, 알고리즘 학습 데이터로도 활용됩니다.
단계 4:서비스 제공: 처리된 데이터는 B-lifecare, 국내외 리스 사업자, 순회 정비 업체 등의 서비스를 통해 고객에게 제공됩니다.
데이터 ML 플랫폼 활용 조직
< 그림 2. 데이터 ML 플랫폼 활용 조직 >
데이터 기반으로 비즈니스 가치를 창출하기 위해 배터리 데이터를 활용하는 사내 조직들과의 협업과 데이터의 양이 증가하고 사용자 수도 함께 늘어나면서 몇 가지 문제점들이 발생하였습니다.
거버넌스 도전 과제
LG에너지솔루션의 데이터 플랫폼이 확장되고 사용자 수가 증가함에 따라, 데이터의 효율적인 관리와 안전한 활용이 더욱 중요해졌습니다. 이에 따라 1.데이터 접근 관리와 보안·규제 준수, 2.데이터 탐색과 품질 신뢰 확보가 새로운 도전 과제로 떠올랐으며, 이를 해결하기 위해서는 체계적이고 포괄적인 접근 방식이 필요했습니다.
1. 데이터 접근 관리와 보안규제 준수의 어려움
< 그림 3. 기존 Data lake 접근 및 보안 규제 관리의 복잡성 증가 >
기존에는 클라우드와 온프레미스 환경으로 구성된 데이터 분석 환경을 운영하고 있었으나, 클라우드 데이터를 NAS에 복제하여 온프레미스 환경을 지원하는 방식은 통합 관리의 효율성을 떨어뜨리는 문제를 야기했습니다. 또한 데이터 활용도를 높이기 위한 체계적인 권한 관리 시스템 구축과 강화되는 컴플라이언스 및 규제 요구사항에 선제적으로 대응할 수 있는 체계가 필요해 졌습니다.
2. 데이터 탐색과 품질 신뢰 확보의 어려움
데이터의 규모가 커지고 이를 활용하는 비즈니스 사용자와 데이터 분석가가 증가하면서, 이들이 겪는 다음과 같은 어려움도 점점 커졌습니다.
- 데이터 신뢰성: 이 데이터는 신뢰할 수 있을까요? 결측치나 이상치는 얼마나 존재할까요?
- 데이터 관리: 이 데이터는 체계적으로 관리되고 있을까요?
- 접근성 문제: 데이터 세트마다 시스템별로 접근 권한을 매번요청해야 할까요?
- 데이터 위치 파악: 내가 찾고자 하는 데이터는 어디에 있을까요?
- 데이터 탐색 방법: 필요한 데이터를 확인하려면 어떤 절차를 거쳐야 할까요?
- 데이터 내용 이해: 이 데이터 세트에는 어떤 정보가 포함되어 있을까요?
- 데이터 최신성: 데이터는 어떤 주기로 갱신되며, 최신 데이터인지 확인할 방법이 있을까요?
이러한 문제들은 데이터 활용을 저하시킬 뿐만 아니라, 데이터 기반 의사결정을 어렵게 만드는 주요 요인으로 작용하였습니다.
이를 해결하기 위해서는 효율적인 데이터 탐색과 이해를 돕는 통합 도구를 구축하고, 데이터 품질을 정량적으로 측정하여 사용자가 직관적으로 품질 수준을 파악할 수 있는 체계의 구축이 필요했습니다. 이를 통해 사용자들이 데이터를 더욱 신뢰하고 효과적으로 활용할 수 있는 환경을 조성하고자 했습니다.
솔루션 개요
HAQM DataZone을 활용하여 데이터 마켓과 거버넌스를 일원화함으로써, 데이터 자산을 체계적으로 관리하고 데이터 카탈로그를 통해 메타데이터의 효율적인 운영이 가능해 졌습니다. 또한 데이터 마켓을 통해 데이터 생산자와 소비자 간의 효율적인 데이터 공유가 가능해졌습니다. 아울러, AWS CloudTrail 및 HAQM Athena를 활용하여 통합 모니터링 체계를 구축함으로써, 데이터 활용 현황을 실시간으로 파악하고, 데이터 접근 이력을 추적하며, 이상 행위를 감지할 수 있도록 하였습니다. 이를 대시보드로 시각화하여 운영의 효율성을 극대화했습니다.
1.HAQM DataZone 으로 구성한 데이터 마켓 및 거버넌스 일원화
HAQM DataZone의 데이터 포털을 활용하여 데이터 마켓을 구성하고, HAQM DataZone의 도메인 단위을 활용하여 사내 여러 조직에 일관된 데이터 ML 거버넌스 정책을 전반적으로 적용할 수 있게 되었으며, 프로젝트 각각의 효율적인 권한 관리와 데이터 활용 현황의 투명성을 확보할 수 있었습니다.
< 그림 4. HAQM DataZone의 데이터 도메인을 활용한 거버넌스 관리 체계화 >
도메인 단위 상위 소유자 | 도메인 단위 하위 소유자 | 프로젝트 관리자 |
– 전체 프로젝트의 분류 및 구조화 담당 – 핵심 거버넌스 정책 수립 – 전반적인 거버넌스 관리 책임 |
– 소속 프로젝트의 생성 및 구성 관리 – 세부 정책 수립 및 적용 – 프로젝트 관리자 지정 및 감독 |
– 프로젝트 멤버십 관리 – 데이터 ML 환경 연동 및 운영 – 실무적인 데이터ML 활용 |
2. HAQM DataZone 을 활용한 자동화된 원천 데이터의 자산화
데이터를 가치 있는 자산으로 전환하는 것은 데이터 기반 의사결정에서 필수적입니다. 기존 HAQM S3, AWS Glue로 활용하여 구성된 데이터 소스를 HAQM DataZone을 활용하여 데이터를 효율적으로 데이터 처리, 데이터 큐레이션, 데이터 카탈로그 하는 과정을 거쳐서 자산화 할 수 있었습니다. 생산자와 소비자는 각각의 데이터 작업을 명확히 구분하고 협업하며, 프로젝트 기반의 관리 방식을 통해 데이터 관리 효율성을 높였습니다. 또한, HAQM DataZone의 자동화된 권한 설정과 데이터 접근 구성은 데이터 관리의 복잡성을 줄이고 거버넌스를 간소화하는 데 기여했습니다.
< 그림 5. HAQM DataZone을 활용한 데이터 자산화 프로세스 >
단계 | 절차 | 설명 |
1단계 | 데이터 수집 | 데이터 생산자는 Step Functions, EventBridge, Lambda와 같은 AWS 서비스를 활용하여 데이터를 자동으로 처리하고 HAQM S3에 안전하게 저장합니다. 이 과정에서 데이터는 일관된 형식으로 변환되어 이후 단계에서 활용할 준비를 마칩니다. |
2단계 | 데이터 전처리 | AWS Glue Crawler 를 이용해서 S3에 적재된 데이터를 스캔해서 데이터 카탈로그(data catalog)를 구축합니다. AWS Glue 를 이용해서 S3에서 필요한 데이터를 엄선하고 큐레이션 된 데이터를 S3에 다시 저장합니다. |
3단계 | 데이터 자산화 | AWS Glue에서 생성된 데이터 카탈로그(data catalog) 를 HAQM DataZone의 Detault Data Lake Blueprint의 자동화된 기능을 활용하여 자산으로 게시합니다. DataZone의 데이터 포털에서 여러 조직의 사용자는 일관된 데이터 카탈로그와 함께 데이터 검색과 구독이 가능합니다. 이를 통해 데이터 소비자가 데이터를 쉽게 이해하고 빠르게 활용할 수 있도록 돕습니다. |
4단계 | 데이터 품질 관리 | 데이터의 정재 과정에서 AWS Glue Data Quality와 연동하여 데이터 품질을 관리합니다. HAQM DataZone은HAQM Glue Data Quality의 데이터 품질 측정 결과의 자동 갱신을 지원하며, 데이터 포털에 게시되어 메타데이터와 함께 제공합니다. |

< 그림 6. HAQM DataZone 데이터 포털에서의 자산 리스트 예시 화면 >
< 그림 7. AWS Glue Data Quality 결과 자동 연동 결과 예시 화면 >
3. HAQM DataZone을 활용한 데이터 이해와 활용 효율화
데이터 포털에서 생산자가 게시한 자산은 항상 최신 상태를 유지하며, 데이터 소비자는 필요한 데이터를 쉽게 발견하고 구독할 수 있습니다. 데이터 소비자는 구독 요청을 통해 데이터 접근 권한을 요청하고, 생산자가 이를 검토 및 승인하면 HAQM DataZone이 자동으로 접근 권한을 부여합니다. 이후 소비자는 구독된 데이터를 분석 도구(HAQM Athena, HAQM QuickSight, HAQM SageMaker 등)를 활용하여 자신의 프로젝트에 통합적으로 사용할 수 있습니다. 이러한 접근 방식으로 데이터 관리의 효율성을 높이고, 거버넌스 과정을 간소화하여 조직 전반의 데이터 활용도를 극대화할 수 있었습니다.
< 그림 8. HAQM DataZone 데이터 포털에서의 데이터 게시와 구독 프로세스 >
단계 | 절차 | 설명 |
1단계 | 자산 게시 | 데이터 생산자의 HAQM DataZone에 자산을 게시합니다. 이를 통해 데이터 소비자가 필요한 정보를 검색하고 활용할 수 있습니다. |
2단계 | 구독 요청 | 데이터 소비자는 원하는 데이터를 찾아 데이터 구독 요청을 보냅니다. 데이터 생산자는 해당 요청을 검토한 후 승인 여부를 결정합니다. |
3단계 | 구독 승인 | 데이터 생산자가 구독 요청을 승인하면, HAQM DataZone은 자동으로 해당 데이터에 대한 접근 권한을 부여합니다. |
4단계 | 자산 활용 | 데이터 소비자는 별도의 추가 절차 없이 HAQM DataZone을 통해 생성한 분석 환경에서 데이터를 활용할 수 있습니다. |
4. 통합 모니터링 체계 구축
AWS CloudTrail, HAQM Athena, AWS Glue, 및 HAQM QuickSight와 같은 통합된 AWS 서비스를 활용하여 데이터 관리의 투명성과 보안성을 대폭 향상시킬 수 있었습니다. 이러한 솔루션은 데이터 접근 이력 관리 뿐만 아니라, 이상 활동 탐지를 통해 더욱 안전한 데이터 사용 환경을 제공할 수 있었습니다.
< 그림9. 거버넌스 모니터링 아키텍쳐 >
단계 | 절차 | 설명 |
1단계 | 데이터 접근 이력 수집 | AWS CloudTrail 에 저장되어 있는 데이터ML 거버넌스 환경의 사용자 접근 로그와 HAQM Athena사용자의 SQL 로그를 HAQM S3로 저장하고, AWS Lambda 를 통해 분석하여 특정 이벤트에 대해서 알람 처리를 합니다. |
2단계 | 데이터 접근 이력 시각화 | HAQM S3에 저장된 로그의 이벤트는 AWS Glue Data Catalog를 통해 구조화되고, HAQM Athena에서 분석합니다. 분석된 데이터는 HAQM QuickSight에서 시각화되고 이를 바탕으로 보고서가 생성되어, 데이터 활용 현황과 접근 이력을 쉽게 모니터링할 수 있습니다. |
3단계 | 이상 활동 탐지 | CloudTrail에 기록된 이벤트는 Alert Filter를 통해 이상 활동을 식별하고, Alarm이 이를 감지하여 경고를 생성합니다. 생성된 경고는 Notification 시스템을 통해 관리자(Admin)에게 전달됩니다. |
< 그림 10. HAQM Quicksight를 활용한 모니터링 대쉬보드 예시 >
결론
LG에너지솔루션은 HAQM DataZone을 활용하여 데이터 및 ML 거버넌스 체계를 성공적으로 구축하였습니다. 이를 통해 데이터 접근 관리의 효율화, 품질 관리 체계의 확립, 그리고 규제 준수를 위한 통합 모니터링 시스템을 구현하였습니다. 데이터 사용자들은 데이터 마켓을 통해 필요한 데이터를 쉽게 검색하고 접근할 수 있게 되었습니다. 특히 데이터 품질 측정 결과의 시각화와 자동화된 접근 권한 관리는 사용자 경험을 크게 향상시켰습니다. 향후에는 HAQM SageMaker와의 HAQM DataZone의 통합 기능을 활용하여 ML 개발 환경과 거버넌스를 더욱 향상 시킬 예정입니다. 또한 GenAI를 활용하여 데이터 분석 과정을 더욱 직관적으로 만들고, 사내 전체로 데이터 마켓 사용자를 확대할 계획입니다. 이를 통해 데이터 기반의 의사결정과 비즈니스 가치 창출을 가속화할 것으로 기대하고 있습니다.
이상훈 서비스솔루션 담당 (Department Leader, Service Solution Department BMS R&D) 다양한 종류와 형태의 EV 데이터를 효과적으로 관리하고 통합하여 조직 내 데이터 활용도를 높일 수 있었으며, 거버넌스 체계 내에서 안전하면서도 유연한 데이터 공유 환경을 구축할 수 있었습니다. 데이터의 확장성과 활용성을 극대화하고자 하는 조직이라면 도입을 적극 추천 드립니다. |
-
- 더 자세한 LG 에너지 솔루션의 데이터 ML거버넌스 혁신과 구현 사례 데모를 2024 AWS Industry Week: LG에너지솔루션의 HAQM Datazone을 활용한 데이터와 ML 거버넌스 혁신 전략 동영상을 통해 확인하실 수 있습니다.