DataOps
DataOpsDataOps는 데이터에 대한 통합적이고 프로세스 지향적인 관점과 신속한 변화를 위한 소프트웨어 엔지니어링의 자동화 및 방법을 결합하여 품질, 속도, 협업을 개선하고 데이터 분석 분야에서 지속적으로 개선되는 문화를 촉진하는 일련의 사례, 프로세스 및 기술이다.[1]DataOps는 일련의 모범 사례로 시작되었지만, 이제는 데이터 분석에 대한 새롭고 독립적인 접근 방식이 될 수 있도록 성숙해졌다.[2]DataOps는 데이터 작성부터 보고에 이르기까지 전체 데이터[3] 라이프사이클에 적용되며, 데이터 분석 팀과 정보 기술 운영의 상호 연계성을 인정한다.[4]
DataOps는 신속한 변화를 위한 방법론을 통합하여 비즈니스 목표에 맞춰 분석 개발 주기를 단축한다.[3]
DevOps는 온디맨드 IT 리소스를 활용하고 소프트웨어의 테스트 및 배포를 자동화하여 지속적인 제공에 중점을 둔다.소프트웨어 개발과 IT 운영의 이러한 결합은 소프트웨어 엔지니어링과 배포의 속도, 품질, 예측 가능성 및 규모를 향상시켰다.DataOps는 DevOps의 방법을 차용하여 이와 동일한 개선사항을 데이터 분석에도 적용하고자 한다.[4]
DataOps는 SPC(Statistical Process Control)를 활용하여 데이터 분석 파이프라인을 모니터링하고 제어한다.SPC를 제자리에 두고, 운용 시스템을 통해 흐르는 데이터가 지속적으로 모니터링되고 작동하는지 검증된다.이상 징후가 발생하면 자동경보를 통해 데이터 분석팀에 통보할 수 있다.[5]
DataOps는 특정 기술, 아키텍처, 툴, 언어 또는 프레임워크에 연결되지 않는다.DataOps를 지원하는 툴은 협업, 조정, 품질, 보안, 액세스 및 사용 편의성을 촉진한다.[6]
역사
DataOps는 Lenny Libmann의 정보 담당 편집자에 의해 처음 소개되었다.Week는 2014년 6월 19일 IBM Big Data & Analytics Hub의 블로그 게시물에서 "DataOps가 빅데이터 성공을 위해 필수적인 3가지 이유"를 소개했다.[7]DataOps라는 용어는 후에 Tamr의 Andy Palmer와 Steph Lockke에 의해 대중화되었다.[8][4]DataOps는 "데이터 운영"의 상징으로, 2017년은 상당한 생태계 개발, 분석 범위, 키워드 검색 증가, 조사, 출판, 오픈 소스 프로젝트 등을 통해 DataOps가 의미 있는 한 해였다.[3][9]Gartner는 2018년 데이터 관리용 하이페 사이클에서 DataOps를 선정했다.[10]
목표와 철학
데이터 볼륨은 2025년까지 CAGR 32%에서 180제타바이트로 증가할 것으로 예측된다(출처: IDC).[6]DataOps는 이와 같이 데이터가 크게 증가함에 대처하기 위한 툴, 프로세스 및 조직 구조를 제공하고자 한다.[6]자동화는 대규모 통합 데이터베이스 관리에 대한 일상적인 요구를 간소화하여 데이터 팀이 보다 효율적이고 효과적인 방법으로 새로운 분석을 개발할 수 있도록 한다.[11][4]DataOps는 데이터 분석의 속도, 안정성 및 품질을 향상시키기 위해 노력한다.[12]데이터 과학자, 분석가, 데이터/ETL(추출, 변환, 로드) 엔지니어, 정보 기술(IT), 품질 보증/거버넌스 간의 커뮤니케이션, 협업, 통합, 자동화, 측정 및 협력을 강조한다.
실행
Toph Whitmore at Blue Hill Research는 IT 부서에 다음과 같은 DataOps 리더십 원칙을 제공한다.[2]
- "데이터 흐름의 모든 단계에서 진행률 및 성능 측정값 설정.가능한 경우 데이터 흐름 주기 시간을 벤치마킹하십시오.
- 추상화된 의미 계층에 대한 규칙을 정의한다.모든 사람이 "동일한 언어를 사용"하고 있고 데이터(및 메타데이터)가 무엇인지에 대해 동의하는지 확인하십시오.
- "아이볼 테스트"로 검증:지속적 개선 지향적인 인적 피드백 루프를 포함한다.소비자는 데이터를 신뢰할 수 있어야 하며, 이는 증분 유효성 검사를 받아야만 한다.
- BI, 데이터 과학 및 분석을 포함하여 데이터 흐름의 가능한 많은 단계를 자동화하십시오.
- 벤치마크된 성능 정보를 사용하여 병목 현상을 식별한 다음 병목 현상을 최적화하십시오.이를 위해서는 일반 하드웨어에 대한 투자 또는 프로세스에서 인간이 이전에 제공한 데이터 과학 단계의 자동화가 필요할 수 있다.
- 전체 워크플로우를 통한 양방향 데이터 제어, 데이터 소유권, 투명성 및 포괄적인 데이터 계통 추적에 특히 중점을 두고 거버넌스 분야를 확립하십시오.
- 성장과 확장성을 위한 설계 프로세스데이터 흐름 모델은 볼륨과 다양한 데이터를 수용하도록 설계되어야 한다.엔터프라이즈 데이터 증가에 따라 경제적인 비용으로 확장 가능한 기술 가격을 책정하십시오."
이벤트
참조
- ^ Ereth, Julian (2018). "DataOps-Towards a Definition" (PDF). Proceedings of LWDA 2018: 109.
- ^ a b "DataOps – It's a Secret". www.datasciencecentral.com. Retrieved 2017-04-05.
- ^ a b c "What is DataOps (data operations)? - Definition from WhatIs.com". SearchDataManagement. Retrieved 2017-04-05.
- ^ a b c d "From DevOps to DataOps, By Andy Palmer - Tamr Inc". Tamr Inc. 2015-05-07. Retrieved 2017-03-21.
- ^ DataKitchen (2017-03-07). "Lean Manufacturing Secrets that You Can Apply to Data Analytics". Medium. Retrieved 2017-08-24.
- ^ a b c "What is DataOps? Nexla: Scalable Data Operations Platform for the Machine Learning Age". www.nexla.com. Retrieved 2017-09-07.
- ^ "3 reasons why DataOps is essential for big data success". IBM Big Data & Analytics Hub. Retrieved 2018-08-10.
- ^ Mango Solutions: #DataOps - it's a thing (honest), retrieved 2021-06-28
- ^ DataKitchen (2017-12-19). "2017: The Year of DataOps". data-ops. Retrieved 2018-01-24.
- ^ "Gartner Hype Cycle for Data Management Positions Three Technologies in the Innovation Trigger Phase in 2018". Gartner. Retrieved 2019-07-19.
- ^ "5 trends driving Big Data in 2017". CIO Dive. Retrieved 2017-09-07.
- ^ "Unravel Data Advances Application Performance Management for Big Data". Database Trends and Applications. 2017-03-10. Retrieved 2017-09-07.
- ^ "DataOpticon - YouTube". www.youtube.com. Retrieved 2021-06-28.
- ^ "DataOps Summit". www.dataopssummit-sf.com. Retrieved 2021-06-28.
- ^ Intelligence, Corinium Global. "DataOps Champions Online 2021 Corinium". dco-dataops.coriniumintelligence.com. Retrieved 2021-06-28.