공공 웹 데이터와 함께 작업하기 위한 효율적인 데이터 팀 구축 방법

Efficient method for building a data team to work with public web data

효율적인 데이터 팀을 구성하는 방법은 데이터 전문가들 사이에서 논쟁이 빈번하게 이뤄지고 자주 논의되는 주제입니다. 공공 웹 데이터를 활용하여 데이터 주도형 제품을 만들거나 기존 비즈니스를 개선하려면 데이터 전문가가 필요합니다.

본 글에서는 공공 웹 데이터 산업에서의 경험을 통해 관찰한 핵심 원칙들을 다루며 효율적인 데이터 팀 구성에 도움이 될 수 있습니다.

공공 웹 데이터를 지원하는 범용적인 레시피가 없는 이유는 무엇일까요?

공공 웹 데이터를 지원하는 범용적인 레시피를 아직 찾지 못한 상태이지만, 원하는 결과를 얻을 수 있는 다양한 방법이 있음을 다행히 알 수 있습니다. 이 글에서는 공공 웹 데이터와 함께 시작하는 비즈니스 리더의 관점에서 데이터 팀 구축 과정을 탐구해보겠습니다.

데이터 팀이란 무엇인가요?

데이터 팀은 비즈니스 프로세스에 필요한 형식으로 이해관계자들에게 데이터를 수집, 처리, 제공하는 역할을 담당합니다. 이 팀은 마케팅 부서와 같은 다른 부서에 통합될 수도 있고 회사 내에서 독립된 단위로 존재할 수도 있습니다.

데이터 팀은 한 명에서 두 명의 전문가로 구성된 팀부터 회사의 모든 데이터 관련 활동을 관리하고 실행하는 다단계 팀까지 다양한 크기의 팀을 묘사할 수 있습니다.

어디서부터 시작해야 할까요?

공공 웹 데이터를 사용하는 비즈니스에게 추천하는 명확한 원칙이 하나 있습니다: 효율적인 데이터 팀은 비즈니스 요구에 맞춰 일하는 것입니다. 모든 것은 어떤 제품을 만들고 어떤 데이터가 필요한지에서 시작됩니다.

간단히 말하자면, 웹 데이터를 사용하여 작업을 시작할 계획을 가진 모든 회사는 대량의 데이터를 수집하고 처리할 수 있는 전문가와 데이터를 비즈니스에 가치있는 정보로 변환할 수 있는 전문가가 필요합니다. 일반적으로 변환 단계부터 데이터가 하류 사용자에게 가치를 창출하기 시작합니다.

이 단계에 이르기 위해 소기업은 한 명의 전문가로 시작할 수도 있습니다.

첫 번째 고용은 분석 기술을 갖춘 데이터 엔지니어 또는 대용량 데이터와 경량 데이터 엔지니어링 경험을 갖춘 데이터 분석가일 수 있습니다. 더 복잡한 것을 구축할 때, 공공 웹 데이터는 본질적으로 비즈니스 질문에 대답하기 위해 사용되며 웹 데이터 처리는 모든 면에서 반복에 관한 것입니다.

제품의 복잡성에 상관없이 항상 대량의 데이터를 확보하는 것으로 시작합니다.

추가 반복 작업에는 집계된 데이터 또는 추가 소스의 데이터로 데이터를 보강하는 것이 포함될 수 있습니다. 그런 다음 정보와 같은 정보를 얻기 위해 데이터를 처리합니다. 결과적으로, 다음과 같은 프로세스에서 사용될 수 있는 정보를 얻게 됩니다. 예를 들어 비즈니스 의사 결정을 지원하거나 새로운 플랫폼을 구축하거나 클라이언트에게 통찰력을 제공합니다.

필요한 데이터 팀은 사용할 도구와 연결되어 있습니다.

제품 관점에서 볼 때, 필요한 데이터 팀은 사용할 도구와 연결되어 있으며, 이는 사용할 데이터 양과 데이터 변환 방법에 따라 달라집니다. 이 관점에서 데이터 팀 구축을 세 가지 시나리오로 나눌 수 있습니다:

  • 시나리오 1. 사용자 정의 및 특정 기술을 요구하지 않는 반자동화 또는 완전 자동화된 도구를 사용하는 경우입니다. 초급 데이터 전문가가 일부 작업을 처리할 수도 있습니다.
  • 시나리오 2. 일부 작업이 사용 중인 도구 외부에서 개발 작업을 요구하는 경우입니다.
  • 시나리오 3. 상기한 옵션을 사용할 수 없는 경우 제품이 완전히 사용자 정의를 필요로 할 때입니다. 이 경우에는 오픈 소스 소프트웨어를 사용하고 정확한 제품 요구 사항을 기반으로 모든 것을 처음부터 구축할 수 있습니다.

효율적인 데이터 팀을 구축하기 위한 제품과 비전은 무엇인가요?

마지막으로, 데이터 팀의 규모와 필요한 전문가는 제품과 그에 대한 비전에 따라 달라집니다. Coresignal의 데이터 팀을 구축하면서 우리는 전문가의 선임 수준에 관계없이 팀의 능력과 제품 요구 사항을 일치시키는 것이 핵심 원칙임을 알게 되었습니다.

데이터 팀에서는 몇 가지 데이터 역할이 있나요?

이 질문에 대한 간단한 답은 “상황에 따라 다릅니다.” 데이터 역할의 분류에 대해 다양한 시각이 있습니다. 새로운 역할이 등장하고 기존 역할 간의 경계가 때로는 겹치기도 합니다.

공공 웹 데이터를 사용하는 팀에서 가장 일반적인 역할들을 살펴보겠습니다. 제 경험상, 데이터 팀의 구조는 웹 데이터 작업 프로세스와 관련이 있으며 다음 구성 요소로 이루어져 있습니다:

  • 원본 시스템에서 데이터 가져오기;
  • 데이터 엔지니어링;
  • 데이터 분석;
  • 데이터 과학.

2017년에 공개된 유명한 데이터 과학자 Monica Rogati의 논문에서는 조직 내 데이터 과학적 요구사항의 계층 구조 개념을 소개했습니다. 이는 조직 내 대부분의 데이터 과학 관련 요구사항이 피라미드의 아래쪽에 해당하는 부분 – 데이터 수집, 이동, 저장, 탐색 및 변환 -과 관련되어 있음을 보여줍니다. 이러한 작업은 조직 내 견고한 데이터 기반을 형성합니다. 상위 레이어에는 분석, 기계 학습(ML), 인공 지능(AI)이 포함됩니다.

그러나 모든 이러한 계층들은 웹 데이터를 다루는 조직에서 중요하며, 특정 기술 세트를 갖춘 전문가들이 필요합니다.

데이터 엔지니어

데이터 엔지니어는 초기 데이터 수집부터 다운스트림 사용을 위한 정보 생성까지의 프로세스 및 도구 개발, 구현, 유지를 담당합니다. 예를 들어 분석 또는 기계 학습(ML)을 위한 정보를 생산하기 위한 원시 데이터 수집과정을 관리합니다.

데이터 엔지니어를 고용할 때에는 웹 데이터 작업에 대한 전반적인 경험과 특정 도구 작업에 대한 전문화 경험이 주로 우선 순위에 놓입니다. 2번과 3번 시나리오에서 데이터 엔지니어가 필요하며, 1번 시나리오에서는 한 명의 전문가로 시작하기로 결정한다면 데이터 엔지니어가 필요합니다.

데이터(또는 비즈니스) 분석가

데이터 분석가는 주로 기존 데이터를 분석하여 비즈니스의 성과를 평가하고 개선을 위한 통찰을 제공합니다. 1번과 2번 시나리오에서 이미 데이터 분석가가 필요합니다.

기업이 데이터 분석가를 고용할 때 가장 일반적으로 요구하는 기술은 SQL, Python 및 기타 프로그래밍 언어(사용하는 도구에 따라 다름)입니다.

데이터 과학자

데이터 과학자는 주로 미래 예측 또는 통찰력을 위한 고급 분석을 담당합니다. 데이터 모델을 구축하기 위해 분석을 사용하는 경우 분석은 “고급”으로 간주됩니다. 예를 들어, 회사의 공개 프로필을 분석하여 회사에 대한 데이터를 작업하고자 한다고 가정해 보겠습니다. 데이터베이스에서 가짜 프로필의 비율을 식별하려고 합니다. 다중 다층 반복을 통해 특정 기준에 따라 분석 중인 프로필을 분류할 수 있는 수학적 모델을 생성하려고 합니다. 이러한 사용 사례를 위해 기업들은 종종 데이터 과학자에게 의존합니다.

데이터 과학자에게 필수적인 기술은 데이터 모델 구축에 필요한 수학과 통계학입니다. 또한 프로그래밍 기술(Python, R)도 필요합니다. 3번 시나리오에서 데이터 과학자가 필요할 가능성이 높습니다.

분석 엔지니어

이 상대적으로 새로운 역할은 특히 공공 웹 데이터를 다루는 기업들 사이에서 점점 인기를 얻고 있습니다. 제목에서 알 수 있듯이, 분석 엔지니어 역할은 분석에 집중하는 분석가와 인프라에 집중하는 데이터 엔지니어 사이에 위치합니다. 분석 엔지니어는 대개 데이터 분석가나 데이터 과학자가 수행하는 데이터 분석을 위해 사용할 수 있는 사용 가능한 데이터 세트를 준비하고, 데이터가 적시에 분석에 사용될 수 있도록 준비하는 역할을 담당합니다.

SQL, Python 및 데이터 추출, 변환 및 로드에 필요한 도구 사용 경험은 분석 엔지니어에게 필수적인 기술입니다. 2번과 3번 시나리오에서 분석 엔지니어가 유용할 것입니다.

데이터 팀을 구성할 때 고려해야 할 세 가지

데이터 역할의 분류에는 여러 가지 접근 방식이 있을 뿐만 아니라 데이터 팀을 구성하고 키우기 위한 다양한 프레임워크도 있습니다. 웹 데이터로 시작하기 위해 어떤 팀이 필요한지 비즈니스가 평가할 수 있는 다양한 관점이 있습니다.

데이터 관점

이 기사에서 언급하는 웹 데이터는 대량의 데이터로 구성됩니다. 대용량 파일과 원시 형식으로 제공되는 많은 양의 데이터 레코드가 일반적입니다. 대량의 데이터 볼륨과 처리에 사용되는 도구와 경험이 있는 데이터 전문가를 갖는 것이 좋습니다.

기술 스택 관점

도구에 대해서는 조직이 특정 유형의 데이터 처리에 사용할 도구도 전문가를 고용해야 할 전문가를 결정할 때 고려해야 합니다. 필요한 도구에 대해 더 알아보기 위해 전문가의 조언을 구하거나 비즈니스 요구 사항에 맞는 적절한 도구를 선택하는 데 도움을 받을 전문가를 고용할 수 있습니다.

조직 관점

데이터 전문가들이 밀접하게 협력할 이해관계자들과 이 새로운 팀이 조직 구조의 비전과 어떻게 조화를 이룰지를 평가하여 데이터 팀을 구축하기 시작할 수도 있습니다. 예를 들어, 데이터 팀이 엔지니어링 팀의 일부가 될 것인지, 제품에 주로 초점을 맞출 것인지, 또는 조직에서 별도의 개체가 될 것인지를 결정할 수 있습니다.

데이터 성숙도 수준이 더 높고 데이터를 기반으로 하는 제품을 개발 중인 조직은 이 작업을 더 복잡한 관점에서 고려하여 전체적인 데이터 인프라 구성과 데이터 관리자, 데이터 정의에 대해 회사의 미래 비전에 대해 조율하고 성장하는 비즈니스에 맞게 전체적인 데이터 인프라를 설계합니다.

데이터 팀을 효율적으로 만드는 요소

데이터 팀은 비즈니스의 요구 사항을 충족한다면 효율적으로 간주됩니다. 거의 모든 경우에 데이터 팀의 효율성은 시간과 돈의 통화로 측정됩니다.

따라서 특정 시간 동안 처리된 데이터의 양이나 지출한 금액과 같은 지표를 기준으로 삼을 수 있습니다. 일정한 간격으로 이러한 지표를 추적하는 한, 다음으로 주목해야 할 것은 이러한 지표의 동적입니다. 간단히 말해서, 동일한 양의 돈으로 더 많은 데이터를 처리하는 경우, 팀이 더욱 효율적으로 동작하고 있다는 의미입니다.

다른 효율성 지표는 앞서 언급한 내용을 결합한 것으로, 팀이 코드를 얼마나 잘 작성하느냐에 따라 결정됩니다. 자원이 많고 반복 작업을 빠르게 수행할 수 있더라도, 오류는 더 많은 자원을 소모합니다.

추적하기 쉬운 메트릭 외에도, 회사가 경험하는 가장 흔한 문제 중 하나는 데이터에 대한 신뢰입니다. 데이터에 대한 신뢰는 글자 그대로의 의미입니다. 데이터 관련 작업에 소요되는 시간을 추적하거나 비용을 확인하는 방법이 있음에도 불구하고, 이러한 메트릭과 데이터 자체의 신뢰성에 대한 의문을 이해관계자들이 가질 수 있습니다. 이러한 신뢰는 이전 사건과 같은 부정적인 경험이나 데이터 소유자로부터의 의사소통과 정보 부족으로 인해 부정적으로 영향을 받을 수 있습니다.

또한 대량의 데이터와 함께 작업하는 것은 오류를 발견하는 것이 복잡한 작업입니다. 그러나 조직은 사용하는 데이터의 품질과 이 데이터를 사용하여 생성되는 인사이트에 대해 신뢰할 수 있어야 합니다.

데이터 팀이 채움률과 같은 데이터 품질과 관련된 양적 메트릭을 평가할 수 있는 통계적 테스트를 수행하는 것이 도움이 됩니다. 이렇게 하면 조직은 또한 문제나 부정적인 추세를 시간에 맞춰 데이터 팀이 발견할 수 있도록 역사적 데이터를 축적할 수 있습니다. 데이터의 품질에 대한 클라이언트 피드백에 귀를 기울이는 것도 조직에서 적용해야 할 핵심 원칙입니다.

요약하자면, 모든 것은 데이터 팀 내에 재능 있는 전문가들이 빠르고 정확하게 작업을 수행하며 그 작업에 대한 신뢰를 구축하는 것에 달려 있습니다.

결론

모든 것을 요약하면, 데이터 팀을 구성하는 데 도움이 되는 유용한 질문들은 다음과 같습니다:

  • 당신의 제품은 무엇인가요?
  • 어떤 데이터를 사용할 것인가요?
  • 데이터와 관련된 제품의 주요 구성 요소는 무엇인가요?
  • 데이터를 활용한 다양한 프로젝트 단계에서 기대되는 결과는 무엇인가요?
  • 그를 위해 어떤 기술 스택이 필요한가요?
  • 이해관계자들은 누구인가요?
  • 현재 데이터 팀이 비즈니스 요구 사항을 충족시키는지 평가하는 데 도움이 되는 지표는 무엇인가요?

이 글이 공공 웹 데이터를 다루는 조직에서 흔한 다양한 데이터 역할에 대한 이해를 돕고, 왜 이들이 중요한지, 어떤 메트릭이 회사가 데이터 팀의 성공을 측정하는 데 도움이 되는지, 마지막으로 데이터의 역할에 대해 조직이 어떻게 생각하는지에 대한 통찰력을 제공했기를 바랍니다.

주요 이미지 크레딧: Sigmund가 찍은 사진; 저자의 제공; Unsplash에서; 감사합니다!