개요
COVID-19 데이터 과학 이니셔티브가 기업에 줄 수 있는 교훈
데이터 과학자는 데이터 정리, 통합, 모델링에 관한 전문 지식을 적용하여 복잡한 문제에 대한 해답을 찾을 수 있습니다.
팬데믹 속 데이터 과학
데이터 과학은 현재 인기가 있습니다. 물론 이번이 처음은 아닙니다. 2008년과 2016년은 모두의 운명을 예측하기 위해 대중들이 데이터에 관심을 가졌던, 데이터 과학의 또 다른 중요한 해였습니다. 데이터는 "민주당이 2008년 데이터 전쟁에서 승리한 방법"에서 확인할 수 있듯이 한 해의 예측에는 더 효과적인 것으로 나타났지만, "데이터를 통한 대선 결과 예측에 실패"에서 볼 수 있듯이 다른 해의 결과는 달랐습니다. 2020년, 정부가 COVID-19의 확산을 막기 위해 노력함에 따라, 대중은 데이터 과학이 우리 삶에 미치는 영향에 대해 더욱 심각하게 인식하게 되었습니다.
데이터의 중요성에 대한 인식이 높아지는 가운데 대중은 데이터의 많은 복잡성도 인지하고 있습니다. 모든 배경과 분야의 사람들이 소셜 미디어에 역학 그래프와 "R-nought" 곡선을 게시함에 따라 이 데이터가 의미하는 바와 주목해야 할 모델에 대한 의견이 충돌하고 있습니다.
빅 데이터 과학자들은 기업에서 오랫동안 정기적으로 있었던 이러한 논의들이 낯설지 않습니다. 그들은 이러한 논의가 협력을 기반으로 하는 한, 의견 차이는 불가피하고 더 정확한 모델을 개발하는 데 필요하다는 것을 알고 있습니다.
협업을 통한 혁신
Sarah Callaghan은 Patterns 저널에서 "나는 이러한 모델링 구축에 도움을 주려는 모든 데이터 과학자들이 단순히 데이터를 선택해 선호하는 분석 소프트웨어에 집어 넣지 않을 것을 강력히 권고합니다. 특히 역학자들이 모든 것의 맥락을 이해해야 하는 특정 영역에 대한 지식이 없다면 그 결과 수치는 끔찍할 수 있습니다”라고 설명했습니다.
Callaghan은 데이터 과학자들이 우선순위가 높은 COVID-19 문제를 해결하기 위한 백악관 과학기술정책실의 요청에 대한 응답인 Kaggle COVID-19 오픈 리서치 데이터 세트 챌린지(CORD-19)에 참여할 것을 권장합니다. Callaghan은 Kaggle 챌린지가 "우리 모두가 한 팀으로 협동하고 각자의 강점을 발휘할 수 있는 기회"라고 덧붙였습니다.
기업의 관계자에게 이러한 협력 이니셔티브는 어떤 요인이 집단의 합의와 실행 가능한 해답을 이끄는지 배울 수 있는 기회입니다. 전세계가 한 세기 동안 직면한 가장 어려운 과제 중 하나를 해결하기 위해 대규모로 이러한 노력으로 한다면, 기업에서 효과적인 협업 데이터 정책 및 이니셔티브를 만드는 것은 가능할 것입니다.
조직이 COVID-19 데이터 과학 이니셔티브에서 배울 수 있는 몇 가지 구체적인 교훈:
1. 모든 데이터 수집
조직의 중심에 실시간 데이터를 지속적으로 수집하는 것은 간단한 작업이 아닙니다. 발병 기간 동안 사용 가능한 테스트의 부족과 수동으로 수집되고 코딩된 데이터에 대한 의존도가 나타내듯이, 대량의 다양한 데이터 유형을 수집하기 위해 배치된 인프라와 프로세스가 중요합니다. 데이터를 정확하게 수집하지 않으면 모델이 편향되어 분석할 수 있는 충분한 샘플을 수집하는 데 걸리는 시간이 지연될 수 있습니다.
엔터프라이즈에서는 일부 데이터가 아닌 모든 데이터를 분석하는 것이 중요합니다. 이 원칙은 회사 데이터의 100%를 활용하도록 하이브리드 클라우드 데이터 애널리틱스 소프트웨어 Vantage를 설계하는 원동력이 되었습니다. 우리는 이러한 수준의 가시성이 엔터프라이즈 리더가 다른 방법으로 식별할 수 없는 커넥션을 확인하기 위한 가장 좋은 방법이 될 것이라는 것을 알고 있었습니다.
2. 데이터를 공개하고 액세스 가능하게 설정
같은 기업 내의 조직과 팀은 항상 데이터를 보호하려고 하지만 글로벌 위기가 모든 사람의 삶과 생계를 위협할 때 영토 본능은 빠르게 사라집니다. 펜데믹이 아닌 상황에서 비즈니스 중요 프로젝트에 대해 유사한 수준의 액세스 및 협업을 장려할 수 있는 방법은 무엇일까요?
데이터에 액세스를 가능하게 하는 것은 단순히 무결성과 보안을 보장하는 것 이상을 수행해야 하는 거버넌스에서 시작됩니다. 거버넌스는 광범위한 데이터 애널리틱스 관리 전략의 일부로 개발되어야 합니다. 사람들이 애자일 방식으로 데이터에 액세스할 수 있도록 하면서 비즈니스 규칙 및 정의 기준과 같은 메타데이터를 계속 제어할 수 있는 계층화된 데이터 아키텍처를 만드는 것이 좋습니다. 예를 들어, 원시 비정형 데이터 세트는 기술 데이터 과학자에게 공개하고 보다 구조화되고 자동화된 인터페이스는 비즈니스 분석가를 위해 생성할 수 있습니다. 데이터 보안과 무결성은 그대로 유지하면서 두 역할 모두 동일한 데이터로 작업하고 통찰력을 발견하는 데 필요한 자율성을 유지할 수 있습니다.
3. 커뮤니티 피드백 및 공유 장려
Kaggle의 CORD-19 챌린지 참가자들은 상금을 놓고 경쟁하고 있지만 데이터 과학 프로젝트를 개발할 때 다른 사람들에게 도움이 될 수 있는 도구와 접근 방식에 대해 공개적으로 논의합니다. Kaggle 참가자들은 또한 챌린지를 보다 원활하게 진행하기 위해 주최자에게 정기적으로 피드백을 제출하고 있습니다.
기업은 아이디어를 공유하고 부서 간 협업하는 것이 보상되는 지속적인 학습 문화를 만들어 이와 동일한 수준의 커뮤니티와 지원 시스템을 만들 수 있습니다. 테라데이타에는 협업 학습 문화에 크게 기여하는 Transcend라는 플랫폼이 있습니다. 본사 직원들은 Transcend를 사용하여 우리 자신의 기업 데이터를 안전하게 실험하고, 다른 팀이 제품과 서비스를 최적화하여 고객의 요구를 충족하도록 노력한 것을 확인할 수 있습니다.
4. 더 많이 발견하기 위해 데이터 통합 및 공유
데이터를 상황에 맞게 배치하는 것은 커뮤니티가 답을 찾도록 돕는 데 중요한 단계입니다. 존스 홉킨스 대학의 엔지니어들은 펜데믹 초기에 전 세계의 실시간 사례 데이터를 보여주는 널리 배포된 COVID-19 글로벌 맵을 구축했을 때 이를 이해했습니다.
데이터의 규모 또는 다른 익숙한 기준값과 비교하는 맥락으로 데이터를 표시하면 격리된 데이터로는 결코 발견할 수 없는 해답을 밝힐 수 있습니다. 그렇기 때문에 데이터 세트와 유형을 통합하고 데이터 과학자에게 데이터 컨텍스트를 시각화하고 전달할 수 있는 도구를 제공하는 것이 매우 중요합니다. 종종 한 눈에 이해하기 쉬운 데이터 시각화와 같이 이러한 전반적인 상황을 제공하여 데이터 과학자들은 대중이 바이러스의 위협을 이해하고 확산을 늦추기 위한 조치를 취하도록 도울 수 있습니다.
데이터 과학자의 책임
데이터 과학자는 필수 근로자와 같은 방식으로 이 팬데믹의 최전선에 있지는 않지만, 시민의 의무도 포함하여 여전히 펜데믹에 맞서 싸워야 할 책임이 있습니다. 데이터 과학자는 데이터 정리, 통합, 모델링 및 의사 소통에 관한 전문 지식을 적용하여 복잡한 문제에 대한 해답을 찾을 수 있습니다. 데이터가 주요 걸림돌이 될 때마다(자주 발생함) 데이터 과학자는 이해를 방애하는 장애물을 제거할 수 있습니다.
엔터프라이즈 리더는 데이터에서 답을 찾는 것을 방해하는 장애물을 제거할 책임이 있습니다. 학습 문화가 번창하는 회사에서 의미 있는 차이를 만들 수 있는 길이 열리면 많은 사람들이 그 길을 따르곤 합니다.