데이터 분석 포트폴리오

데이터 분석 포트폴리오 만드는 방법
(feat. 합격 데이터 분석 포트폴리오 ppt)


데이터 분석 합격 포트폴리오 훔쳐보기

“데이터 분석가 합격 포트폴리오 찾고 계신가요?”

비전공자에게 데이터 분석 포트폴리오는
전공 그 이상의 가치를 합니다.

데이터의 중요성은 나날이 높아지고 있습니다. 검색을 대신한다는 open api의 ChatGPT도 기계 학습을 위한 *데이터 전처리 과정을 필요로 합니다. 데이터를 추출하고 수집하고 전처리하여 분석하는 일련의 과정을 담당할 데이터 분석가는 지금도 부족합니다. 데이터 분석가로 취업하려면 필요한 데이터 분석 포트폴리오 어떻게 준비해야 할까요?

* 데이터 전처리(data preprocessing) : 데이터를 분석 및 처리에 적합한 형태로 만드는 과정

지금 데이터 분석 취업준비생 분들께 필요한 건
데이터 분석 직무 경험을 담은 데이터 분석 포트폴리오

이제 막 데이터 분석가 취업을 알아보고 계신 분들이라면 ‘데이터 분석 포트폴리오’라는 말이 어렵게 느껴질 것 같아요. 데이터 분석 포트폴리오는 진행한 데이터 분석 프로젝트를 채용 담당자에게 보여주기 위해 정리한 PPT 라고 생각해 주시면 됩니다. 프로젝트의 개요, 목표, 결과 및 성과, 진행 과정, 인사이트 등을 바탕으로 프로젝트를 구조화하여 준비합니다. 데이터 분석 포트폴리오에 대해 좀 더 자세히 알아볼까요?

데이터 분석 포트폴리오를 만들기 전
알아야 하는 것 : 데이터 분석가 주요 업무

데이터 분석가(Data Analyst)는 기업이나 조직에서 수집한 데이터를 분석하여 통계적으로 유의미한 정보와 인사이트를 도출하고 이를 통해 조직의 의사결정에 도움을 주는 역할을 수행합니다. 주요 업무로는 1) 데이터 수집 및 전처리 2) 데이터 분석 3) 데이터 시각화 4) 데이터 분석 결과 및 해석이 있습니다. 데이터 분석 취업을 준비한다면 데이터 분석가의 주요 업무에서 요구되는 역량을 잘 보여줄 수 있는 데이터 분석 포트폴리오를 준비해야 합니다.

출처_곰사원은 곰대표 유튜브 채널

데이터 분석 역량 데이터 분석 포트폴리오에 어떻게 녹이나요?

데이터 분석 포트폴리오
Part 1. 데이터 수집 및 전처리

데이터 수집 및 전처리는 데이터를 수집하고 이를 분석에 적합한 형태로 가공하는 과정을 의미합니다. 데이터 전처리를 위해 SQL, Python, R 등의 프로그래밍 언어와 데이터 베이스 등의 도구를 사용하며 정제되지 않은 데이터를 프로젝트의 목적과 의도에 맞게 유형을 분류하고 정리하는 과정을 거칩니다. 합격 데이터 분석 포트폴리오를 함께 보며 데이터 수집 및 전처리 우수 사례를 소개해드릴게요.

데이터 분석 포트폴리오 합격 예시
데이터 수집 및 전처리 tip

  • 프로젝트 설명
    - 프로젝트 명 : 상점별 카드 매출 데이터를 이용한 코로나 전후 소비 현황 분석

    - 프로젝트 개요 및 진행 배경
    : 코로나로 인한 매출 하락 지역 및 산업을 파악하고, 이에 대한 정책이 필요하다는 제언을 하고자 진행

데이터 분석 포트폴리오 데이터셋

이미지 = 전처리 이전의 데이터셋

수집한 상점별 카드 매출 데이터셋은 약 650만 건의 데이터가 담겨 있었어요. 상점, 카드id, 날짜와 시간, 할부나 일시불과 같은 결제 유형, 사용 지역, 업종, 금액까지 9개의 컬럼으로 구분되어 있었습니다.
어떤 데이터는 값이 제대로 들어가 있지 않은 경우도 있었고, 어느 정도 분량의 데이터를 사용할지, amount(결제금액) 컬럼에 -4500 처럼 음수 부호가 붙은 건 어떻게 다룰지 등을 본격적인 데이터 분석하기 전 판단했습니다.

데이터 분석 포트폴리오 중 데이터전처리 범위

이미지 = 데이터 범위 제한

합격한 수강생의 포트폴리오를 보면 분석 목적을 고려해서 먼저, 서울특별시로 데이터 범위를 제한했다고 합니다.

"전국의 소비 데이터 중, 서울 지역만을 추출하여 사용하였습니다. 워낙 방대한 양의 데이터라 모든 지역을 살펴보는 것은 무리가 있다고 생각하였고, 한 지역만 봐야 할 경우 서울이 가장 경제상황에 민감하게 반응하는 지역이기 때문에 필요성이 높다고 판단하였기 때문입니다."

데이터 분석 포트폴리오 중 데이터전처리 결측치

이미지 = 결측치 처리

그 다음 설정한 범위의 데이터 내 데이터가 비어있는 경우는 제외했네요.

"이 과정에서 발견한 결측치는, 총 25개의 서울특별시 행정구역 중 '도봉구' 가 존재하지 않는다는 것이었습니다. 하지만, 해당 결측치는 다른 값으로 대체하는 것은 불가능하기 때문에 이후 도봉구는 제외하고 비교를 하는 것으로 결론 지었습니다."

데이터 분석 포트폴리오 중 데이터전처리 이상치

이미지 = 데이터 내 환불값 처리

마지막으로 amount(결제금액) 컬럼에 음수 부호가 붙은 데이터는 결제했다가 환불한 기록으로 판단하여 상점, 날짜, 시간, 카드 컬럼을 이용해 최종적으로 원하는 데이터만 걸러지도록 전처리를 진행했다고 합니다.

"전처리에서 가장 중점을 두었던 부분은 환불 값을 처리해주는 파트였습니다. 해당 자료에는 어떤 부분을 환불한 것인지 정보가 나와있지 않은 (-) 금액을 포함하고 있었기 때문입니다. 따라서 저희는 같은 상점에서 같은 카드로 더 많거나 같은 금액을 결제한 것 중에 가장 최근의 결제에서 그 값은 빼주는 방식으로 처리하였습니다."

데이터 분석 포트폴리오 최종 데이터

이미지 = 전처리된 최종 데이터셋

데이터 전처리 과정에서 중요한 것은 본격적인 데이터 분석 전부터 데이터 분석가의 판단이 개입된다는 것입니다. 데이터 분석가의 데이터 전처리 역량을 어필하기 위해 데이터 분석 포트폴리오 내 데이터 전처리 진행에 대한 충분한 논리와 근거를 제시해야 합니다.

데이터 분석 포트폴리오
Part 2. 데이터 분석

데이터 분석은 수집한 데이터를 분석하여 인사이트를 도출하는 과정입니다. 이를 위해 통계 분석, 머신 러닝, 데이터 마이닝 등 분석 기법을 사용하며 Python, R, SAS 등의 분석 도구를 활용합니다.
그렇다면 ‘잘 분석했다’는 어떻게 보여줄 수 있을까요? 잘 분석된 데이터 분석 포트폴리오에는 아래의 조건을 충족했어요!

1) 데이터 분석 목적과 결과의 일치 여부
데이터 분석의 목적을 명확하게 설정하고 이에 부합하는 결과를 도출해낸 경우를 의미합니다.

2) 데이터 분석 방법의 적절성
데이터 분석가 개인의 견해가 포함되지 않으며 왜곡 되지 않은 분석 방법을 활용한 경우를 의미합니다.

3) 데이터 분석의 비즈니스 영향력
데이터 분석의 가장 큰 목적은 기업의 의사결정을 지원하는 것입니다. 기업의 의사결정을 지원하며 기업의 경쟁력을 향상시킬 수 있는 영향력을 갖춘 경우를 의미합니다.

데이터 분석 포트폴리오 합격 예시
데이터 분석 tip

데이터 분석 포트폴리오 예시

이미지 = 데이터 분석 포트폴리오 예시

합격 데이터 분석 포트폴리오를 살펴보면 모델의 결과, 성능만 보여주는 것이 아닌 최종적으로 선택한 모델을 찾기까지 어떤 과정을 지나갔는지 자세히 보여주고 있습니다.
실험한 모델의 종류, 전처리, 입력 데이터와 출력 데이터 등을 자세히 제시했으며 하이퍼 파라미터 설정에 따른 모델 성능 평가 결과도 함께 제시했습니다. 즉 결과를 관찰하며 최적의 모델을 찾아가는 과정을 보여주고 있기에 좋은 데이터 분석 프로젝트라고 생각합니다.

데이터 분석 포트폴리오
Part 3. 데이터 시각화

데이터 시각화는 분석 결과를 시각화하여 쉽게 이해할 수 있도록 도와주는 역할을 합니다. 데이터 분석가에게는 데이터 분야에 종사하지 않는 사업가, 마케터, PM, 개발자 등과 소통하는 역량을 중요시 하는 만큼 분석한 데이터 결과값을 누구나 알기 쉽게 시각화할 수 있는 역량을 갖춰 정보 전달의 효율성을 높여야 합니다. 이를 위해 주로 태블로, 구글 데이터스튜디오, D3.Js 등의 시각화 도구를 사용해요!

데이터 분석 포트폴리오 합격 예시
데이터 시각화 tip

데이터 분석 포트폴리오 내 데이터 시각화 과정에서 가장 많이 하는 실수는 “한 화면에 너무 많은 정보를 전달하는 경우” 입니다. 잘못된 그래프를 사용하는 것보다 너무 많은 정보를 담는 경우가 더 많은데요. 아쉬웠던 시각화 사례와 시각화의 좋은 예시를 함께 소개해드릴게요.

데이터 분석 포트폴리오 데이터 시각화 안 좋은 예시

이미지 = 데이터 시각화의 안 좋은 예시

한 장의 PPT 화면 내 최대한 많은 정보를 담고 싶은 마음은 이해하지만 너무 많은 변수들을 한 번에 보여주는 경우 읽는 사람으로 하여금 정확한 정보를 읽기가 어렵습니다.

데이터 분석 포트폴리오 데이터 시각화의 좋은 예시

이미지 = 데이터 시각화의 좋은 예시

먼저, 첫 번째 시각화 자료에서 군집분석 결과를 통해 제주도민과 관광객의 버스 이용량 차이를 제시함으로써 두 집단간 차이가 분명하다는 메시지를 전달합니다. 그리고 제주도 지역의 지도시각화를 통해 도민과 관광객의 이용행태를 좀 더 효과적으로 전달하고자 한 부분을 확인할 수 있습니다. 이처럼 보는 사람 입장을 한 번 더 생각한 시각화 자료를 제시한다면 데이터 분석 포트폴리오의 합격률을 높일 수 있습니다.

데이터 분석 포트폴리오의 완성도를 높이기 위해

데이터 분석 포트폴리오는 모델의 성능이나 결과보다 어떤 과정을 거쳤는지, 데이터 분석가의 의사 결정이 논리적이었는지가 중요하게 작용합니다. 데이터 분석 결과 및 해석 과정에서 가설에 대한 검증은 물론, 가설을 설정하지 않았지만 분석 과정 중 발견한 인사이트를 추가적으로 서술해준다면 더욱 완성도 높은 데이터 분석 포트폴리오를 만들 수 있습니다.

데이터 직무 취업을 목표로 한다면 결국 ‘논리적으로 근거를 찾는 사람’이 되어야 합니다. 신입 데이터 분석가에겐 필요한 역량을 빠르게 파악하고 습득하는 능력이 중요합니다. 기술 스택이나 코딩 능력의 경우 실제 현업에서 배우지 않은 또 다른 도구를 사용하기를 요구 받을 수 있으니까요.


아직 데이터 분석 포트폴리오에 넣은 프로젝트 경험이 부족한 취업준비생이라면 프로젝트 중심의 취업 교육을 들어보는 건 어떨까요?

저희 데이터 취업 스쿨은 PBL (Project Based Learning) 방식을 추구합니다.
프로젝트 중심으로 수업하고 프로젝트 경험을 바탕으로 취업까지 연계해 드리고 있습니다.

제로베이스에서 새출발할 여러분을 기다립니다.
데이터 직무를 꿈꾸는 누구나

>> 데이터 취업 스쿨 바로가기

추천 컨텐츠