제 8회 빅데이터분석기사 합격 후기 (전공자, 벼락치기)

통계학과 전공자의 빅분기 벼락치기 합격 후기

파이썬(or R)에 어느 정도 익숙한 통계학 전공자라면 필기, 실기 각각 약 3~4일 정도만 공부해도 충분히 합격할 수 있다.

필기

빅분기 필기는 아래와 같이 4개의 과목으로 이루어져 있다.

출처 : https://www.dataq.or.kr/www/sub/a_07.do#none

이 중 가장 걱정했던 부분은 1과목인 빅데이터 분석기획이다.

ADSP를 취득할 때 2과목(데이터 분석 기획)에서 과락을 겨우 면했었기 때문이다...

빅분기 필기의 합격 기준은 전 과목 40점 이상, 과목 평균 60점 이상이기 때문에 어느 한 과목에서 40점 미만의 점수가 나오면 불합이다. 그래서 1과목을 어느 정도는 공부해야 했다.

 

빅데이터 탐색, 모델링, 결과 해석 과목은 굳이 공부하지 않아도 될 것 같았고, 빅데이터 분석기획 부분은 기출문제들을 대충 살펴봤을 때 ADSP와 유사한 내용들로 이루어진 것 같아서 교재는 구매하지 않았다.

대신, 빅분기를 이미 공부하신 분들이 블로그에 올려두신 필기 요약본들을 찾아서 여러 번 읽어봤다.

문제는 따로 풀어보진 않았다.

 

하루에 1~2시간씩 약 3일 정도를 투자해서 준비를 했고, 그 결과 좋은 성적은 아니지만 통과할 수 있었다.

 

 

이전 회차 문제들을 본 적이 없어서 이전 회차들과의 난이도 비교는 불가능하지만, 8회만 놓고 봤을 때 전공자 입장에서도 문제가 쉬운 편은 절대 아니었다.

특히 3, 4 과목은 공부를 하지 않아도 거의 다 풀 수 있을 거라 생각했었는데, 생각보다 헷갈리는 문제들도 많고, 문제를 푸는데 지장은 없었지만 '이것까지 나온다고?' 싶은 단어들(ex. 일치추정량)도 은근 등장했다.

그리고 문제 출제 범위가 상당히 넓다고 느껴졌다.

아마 데이터 분석이나 ML을 공부해보지 않은 완전 비전공자(통계학, 산업공학 등 전공하지 않은)들은 필기시험 준비를 열심히 했더라도 어렵게 느껴졌을 것 같다.

 

 

실기

실기는 크게 3가지 유형으로 이루어져 있다.

사용 가능한 언어는 R과 파이썬이고, 각자 더 편한 언어를 선택하면 된다.

나는 프로젝트를 거의 파이썬으로 하기도 했었고, 2유형을 생각했을 때 파이썬이 더 편할 것 같아서 그걸로 선택했다.

 

데이터마님 문제로 많이 공부하는 것 같길래 나도 그걸로 공부했다.

 

사이트에 있는 모든 문제를 다 푼 것은 아니고, 데이터 전처리 100문제와 기출 변형 6, 7회만 풀었다.

1유형은 데이터 전처리 100문제로 커버 가능하니, 문법에 익숙해지도록 자주 들여다보는 게 좋은 것 같다.

2유형은 자신만의 분석 순서를 정해두는 게 편하다. 주로 랜덤포레스트를 사용하면 무난하게 합격 가능하다고 해서, 나는 굳이 여러 모델을 비교하지 않고 랜덤포레스트만 사용했다.

단, 회귀 문제인지 분류 문제인지를 파악하고 적절한 모형을 사용해야 한다. (회귀 문제인데 RandomForestClassifier 쓰면 안 됨)

더보기
  1. 결측치 여부 확인
  2. 불필요한 변수 제거
  3. train data를 독립변수(X)와 종속변수(y)로 나누기
  4. 범주형 변수 인코딩 - 라벨 인코딩만 진행
  5. train data를 train / valid로 나누기 (train_test_split)
  6. 모델링 - RandomForest 사용
  7. valid data에 대한 예측 성능 확인
  8. test data에 대한 예측 진행 및 결과 제출

3유형은 통계 검정에 대해 나온다고 되어 있어서 좀 걱정했는데(기초통계가 가물가물해서...), 6, 7회 기출 변형 문제들을 보니 선형회귀, 로지스틱회귀 모형에 대해서만 나왔길래 두 모형만 공부했다.

더보기
  • 라이브러리
import statsmodels.api as sm
  • 선형 회귀
X = sm.add_constant(X)  # 상수항 추가
model = sm.OLS(y, X).fit()

model.params  # 회귀 계수들
model.params['(변수명)']  # (변수명)의 회귀 계수
model.pvalues  # p값들
  • 로지스틱 회귀
model = sm.Logit(y, X).fit()

np.exp(model.params)  # 오즈비들

 

그리고 시험 환경에서는 코드 라인별 실행이 불가하고, 단축키, 자동완성 기능이 제공되지 않아서 이 점에 익숙해지기 위해 .ipynb 파일이 아닌 .py 파일로 푸는 연습을 했다.

help, dir 등의 함수를 사용할 수 있기 때문에 평소에 연습할때도 코드를 작성하다가 헷갈리는 부분이 있으면 help, dir 함수를 사용해서 참고하는 습관을 들이려고 노력했다.

 

 

실기는 되게 쉬웠다.

기출 복원 문제들과 유사하게 출제되었다.

2유형은 회귀 문제가 출제되었다.

  • 전처리 : 별다른 변수 drop 없이 진행. 범주형 변수는 라벨 인코딩만 진행
  • 모델링 : RandomForest 사용

3유형은 이번에도 역시 선형회귀와 로지스틱 회귀에 대한 문제들만이 출제되었다.

 

실기는 파이썬(또는 R)으로 통계 분석, ML 모델링을 해 본 경험이 있으면 준비하는데 시간도 오래 걸리지 않고 쉽게 합격할 수 있는 듯 하다.

728x90