문제는 멋쟁이천재사자님의 내용을 참고하였습니다.
https://it-freelancer.tistory.com/21
[ADP 실기 study log] ADP 23회 객실사용여부 (풀이중)
1. 문제 온,습도,조도,CO2농도에 따른 객실의 사용유무 판별 종속변수 Occupancy, 0: 비어있음 , 1: 사용중 데이터 경로 : /kaggle/input/adp-kr-p1/problem1.csv 1 - (1) 데이터 EDA 수행 후, 분석가 입장에서 의미있
it-freelancer.tistory.com
문제
온,습도,조도,CO2농도에 따른 객실의 사용유무 판별
종속변수 Occupancy, 0: 비어있음 , 1: 사용중
1 - (1) 데이터 EDA 수행 후, 분석가 입장에서 의미있는 탐색
1 - (2) 결측치를 대체하는 방식 선택하고 근거제시, 대체 수행
1 - (3) 추가적으로 데이터 질을 향상시킬만한 내용 작성(구현 안하고 설명만해도 됨)
2 - (1) 데이터에 불균형이 있는지 확인, 불균형 판단 근거 작성
2 - (2) 오버샘플링 방법들 중 2개 선택하고 장단점 등 선정 이유 제시
2 - (3) 오버샘플링 수행 및 결과, 잘 되었다는 것을 판단해라
3 - (1) 속도측면, 정확도측면 모델 1개씩 선택, 선택 이유도 기술
3 - (2) 위에서 오버샘플링 한 데이터 2개, 오버샘플링 하기 전 데이터 1개에 대해 모델 2개를 적용하고 성능 보여주기
3 - (3) 위 예측결과 사용해서 오버샘플링이 미친 영향에 대해 작성하라
풀이
1-(1) 데이터 EDA 수행 후, 분석가 입장에서 의미있는 탐색
summary를 통해 이상치와 결측치 등을 파악
온,습도,조도,CO2농도 변수이므로 불가능한 값이 나오면 이상치로 판단할 수 있음. 이런 것은 전처리가 필요함
1-(2) 결측치를 대체하는 방식 선택하고 근거제시, 대체 수행
중앙값, 최빈값, 평균값 등으로 대체해야함
class인 경우 가장 유사한 데이터로 근사하는 것도 적절함
1-(3) 추가적으로 데이터 질을 향상시킬만한 내용 작성(구현 안하고 설명만해도 됨)
추가 데이터를 수집한다. 절대적인 데이터 양이 증가하면 조금 더 다양한 데이터를 얻을 수 있어 생성된 모델이 적용되었을때 발생할 수 있는 과적합 문제를 해결할 수 있다.
파생 변수를 생성한다.
도메인 전문가에게 필요한 변수와 덜 유의미한 변수에 대해 문의하여 변수의 중요도를 파악한 뒤 분석한다.
2-(1) 데이터에 불균형이 있는지 확인, 불균형 판단 근거 작성
타겟 변수의 불균형을 파악한다. summary 함수 사용
2 - (2) 오버샘플링 방법들 중 2개 선택하고 장단점 등 선정 이유 제시
방법1 : 단순 오버샘플링 : minor한 클래스의 데이터를 복사하여 중복되게 생성한다.
방법2 : SMOTE : minor 클래스인 데이터의 사이에 데이터를 생성한다. 중복된 데이터가 아닌 데이터가 생긴다.
2 - (3) 오버샘플링 수행 및 결과, 잘 되었다는 것을 판단해라
SMOTE로 오버샘플링 수행. 생성된 비율의 갯수로 1:1이 된 것을 보여줌, 생성 전후 scatter plot을 그려서 유사하게 생성되었음을 보여주기
3 - (1) 속도측면, 정확도측면 모델 1개씩 선택, 선택 이유도 기술
속도 : decision tree
정확도 : randomforest
3 - (2) 위에서 오버샘플링 한 데이터 2개, 오버샘플링 하기 전 데이터 1개에 대해 모델 2개를 적용하고 성능 보여주기
7:3으로 train, test 데이터 분리
이후 train 데이터만 oversampling 실행
데이터를 df1, df2, df3 (또는 더 알아보기 쉽게, df_orginal, df_upsample, df_smote)
성능은 불균형 데이터에 자주 사용되는 f1-score를 이용해서 보여주기 (caret library의 confusionMatrix 함수)
3 - (3) 위 예측결과 사용해서 오버샘플링이 미친 영향에 대해 작성하라
오버샘플링을 하는 이유는 minor한 클래스에 대한 예측력을 키우기 위함임. 아마 관련된 정확도가 높아졌을 것으로 유추
이전에는 학습을 편향되게 했기때문에 major한 class의 데이터에 과적합 되었다고 판단됨. 오버샘플링 이후 골고루 학습하는 모델을 생성할 수 있었음
'자격증' 카테고리의 다른 글
ADP 28회 실기 후기 (0) | 2023.03.14 |
---|---|
[Adp 실기 기출 풀이] 24회 9개 표본 신뢰구간 (0) | 2023.03.05 |
[Adp 실기 기출 풀이] 24회 코로나 감염 확률 (0) | 2023.03.05 |
[Adp 실기 기출 풀이] 24회 두 제품의 평균이 차이가 있는지 (0) | 2023.03.05 |
[Adp 실기 기출 풀이] 24회 다중회귀 (0) | 2023.03.05 |