야외 운동 시설 관리 및 서비스 제공을 위한 빅데이터 분석
1. 분석 배경
최근 건강에 대한 관심이 높아지고 있다. Google Trends를 확인해본 결과, 지속적으로 건강(헬스)에 대한 관심이 증가하는 것을 알 수 있다. 이러한 건강에 대한 관심은 소비로 이어지며 대다수의 사람들이 건강 관리 방법으로 운동을 가장 많이 선택한다. 이에 따라 운동에 가장 많은 소비와 투자가 이루어지고 있다.
COVID-19로 인해 헬스장 영업을 중단하거나 실내 헬스장이 위험하다는 인식으로 야외에 설치 되어있는 운동기구를 찾는 사람들이 많아졌다. 하지만 실내 헬스장처럼 지속적으로 관리하는 사람이 없기 때문에 노후화된 기구들이 많고 방역 수칙에 대한 관리도 미흡하기 때문에 안전성이 우려된다.
이러한 이유로 야외 운동 시설을 체계적으로 관리, 운영할 수 있는 서비스가 필요하다는 생각이 들었다. 이 서비스를 제공할 수 있는 앱을 기획하고 health+environmnet(건강+환경)을 합쳐서 앱이름을 '헬인이'로 지었다.
2. 데이터 분석
서울시 기상관측정보 데이터에는 결측값이 많이 존재했기 때문에 데이터 수가 가장 많았던 TOP 5 지역 중 거주인구가 가장 많은 TOP3 지역을 선정하여 분석 구역을 설정했다. 분석 대상으로 선정된 지역은 성북구, 노원구, 강동구이다.
서울시 기상 관측 정보에서 야외 운동 수요에 영향을 끼치지 않을 것이라 판단되는 5개의 변수를 제거했다. 이후 data preprocessing 작업을 통해 특정 기간과 지역을 추출하였다.
수요 예측 모델을 만들기 위해 App 회원가입시 유저에게 얻는 데이터를 가상 데이터로 만들고 실시간으로 수집될 수 있는 기상 데이터를 합쳐서 최종 데이터 프레임을 만들었다.
데이터의 차원 수를 줄이기 위해 키와 몸무게를 합쳐서 BMI 수치라는 파생변수를 만들었고 이후 BMI 수치를 분석한 서비스도 기획할 예정이다. 또한 야외 운동기구 수요에 직접적인 영향을 끼칠 것이라고 판단하는 체감온도를 기온, 풍속 데이터로 만들었다.
모델에 fitting 시킬 최종 DataFrame을 확정 지은 후, 모델을 선정하여 validation set을 통해 검증을 하였다. 이중에 성능이 가장 높게 나온 LightGBM 모델을 최종 모델로 채택하고 모델 평가를 진행했다.
Test set으로 검증을 진행한 결과 성능이 70대가 나오는 것을 알 수 있었다. 가상 데이터로 학습을 진행했고, 데이터 수가 적다는 점을 감안하여 실제 데이터가 생성되고, 데이터의 수가 축적이 된다면 높은 성능을 기대해 볼 수 있다.
또한 유저 데이터를 바탕으로 비슷한 인적사항과 기상 등을 학습시켜서 유저에게 운동기구를 추천해주는 모델을 만들었다. 이를 통해 운동기구 추천 서비스를 제공하여 초보자들에게 알맞는 운동기구를 선택할 수 있도록 한다.
3. 분석 데이터 활용
유저가 '헬인이' 앱을 이용하게 될 시, 회원가입을 통해 유저 정보를 수집한다. 데이터 수집 동의 팝업을 통해 데이터 사용 권한에 대한 동의를 구한 후 모델에 적용한다.
기구마다 고유번호와 QR 코드를 지정하여 운영 및 관리를 할 수 있도록 한다. QR 코드를 통해 제공하는 서비스는 다음과 같다.
1. 기구를 잠금해제 및 운동 시작 활성화
-> 기구 관리를 하고 운동 시작 활성화를 통해 앱 상에 운동 시간, 스케줄러 표시 등 기능을 제공
2. 운동 기구 사용방법 안내
-> 운동 기구 사용방법 영상을 제공함으로써 운동 초보자들에게 운동 방법을 알려줌(SKIP 기능도 추가)
3. 고장 오류 시 알림 및 유저 의견 전달
-> 고장이나 오류, 그리고 유저의 의견 전달 기능을 추가하여 지속적으로 관리하고 피드백
- 운동 기구에 QR 코드를 부착한 예시와 앱 화면
기대효과는 다음과 같다.
1. 친환경 에너지를 사용하고 생산하는 야외 운동 시설 구축
2. 생산된 친환경 에너지를 주변 시설 전력으로 사용
3. 유저들의 운동에 대한 관심을 증가시키고 안전하게 운동 기구 사용 기대
4. 활용 데이터 및 참고 문헌
감사합니다.