카테고리 없음

[데이터분석] 소비패턴과 교통량 분석을 통한 포스트코로나 국내 관광산업 변화 예측

5_weeks 2022. 11. 28. 16:56
반응형

소비패턴과 교통량 분석
국내 관광 데이터 분석

개요

빅데이터 분석에 관심을 가지고 실습을 해보고 싶어 여러 공모전을 찾아보다가 "한국문화관광연구원"에서 주최, "문화체육관광부" 후원, "신한은행" 및 "BellTechSoft"에서 협찬하는 [문화관광 빅데이터 분석대회]에 참가하게되었다. 2020년에 참가하였다.

분석 주제

주제는 자유 주제와 지정 주제로 나뉘어져 있다. 자유 주제는 "문화 및 여가, 관광, 콘텐츠 분야 활성화를 위한 정책적 시사점 도출" 이며, 지정 주제는 "코로나 19가 문화관광에 미치는 영향과 이후 변화 전망"이다. 나는 "코로나 19가 문화관광에 미치는 영향과 이후 변화 전망"을 택하여 대회에 참가했다.

분석 데이터

분석 데이터로 "문화/관광 데이터 (OpenAPI)"에서 제공하는 "주요 관광지점 입장객 통계" 및 "신한카드" 데이터를 활용하였다. 그 외에도 "한국도로공사, 고속도로 공공데이터 포털"에서 제공하는 "영업소간 교통량"과 각 지역자치단체 홈페이지에서 제공하는 "지역별 코로나19 확진자 현황" 데이터를 활용하여 소비패턴과 교통량 분석을 통한 포스트코로나 국내 관광산업 변화 예측 프로젝트를 진행하였다.

분석 도구

분석 도구 및 언어로는 Python 및 MySQL을 활용하였다. 

분석 내용

 

코로나19로 인한 여행, 관광의 변화

코로나19 감염 확산 이후 국내 관광에 대한 수요가 증가하였으며 국내 여행 계획 시 인구 밀집도가 적은 지역을 위주로 승용차로 이동하는 비율이 높아졌다. 2018년부터 2020 2월과 3월까지 내국인 입장객을 비교했을 때 전년도 동월에 비해 2020년의 관광 정도가 감소하였다. 뿐만 아니라 유령도시화 현상이 발생하면서 교통량과 인구 이동량 또한 감소하는 경향을 보였다.

데이터 분석

지역별 코로나 발생 추이에 따른 유입 교통량 분석

지역별 코로나19 발생 추이에 따른 유입 교통량을 분석한 결과, 전국적으로 전년대비 교통량이 감소함을 알 수 있었다. 신규 확진자 수와 유입 교통량은 서로 반비례하는 경향을 보였으며 코로나19 발생시기인 2월 이후 약 4개월까지 올해 유입 교통량이 작년에 비해 낮은 수치를 보였다. 추가적으로 전북, 전남과 같이 올해 유입 교통량이 작년에 비해 증가한 지역의 경우 코로나19 신규 확진자 수가 상대적으로 적은 지역이었으며 연휴 기간이 길었던 5월에 최대 유입 교통량을 기록한 것으로 보아 관광지로써 코로나19 감염 위험도가 낮은 지역을 선호함을 예상할 수 있었다.

신한카드 데이터를 활용한 여행 소비 변화 분석

신한카드 데이터로 여행에서의 소비 변화를 분석한 결과, 과거 2018, 2019년에 비해 올해 2월부터 6월까지 여행 관련 소비가 크게 감소하였음을 알 수 있었다. 숙박-관광쇼핑-교통-체험-여행사 순으로 내국인 관광 소비가 많이 이루어졌는데 코로나19 발병 이후 교통, 관광쇼핑, 여행사 부문은 큰 폭으로 감소한 반면 숙박, 체험은 적은 폭으로 줄어들었다.

관광객과 소비 데이터의 변화 동향

지역별 관광객 합계와 신한카드 여행 관련 데이터를 분석한 결과 두 데이터의 변화 동향은 비슷한 것으로 나타났다. 각 해의 5, 8, 10에 합계치가 증가하였고 코로나19 발생 직후인 20 1월부터 3월까지의 관광 횟수는 감소하였다. 특히 신한카드 월별 여행 부문 카드 소비 정도 동향을 살펴보면 2018년과 2019년이 유사하게 나타났는데 이에 비해 2020년의 경우 코로나19로 인해 1월부터 3월까지의 여행이 급격히 준 것을 확인할 수 있었다. 그러나 5월부터 다시 여행의 수요가 증가하였는데 이를 통해 이전 해 보다는 관광 수치가 적게 나타나지만 사람들의 여행 욕구는 다시 살아나는 것을 알 수 있다. Arima 모델을 이용하여 향후 여행 관련 카드 소비 누적 값을 예측한 결과 2018년과 2019년보다는 누적 수가 적게 나타나지만 여행을 즐기는 시기는 8월과 10월에 비슷하게 나타날 것임을 예상할 수 있었다.

분석 기법

데이터베이스 응용프로그램 MySQL 활용

지역별 코로나19 발생 추이에 따른 유입 교통량 분석에서 MySQL을 사용하였다. pymysql을 통해 2월부터 7월까지의 영업소간 교통량 데이터를 MySQL 데이터베이스와 연동하였다. 영업소를 지역별로 그룹핑한 다음, 일자, 지역그룹, 그룹별 유입 교통량을 모두 더한 값을 csv 파일로 저장하였다. 이후 추출한 csv 데이터를 활용하여 원하는 지역을 입력하면 pandas를 통해 지역별 코로나 발생 추이 변화 그래프와 2019, 2020년 각각의 유입 교통량 변화 그래프를 출력하여 분석할 수 있도록 설계하였다.

 

ARIMA 모델을 통한 2020년 하반기 예측

신한카드 데이터의 여행 관련 카드 사용 횟수를 통해 불규칙적인 변화를 띄는 코로나19의 특성에 따라 불규칙적인 데이터를 가지고 과거의 상관성과 데이터 추세를 통해 이후 변화를 예측하는 모델인 Arima 모델을 활용하였다. 각 지역 별 데이터를 통해 자기상관함수와 편자기상관함수 결과치를 보고 이동 평균의 계절적 특성을 가지는 비정상 시계열이므로 Arima 모델을 사용하는 것이 타당하다는 것을 증명하였다. 이 모델의 예측 성능도 MAPE, RMSE, MAE를 통해 도출하였다. MAPE 값이 최소 약 4% ~ 최대 약 12% 이므로 예측 모델 오차율이 작은 편이므로 ARIMA 모델을 이용한 예측 성능이 좋다는 것 또한 증명하였다.

결론

코로나19 장기화로 여행 욕구가 회복되어가는 경향과 함께 숙박 관련 소비량이 크게 감소하지 않은 점, 코로나19 확진자수에 반비례하는 교통량 등을 통해 포스트코로나 시대의 국내 관광 사업에서 중요한 키워드는 전지적 우리 시점의 여행, 바로 프라이빗 여행임을 알 수 있었다. 앞으로는 점점 소수의 인원들로 세분화된 개인 여행 취향을 존중하고 관광객 밀집도가 낮은, 덜 알려진 관광지를 선호하는 경향이 강해질 것이다. 이러한 경향성에 맞춰 국내 관광 산업도 일원화되지 않고 기존의 관광아이템을 세분화시키고, 각 지역의 특색을 살려 관광객을 분산화 하는 등의 노력이 필요해 보인다.

 

 

반응형