1. 서론
2. 관광 빅데이터의 활용 현황
3. 데이터 및 연구 방법
1) 데이터
2) 연구 방법
4. 연구 결과
1) 신용카드 데이터를 활용한 관광 패턴 분석
2) 카드 데이터와 블로그 데이터의 보완적 활용
5. 결론
1. 서론
정보통신기술(ICT)의 발달과 스마트폰, 소셜미디어(Social media)의 이용률 증가는 관광 관련 빅데이터(Big Data)의 생성을 가속화하고 있다(Mariani et al., 2018). 관광 빅데이터에는 소셜미디어에 기록한 게시물 등 사용자가 생성한 데이터, 위성항법시스템(GNSS) 및 로밍과 같이 모바일 기기에서 수집된 데이터, 웹 검색과 방문, 예약 및 구매 등 거래 데이터가 포함될 수 있으며, 관광 산업은 이러한 빅데이터 분석으로 새로운 가치를 창출하고 있다(Li et al., 2018; Yallop and Seraphin, 2020). 또한, 정보 검색부터 체험까지 일련의 관광 경험이 기록되는 현재의 관광 빅데이터는 지속 가능한 관광을 발전시키기 위해 사용될 수 있다(Gössling, 2020).
빅데이터 분석을 통한 관광 설계는 관광의 소비자인 관광객을 더욱 유치할 수 있는 관광지 발굴과 프로그램 개발에 도움이 되며 지역 경제의 활성화를 촉진할 수 있다(Xiang and Fesenmaier, 2017). 빅데이터의 중요성이 증가함에 따라 관광 산업 및 정책 분야에서도 그 활용도가 점차 강조되고 있다(이영진・윤지환, 2014). 관광 빅데이터를 활용한 사례로, 전주시는 관광객의 동선과 상권을 분석하여 전주시 내 연계 관광 정책 수립에 활용하고 있다(행정안전부・한국정보화진흥원, 2018). 부산광역시 해운대구는 전국 최초로 빅데이터 분석팀을 설치하여 소셜미디어에 나타난 방문객의 요구사항을 분석하여 활용하였고 서울특별시 강서구의 의료관광 활성화, 제주특별자치도의 소비패턴에 따른 관광 정책 수립 등 다양한 사업에 관광 빅데이터가 활용되고 있다(박근화, 2016; 고선영・정근오, 2021).
관광 빅데이터는 개인이 생성하여 온라인에 게시한 사용자 생성(UGC) 데이터, 기기를 통해 수집된 GNSS 및 로밍, 블루투스, 센서 태그 등의 기기 데이터, 웹페이지 검색, 방문, 예약, 구매 등 온라인상의 작업을 기록한 트랜잭션 데이터로 구분된다(Li et al., 2018). 이 중 사용자 생성 데이터에 포함되는 소셜미디어 데이터는 개인적인 의견이나 경험 정보를 주로 공유한다(Xiang et al., 2015). 소셜미디어에 공유된 정보는 소셜미디어를 사용하는 다른 사용자를 관광지로 이끄는 관광 유발 효과를 일으키기도 한다(이창규 등, 2023). 이러한 장점으로 소셜미디어 데이터는 관광지의 특성 파악이나 새로운 관광 유형 도출, 관광객 평가 분석 등의 연구에 활용되었다(이영란 등, 2023; Zeng and Gerritsen, 2014; Kim et al., 2022).
소셜미디어 데이터는 관광지에 대한 인지적 이해와 풍부한 데이터 확보에 도움이 될 수 있어, 그 가치는 적지 않다(Yang et al., 2019). 그러나, 소셜미디어 데이터의 편향적이거나 광고성 내용, 신뢰성에 대한 우려는 지속적으로 언급된 문제이다(Burgess et al., 2011; Schuckert et al., 2015a). 또한, 효과적인 관광 패턴 분석 및 추천을 위해서는 제공되는 정보의 시간적, 공간적 정확도가 요구되며 기기 데이터, 즉 신용카드 사용 이력과 같은 실제 기록 정보가 필요하다(Hong and Jung, 2021). 따라서 본 연구에서는 신용카드 빅데이터를 이용하여 관광 패턴 분석을 수행하고 이를 바탕으로 신용카드 데이터와 소셜미디어 데이터의 상호보완적 활용 가능성을 확인하고자 하였다.
2. 관광 빅데이터의 활용 현황
스마트폰 신호, GNSS, 통행량, 차량 기록, 거래 정보, 센서 네트워크와 같은 기록된 데이터부터 텍스트, 리뷰, 블로그 게시물, 검색 기록 등 온라인 데이터까지 관광과 관련한 다양한 유형의 데이터는 모두 관광 빅데이터라고 할 수 있다(Miah et al., 2017; Xu et al., 2020). 최근 관광 연구에서는 관광지와 관광객에 대한 정보 추출 및 지식 창출을 위해 이러한 관광 빅데이터의 활용을 강조하고 있다(Fuchs et al., 2014; Shapoval et al., 2018). 대표적으로 관광 패턴의 분류나 관광 평가에 영향을 주는 요인을 찾기 위한 통계 분석(Chancellor, 2012; Schuckert et al., 2015b), 관광 선호 방문지 파악을 위한 시공간적 분석(Li et al., 2016) 연구가 이뤄졌다. 또한, 거래, 위치, 평가 등을 종합적으로 분석하기 위해 정형 데이터와 비정형 데이터를 함께 활용하는 연구도 진행되었다(Fuchs et al., 2013).
정형 데이터로는 대표적으로 GNSS 데이터와 신용카드 데이터가 있으며 비정형 데이터로는 블로그와 온라인 리뷰를 포함한 소셜미디어 데이터가 있다(Li et al., 2018). 정형 데이터와 다르게 소셜미디어 데이터는 주관적이며 다양한 텍스트와 사진이 포함된다. 따라서 사실적이고 객관적인 정보를 가진 정형 데이터만을 주로 사용하는 연구에서는 실제 위치가 기록되는 GNSS 기기를 통해 시공간적 패턴을 파악하거나 실제 신용카드 거래 데이터 기반 관광지 추천하는 등의 연구가 수행되었다(Choe et al., 2023; Hong et al., 2023). 반대로 소셜미디어 데이터는 관계와 맥락을 이해하는데 중요하며 그 양이 방대하다는 장점을 가지고 있다. 이에 따라 관광의 시공간 트랜드 분석(이영란 등, 2023), LDA(Latent dirichlet allocation)를 활용한 여러 텍스트 내의 주제 식별(Guo et al., 2017), 리뷰 데이터에 대한 감성 분석(Alaei et al., 2019), 관광지별 사진의 유사성 비교(이창규 등, 2023) 등의 연구가 이뤄졌다.
소셜미디어 데이터는 사용자 참여형태이므로 정보의 공유가 효율적이지만 그 주관성으로 인해 데이터의 품질에 대한 검증을 필요로 한다(Burgess et al., 2011; Schuckert et al., 2015a; Xiang et al., 2017; Xu et al., 2020). 최근에는 이러한 한계를 극복하기 위해 거래 기록과 인구통계학적 정보를 함께 활용하거나 다른 유형의 소셜미디어 데이터를 결합하기도 하였으나(Sobolevsky et al., 2014; Yang et al., 2019), 이 또한 데이터의 검증을 통한 신뢰성에 관한 확인 과정은 부족하였다. 따라서 비정형 소셜미디어 데이터의 정확도를 확보하기 위해서는 정형의 신용카드 데이터와 시공간적 비교를 통해 소셜미디어 데이터의 시공간적 분포가 실거래 데이터인 신용카드의 기록과 유사한 특성을 나타내고 있는지 검증할 수 있을 것이다.
3. 데이터 및 연구 방법
1) 데이터
본 연구에서는 기록 데이터로는 신용카드 데이터를, 소셜미디어 데이터로는 블로그 데이터를 사용하였다. 신용카드 데이터는 2022년 6월부터 2023년 5월까지 제주특별자치도(이하 제주도)에서 가맹점별로 집계된 신한카드 사용 기록이며 ‘2023년 데이터바우처 지원사업’을 통해 제공된 데이터이다. 블로그 데이터는 네이버의 블로그 게시물 중 ‘제주도’와 ‘관광’을 언급한 동일 기간의 제주도 관광 관련 블로그를 대상으로 수집하여 활용하였다. 블로그 자료를 수집하기 위해 Python 언어 기반의 웹크롤링 기법을 사용하였다(그림 1). 수집한 데이터의 구성은 표 1과 같다.
표 1.
데이터 구성
신용카드 데이터는 가맹점의 경위도 좌표를 포함하고 있어 전체 데이터를 지오코딩을 통해 공간정보화 할 수 있었다. 가맹점 데이터는 고객의 개인정보를 확인하거나 유추할 수 없도록 광역시・도별 고객 비율 정보로만 제공하고 있다. 본 연구에서는 관광객의 신용카드 사용정보를 분석하여야 하므로 가맹점 고객의 3분의 2 이상이 제주도민이 아닌 가맹점의 데이터만 분석에 활용하였다. 결과적으로 연구 기간의 제주도 신한카드 가맹점 데이터 1,036,702건 중 322,141건을 연구에 활용하였다.
웹크롤링을 통해 수집한 블로그 게시물은 12,247건이며 이 중 1개 이상의 장소 정보를 포함하고 있는 데이터는 5,990건이었다. 이 장소 정보를 이용하여 지오코딩한 결과 총 9,173 장소에 대한 블로그 공간정보를 확보할 수 있었다.
2) 연구 방법
본 연구의 분석은 신용카드 빅데이터를 이용한 관광 패턴 분석과 신용카드와 블로그 데이터를 상호 비교하기 위한 분석으로 구분할 수 있다. 신용카드 데이터에 대한 관광 패턴 분석을 위해서는 우선 가맹점 위치에서의 추정 건수를 대상으로 공간적 분포를 지도화하였으며 Getis-Ord Gi* statistics를 통해 공간적으로 군집되는 지역을 식별하는 핫스팟(Hot spot) 분석을 진행하여 유의미한 군집을 도출하였다(Getis and Ord, 1992). 또한 시간에 따른 신용카드 사용의 핫스팟 변화를 살펴보기 위해 발생 핫스팟(Emerging hot spot) 분석을 진행하였다. 발생 핫스팟 분석은 Getis-Ord Gi* statistics와 시계열 추세의 유의성을 검증하는 Mann-Kendall test(Mann, 1945; Kendall and Gibbons, 1990)를 조합한 기법으로, 공간적 핫스팟을 시간 차원에 대해 통합하여 유의미한 시공간적 추세를 탐색하고 17개의 범주로 구분하는 기법이다(황혜진 등, 2022).
신용카드와 블로그 데이터의 비교 분석을 위해서 우선 시계열 분석을 통해 신용카드 데이터 및 관광객 입도 현황과 월별 추세를 비교하였다. 다만, 블로그 데이터는 수집 단계에서 월별 1,050건 내외 유사한 양의 데이터가 조회되었기에 단순 건수의 비교에는 한계가 있다. 이에 블로그 데이터는 월별 건수가 아닌 데이터 내의 대안적인 정보로, 소셜미디어에서 게시물이 유용한 정보일수록 긍정적인 반응을 도출할 수 있다는 선행 연구에 따라 게시물의 공감, 댓글 수를 활용하였다(Chang et al., 2015). 공간 분석은 지오코딩한 블로그 데이터에 대해 공간적 빈도 분포와 군집을 확인하였다. 또한 발생 핫스팟 분석을 통해 시간에 따른 블로그 데이터 군집의 변화를 살펴보았고 신용카드 데이터의 결과와 비교하였다. 나아가 블로그 데이터와 신용카드 데이터의 전역적 및 국지적인 관계를 확인하기 위해 OLS 선형 회귀분석과 국지적 이변량 관계(Local Bivariate Relationships) 및 이변량 국지 공간 자기상관(Bivariate LISA) 분석을 진행하였다(Anselin, 2019).
신용카드 데이터와 블로그 데이터의 분석 결과를 비교한 이후, 상호보완적인 활용 가능성을 확인하기 위해 각 데이터가 가진 정보를 추가로 사용하였다. 블로그 데이터는 사용자에 대한 정보를 특정하는 데에 한계가 있으므로 신용카드 데이터의 인구통계학적 정보를 활용할 수 있다. 즉, 성별, 연령대별, 주소지별 통계치를 결과 해석에 추가 활용할 수 있다. 마찬가지로 신용카드 데이터에는 사용자가 생성한 텍스트나 사진 정보가 없으므로 블로그 데이터 활용을 통해 키워드를 분석하거나 함께 수집된 사진을 참고하여 관광객의 방문 이유를 추정할 수 있다.
4. 연구 결과
1) 신용카드 데이터를 활용한 관광 패턴 분석
공간적 분석에 앞서 제주도 지역을 100m*100m 단위의 그리드로 구분하고 각 그리드에 포함되는 신용카드 데이터 추정 사용 건수를 산출하여 지도로 표현하고 핫스팟 분석을 진행하였다(그림 2). 신용카드 데이터는 카드 가맹점이 있다면 데이터가 생성될 수 있으므로 제주도 전역에 걸쳐서 분포하였다. 그중에서 제주시와 서귀포시 동 단위 지역과 중문, 함덕, 협재, 애월, 성산의 해안 지역에 빈도가 집중되어 군집을 이뤘다.
다음으로, 시간에 따른 공간적 군집의 변화를 살펴보기 위해 신용카드 데이터에 대한 발생 핫스팟 분석을 진행하였다. 시간 간격, 즉 시계열적으로 이웃이라고 할 수 있는 임계를 3개월과 6개월로 설정하여 결과를 확인하였다. 두 결과에서 모두 최근 두 달 이상 콜드스팟으로 분류되는 연속 콜드스팟(Consecutive Cold Spot)이 가장 많이 나타났으며 3개월 간격에서는 전체 기간의 90% 이상이 핫스팟인 영구 핫스팟(Persistent Hot Spot)이, 6개월 간격에서는 전체 기간의 90% 이상이 핫스팟이면서 점차 그 강도가 강해지는 강화 핫스팟(Intensifying Hot Spot)이 그 다음으로 많이 나타났다(그림 3). 영구 핫스팟과 강화 핫스팟의 지역들은 앞선 분포 결과와 유사하였으며 해당 지역들의 관광 관련 활동이 점차 증가하고 있다는 것을 알 수 있었다. 반대로 제주도 서부와 남동부 그리고 중산간 지역은 연속 또는 강화 콜드스팟이 나타나 활동이 점차 감소하고 있는 것으로 나타났다.
이상의 공간적, 시공간적 분석은 신용카드 데이터뿐만 아니라 지오코딩한 블로그 데이터에도 적용할 수 있다. 다만, 신용카드 데이터에는 인구통계학적 정보가 포함되어 있으므로 더욱 다양한 분석이 가능하다(그림 4). 가맹점별로 신용카드 추정 사용 기록을 확인하였을 때 53.89%로 남성 비율이 높은 가맹점이 많았고 여성이 43.04%, 그리고 3.07%는 동일하였다(그림 4(a)). 공간적으로 봤을 때도 남성 비율이 높은 지역이 약 60%에 달하였다. 성별에 따라 신용카드 사용 기록이 많은 위치의 업종에는 차이가 있는데 남성은 골프, 테마파크, 렌터카, 편의점 등 업종에서, 여성은 카페, 펜션, 박물관, 목장, 선물용품 등 업종에서 빈도가 비교적 높았다.
연령대별로 살펴본 결과(그림 4(b)), 30대, 40대, 20대, 50대, 60대 이상 순으로 사용 기록이 많았으며 업종별로는 30대는 테마파크, 40대 골프, 20대 전시관, 50대 카페, 60대 식당 및 농수산물에 사용 기록이 많았다. 지역별로는 제주를 제외하고 경기, 서울, 인천 순으로 사용 비율이 높았다(그림 4(c)). 이때 신용카드 사용자의 주소지 정보는 거주민과 관광객을 구분하는 데 유용하여 본 연구에서는 관광 데이터 중 분석 대상을 선정하는 데 활용하였다. 이외에 지역 간 거리 및 이동성과 지역별 인구 등과 관련한 관광 연관성에 관해서는 추후 연구가 필요해 보인다.
2) 카드 데이터와 블로그 데이터의 보완적 활용
소셜미디어 데이터인 블로그 데이터는 신용카드 데이터와 달리, 사용자가 자율적으로 생성하는 데이터이기 때문에 실제 기록과 차이가 존재할 수 있다. 그러나 블로그 데이터에는 신용카드 데이터에 없는 사진, 설명 등의 데이터가 포함되기 때문에 그 활용 가치가 크다. 이에 따라 신용카드 데이터와의 시공간적 유사성을 탐색하여 블로그 데이터의 정확도를 보장할 수 있다면 향후 데이터 연계를 통해 다양한 분석을 기대할 수 있다.
유사성 탐색의 일환으로, 우선 시계열 분석을 통해 신용카드 데이터와 블로그 데이터의 추세를 비교하였다. 신용카드 데이터의 추정 건수, 블로그 데이터의 공감 및 댓글 수 그리고 제주특별자치도관광협회의 관광객 입도 현황을 월별로 집계하였다. 집계한 값을 시각화하여 표현할 때 각 데이터의 절댓값이 다르므로 표준화하여 나타내었다(그림 5).
신용카드 사용 건수와 관광객 수의 통계치가 블로그 데이터와 대부분 일치하여 실거래 데이터와의 유사성을 확인할 수 있었다. 특히 2022년 9월부터 11월까지 감소, 증가 후 다시 감소하는 추세는 모든 데이터에서 발생하였다. 이는 9월에 발생한 태풍들의 영향으로 보인다. 같은 맥락에서, 기상 조건이 좋은 4월에서 8월 사이와 10월에 관광이 활발하게 이루어지는 것을 알 수 있다. 블로그 데이터에 해당하는 댓글과 공감의 경우 전반적으로 증감 추세나 표준화한 값이 어느 정도 일치하며 2022년까지는 실제 기록 데이터와 유사하였다. 그러나, 2023년에 들어서는 신용카드 사용이 감소하고 블로그 데이터가 증가하며 특히 댓글 수의 경우 신용카드 사용 건수와 정반대의 증감 추세를 보이기도 하였다. 다만, 마지막 시기인 2023년 5월에는 데이터 간 차이가 가장 작게 나타났다. 정리하자면, 2022년에는 신용카드 데이터와 블로그 데이터의 시계열 패턴이 유사하였으나, 2023년 1월부터 4월까지는 실제 거래 기록과 비교해 블로그 데이터가 다수 생성되었고 5월에는 다시 매우 유사한 값을 보였다.
블로그 데이터 기반으로 한 빈도 분석과 핫스팟 분석 결과, 높은 빈도와 군집을 보이는 지역은 신용카드 데이터의 결과와 같이 제주시, 서귀포시 동 단위 지역과 중문, 함덕, 협재, 애월, 성산 등의 지역이었다(그림 6). 또한, 이외에도 구좌읍 송당리, 애월읍 봉성리, 안덕면 사계리, 상창리 등 일대에서 군집이 나타났다. 블로그 데이터는 카드 거래가 이루어지지 않는 장소에서도 생성될 수 있어 한라산, 오름, 용머리해안, 사계 해수욕장 같은 산지와 해안가에서도 데이터가 다수 확인된 것으로 보인다.
신용카드 데이터와 블로그 데이터의 공간적 분석에서 일부 유사한 빈도 및 군집 분포를 확인할 수 있었다. 이에 두 데이터의 관계를 파악하기 위해 두 데이터가 각각 1건 이상 존재하는 모든 위치에서의 상관성을 확인하였다. 상관분석을 진행한 결과, 약 0.49의 상관계수가 도출되어 신용카드 사용 건수와 블로그 게시물 건수는 전역적으로 양의 상관관계가 있는 것을 확인하였다(그림 7). 또한, 두 데이터의 관계를 공간적으로 살펴보기 위해 국지적 이변량 관계와 이변량 국지적 공간 자기상관 분석을 진행하였다. 우선, 국지적인 이변량 관계를 살펴보았을 때 약 3분의 1의 위치에서 양의 선형 관계가 있는 것으로 나타났으며 음의 선형 관계가 나타나지 않은 것으로 보아 두 데이터는 위치에 따라 선형 혹은 그 비례 정도는 다르나, 양의 관계를 가지고 있는 것을 알 수 있다(그림 8). 이어서 이변량 국지적 공간 자기상관 분석 결과, 앞서 분포 비교에서와 같이 특정 지역에서 두 데이터가 모두 높은 High-High 빈도의 군집이 다수 나타났고 보다 분포 범위가 넓은 신용카드 데이터의 특성에 따라 Low-High 이상치가 나타나기도 하였다(그림 9). 즉, 블로그 데이터는 실제 기록인 신용카드 데이터와 공간적 분포 및 그 수치에서 유사하며 양의 관계를 가지고 있어 일정 수준 이상의 정확도를 내재하고 있음을 확인할 수 있었다.
시공간적인 비교에서는 먼저 시계열 분석에서 나타났던 2022년과 2023년의 신용카드 데이터 및 관광객 입도 현황과 블로그 데이터의 차이를 연도별 공간 분포를 통해 탐색하였다. 데이터의 시간 정보를 활용하여 연도별로 구분하고 각 연도에 따라 빈도 분포, 핫스팟 분석을 등을 진행하였다. 이에 관한 결과로, 신용카드 데이터의 경우 2022년과 2023년의 공간적 분포 차이는 미미했으나 블로그 데이터에서는 그 차이가 작지 않았다. 2022년과 달리 2023년에 애월, 남원 등에서 핫스팟이 나타났으며 전체 블로그 데이터는 2022년 대비 2023년에 약 34% 감소한 데 비해서 해당 위치들에서는 오히려 절반 이상의 데이터가 2023년에 생성된 데이터였다(그림 10). 해당 지역들에 있는 시설이나 공원에서 코로나바이러스감염증-19로 중지되었던 체험 프로그램이 2023년에 재개되었거나 공원에서 연초에 진행되는 수국 축제 등이 이러한 차이가 발생하는 이유로 추정된다.
블로그 데이터에 대한 3개월과 6개월 간격의 발생 핫스팟 분석에서는 각각 강화 핫스팟과 연속 콜드스팟이 가장 많이 나타났다(그림 11). 또한, 신용카드 데이터에 관한 결과와 같이 설정한 단위 기간에 따라 위치가 유사한 영구 핫스팟과 강화 핫스팟이 번갈아 나타났다. 제주도의 동 단위 지역, 중문, 성산 지역에서 동일하게 핫스팟이 나타났고 콜드스팟은 비교적 뚜렷하지 않았다. 신용카드 데이터 결과와 차이점은 애월 일대의 결과이다. 애월 지역에서 블로그 데이터는 핫스팟으로 분류될 수 있으나 신용카드 데이터는 콜드스팟으로 나타나 반대되는 유형의 군집을 보인다. 그러나 블로그 데이터와 신용카드 데이터의 발생 핫스팟 분석 결과를 중첩하였을 때는 강화 핫스팟이 약 40%의 지역에서 일치하여 가장 많은 일치율을 보이고 이는 시계열적으로 데이터 증가 지역이 유사하다는 것을 의미한다. 연속 콜드스팟은 약 30% 일치하여 데이터 감소지역 또한 유사하다는 것을 알 수 있다.
실제 기록인 신용카드 데이터는 블로그 데이터보다 데이터가 방대하고 인구통계학적 정보가 포함되어 활용성이 우수하지만, 사용자 생성 데이터인 블로그 데이터 또한 신용카드 데이터에 포함되어 있지 않은 사진, 설명 정보 등을 포함하고 있기에 상호보완적인 활용이 가능하다. 특히 블로그 데이터를 통해 다양한 의미론적 정보를 추출할 수 있는데, 그림 12는 고유 키워드의 빈도와 워드클라우드를 통한 시각화, 키워드간 중요도 및 영향력에 따른 연결망, 그리고 데이터의 대략적인 주제를 파악할 수 있는 LDA 토픽모델링(Blei et al., 2003) 기법을 블로그 데이터에 적용한 결과이다. 전반적으로 맛집, 카페, 핫플레이스, 자연경관, 가족여행 등의 키워드가 다수 나타나며 맛집과 관련해서는 제주, 서귀포, 애월, 제주공항 등이 연관되어 나타났다. 또한, 토픽모델링에 따라 블로그 게시물은 주로 관광명소, 맛집, 호텔, 우도, 자연경관 등의 주제로 대표할 수 있었다. 이러한 분석을 통해 관광지에 대한 시공간적 분석과 더불어 방문 이유를 유추할 수 있다. 추가로, 블로그 데이터에는 사진 자료 또한 포함되어 있어 어떠한 사진 집합이 관광객 의사결정에 영향을 주었는지 파악하는 데 활용이 가능하다(Park et al., 2021).
5. 결론
관광 상품 개발, 정책 수립 등 관광 활성화를 위해 소셜미디어 빅데이터의 중요도는 점차 강조되고 있다. 소셜미디어 데이터는 누구나 생성 가능한 사용자 생성 데이터의 일종으로, 주관적인 의견과 경험에 기반하여 생성되며 그 형태는 텍스트, 사진, 동영상 등 다양하다. 이에 따라 데이터 생성 주기가 짧고 그 양이 방대하며 관광지에 대한 평가, 감성 등을 활용한 의미론적 분석을 포함하여 다양한 방식의 데이터 분석이 가능하다. 그러나 소셜미디어 데이터의 임의성과 시공간적 부정확성에 의해 소셜미디어 데이터 활용에는 한계가 존재한다. 이에 본 연구에서는 실제 기록 데이터 중 하나인 신용카드 빅데이터를 활용한 관광 패턴 분석 방법과 소셜미디어 데이터와의 보완적인 활용 방법을 제시하였다.
신용카드 데이터에 대한 관광 패턴을 파악하기 위한 빈도와 군집 분석 결과, 가맹점 위치에 따라 제주 전역에서 신용카드 데이터가 분포하였고 주로 동 단위 지역 및 해안 지역 등에서 군집을 보였다. 공간적 군집의 시계열 변화를 이해하기 위한 시공간적 분석에서는 빈도가 증가하는 지역과 감소하는 지역을 모두 발견할 수 있었다. 추가로, 신용카드 데이터에 포함된 인구통계학적 정보를 활용하여 성별, 연령대별, 거주지별 사용 빈도, 주 사용 업종 등의 정보를 추가로 획득할 수 있었다. 다음 과정으로 블로그 데이터의 보완적 활용을 위해 제주도 지역에 대한 1년 치의 신용카드 데이터와 블로그 데이터를 비교・분석하였다. 시계열 분석 결과, 2023년부터는 다른 양상을 보이기도 하였으나, 그 차이가 점차 감소하였고 전체적으로 유사한 추세를 보였다. 블로그 데이터의 공간적 분포와 군집을 확인한 결과, 제주도 전역에 걸쳐 빈도와 군집 분포가 신용카드 데이터의 공간 분석 결과와 유사하게 나타났으며 두 데이터 간에 전역적, 국지적 분석 모두에서 양의 상관성이 있음을 확인하였다. 시공간적 분석에서는 시계열 분석에서 나타났던 차이를 특정 지역에서 발견하기도 하였으나 전반적으로는 분포가 유사하였다. 특히 발생 핫스팟 결과에서 데이터 증가 지역과 감소 지역 순으로 지리적 위치와 공간적 관계가 유사하다는 것을 발견하였다. 또한, 단어의 빈도 산출, 연결성 계산, 주제 도출 등 의미론적 접근을 위한 블로그 데이터의 텍스트 기반 분석을 진행하여 제주도 관광과 관련한 키워드를 발견할 수 있었다. 즉, 신용카드 데이터의 인구통계학적 정보와 블로그 데이터의 텍스트 정보는 서로 다른 유형의 관광 특성을 제공할 수 있어 상호보완적인 활용 가능성을 확인할 수 있었다.
소셜미디어 데이터는 신뢰성에 대한 우려가 꾸준히 언급되어 왔지만, 본 연구에서 신용카드 데이터와의 비교・분석을 통해 실제 기록 데이터와의 유사성을 확인할 수 있었고 각 데이터의 고유한 정보를 활용한 결과를 도출할 수 있었다. 이에 따라 다양한 형태로 생성되는 소셜미디어 데이터의 활용성을 강조할 수 있으며 다른 유형의 기록 데이터와 상호보완적인 활용의 가능성도 기대할 수 있을 것이다.
본 연구를 바탕으로 다음과 같은 추가 논의가 필요하다고 판단된다. 첫째, 소셜미디어 데이터와 기록 데이터의 확장을 고려할 수 있다. 블로그 데이터는 관광 정보 수집에 점차 그 중요성이 증대되고(최수정 등, 2020) 있지만, 소셜네트워크 서비스(SNS) 또한 소셜미디어 사용량의 많은 부분을 차지하므로 소셜미디어 데이터에 SNS 데이터를 추가할 수 있다. 마찬가지로 기록 데이터로 신용카드 데이터만을 활용하였는데 통신기기, 렌터카 데이터 등을 추가할 수 있다. 또한, 활용한 신용카드 데이터는 가맹점별로 집계된 데이터로, 개별 여행객의 상세한 여행 경로 분석 및 추천 등을 위해서는 사용자 차원의 신용카드 데이터가 제공될 필요가 있다. 두 번째, 소셜미디어 데이터의 확장과 함께 각종 소셜미디어 데이터가 가진 성별, 연령, 계층의 제한적인 대표성을 고려하여야 하며 소셜미디어 데이터를 상호보완적으로 사용하기 위해서는 향후 데이터의 주된 인구통계학적 특성을 파악할 필요가 있다(Longley et al., 2015). 세 번째, 수집 기간이 1년인 데이터를 활용하였기에 특정 패턴을 발견하기에 충분하지 않을 수 있다. 또한, 코로나바이러스감염증-19 팬데믹이 관광 산업에 타격을 입힌 만큼 전후 기간의 데이터를 살펴볼 필요가 있다. 즉, 추세와 계절성을 면밀히 분석하고 데이터 간 선후 관계나 이상 패턴을 추출하기 위해서는 보다 장기간의 데이터를 대상으로 분석할 필요가 있다. 마지막으로, 본 연구는 신용카드 데이터와 블로그 데이터의 시공간적 특성을 분석 및 비교하고 블로그 데이터의 정확도를 신용카드 데이터와의 유사성을 통해 살펴볼 수 있었다. 이처럼 상호보완적인 이종 데이터의 연계・활용을 위한 다양한 추가 연구가 필요해 보인다.