Research Article

Journal of the Korean Geographical Society. 31 October 2022. 425-435
https://doi.org/10.22776/kgs.2022.57.5.425

ABSTRACT


MAIN

  • 1. 서론

  • 2. GIS 및 공간분석 연구 분야에서의 재현성과 반복 가능성

  •   1) 해외 사례

  •   2) 연구의 재현성 및 반복가능성 평가를 위한 단계 재정의

  • 3. 연구의 재현성 및 반복가능성 현황 분석

  •   1) 대한지리학회지 분석 및 결과

  •   2) 국내 학술지 분석

  • 4. 토의 및 결론

1. 서론

최근 많은 연구 분야에서 연구의 재현성(Reproducibility)과 반복가능성(Replicability)이 연구 윤리 측면에서 중요하게 다루어지고 있다. 이때 연구 재현성은 후속 연구자가 기존의 출판된 연구에서 설계된 실험 및 분석을 다시 진행하여 동일한 연구 결과가 도출 되는 것을 의미하며, 연구 반복가능성은 새로운 데이터가 수집되었고, 동일한 연구 절차를 진행하였을 때 기존의 출판된 연구와 동일한/유사한 결과가 도출되는 것을 의미한다(Cacioppo et al., 2015). 이러한 연구의 재현성과 반복가능성은 결국 과학적인 연구 결과를 진행하는데 있어서 연구 과정에서 수집되거나 생성되는 데이터, 연구 절차 등을 공개하면서 연구의 투명성을 높이는데 기여하고 있다. 한편 Nature 학술지에서는 1,576명의 연구자들에게 연구재현성에 대한 설문을 진행하였을 때, 70%가 넘는 연구자들이 기존의 연구를 재현하는 데에 어려움이 있고, 50%가 넘는 연구자들이 본인들이 출판한 연구에서 진행한 실험에 대한 재현을 실패했다고 밝혔다(Baker, 2016). 이처럼 연구의 재현성과 반복가능성은 연구의 투명성을 높이고 연구의 발전을 위해 기여하는 점이 있음에도 불구하고 현실적으로는 많은 연구자들로부터 종종 간과되고 있다.

한편, 최근 지리학 및 GIS 분야에서도 연구의 재현성과 반복가능성을 높이기 위한 노력들이 널리 진행되고 있으며 많은 관심을 얻고 있다. 먼저 세계적으로 GIS 및 공간분석 분야에서 가장 권위 있는 학술지라고 평가 받는 International Journal of Geographic Information Science(이하 IJGIS)는 최근 데이터와 코드 공유 정책(Data and Code Sharing Policy)를 펴고 있다(IJGIS, 2022). 즉, 연구자가 IJGIS에 논문을 투고하기 위해서는 논문에서 활용된 데이터와 소스 코드를 클라우드 기반의 저장소에 저장을 하고, 데이터 및 코드 이용 가능성 진술(Data and Code Availability Statement)에 데이터 저장소의 링크를 공유하는 것을 의무화하고 있다. 비단 IJGIS 뿐 아니라, 전통적인 GIS 저널인 Geographical Analysis 등 에서도 비슷한 방식으로 데이터 공유 정책을 실시하고 있다.

이와 관련하여 GIS의 하나의 분야라고도 할 수 있는 모델링(Modeling) 분야는 꽤 오래전부터 데이터 및 코드의 공유에 대해서 노력을 해왔다. 공간 시뮬레이션 기법 중 하나인 에이전트 기반 모델링(Agent-Based Modeling) 분야에서는 에이전트 기반 모델링의 국제적인 커뮤니티인 CoMSES의 모델 라이브러리(http://comses.net/codebases/)에 모델을 공유하고 논문을 투고할 때, 해당 링크를 공유하는 것을 권장하고 있다. 만일 모델의 공유가 어려울 경우에는 ODD(Overview, Design Concept, and Details) 프로토콜(Grimm et al., 2010)이라는 방식을 통해 모델을 구축하기 위한 상세한 기술서를 공유하는 것을 권장하고 있다. 이처럼 모델과 ODD 프로토콜의 공유는 해당 주제로 모델을 구축하고자 하는 후속학자에게 상당한 도움이 될 수 있다. 이러한 노력은 결국 신규 학자에게 에이전트 기반 모델링 분야에 대한 진입장벽을 낮출 수 있으며 해당 연구 분야의 확장을 불러오는 효과를 일으킬 수 있을 것이다. 또한, Environmental Modelling and Software 학술지는 모델링과 관련한 학술지의 특성상 소프트웨어 이용가능성(Software Availability) 기술에 소프트웨어를 다운받을 수 있는 링크의 공유를 의무화하고 있다. 이처럼 연구에 활용된 데이터, 코드, 모델 및 소프트웨어의 공유는 해당 분야의 후속 연구자들에게 유용한 가이드라인으로써 작용함과 동시에 연구의 재현성 및 반복가능성을 높일 수 있다.

본 연구에서는 이러한 학술적인 시대의 흐름에 맞물려서 국내 학술지에서의 연구의 재현성 및 반복가능성에 대해서 어떠한 노력을 하고 있는지를 확인해보고자 한다. 세부적인 연구 목표는 다음과 같다. 첫째, 연구의 재현성 및 반복가능성에 대한 정의와 이를 위한 단계에 대해서 정리한다. 둘째, 국내의 지리학 관련 대표적인 학술지인 대한지리학회지에서 출판된 GIS 및 공간분석 관련 연구들에 대한 재현성 및 반복가능성을 평가한다. 셋째, 국내의 학술지 중 SCIE(Science Citation Index Extended), SSCI(Social Science Citation Index), A&HCI(Art and Humanity Citation Index) 및 SCOPUS에 등재된 학술지들의 논문투고 규정에서 데이터 공유와 관련한 정책을 살펴본다. 본 연구는 이를 종합하여 국내의 GIS 및 공간분석에 대한 차후 연구들의 재현성 및 반복가능성의 향상에 기여하고자 한다.

2. GIS 및 공간분석 연구 분야에서의 재현성과 반복 가능성

1) 해외 사례

연구의 재현성과 반복가능성에 대한 정의는 Bollen et al.(2015)의 정의가 가장 널리 인용되고 있다. 연구의 재현성(Reproducibility)은 연구자가 선행연구와 똑같은 연구 재료(데이터와 방법)를 사용하여 선행 연구의 결과를 똑같이 도출할 수 있는 것을 의미한다. 반면, 반복가능성(Replicability)은 새로운 데이터를 사용하여 선행연구와 동일한 절차를 따라 진행할 때, 선행연구와 동일한 연구 결과물을 도출하는 것을 의미한다. 이러한 연구의 재현성과 반복가능성에 대한 정의는 Kedron et al.(2021)에 의해 보다 간결하게 설명할 수 있다(표 1).

즉, 기존의 선행연구와 동일한 데이터와 방법론을 활용하여 연구를 진행했을 때 동일한 연구 결과가 나오게 되면 기존의 선행연구는 ‘재현성’이 있다고 할 수 있다. 반면 동일한 혹은 유사한 방법론으로 새로운 연구지역에 대해서 분석하였을 때, 동일한 혹은 유사한 연구 결과가 도출될 경우는 해당 선행연구가 반복가능성이 있다고 할 수 있다.

연구의 재현성과 반복가능성에 대해서 다른 시각으로 접근한 연구도 있다. Wilson et al.(2021)는 Berners-Lee (2009)의 링크드 오픈 데이터(liked open data)의 5개 별점 가이드에서 착안하여 데이터와 코드 공유를 위한 5개 별점 가이드를 제시하였다(그림 1).

표 1.

재현성 및 반복가능성의 정의(Kedron et al., 2021)

재현성 동일한 결과(Same Result) = 동일한 데이터 (Same Data)+동일한 방법론(Same Method)
반복 가능성 동일한/유사한 결과 (Same/Similar Result) = 새로운 데이터 (New Data) + 동일한/유사한 방법론(Same/Similar Method)

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F1.jpg
그림 1.

데이터와 코드 공유를 위한 5개 별점 가이드(Wilson et al., 2021의 저자 편집)

∙ 별 하나: 공개 라이선스에 따라 데이터와 소스코드를 공유한다. 이때 데이터와 소스코드는 웹 링크 혹은 Github과 같은 저장소(repository)를 활용한다.

∙ 별 둘: 데이터와 소스코드의 공개 뿐 아니라 메타데이터와 기타 필수적인 정보를 포함하여 공유한다. 메타데이터에는 연구지역, 소프트웨어와 소프트웨어의 버전, 데이터의 수집 시기, 데이터의 속성 값에 대한 설명을 포함한다. 이때 메타데이터와 기타 필수적인 정보는 완벽하게 구조화(structured)되어 있을 필요는 없다.

∙ 별 셋: 데이터와 소스코드의 공개와 더불어 메타데이터와 기타 필수적인 정보는 완벽하게 구조화 되어 있는 형태이다.

∙ 별 넷: 데이터와 소스코드의 공개, 완벽하게 구조화되어 있는 메타데이터와 기타 필수적인 정보를 포함한다. 추가적으로 메타데이터와 기타 필수적인 정보에 대한 데이터를 구축하는데 있어서 연방 데이터 위원회 (Federal Geographic Data Committee), 세계 표준 협회(International Organization for Standardization), 오픈 공간 컨소시움(Open Geospatial Consortium) 등의 공간 표준을 따른다.

∙ 별 다섯: 별 넷의 사안을 포함하여, Docker와 같은 표준 컨테이너를 활용한다. Docker는 연구의 재현성을 위해서 동일한 컴퓨팅 환경을 제공해 줄 수 있는 가상화도구이다.

이 밖에도 Wilson et al.(2021)의 5단계에서 언급한 컴퓨팅 환경을 제공하기 위한 노력도 진행 중이다. 특히, 일리노이 대학(University of Illinois at Urbana-Champaign)의 CyberGIS Center for Advanced Digital and Spatial Studies에서는 CyberGISX라는 플랫폼을 제공하고 있다. CyberGISX는 CyberGIS-Jupyter의 새로운 이름으로, Jupyter 노트북의 형태로 클라우드 기반의 컴퓨팅 환경을 제공하고 있다. 이러한 CyberGISX는 R과 Python의 프로그래밍 언어를 지원하고 있기 때문에 기본적인 공간분석과 더불어 고성능 컴퓨팅이 요구되는 대규모의 수문학적(hydrological) 모델 개발(Yin et al., 2019), 행위자 기반 모형 개발(Kang et al., 2019)이 가능하다. 그림 2Kang et al.(2020)의 재현성 및 반복가능성을 높이기 위해서 CyberGISX 플랫폼을 통하여 코드를 공유한 예시이다. 실제로 링크(https://cybergisxhub.cigi.illinois.edu/notebook/rapidly-measuring-spatial-accessibility-of-covid-19-healthcare-resources-a-case-study-of-illinois-usa/)에 들어가서 직접 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F2.jpg
그림 2.

CyberGISX 플랫폼에서 코드 및 데이터 공유 예시(Kang et al., 2020의 연구)

2) 연구의 재현성 및 반복가능성 평가를 위한 단계 재정의

본 연구에서는 앞서 소개된 연구를 바탕으로 우리나라 학술 논문의 상황에 맞게 연구의 재현성과 반복가능성의 평가를 위한 데이터 및 코드 공유 수준을 크게 5단계로 정의하고자 한다(그림 3).

1단계는 논문에 데이터의 출처가 명시되어 있지 않는 것이다. 연구에 활용된 데이터가 어떠한 기관으로부터 획득되었는지, 어떠한 절차로 수집되었는지 등에 대한 설명이 논문에 명시되어 있지 않는 경우이다. 데이터에 대한 정량적인 요약(인구의 평균, 소득의 분포 등)은 있지만, 데이터의 획득과정에 대한 설명이 없는 경우도 마찬가지로 데이터의 출처를 밝히지 않는 것과 동일하다고 볼 수 있다. 다시 말해, 연구의 사례지역과 분석 방법은 기술되어 있지만 분석에 활용된 데이터의 획득 과정에 대한 언급이 없는 경우라고 볼 수 있다. 이때 연구의 재현성 및 반복가능성은 상당히 낮은 단계라고 볼 수 있다.

2단계는 논문에 데이터의 출처를 명확하게 제시하는 것이다. 데이터를 제공해 준 기관, 신청 절차와 같은 데이터의 획득과정에 대한 설명을 하는 경우이다. 이러한 데이터의 출처는 직접 데이터를 수집한 과정에 대한 설명을 하는 것도 이에 포함될 수 있다. 이를 통해 후속 연구자는 관련기관에 문의하여 데이터를 획득할 수 있다. 현재 많은 연구들에서 데이터의 출처를 밝히고 있는 실정이다. 예를 들면 정수영(1984)은 수도권의 인구증감에 대한 공간적 분포 및 패턴에 대한 연구를 진행하였는데, 이를 분석하기 위해서 인구센서스 데이터를 제1기(1960-1966), 제2기(1966-1970), 제3기(1970-1975), 제4기(1975-1980)로 구분하여 활용하였다고 밝히고 있다. 또한 황수연 등(2022)은 전국의 미세먼지 발생의 시계열 특징에 대해서 분석하였는데, 이를 위해 기상청 에어코리아에서 제공하고 있는 2015년 1월 1일부터 2020년 12월 31일까지의 전국의 미세먼지(PM 10)과 초미세먼지(PM 2.5)의 주의보 및 경보 발령 자료를 활용하였다고 밝히고 있다.

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F3.jpg
그림 3.

연구의 재현성 및 반복가능성을 위한 데이터 및 코드 공유 수준 5단계

3단계는 원(raw) 데이터의 수집이 가능한 웹 링크를 공유하는 것이다. 단순히 데이터의 출처를 밝히는 것에서 나아가 해당 연구에서 활용된 데이터를 다운로드 받을 수 있는 링크를 제공하면서 해당 연구에 대한 후속 연구가 보다 쉽게 이루어질 수 있도록 도와주는 것이다. 이러한 경우에도 연구에서 활용되기 위해서 재 가공된 데이터를 공유하고 있지 않기 때문에, 연구의 재현성 및 반복가능성이 수월하지는 않을 수 있다. 3단계의 예를 들자면, 지상훈 등(2022)은 구글 지도의 실시간 교통정보를 통해서 교통 상황에 대해서 시공간 패턴 분석을 실시하였는데, URL(Uniform Resource Locator)를 공유하면서 동일한 위치와 축척의 교통 상황지도를 얻을 수 있도록 하였다. 또한 강전영・박진우(2021)는 서울특별시를 사례지역으로 하여 코로나-19 상설선별진료소와 임시선별검사소에 대한 공간적 접근성을 측정하였는데, 해당 연구에서 활용된 데이터인 서울시의 생활인구 데이터를 다운받을 수 있는 서울시의 열린데이터광장의 웹페이지 주소를 공유하였다. 또한 분석에 활용된 프로그래밍 라이브러리의 주소도 공유하였다. 해당 연구는 데이터를 다운받을 수 있는 링크를 공유하였고 연구에서 활용된 인구를 어떻게 주간인구・야간인구로 구분하여 재가공하였는지 설명이 되어있다. 이처럼 최근 많은 연구들에서 공공데이터를 활용하고 있다. 이와 관련하여 정부에서 운영하고 있는 공공데이터포털(http://data.go.kr)을 포함하여 각 지자체의 공공데이터 공유 웹사이트인 서울 열린데이터광장(http://data.seoul.go.kr), 강남구 열린 데이터광장(http://data.gangnam.go.kr) 등의 데이터가 제공되어 있는 채널이 다양하다. 과거와는 달리 연구에 필요한 데이터의 종류도 다양해질 뿐 아니라, 쉽게 데이터를 제공받을 수 있는 실정이다. 이처럼 데이터를 획득할 수 있는 웹페이지 링크를 공유하는 것은 해당연구의 재현성 및 반복가능성을 높이는 데 기여할 수 있다. 그럼에도 불구하고 후속 연구자가 해당 연구에서 데이터를 재가공한 절차를 제대로 이해하지 못하였거나, 데이터를 재가공하는데 있어 실수 등의 문제로 해당 연구가 완벽하게 재현・반복이 되지 않을 수 도 있다.

4단계는 원(raw) 데이터가 아닌 연구에서 활용된 수정된 데이터를 공유하는 것이다. 앞서 설명했듯이, 3단계에서 데이터의 수집이 가능한 웹 링크를 공유하였다고 하더라도 선행연구에서 활용된 데이터와 정확하게 일치하지 않을 수 있다. 이러한 문제를 해결하기 위한 방안으로는 연구에서 실제 활용된(연구자가 재가공한) 데이터를 공유하는 것이다. 현재 해외의 많은 학술지에서는 연구에서 활용된 데이터를 공유하는 것을 적극적으로 장려하고 있다. 예를 들어 사회과학 분야의 SCIE급의 학술지인 PloS One은 논문의 첫 페이지에 해당 논문의 편집장(Editor) 및 펀딩 소스(Funding)와 더불어 데이터의 이용가능성(Data Availability)에 대한 정보가 수록 된다(그림 4). 그림 1의 데이터의 이용가능성을 확인하게 되면 해당 연구에서 활용된 데이터를 확인할 수 있는 데이터 저장소의 DOI(Digital Object Identifier)가 제공되고 있다. 이를 통하여 후속 연구가 필요한 사람은 해당 링크에 가서 데이터를 획득할 수 있게 된다. 이와 같은 데이터의 공유는 연구의 재현성과 반복가능성을 위해서 상당히 중요하다. 그림 4의 연구는 Kang et al.(2022)로 미국의 시카고와 일리노이 주에 거주하는 사람들에 대한 HIV(Human Immunodeficiency Virus) 검사, 예방, 치료를 위한 시설들에 대한 접근성을 측정한 연구이다. 이 때 HIV의 예방이 필요한 인구는 남성 간에 성교하는 인구(Men Who Have Sex with Men; MSM)이며, 해당 연구에서도 MSM 인구를 추정하였다. 이때 추정된 인구에 대한 데이터가 공유되지 않는다면 후속 연구에서 MSM 인구를 추정하는데 잘 못된 방식이나 실수 등으로 정확하게 연구의 재현 및 반복이 되지 않을 수 있다.

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F4.jpg
그림 4.

PloS One의 예시(Kang et al., 2020)

마지막으로 5단계는 연구에 활용된 데이터 뿐 아니라 프로그래밍 코드를 함께 공유하는 것이다. 4단계와의 차이점은 분석을 위한 프로그래밍 코드의 공유 여부에 달려있다. 이는 현재의 GIS 및 공간분석 연구의 트렌드에 부합한다고 볼 수 있다. 최근의 GIS 연구는 ArcGIS, QGIS와 같은 프로그램을 사용하는 것을 넘어서 Python과 R과 같은 프로그래밍을 활용하고 있으며, 시공간 빅데이터를 이용한 데이터 집약적인(data intensive) 분석이 요구된다(Wang 2016). 이에 따라 해당 연구에서 활용된 데이터를 포함하여 프로그래밍 코드까지 공유되어야 연구의 재현성과 반복가능성이 보장될 수 있다. 예를 들면, 앞서 서론에서 설명했듯이 GIS 분야에서 가장 저명한 학술지 중 하나인 IJGIS는 논문을 투고하는 과정에서 데이터와 코드 이용가능성에 대해서 기술해야한다. 논문이 출판되면 논문의 후미에 그림 5와 같이 데이터 및 코드 이용가능 진술이 덧붙여진다. Park et al.(2022)는 한국의 강남, 서초, 송파 지역에 대해서 전기차 충전소의 접근성 및 공간적 배치와 관련한 연구를 진행하였다. 이때 활용한 데이터와 Python 코드는 그림 5의 데이터 및 코드 이용가능 진술에서 언급된 DOI를 통하여 접근이 가능하며, 데이터와 코드의 압축파일을 다운로드할 수 있다.

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F5.jpg
그림 5.

IJGIS의 예시(Park et al.,2022)

한편 Lee et al.(2021)는 해당 연구에서 활용된 영국의 COVID-19 확산, COVID-19의 확산과의 관련성을 파악하기 위한 사회경제적인 변수와 이동성과 관련한 일련의 데이터와 이를 분석하기 위한 코드를 GitHub(http://github.com)을 활용하여 공유하였다(그림 6). GitHub는 분산형 버전의 프로그래밍 관리 저장소 및 시스템이라고 할 수 있는데, 이를 통해 연구에서 활용된 코드와 데이터의 공유가 용이하다. 그림 5의 방식과는 달리 그림 6의 방식은 코드에서 오류 등이 발견되었을 때 손쉽게 수정이 가능하다는 장점이 있다.

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F6.jpg
그림 6.

Github를 활용한 데이터와 코드 공유(Lee et al., 2021)

3. 연구의 재현성 및 반복가능성 현황 분석

1) 대한지리학회지 분석 및 결과

앞서 2.2에서 정의한 GIS 및 공간 분석 연구의 재현성 및 반복가능성을 위한 단계를 토대로, 국내의 지리학 분야의 대표적인 학술지인 대한지리학회지에서 출판된 GIS 및 공간분석 연구에 대한 재현성 및 반복가능성에 대한 분석을 실시하였다. 분석을 위한 논문 추출의 절차는 그림 7과 같다. 분석 대상은 대한지리학회지 1963년 1권 1호부터 2022년 57권 2호까지 해당된다. 먼저 대표적인 논문 검색 도구인 DBpia(http://dbpia.co.kr)에서 “GIS”와“공간 분석”으로 각각 검색한 이후, 대한지리학회지에서 출판된 논문만을 추출하였다. 결과로써, “GIS”로 검색된 논문은 45편, “공간 분석”으로 검색된 논문은 137편으로 총 182편이다. 이 중 6편의 중복된 논문은 제외하였다. 다음으로 총 176편의 논문 중에서 GIS와 공간 분석과 전혀 관련이 없는 논문과 분석이 실제로 진행되지 않은 리뷰 논문 총 28편을 추가적으로 제외하였다. 최종적으로 본 연구를 위해 활용된 논문은 총 148편이다. 분석 대상의 148편의 논문 목록은 논문의 후미에 공유된 링크를 통해서 접근이 가능하다.

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F7.jpg
그림 7.

분석 대상 논문 추출 과정

추출된 논문 148편을 대상으로, 본 연구에서 제안한 연구의 재현성 및 반복가능성을 위한 데이터와 프로그래밍 코드 공유 수준 단계에 맞춰서 평가한 결과는 다음 표 2와 같다. 1984년부터 출판된 논문 중에서 1단계에 해당하는 63편의 논문은 데이터의 출처가 명시되지 않았다. 2단계에 해당되는 데이터의 출처를 명시한 논문은 77편으로 나타났다. 3단계에 해당되는 가공 전의 원 데이터를 획득할 수 있는 웹사이트를 공유한 논문은 8편이다. 반면에 4단계인 재 가공된 데이터를 공유한 논문과 프로그래밍 코드를 함께 공유하는 5단계에 해당되는 논문은 단 한편도 없었다.

표 2.

연구의 재현성 및 반복가능성 평가 결과

단계 내용 편 (%)
1단계 데이터의 출처 없음 63 (42.57 %)
2단계 데이터의 출처 제시 77 (52.03 %)
3단계 원(raw) 데이터 링크 공유 8 (5.40 %)
4단계 재가공된 데이터 공유 0 (0 %)
5단계 재가공된 데이터 + 프로그래밍 코드 공유 0 (0 %)

2) 국내 학술지 분석

국내에서 연구의 재현성과 반복가능성 관련하여 데이터 및 프로그래밍 코드 공유에 대한 내용이 학술지의 투고 규정에 명시되어 있는 상황에 대한 분석을 실시하였다. 이를 위해 한국학술지인용색인(http://kci.go.kr)을 활용하였다. 학술지를 검색하는 과정은 그림 8과 같다. 먼저 KCI (Korean Citation Index) 우수등재지 혹은 등재지 중에서 미국의 Clarivate Analytics의 학술지 평가 데이터베이스의 인용색인인 SCIE(Science Citation Index Expanded), SSCI (Social Science Citation Index), A&HCI (Art and Humanities Citation Index)에 포함되거나 Elsevier에서 제공하는 학술 데이터베이스의 인용색인인 SCOPUS에 포함되는 국내학술지를 검색하였다. 검색 결과는 총 525개의 학술지이며, 분야별(대분류)로 인문학(15), 사회과학(56), 자연과학(80), 공학(100), 의약학(220), 농수해양(39), 예술체육(3), 복합학(12)의 학술지이다. 이 중 대한지리학회지와 성격이 유사한 사회과학 학술지 56개 중 중복을 제외하면 총 37개의 학술지가 결과로 남게 된다. 중분류를 통해 학문 분야를 확인하면 경영학(4), 경제학(7), 교육학(6), 무역학(2), 법학(1), 사회과학일반(2), 사회복지학(1), 사회학(2), 신문방송학(1), 심리과학(1), 정치외교학(4), 지역학(5), 행정학(1)으로 총 13개의 분야로 분류가 된다. 이 중 지리학과 가장 학문 분야가 유사한 지역학 5개의 학술지를 대상으로 분석을 실시하였다. 지역학 5개의 학술지는 International Area Studies Review, Journal of East Asian Studies, Journal of Eurasian Studies, REGION, Seoul Journal of Korean Studies 이다. 추가적으로 검색 결과에는 포함되지 않았지만 대한지리학회지의 내용과 학술지의 내용에서 유사하다고 판단되는 학술지인 Spatial Information ResearchInternational Journal of Urban Science를 추가적으로 분석하였다.

https://cdn.apub.kr/journalsite/sites/geo/2022-057-05/N013570501/images/geo_57_05_01_F8.jpg
그림 8.

분석 대상 학술지 추출 과정

먼저, International Area Studies Review는 SAGE 출판사의 SCOPUS 급 학술지이다. 해당 학술지의 논문 투고 안내 (Submission Guidelines)에는 데이터 공유와 관련한 요구사항이 있음이 확인되었다. 해당 논문을 투고하기 위한 연구가 계량적인(quantitative) 데이터를 이용하여 분석하였을 경우에는 (1) 분석에 활용한 데이터, (2) 코드북(codebook) 혹은 데이터에 대한 설명, (3) 사용자가 분석을 위해 실행한 커맨드(commands)를 포함한 파일(예: 프로그래밍 코드), (4) 통계 프로그램 등을 활용했을 경우 산출된 결과(데이터 로그 등)을 모두 공유해야 한다는 규정이 있다.

반면, 위의 검색으로 추출된 나머지 4개의 학술지는 모두 데이터 공유에 관한 논문 투고 규정은 없는 것으로 확인되었다. Journal of Eurasian Studies는 SCOPUS 급의 학술지로 International Area Studies Review와 같이 SAGE 출판사에서 출간이 되고 있다. Journal of East Asian Studies는 SSCI, SCOPUS급의 학술지로, Cambridge University Press에서 출간되고 있다. REGION은 SCOPUS 급의 학술지로 Journal Storage(JSTOR)에서 제공되고 있는 학술지다. Seoul Journal of Korean Studies 또한 SCOPUS 급의 학술지이다.

추가적으로 출판된 논문의 내용상 유사한 것으로 판단되는 학술지인 Spatial Information Research(SCOPUS 급)과 International Journal of Urban Science (SSCI, SCOPUS 급)은 모두 데이터 공유와 관련하여 논문 투고 규정에 언급이 되어 있었다. Spatial Information Research는 Springer 출판사에서 출간되고 있으며, 논문을 투고하기 위해서는 연구 데이터 정책 및 이용가능성(Research Data Policy and Data Availability)을 서술하는 것이 필수적이다. 연구에 활용된 데이터는 대중에게 공개될 수 있는 저장소(예: figshare 혹은 Dryad)에 저장되어야 한다. 추가적으로 영구적으로 공유되는 식별자인 DOI를 공유해야 한다. 또한 International Journal of Urban Science는 Taylor & Francis 출판사에서 출간되는 학술지로, Taylor & Francis 출판사의 자체적인 데이터 공유 정책을 따르고 있다. 즉, 데이터의 이용가능 방안과 DOI를 제공해야 한다.

4. 토의 및 결론

본 연구에서는 국제 학술지 및 학회 등에서 화두가 되고 있는 연구의 재현성 및 반복가능성에 대해서 대한지리학회지와 국내학술지에 대한 분석을 실시하였다. 분석을 위해 한국 실정에 맞게 연구의 재현성 및 반복가능성을 평가할 수 있는 5단계 평가 단계를 제시하였다. 특히, 데이터 기반의 연구가 주된 흐름인 GIS 및 공간 분석 분야의 연구들에 대한 연구의 재현성 및 반복가능성을 평가하였다. 결과로써, 상당수의 연구는 연구에서 활용된 데이터의 출처가 공개(63편)되지 않았으며, 데이터의 출처는 공개되었지만 동일한 데이터를 획득하기에는 공개된 정보가 제한적인 경우(77편)가 많았다. 반면 국내 학술지 중 SCIE, SSCI, A&HCI, SCOPUS 급의 학술지의 논문 투고 규정을 확인한 결과, 본 연구에서 확인한 학술지 중 절반 정도의 학술지(7개 중 3개)는 논문의 투고 규정에 데이터의 이용가능한 방안과 데이터에 접근하기 위한 링크를 공유해야 함이 명시되어 있음을 확인하였다.

본 연구 결과를 통해서 도출할 수 있는 함의는 다음과 같다. 첫째, 국내 학계에서 연구의 재현성 및 반복가능성에 대한 관심이 필요하다. 최근 연구개발사업(R&D)의 범부처 총괄 규정에서는 데이터 관리 계획(Data Management Plan; 이하 DMP)이 개정되었으며, 2019년 9월에 시행되었다(최명석・이상환, 2020). DMP는 중앙행정기관의 장의 판단 하에 특정 연구개발과제에만 DMP의 제출이 요구되는 상황이다. 이러한 DMP에는 연구 데이터의 개요, 연구데이터의 저장 및 보존 계획, 연구데이터의 공유 계획 등이 포함되고 있다. 이처럼 정부기관의 연구개발사업 이외에도 학계 내에서도 내규 등을 통하여 연구의 재현성 및 반복가능성을 도모해야할 필요가 있다. 마찬가지로 Taylor & Francis 출판사의 경우에는 대략적으로 2,000개의 학술지를 출판하고 있는데, 데이터가 어떤 식으로 공유되어야 하는지에 대한 데이터 공유 정책(Data Sharing Policy)가 수립되었다.

둘째, 연구의 재현성 및 반복가능성에 대한 지속적인 교육이 필요하다. 김지현(2015)에 따르면 데이터 공유를 위해서 데이터를 관리하는 데 투자해야하는 노력 및 시간, 데이터를 공유함에 따라 논문 출판의 기회가 줄어들 것이라는 연구자들의 우려 등이 연구자들이 데이터를 공유하는 것을 주저하게 만드는 요인이라고 하였다. 반면, 데이터 공유는 해당 분야의 전문가로서의 규범적인 요소이며 다른 학자들이 데이터를 공유하면서 연구 역량을 높이는 것을 보고 따라 하고자 하는 모방적 요인들이기 때문에 긍정적으로 작용한다고도 하였다. 학계나 기관 등에서 연구의 재현성과 반복가능성의 중요성에 대한 지속적인 교육이 필요할 것이다.

차후 연구 방향으로서는 본 연구에서 활용한 DBpia이외에도 RISS 학술 검색 등을 활용하여 국내의 GIS 및 공간분석 관련 연구가 출판되고 있는 학술지인 국토지리학회지, 지도학회지, 한국지리학회지 등에서 출판되고 있는 연구를 포함하고자 한다. 이를 통하여 국내의 지리학계에서 연구의 재현성과 반복가능성에 대해서 어떠한 인식 및 진행이 되고 있는지에 대한 총체적인 연구가 가능할 것으로 판단된다. 또한, 데이터를 활용하여 진행하지 않는 연구들을 위해서는 데이터 및 코드의 공유와 같은 방식의 연구의 재현성 및 반복가능성에 대해서 어떻게 적용될 수 있는지에 대한 후속 연구가 진행되어야 할 것이다.

이처럼 연구의 재현성과 반복가능성을 통한 논문의 투명성을 높이기 위해서는 연구자 개인 뿐 아니라 학계와 기관에서의 노력이 필요하다. 현재 국내의 학계에서는 연구의 재현성과 반복가능성에 대한 노력이 미흡한 상황에서 지리학계가 먼저 나서고자 하는 바람이 있다. 또한 대한지리학회지의 SCOPUS 등재와 같은 학술지의 발전을 위해서는 기타 다양한 각도에서의 노력이 필요할 것으로 판단된다. 본 연구를 통해 연구의 재현성 및 반복가능성이 널리 알려지고 인식된다면 국내의 지리학 연구가 발전할 수 있을 것으로 판단된다.

데이터 공유 진술

본 연구에서 활용된 데이터는 다음의 DOI(10.6084/m9. figshare.20469330)를 통해 접근이 가능합니다.

References

1
강전영・박진우, 2021, “코로나-19 상설선별진료소 및 임시선별검사소의 공간적 접근성 분석-서울시를 사례로.” 대한지리학회지, 56(2), 231-244.
2
김지현, 2015, “데이터 관리와 공유에 대한 대학 연구자들의 인식에 관한 연구.” 한국문헌정보학회지, 49(3), 413-436. 10.4275/KSLIS.2015.49.3.413
3
정수영, 1984, “수도권에 있어서 사회적 인구증감의 공간적 패턴과 그 형성과정-공간적자기상관에 의한 분석.” 대한지리학회지, 19(2), 62-76.
4
최명석・이상환, 2020, “데이터 관리 계획의 국내 현황 및 과제.” 한국콘텐츠학회논문지, 20(6), 220-229.
5
Baker, M., 2016, Reproducibility crisis. Nature, 533(26), 353-66.
6
Cacioppo, J. T., Kaplan, R. M., Krosnick, J. A., Olds, J. L. and Dean, H., 2015, Social, Behavioral, and Economic Sciences Perspectives on Robust and Reliable Science. Report of the Subcommittee on Replicability in Science Advisory Committee to the National Science Foundation Directorate for Social, Behavioral, and Economic Sciences, 1.
7
Grimm, V., Berger, U., DeAngelis, D. L., Polhill, J. G., Giske, J. and Railsback, S. F., 2010, The ODD protocol: a review and first update. Ecological modelling, 221(23), 2760-2768. 10.1016/j.ecolmodel.2010.08.019
8
IJGIS, 2022, Instructions for authors, International Journal of Geographic Information Science. https://www.tandfonline.com/action/authorSubmission?show=instructions&journalCode=tgis20#dsp
9
Kang, J. Y., Aldstadt, J., Michels, A., Vandewalle, R. and Wang, S., 2019, CyberGIS-Jupyter for spatially explicit agent-based modeling: a case study on influenza transmission. In Proceedings of the 2nd ACM SIGSPATIAL International Workshop on Geospatial Simulation, 32-35. 10.1145/3356470.3365531
10
Kang, J. Y., Farkhad, B. F., Chan, M. P. S., Michels, A., Albarracin, D. and Wang, S., 2022, Spatial accessibility to HIV testing, treatment, and prevention services in Illinois and Chicago, USA. PloS One, 17(7), e0270404. 10.1371/journal.pone.027040435895722PMC9328561
11
Kang, J. Y., Michels, A., Lyu, F., Wang, S., Agbodo, N., Freeman, V. L. and Wang, S., 2020, Rapidly measuring spatial accessibility of COVID-19 healthcare resources: a case study of Illinois, USA. International Journal of Health Geographics, 19(1), 1-17. 10.1186/s12942-020-00229-x32928236PMC7487451
12
Kedron, P., Frazier, A. E., Trgovac, A. B., Nelson, T., and Fotheringham, A. S., 2021, Reproducibility and replicability in geographical analysis. Geographical Analysis, 53(1), 135-147. 10.1111/gean.12221
13
Lee, W., Qian, M. and Schwanen, T., 2021, The association between socioeconomic status and mobility reductions in the early stage of England’s COVID-19 epidemic. Health & place, 69, 102563. 10.1016/j.healthplace.2021.10256333799134
14
Park, J., Kang, J. Y., Goldberg, D. W. and Hammond, T. A., 2022, Leveraging temporal changes of spatial accessibility measurements for better policy implications: a case study of electric vehicle (EV) charging stations in Seoul, South Korea. International Journal of Geographical Information Science, 36(6), 1185-1204. 10.1080/13658816.2021.1978450
15
Wang, S., 2016, CyberGIS and spatial data science. GeoJournal, 81(6), 965-968. 10.1007/s10708-016-9740-0
16
Wilson, J. P., Butler, K., Gao, S., Hu, Y., Li, W. and Wright, D. J., 2021, A five-star guide for achieving replicability and reproducibility when working with GIS software and algorithms. Annals of the American Association of Geographers, 111(5), 1311-1317. 10.1080/24694452.2020.1806026
17
Yin, D., Liu, Y., Hu, H., Terstriep, J., Hong, X., Padmanabhan, A. and Wang, S., 2019, CyberGIS‐Jupyter for reproducible and scalable geospatial analytics. Concurrency and Computation: Practice and Experience, 31(11), e5040. 10.1002/cpe.5040
페이지 상단으로 이동하기