AI-Based Road Extraction Considering Road Structural Characteristics

Jaegwan Lee; Jinmu Choi

doi:10.22776/kgs.2025.60.2.187

Preview

Research Article

Journal of the Korean Geographical Society. 30 April 2025. 187-196
https://doi.org/10.22776/kgs.2025.60.2.187

AI-Based Road Extraction Considering Road Structural Characteristics

구조적 특성을 고려한 AI 기반 도로 추출

Jaegwan Lee^a

Jinmu Choi^b^*

이 재관^a

최 진무^b^*

^aMaster Course, Department of Geography, Kyung Hee University

^bProfessor, Department of Geography, Kyung Hee University

^a경희대학교 지리학과 석사과정

^b경희대학교 지리학과 교수

^{*Corresponding Author}

ABSTRACT

Recent advancements have led to an increased necessity for rapid and accurate updates of road information, wherein remote sensing imagery and deep learning-based semantic segmentation techniques are playing a crucial role in road extraction research.However, when applying deep learning segmentation techniques, issues arise due to occlusions from elements such as trees and building shadows, resulting in incomplete learning of the road's structure and connectivity in the extraction results. Therefore, this study aims to propose a method for road extraction based on artificial intelligence by utilizing masking data in order to consider the structural characteristics of roads. To achieve this, the present study employed artificial masks at the edges of the road as the training data for deep learning, enabling the model to exclude the effects of being obscured by trees and shadows at the road's edge during the training process. To this end, the deep learning model was trained under three conditions regarding 15,000 training data instances: without the application of occlusion masks, with the generation of 50% occlusion masks, and with the generation of 100% occlusion masks, followed by a comparative analysis of the road extraction results. The deep learning models utilized in this study include U-Net, SegNet, and SegFormer. For the structural evaluation of the road extraction results, pixel-based evaluation metrics (Accuracy, Precision, Recall, F1- Score, and mIoU) were employed, alongside APLS (Average Path Length Similarity) and SSIM (Structural Similarity Index), which reflect the structural characteristics of the roads. The analysis results indicate that the SegFormer, utilizing 50% of the masking data, exhibited the most superior performance. Therefore, it has been confirmed that the structural characteristics of land cover can be maintained through deep learning models utilizing masking data. In the future, to minimize the issues arising from structural features being obscured by objects such as trees or shadows, it is anticipated that employing artificial masks during the training process of deep learning models will enhance the accuracy of feature extraction.

Keywords

Road Extraction

Remote Sensing

Semantic Segmentation

Structural Evaluation

Masking Data

최근 신속하고 정확한 도로 정보 갱신의 필요성이 증가함에 따라 원격탐사 영상과 딥러닝 기반 의미론적 분할 기법이 도로 추출 연구에서 중요한 역할을 하고 있다. 하지만 딥러닝 분할 기법을 적용할 때 나무, 건물의 그림자 등으로 인해 도로의 일부가 가려져 추출 결과에서 도로의 구조와 연결성이 온전하게 학습되지 못하는 문제를 겪는다. 따라서 본 연구는 도로의 구조적 특성을 고려하기 위해 마스킹 데이터를 활용하여 AI 기반의 도로 추출 방안을 제안하고자 하였다. 이를 위해 딥러닝의 훈련 데이터로 도로의 가장자리에 인위적인 가림 마스크를 넣어 훈련과정에서 모델이 도로의 가장자리에서 나무와 그림자로 가려지는 효과를 배제할 수 있도록 하였다. 이를 위해 15,783개의 훈련 데이터에 대해 가림 마스크를 적용하지 않은 경우, 가림 마스크를 적용한 데이터를 전체 데이터에서 50% 섞은 경우, 가림 마스크를 적용한 데이터로만 훈련 데이터셋을 구성한 경우로 구분하여 딥러닝 모델을 학습하고 도로 추출 결과를 비교하였다. 딥러닝 모델로는 U-Net, SegNet, SegFormer를 활용하였다. 도로 추출 결과의 구조적 평가를 위해 픽셀 기반의 평가 지표(Accuracy, Precision, Recall, F1-Score, and mIoU)와 함께 도로의 구조적 특징을 반영한 APLS(Average Path Length Similarity)와 SSIM(Stuctural Similarity Index)도 활용하였다. 분석 결과, 마스킹 데이터를 50% 활용한 SegFormer가 가장 우수한 성능을 보였다. 따라서 마스킹 데이터를 활용한 딥러닝 모델을 통해 토지피복의 구조적 특성을 유지할 수 있음을 확인하였다. 향후 도로와 같이 구조적 특성이 있는 사상이 나무나 그림자 등으로 가려지는 문제를 최소화하기 위해 딥러닝 모델 훈련 과정에서 인위적인 마스크를 활용하면 사상의 추출 정확도를 향상할 수 있을 것으로 기대한다.

키워드

도로추출

원격탐사

의미론적 분할

구조적 평가

마스킹 데이터

MAIN

1. 서론
2. 도로추출을 위한 데이터 제작
1) 자료 수집 및 전처리
2) 마스킹 영역 삽입
2. Model 및 훈련
1) 비교 모형
2) 훈련 설정
3) 평가 지표
3. 도로 추출 결과
4. 결론 및 시사점

1. 서론

원격탐사 분야에서 도로 정보 추출 자동화는 주된 연구 주제로, 자율주행(Yang et al., 2020), 네비게이션과 지리정보 데이터베이스(Wei et al., 2020), 스마트 도시 건설(Chen et al., 2021; Tan et al., 2020), 도로 네트워크 생성(Senthilnath et al., 2020) 등 여러 분야에서 활용되기 때문에 그 가치가 높다. 전통적인 도로 추출 방법은 일반적으로 도로의 질감, 기하학적, 광학적 특성을 기반으로 자동, 반자동 방식을 통해 연구되고 있다(Barzohar and Cooper, 1996; Kass et al., 1988; Lin et al., 2008, 2012; Melgani and Bruzzone, 2004; Mena, 2003; Park 2001; Yager and Sowmya, 2003). 하지만 이러한 전통적인 방법들은 대규모의 데이터를 처리할 때 많은 시간과 자원이 필요하며, 특히 도로와 같은 지표 객체를 추출하기에 그림자, 나뭇가지 등의 노이즈가 많은 원격탐사 영상을 효과적으로 분할하기 어렵다. 이러한 그림자 효과는 위성영상과 항공사진에서 객체를 추출하는 과정에서 지속적으로 문제가 되어왔으며, 객체의 유형에 따라 그 해결방법도 다양하게 제시되어 왔다(Kim and Oh, 2020; Park et al., 2017; Yang et al., 2024; Ye, 2017). 위성영상에서 노이즈로부터 객체를 효율적으로 분할하기 위한 방법으로 고해상도 영상을 분석하기 위한 딥러닝 기반 연구가 활발히 진행되고 있다.

딥러닝 기반의 도로 정보 추출은 주로 의미론적 분할(Semantic Segmentation) 기법으로 수행되며 모형이 영상으로부터 도로의 시각적 특징을 학습하여 도로와 비도로로 이진 분류한다. 그러나 원격탐사 영상에서는 건물, 나무 등의 객체가 도로를 가리는 현상이 발생한다(Chen et al., 2022). 이러한 가림 현상으로 인해 도로가 시각적으로 다른 객체와 겹쳐져 단편화되거나 분리된 형태로 나타난다. 이러한 문제는 모형이 도로의 시각적인 특성과 문맥적인 정보에 대한 학습을 방해하여 도로 추출 모델의 성능 저하를 유발한다. 성능 저하의 사례로는 도로가 단절된 형태로 출력되거나 형태가 왜곡되는 등 도로의 위상학적, 구조적인 특징이 손상되는 경우가 발생한다. 몇몇 연구들은 가림 현상으로 인한 성능 저하를 줄이기 위한 방법으로 어텐션 메커니즘을 사용하여 예측 방식에 변화를 주는 방식을 사용하였다(Chen et al., 2021; Li et al., 2020; Mei et al., 2021; Wang et al., 2021; Wei et al., 2020). 이미지 분할을 위해 어텐션 메커니즘은 이미지의 각 픽셀이나 패치가 서로 어떻게 연관되는지를 학습하여 중요한 시각적 정보를 강조한다. 어텐션 처리과정은 인코딩과 디코딩으로 구분되는데, 인코더는 이미지의 모든 부분 간의 관계를 파악하여 각 픽셀의 문맥적 정보를 풍부하게 표현한다. 디코더는 이러한 정보를 활용하여 각 픽셀이 속하는 객체나 영역을 정확히 구분하게 된다.

또 다른 방법으로 데이터 증강을 통해 모델의 학습 데이터를 풍부하게하여 성능 저하를 방지하는 연구가 수행되고 있다(Babaali et al., 2022; Chen et al., 2023; Feng et al., 2021; Guo and Zhou, 2023). 데이터 증강은 모델의 일반화 성능을 향상시키기 위해 학습 데이터의 다양성을 증가시키는 훈련 전략으로, 부분적으로 가려진 도로의 추출 성능을 높일 수 있는 방법이다(Guo and Zhou, 2023). 대이터의 증강을 위해 초기 학습 데이터를 회전, 대칭과 같은 기하학적 변환, 밝기와 대비 조정과 같은 강도 변환, 이미지의 일부를 검은색으로 마스킹하는 정보 삭제 변환 등의 다양한 방법이 시도되고 있다. 그중 정보 삭제 방법은 입력 이미지의 일부 영역 값을 제거하는 방식으로 모형이 값이 없는 영역을 학습하며 견고한 예측 모형을 제작할 수 있다(Chen et al., 2020; DeVries, 2017; Zhong et al., 2020). 이러한 기법들은 입력 이미지에서 임의의 영역을 삭제하거나 새로운 값으로 대체하여 모델이 여러 형태의 가림 현상을 학습할 수 있도록 돕는다. 그러나 도로 추출에 사용되는 데이터는 도로 픽셀에 비해 비도로 픽셀의 비율이 매우 높아 데이터 불균형 문제가 존재한다. 이로 인해 무작위로 영역을 삭제하거나 마스킹을 적용할 경우, 비도로 영역에 마스킹 영역이 과도하게 할당될 수 있으며, 이는 모델이 도로 영역의 주요 특징을 학습하는 데 어려움을 초래할 수 있다.

따라서 본 연구에서는 도로의 구조적 특성을 유지하기 위해 마스킹 데이터를 학습한 AI 기반 분할 모형을 활용하여 도로 지역을 추출하는 방법을 제시하고자 하였다. 이를 위해 기존의 데이터 증강법 중 정보 삭제 방법을 확장하여 AI 기반 의미론적 분할 모델에 도로의 특성과 주요 특징을 학습시켜 도로의 연결성을 향상시키고 예측 도로와 실제 도로의 구조적인 유사성을 높이고자 하였다. 특히, 도로의 가림 현상이 가장 많이 발생하는 경계 부근에만 마스킹 영역을 삽입하여, 모델이 도로의 경계와 주요 구조적 특징을 더욱 효과적으로 학습할 수 있도록 하였다. 또한 데이터의 다양성을 확보하기 위해 마스킹 영역별 크기도 무작위로 설정하여 크기와 위치가 임의로 변동하는 마스킹을 통해 다양한 가림 상황을 모델이 학습할 수 있도록 하였다. 마스킹 데이터의 적용 효과를 평가하기 위해, 전체 학습 데이터셋에서 마스킹 데이터를 섞은 비율을 다르게 설정하여, 마스킹 데이터의 비율 변화가 모델 성능에 미치는 영향을 측정하고자 하였다. 이를 위해 딥러닝 모형으로 U-Net, SegNet, SegFormer를 사용하였으며 도로 분류 결과의 구조적인 성능을 측정하기 위해 픽셀 기반의 평가 지표들과 함께 Average Path Length Similarity(APLS)와 Structural Similarity Index(SSIM)을 사용하였다.

2. 도로추출을 위한 데이터 제작

본 연구의 공간적 범위는 대한민국 서울시이며 정사영상과 수치지형도를 활용하여 입력 이미지와 정답 이미지를 제작하였다. 학습데이터로는 입력 이미지와 정답 이미지 쌍으로 편집하여 사용하였다. 딥러닝 기반 의미론적 분할 작업 모형의 도로추출 결과를 비교하기 위해 본 연구에서는 4가지의 CNN 기반의 모형과 1가지의 트랜스포머 모형을 선정하였다.

1) 자료 수집 및 전처리

본 연구에서 사용한 데이터는 국토정보지리원(https://www.ngii.go.kr/kor/main.do)에서 제공하는 서울시 정사영상을 입력 이미지로 사용하였으며 수치지형도로 annotation 데이터를 제작하여 각 이미지와 annotation 데이터가 대칭되도록 하였다. 정사영상과 수치지형도는 2021년에 촬영 및 제작된 자료이다. 각 자료의 제원은 표 1과 같으며 서울시 전역을 포함하기 위해서는 137장이 필요하지만 도로의 비율이 적은 산지 개활지 등을 제외한 83장의 정사영상만을 분석 자료로 사용하였다. 국토지리정보원에서 제공하는 정사영상에는 좌표계가 설정되지 않은 상태로 제공되기 때문에 지리참조 작업을 통해 Korea_2000 중부원점 좌표계로 설정하였다. 수치지형도에서는 도로 경계 파일을 사용하였다.

표 1.

사용 데이터 제원

	정사영상	연속수치지형도
촬영 지역	서울시
촬영 시기	2021년
공간 해상도	25cm
축척	1:5000
좌표계	Korea_2000_Korea_Central_Belt_2010
크기	11,508 * 9,252	-

의미론적 분할 작업을 수행하기 위해서는 정사영상과 함께 실제 픽셀에 도로의 값을 의미하는 annotation 자료가 필요하다. 수치지형도를 활용하여 2가지 과정을 통해 정답 데이터를 제작하였다. 첫 번째로 정사영상으로부터 연속수치지형도의 값을 기반으로 도로에 해당하는 영역과 도로가 아닌 영역을 추출하였다. 두 번째로는 추출한 정사영상에서 도로에 해당하는 영역과 도로가 아닌 영역에 각각 특정한 값을 설정하였다. 같은 작업을 83장의 정사영상에 수행하여 그림 1과 같은 정답 데이터를 제작하였다.

https://cdn.apub.kr/journalsite/sites/geo/2025-060-02/N013600203/images/geoa_60_02_03_F1.jpg

그림 1.

정사영상과 annotation자료

그림 1과 같이 생성한 83쌍의 정사영상과 annotation 자료를 512*512의 크기로 편집하여 모델 훈련을 위한 26,305쌍의 입력 자료를 제작하였다(그림 2). 이후 모형의 일반화 능력을 평가할 수 있으며 과적합을 방지하기 위해 전체 입력 자료 쌍들을 훈련 데이터, 검증 데이터, 평가 데이터로 나누어 훈련 데이터는 15,783쌍, 검증 데이터와 평가 데이터는 각각 5,261쌍의 데이터로 구성하였다.

https://cdn.apub.kr/journalsite/sites/geo/2025-060-02/N013600203/images/geoa_60_02_03_F2.jpg

그림 2.

최종 데이터 셋

2) 마스킹 영역 삽입

가로수나 도로 주변 건물의 그림자 등은 도로를 가려서 비도로 영역 간의 경계를 모호하게 만들어 모델이 도로를 정확히 인식하는 데 어려움을 겪게 한다. 이러한 문제를 보완하기 위한 무작위 위치에 마스킹 영역을 추가하는 방식은 도로의 특징과 연결성을 충분히 반영하지 못할 수 있다. 따라서 도로 경계 부분에만 마스킹 영역을 추가함으로써 모델이 배경 영역이 아닌 도로 영역의 특징을 효과적으로 학습하도록 유도하였다. 도로 경계와 주변 객체의 일부를 동시에 가리는 방식을 통해 도로 경계의 왜곡이나 누락을 방지하고 가림 현상으로 인한 추출 오류를 줄일 수 있는 효과를 기대하였다. 마스킹 데이터를 제작하는 순서는 그림 3과 같이 먼저 정답 데이터를 기반으로 도로의 외곽선을 추출한다. 도로의 외곽선 추출 작업에는 캐니 엣지 검출기(Canny Edge Detector)를 사용하였다. 이후 입력 이미지에 정답 이미지로부터 검출된 외곽선의 위치정보를 기반으로 무작위 위치와 크기의 마스킹 영역을 삽입한다.

https://cdn.apub.kr/journalsite/sites/geo/2025-060-02/N013600203/images/geoa_60_02_03_F3.jpg

그림 3.

마스킹 데이터 제작(왼쪽부터 입력 이미지, 정답 이미지, 외곽선 추출, 마스킹 영역 삽입)

2. Model 및 훈련

1) 비교 모형

CNN과 트랜스포머 기반의 의미론적 분할 모형들의 도로추출 결과를 비교하기 위해 총 3개의 모형을 제작하였다. CNN 기반 모형의 특징은 합성곱 연산을 사용하여 입력 이미지로부터 특징을 추출하여 예측에 활용하고 트랜스포머 기반 모형은 어텐션 메커니즘으로 입력 이미지의 분석을 수행하며 본 연구에서는 의미론적 분할 작업을 수행하기 위해 응용된 모형들을 선정하였다. CNN 기반의 모형은 U-Net, SegNet을 활용하였으며 트랜스포머 기반 모형은 SegFormer를 활용하였다.

2) 훈련 설정

인공 신경망들의 훈련 성능 비교를 위해 동일한 분석 환경과 하이퍼파라미터 설정을 적용하였다. 주요 하이퍼 파라미터로 Epoch는 300으로 설정하였으며 Learning Rate는 0.005, Loss Function은 Binary Cross Entropy, Optimizer는 Adam을 활용하였다. 마스킹 데이터의 적용 효과를 측정하기 위해 전체 데이터셋에서 마스킹 데이터의 비율을 달리하여 모델을 훈련하였다. 마스킹 영역이 없는 원본 데이터로만 구성된 학습 데이터셋(Masking Data 0%), 마스킹 데이터와 원본 데이터를 1:1로 혼합한 데이터셋(Masking Data 50%), 그리고 마스킹 데이터로만 구성된 데이터셋(Masking Data 100%)을 사용하여 훈련 결과를 비교하였다.

3) 평가 지표

도로 추출 모델의 성능을 평가하기 위해 픽셀 기반 평가 지표와 구조 기반 평가 지표를 활용하여 성능을 측정하였다. 먼저 픽셀 기반 평가 지표는 모델이 도로를 얼마나 정확하게 식별하고 추출했는지를 픽셀 단위에서 평가하는 방법으로, 정확도, 정밀도, 재현율, F1-Score, mIoU를 활용하여 도로 추출 성능을 측정하였다. 또한 도로 추출 결과의 연결성 및 구조적 특성을 평가할 수 있는 구조 기반 평가 지표를 추가하여 모형의 성능을 보다 포괄적이고 깊이 있게 분석하였다. 구조 기반 평가에 사용한 지표는 APLS와 SSIM이다.

픽셀을 기반으로한 평가지표는 혼동행렬을 기반으로 평가하며 예측 결과와 정답 이미지를 비교하여 산출된다. 정확도(수식 1)는 전체 픽셀 중에서 모델이 얼마나 정확하게 예측했는지를 나타내는 지표로, 모든 클래스에 대해 올바르게 예측된 픽셀의 비율을 의미한다. 정밀도(수식 2)는 특정 클래스에 대해 모델이 얼마나 정확하게 예측했는지를 측정하는 지표로, 예측한 True 클래스 중에서 실제로 True인 비율을 뜻한다. 재현율(수식 3)은 실제로 True인 클래스를 모델이 얼마나 잘 예측했는지를 나타내며 전체 True값 중에서 얼마나 많은 True값을 정확히 예측했는지를 측정하는 지표이다. F1-Score는 정밀도와 재현율의 조화평균을 통해 두 지표 간의 균형을 고려한 종합적인 성능을 측정하는 지표이며 <수식 4>와 같다. IoU(Intersection over Union) 값은 모델의 예측과 실제 참값 간의 겹치는 부분을 평가하는 지표로, 예측 영역(Prediction)과 실제 영역(Target)이 얼마나 일치하는지를 측정한다(수식 5).

<수식 1>

Accuracy = \frac{T P + T N}{T P + F N + F P + T N}

<수식 2>

Precision = \frac{T P}{T P + F P}

<수식 3>

R e c a l l = \frac{T P}{T P + F N}

<수식 4>

F 1 - S c o r e = \frac{2 ∙ P r e c i s i o n ∙ R e c a l l}{P r e c i s i o n + R e c a l l}

<수식 5>

Io U = \frac{Target \cap Prediction}{Target \cup Prediction}

여기서, TP(True Positive)는 실제 도로 픽셀에 대해 예측 도로 픽셀이 맞게 분류한 픽셀의 수를 뜻하고 TN(True Negative)은 실제 배경 픽셀에 대해 예측을 배경 픽셀로 맞게 분류한 수를 뜻한다. FN(False Negative)은 실제 도로 픽셀에 대해 배경 픽셀로 예측한 픽셀의 수이며 FP(False Positive)는 실제 배경 픽셀을 도로 픽셀로 예측한 픽셀의 수를 뜻한다.

APLS는 도로 네트워크의 구조적 유사성을 측정하기 위해 제안된 그래프 이론 기반의 지표이다(Van Etten et al., 2018). 이를 구하는 과정은 <수식 6>과 같다. 먼저 출력 이미지와 정답 이미지의 도로를 노드와 링크로 변환하여 네트워크화한다. 이후 네트워크를 구성하는 모든 경로에 대한 길이를 비교하여 유사도를 측정한다. 아래의 수식에서 $N$ 은 고유한 경로의 수를 의미하며 $L (a_{i}, b_{i})$ 는 $a_{i}$ 지점에서 $b_{i}$ 지점까지의 링크화된 경로의 길이를 뜻하며 $L (a_{i}^{'}, b_{i}^{'})$ 은 정답 이미지에서의 $a_{i}$ 지점에서 $b_{i}$ 까지의 거리를 뜻한다. 두 그래프 간의 경로 길이 차이를 계산하고 누락된 경로에 대해 패널티를 부여하여 유사도를 측정한다. 예측 결과에서 도로가 단절되거나 왜곡된 경우 이를 노드와 링크로 변환하였을 때 네트워크를 구성하면 경로의 수, 위치 등이 달라질 수 있으며 이러한 경우 APLS 값이 저하된다.

<수식 6>

A P L S = 1 - \frac{1}{N} \sum_{i = 1}^{N} \min (1, \frac{|L (a_{i}, b_{i}) - L (a_{i}^{'}, b_{i}^{'})|}{L (a_{i}, b_{i})})

SSIM(Structural Similarity Index Measure)은 이미지 간의 유사성을 밝기(luminance), 대비(contrast), 그리고 구조(structure)라는 세 가지 주요 측면에서 비교한다(Wang et al., 2004). SSIM은 <수식 7>로 계산되며 밝기는 정답 이미지와 출력 이미지의 픽셀 평균값을 통해 계산된다(수식 8). 대비의 연산식은 <수식 9>와 같으며 각 이미지의 표준편차로 측정된다. 마지막으로 구조는 두 이미지 간의 공분산을 계산되며 <수식 10>과 같다. 이러한 세 가지 요소는 각각 비교 함수로 측정된 후 최종 SSIM 값을 산출하기 위해 결합된다.

<수식 7>

S S I M = [l (x, y)]^{α} ∙ [c (x, y)]^{β} ∙ [s (x, y)]^{γ}

<수식 8>

l (x, y) = \frac{2 μ_{x} μ_{y} + C_{1}}{μ_{x}^{2} + μ_{y}^{2} + C_{1}}

<수식 9>

c (x, y) = \frac{2 σ_{x} σ_{y} + C_{2}}{σ_{x}^{2} + σ_{y}^{2} + C_{2}}

<수식 10>

s (x, y) = \frac{σ_{x y} + C_{3}}{σ_{x} + σ_{y} + C_{3}}

3. 도로 추출 결과

마스킹 데이터의 비율을 다르게 설정한 데이터 세트별 도로 추출 결과는 그림 4와 같다. (A), (B), (C)는 각각 U-Net, SegNet, SegFormer로 예측한 결과이다. 먼저, 원본 데이터(Masking Data 0%)만을 사용하여 학습시킨 모델의 도로 예측 결과는 마스킹 데이터를 활용한 경우에 비해 도로가 단절된 형태로 출력되는 경향을 보였다. 또한, 도로와 비도로의 경계 부근에서의 예측이 비교적 불균일하게 나타났다. 반면에 마스킹 데이터를 활용한 결과에서는 도로의 연속성이 개선되어 도로 단절 현상이 비교적 완화되었다. 마스킹 데이터가 도로 영역에 집중할 수 있도록 유도함으로써 모델이 도로를 학습할 때 중요한 구조적 특징을 잘 반영한 것으로 보인다. 또한 도로와 비도로의 경계에서 형태가 왜곡되던 현상이 줄어든 것으로 확인되었다. 이러한 결과는 마스킹 데이터를 적용함으로써 예측 모델이 도로의 구조적인 특징을 학습하여 경계 부근에서의 일관된 예측을 수행한 것으로 보인다.

https://cdn.apub.kr/journalsite/sites/geo/2025-060-02/N013600203/images/geoa_60_02_03_F4.jpg

그림 4.

추출 결과(A: U-Net, B: SegNet, C: SegFormer, 왼쪽에서부터 입력 이미지, 정답 이미지, 마스킹 데이터 0%, 마스킹 데이터 50%, 마스킹 데이터 100%)

평가 지표를 활용한 인공 신경망 모형들의 성능 측정 결과는 표 2와 같다. 전체적으로 마스킹 데이터와 원본 데이터를 함께 사용한 경우 성능이 향상되었다. 마스킹 데이터와 원본 데이터를 혼합한 데이터셋(Masking Data 50%)으로 학습한 SegFomer의 성능이 가장 우수하였다. 원본 데이터로만 학습한 경우(Masking Data 0%)에 비해 mIoU값은 2.36%, APLS와 SSIM은 각각 1.17%, 1.67% 향상되었다. U-Net의 측정 결과에서는 mIoU 값은 1.47%, APLS의 값은 1.19%, SSIM의 경우 0.73%가 높아진 것으로 확인되었다. U-Net 역시 마스킹 데이터를 사용한 경우 성능 향상이 있었으나, SegFormer에 비해 상대적으로 낮은 향상률을 보였다. 또한 SegNet은 각각 0.56%, 0.99%, 0.46%로 다른 모델들에 비해서는 소폭 향상되었다. SegNet은 다른 모델들에 비해 마스킹 데이터의 영향을 상대적으로 적게 받은 것으로 확인된다.

표 2.

성능 평가표

	Metric	Masking Data 0%(%)	Masking Data 50%(%)	Masking Data 100%(%)
Unet	Accuracy	90.05	90.84	90.29
	Precision	80.73	81.13	80.97
	Recall	63.42	64.12	61.27
	F1-Score	70.21	71.49	69.43
	mIoU	56.76	58.23	55.16
	APLS	69.60	70.79	70.57
	SSIM	85.97	86.70	86.37
SegNet	Accuracy	90.58	90.94	90.38
	Precision	78.74	78.75	79.75
	Recall	61.25	65.56	58.23
	F1-Score	68.90	71.40	66.01
	mIoU	56.53	57.09	54.77
	APLS	70.79	71.78	70.66
	SSIM	86.21	86.67	86.43
SegFormer	Accuracy	92.70	93.09	92.32
	Precision	81.47	83.12	82.78
	Recall	74.66	74.35	74.18
	F1-Score	77.92	78.49	78.24
	mIoU	65.63	68.02	66.02
	APLS	77.39	78.56	77.48
	SSIM	87.12	88.79	88.36

마스킹 데이터만(Masking Data 100%) 적용한 결과에서 전반적으로 정밀도는 향상되고 재현율은 낮아지는 경향을 보였는데, 이는 마스킹 데이터가 도로의 주요 영역을 강조하는 효과를 가져왔음을 시사한다. 이러한 변화는 모델이 잘못 예측할 가능성이 있는 배경 영역을 제외하고 도로 영역에 더 집중하도록 유도했기 때문으로 해석할 수 있다.

4. 결론 및 시사점

본 연구에서는 원격탐사 영상으로 도로를 추출하는 과정에서 발생하는 도로 형태 왜곡 및 단절 문제를 해결하고자 하였다. 이를 위해 기존의 무작위 위치에 마스킹 영역을 삽입하는 데이터 증강 방식을 개선하여 도로 가장자리를 따라 무작위 추출 방법을 적용한 데이터 증강 방식을 제안하였다. 인공 구조물이나 나무 등의 객체로 인한 도로 왜곡 문제는 정확도를 저하시킬 수 있는 중요한 도전 과제이며, 기존 방식에서는 가림현상을 고려할 수 있는 데이터를 훈련에 충분히 사용하지 않아, 도로 영역과 배경 영역의 주요 특징을 반영하지 못하는 문제가 있었다. 따라서 본 연구에서는 도로의 경계에 해당하는 부분에만 무작위 위치에 무작위 크기의 마스킹 영역을 넣어 훈련 데이터를 제작하였다. 이를 통해 도로 경계 및 주요 특징을 강조하여 도로의 형태, 연결성과 같은 구조적 특징을 모델이 학습할 수 있도록 하였다. 분할 결과에 대해 기존의 픽셀기반 평가 지표와 함께 도로의 구조적 특성을 반영할 수 있는 APLS와 SSIM을 사용하여 도로의 형태와 연결성을 측정하였다.

마스킹 데이터의 효과 측정 및 최적 모형 선정을 위해 활용한 인공 신경망 모형은 U-Net, SegNet, SegFormer를 사용하였다. 먼저 가장 성능이 우수한 모형은 SegFormer이며 모든 평가 지표에서 비교 모형들에 비해 뛰어난 성능을 보였다. 마스킹 데이터의 적용 효과로는 마스킹 데이터를 적용한 경우, 원본 데이터만을 사용한 경우에 비해 도로의 의미론적 분할 정확도가 모든 측정 지표에서 향상되었으며, 도로의 연결성이 개선되었다. 또한 도로의 구조적인 특성을 평가하기 위한 APLS와 SSIM 지표에서도 성능이 개선되어 마스킹 데이터가 도로 추출 결과의 연결성에 미치는 긍정적인 영향을 입증하였다. 마스킹 데이터를 적용한 효과는 세 가지 모델 모두에서 확인되었으며, 의미론적 분할 성능 개선은 SegFormer, U-Net, SegNet 순으로 우수하였으며, 이러한 차이는 모델의 구조적 특성에 따라 마스킹 데이터의 효과가 다르게 나타날 수 있음을 시사한다.

본 연구는 도로 추출 성능을 향상시키기 위한 새로운 마스킹 데이터 적용 방식을 제안하였다. 기존의 무작위 위치에 마스킹 영역을 삽입하는 방식의 한계를 극복하고, 도로 경계에만 마스킹 영역을 삽입함으로써 도로의 형태와 연결성 학습을 강화하였다. 이를 통해 도로 추출 성능의 개선을 확인하였다. 이러한 결과는 마스킹 데이터를 효과적으로 활용하는 방법을 제시하며, 향후 원격탐사 영상 기반 도로 추출 연구에서 중요하게 기여할 수 있을 것이다.

References

Babaali, K. O., Zigh, E., Djebbouri, M. and Chergui, O., 2022, A new approach for road extraction using data augmentation and semantic segmentation, Indonesian Journal of Electrical Engineering and Computer Science, 28(3), 1493-1501.

10.11591/ijeecs.v28.i3.pp1493-1501

Barzohar, M. and Cooper, D. B., 1996, Automatic finding of main roads in aerial images by using geometric- stochastic models and estimation, IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(7), 707-721.

10.1109/34.506793

Chen, H., Hou, L., Zhang, G. K. and Wu, S., 2023, Using context-guided data augmentation, lightweight CNN, and proximity detection techniques to improve site safety monitoring under occlusion conditions, Safety Science, 158, 105958.

10.1016/j.ssci.2022.105958

Chen, P., Liu, S., Zhao, H., Wang, X., and Jia, J., 2020, Gridmask data augmentation, arXiv preprint arXiv: 2001.04086.

Chen, S. B., Ji, Y. X., Tang, J., Luo, B., Wang, W. Q. and Lv, K., 2021, DBRANet: road extraction by dual-branch encoder and regional attention decoder, IEEE Geoscience and Remote Sensing Letters, 19, 1-5.

10.1109/LGRS.2021.3074524

Chen, Z., Deng, L., Luo, Y., Li, D., Junior, J.M., Gonçalves, W. N., and Li, D., 2022, Road extraction in remote sensing data: a survey, International Journal of Applied Earth Observation and Geoinformation, 112, 102833.

10.1016/j.jag.2022.102833

DeVries, T., 2017, Improved regularization of convolutional neural networks with cutout, arXiv preprint arXiv: 1708.04552.

Feng, D., Shen, X., Xie, Y., Liu, Y. and Wang, J., 2021, Efficient occluded road extraction from high-resolution remote sensing imagery, Remote Sensing, 13(24), 4974.

10.3390/rs13244974

Guo, X. and Zhou, R., 2023, Data augmentation method for extracting partially occluded roads from high spatial resolution remote sensing images, IEEE Access, 11, 79232-79239.

10.1109/ACCESS.2023.3298550

Kass, M., Witkin, A. and Terzopoulos, D., 1988, Snakes: active contour models, International Journal of Computer Vision, 1(4), 321-331.

10.1007/BF00133570

Kim, B. R. and Oh, H., 2020, AI training dataset for cloud detection of KOMPSAT images, Geo Data, 2(2), 56-62.

10.22761/DJ2020.2.2.008

Li, R., Gao, B., and Xu, Q., 2020, Gated auxiliary edge detection task for road extraction with weight- balanced loss, IEEE Geoscience and Remote Sensing Letters, 18(5), 786-790.

10.1109/LGRS.2020.2985774

Lin, X., Shen, J., and Liang, Y., 2012, Semi-automatic road tracking using parallel angular texture signature, Intelligent Automation & Soft Computing, 18(8), 1009-1021.

10.1080/10798587.2008.10643306

Lin, X., Zhang, J., Liu, Z., and Shen, J., 2008. Semi-automatic extraction of ribbon roads from high resolution remotely sensed imagery by T-shaped template matching, In Geoinformatics 2008 and Joint Conference on GIS and Built Environment: Classification of Remote Sensing Images, 7147, 168-175.

10.1117/12.813220

Mei, J., Li, R. J., Gao, W., and Cheng, M. M., 2021, CoANet: connectivity attention network for road extraction from satellite imagery, IEEE Transactions on Image Processing, 30, 8540-8552.

10.1109/TIP.2021.311707634618672

Melgani, F. and Bruzzone, L., 2004, Classification of hyperspectral remote sensing images with support vector machines, IEEE Transactions on Geoscience and Remote Sensing, 42(8), 1778-1790.

10.1109/TGRS.2004.831865

Mena, J. B., 2003, State of the art on automatic road extraction for GIS update: a novel classification, Pattern Recognition Letters, 24(16), 3037-3058.

10.1016/S0167-8655(03)00164-8

Park, S. H., Lee, G. S., and Jung, H. S., 2017, Shadow detection and correction method for urban area using KOMPSAT-3 Image, Korean Journal of Remote Sensing, 33(6), 1197-1213.

Park, S. R., 2001, Semi-automatic road extraction algorithm from IKONOS images using template matching, In Proceedings of 22nd Asian Conference on Remote Sensing.

Senthilnath, J., Varia, N., Dokania, A., Anand, G., and Benediktsson, J. A., 2020, Deep TEC: deep transfer learning with ensemble classifier for road extraction from UAV imagery, Remote Sensing, 12(2), 245.

10.3390/rs12020245

Tan, Y. Q., Gao, S. H., Li, X. Y., Cheng, M. M., and Ren, B., 2020, Vecroad: point-based iterative graph exploration for road graphs extraction, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 8910-8918.

10.1109/CVPR42600.2020.00893

Van Etten, A., Lindenbaum, D., and Bacastow, T. M., 2018, Spacenet: a remote sensing dataset and challenge series, arXiv preprint arXiv: 1807.01232.

Wang, Y., Seo, J., and Jeon, T., 2021, NL-LinkNet: toward lighter but more accurate road extraction with nonlocal operations, IEEE Geoscience and Remote Sensing Letters, 19, 1-5.

10.1109/LGRS.2021.3050477

Wang, Z., Bovik, A. C., Sheikh, H. R., and Simoncelli, E. P., 2004, Image quality assessment: from error visibility to structural similarity, IEEE Transactions on Image Processing, 13(4), 600-612.

10.1109/TIP.2003.81986115376593

Wei, Y., Zhang, K., and Ji, S., 2020, Simultaneous road surface and centerline extraction from large-scale remote sensing images using CNN-based segmentation and tracing, IEEE Transactions on Geoscience and Remote Sensing, 58(12), 8919-8931.

10.1109/TGRS.2020.2991733

Yager, N., and Sowmya, A., 2003, Support vector machines for road extraction from remotely sensed images, In Proceedings of International Conference on Computer Analysis of Images and Patterns, Berlin, Heidelberg: Springer Berlin Heidelberg, 285-292.

10.1007/978-3-540-45179-2_36

Yang, F., Wang, H., and Jin, Z., 2020, A fusion network for road detection via spatial propagation and spatial transformation, Pattern Recognition, 100, 107141.

10.1016/j.patcog.2019.107141

Yang, R., Zhong, Y., Liu, Y., Lu, X., and Zhang, L., 2024, Occlusion-aware road extraction network for high- resolution remote sensing imagery, IEEE Transactions on Geoscience and Remote Sensing. 62, 5619316.

10.1109/TGRS.2024.3387945

Ye, C. S., 2017, Shadow removal from high resolution satellite imagery using vertical borders of shadow region, Journal of Institute of Control, Robotics and Systems, 23(9), 764-770.

10.5302/J.ICROS.2017.17.0132

Zhong, Z., Zheng, L., Kang, G., Li, S., and Yang, Y., 2020, Random erasing data augmentation, In Proceedings of the AAAI Conference on Artificial Intelligence, 34(07), 13001-13008.

10.1609/aaai.v34i07.7000

Journal of the Korean Geographical Society ISSN:1225-6633(Print) 대한지리학회지

Preview

AI-Based Road Extraction Considering Road Structural Characteristics

ABSTRACT

MAIN

표 1.

사용 데이터 제원

그림 1.

정사영상과 annotation자료

그림 2.

최종 데이터 셋

그림 3.

마스킹 데이터 제작(왼쪽부터 입력 이미지, 정답 이미지, 외곽선 추출, 마스킹 영역 삽입)

<수식 1>

<수식 2>

<수식 3>

<수식 4>

<수식 5>

<수식 6>

<수식 7>

<수식 8>

<수식 9>

<수식 10>

그림 4.

추출 결과(A: U-Net, B: SegNet, C: SegFormer, 왼쪽에서부터 입력 이미지, 정답 이미지, 마스킹 데이터 0%, 마스킹 데이터 50%, 마스킹 데이터 100%)

표 2.

성능 평가표

References