1. 서론
전 세계적으로 대기오염 중 미세먼지로 인한 피해는 꾸준히 증가하고 있으며, 우리나라도 고농도 미세먼지의 체류 기간이 길어지면서 많은 피해를 받고 있다(박선엽, 2021; 장안수, 2014). 미세먼지(PM10)와 초미세먼지(PM2.5)는 개인에게 호흡기 질환과 심혈관계 질환을 유발할 수 있으며, 집단적으로 피해가 누적될 경우 사회경제적인 영향을 끼칠 수 있기 때문에 국가적 차원에서도 관심이 높다(배현주, 2014; Pope III and Dockery, 2006). 우리나라는 지리적 위치로 인해 국내적 요인뿐만 아니라 중국으로부터 유입되는 월경성(transboundary) 미세먼지에 영향을 받고 있다(김기환・김오석, 2019; Lee et al., 2011). 이러한 심각성으로 지난 2019년에 미세먼지 피해 저감을 위해 관련 법안을 제정하며 사회 재난으로 지정하는 등 다양한 노력을 기울이고 있다.
우리나라는 고농도 미세먼지가 발생했을 때 국민들에게 신속히 정보를 전달하고, 행동 요령이나 조치사항을 통해 피해를 줄이기 위해 미세먼지 경보제를 운영하고 있다. 미세먼지 경보제는 각 시도 보건환경연구원의 내부 규정에 따라 권역을 구분하여 정보를 제공하고 있다. 미세먼지 경보제 권역은 시도별로 상이한 기준으로 설정되어 있다. 예를 들어, 서울시는 모든 구를 하나로 묶어 단일 경계 권역으로 설정되어 있으며, 경기도는 4개 권역(동부권, 중부권, 북부권, 남부권)으로 구분하여 각 권역에 몇 개의 시군이 할당되어 있는 방식이다. 이러한 권역 설정에 대한 물리적인 근거를 확인할 수 없다. 이렇게 권역의 공간적 단위가 서로 다르기 때문에 우리나라 전체의 고농도 미세먼지 관측 일수에 편차가 나타나는 등 현상 파악에 어려움이 존재한다. 예를 들어, 동일한 면적에서 고농도 미세먼지가 발생했을 때 시군구 단위 권역으로 이루어진 시도는 고농도 일수가 상대적으로 높게 산정될 것이며, 여러 시군구를 하나로 묶은 단위로 권역이 운영되는 시도는 고농도 일수가 상대적으로 낮게 산정될 것이다.
현재 사용되고 있는 지리적 인접성을 활용한 권역 구분 방법은 행정적 편의를 위해 설정된 것으로 보인다. 하지만 지역별 미세먼지 농도 특성을 고려한 관리 권역 구분이 도입된다면 미세먼지 자원분배 및 정책 시행에 도움을 줄 수 있을 것이다. 이러한 필요성으로 인해 국내・외에서 미세먼지 권역 설정에 관한 연구가 이루어졌다. 한지현 등(2008)는 전국 84개 미세먼지 측정소망으로부터 1시간 평균 미세먼지 농도를 활용하여 군집분석을 통한 권역 설정 방법을 제안하였다. 황사 포함 여부를 고려하여 고농도 군집을 수도권으로, 저농도 군집을 경기 및 기타지역으로 분류하였다. Xie et al.(2018)은 중국의 대기오염 공동 예방 및 통제전략에 사용되는 대기질 범위를 재정의하는 연구를 진행하였다. 오염물질의 물리적・화학적 특성, 지리적 특징, 사회경제적 발전 수준, 산업 및 에너지 구조, 도시화 수준, 기후 등을 고려하여 상관분석과 군집분석을 통해 지역적 유사성을 반영한 권역 구분 방법을 시도하였다. 백정희・송재민(2019)은 마르코프체인 모형을 활용한 군집분석과 배출원 핫스팟 분석을 통해 우리나라 미세먼지 권역 구분 방법을 제안하였다. 전이확률 개념을 사용하여 미세먼지 농도가 ‘나쁨’으로 변화할 확률에 따른 군집을 구분하여 결과를 도출하였으며, 미세먼지 집중 배출지역 식별을 위해 핫스팟 결과를 함께 제시하였다. 우리나라 전체범위의 권역 연구 외에 지자체 단위의 권역 연구도 수행되었다. 이수민 등(2021)는 경기도의 미세먼지 연평균 농도를 기반으로 미세먼지 관리를 위한 권역 범주화 연구를 진행하였고, 미세먼지 측정소의 농도별 상관관계분석과 다차원 분석법을 통해 기존의 미세먼지 권역과 비교하여 새로운 권역 구분 방법을 제안하였다.
앞서 살펴본 것과 같이 다수의 미세먼지 연구는 평균값을 활용한 분석과 해석이 주를 이루고 있으며 환경정책기본법에 따라 관리되는 미세먼지 농도 역시 연간평균치와 24시간 평균치가 활용된다. 하지만 미세먼지는 짧은 시간 동안 일시적인 노출에도 호흡곤란과 기침을 유발하며, 누적될 시 천식과 같은 호흡기 질환의 발병률을 높일 수 있다(Pino et al., 2004; Buckeridge et al., 2002). 따라서 미세먼지 농도의 평균값이 아닌 최댓값 사용을 고려해봐야 할 것이다. 또한 정량적인 농도 수치를 활용한 분석은 이해당사자와 전문가가 아닌 이상 즉각적인 인지가 어렵다. 따라서 현황 파악의 용이성과 알기 쉬운 대국민 제공 정보를 위하여 환경부에서 발표하는 4가지 미세먼지 농도 등급(좋음, 보통, 나쁨, 매우 나쁨)을 활용한 분석이 가능할 것이다. 국내의 미세먼지 권역 구분 관련 연구는 여전히 부족한 실정이며 미세먼지 피해 당사자인 국민 개인의 입장을 고려한 분석이 필요하다(장영기, 2016).
이에 본 연구에서는 시군구별 PM10과 PM2.5 농도 등급을 활용한 미세먼지 권역 구분 방법을 제안하고자 하였다. 각 시도에 속해있는 시군구들의 연속적인 시계열 PM10・PM2.5 농도 등급을 활용하여 유사한 농도 변화 패턴을 나타내는 시군구를 군집화하였다. 각 시군구의 PM10・PM2.5 농도를 명목형 미세먼지 농도 등급으로 변환하여 시계열 배열을 생성한 후 정보배열분석법을 적용하여 배열의 유사성을 측정하였으며, 계층적 군집분석을 실시하여 유사 시군구 농도 배열을 군집화하였다. 이후 군집 결과와 농도 등급이 변화 그래프를 바탕으로 전국 시도별 미세먼지 권역 구분을 수행하였다.
2. 데이터 전처리
분석을 위한 데이터의 공간적 범위는 전국 17개 시도이다. 이 중에서 세종시는 단일 행정구역이며 제주시는 제주시와 서귀포시 2개 행정구역으로 구분되어 있어 3개 이상 세부 권역으로 분할할 수 없다. 따라서 세종시와 제주시를 제외한 15개 시도를 분석 대상으로 선정하였다. 시간적 범위는 2019년 1월부터 3월로 설정하였다. 우리나라는 중국발 황사의 영향으로 인해 봄철과 겨울철에 미세먼지의 농도가 높은 특징을 가지고 있다(안성기・최광희, 2021; 왕장운 등, 2021). 2017년부터 2021년까지 최근 5년간 PM10과 PM2.5의 1~3월 평균 농도는 PM10이 50.7㎍/㎥, PM2.5가 29.7㎍/㎥으로, 4월~12월의 평균 PM10 농도 36.7㎍/㎥, PM2.5 농도 19.6㎍/㎥와 비교하여 높은 것을 확인하였다. 또한 2020년 이후는 COVID-19 팬더믹의 영향으로 미세먼지의 농도가 일반적이지 않은 상황임을 고려하였다. 따라서 고농도 미세먼지가 지속되는 2019년 1월부터 3월을 시간적 범위로 설정하였다.
데이터 가공 과정은 그림 1과 같다. 한국환경공단 에어코리아에서 제공하는 PM10과 PM2.5 확정 자료를 사용하였다. 확정 자료의 농도 측정치는 국립환경과학원의 검수를 통해 배포되는 데이터로 품질과 정확성에 장점이 있다(김종범, 2018). 시간 해상도를 주간(9시~18시), 야간(19시~익일 8시)으로 구분하여 측정소별 최댓값을 추출하였다. 분석 대상 측정소는 유효측정비율 75% 이상 측정소를 사용하였다. 다음으로 일부 측정소의 농도 결측치를 보완하기 위하여 가우시안 모델(gaussian model)을 활용한 정규 크리깅(ordinary kriging) 기법을 사용하여 입력 데이터를 내삽하였다. 미세먼지 농도값 내삽을 위해 많은 연구가 시도되었는데, 크리깅을 사용한 내삽법이 미세먼지 결측치 추정에서 높은 정확도를 나타낸다고 알려져 있다(Ehrampoush et al., 2017; Beloconi et al., 2016; Gräler et al., 2012; 김효정・조완근, 2012). 내삽값의 유효성 검증을 위해 Leave- One-Out Cross-Validation 방법을 적용하여 평균 제곱근 오차를 산출한 결과 7.8로 나타났다. 이는 미세먼지 농도 등급의 급간을 고려했을 때, 내삽값을 활용할 수 있다고 판단된다. 이후 각 시군구의 주간/야간별 최대 농도값을 국가기준에 맞춰 ‘좋음’, ‘보통’, ‘나쁨’, ‘매우 나쁨’으로 변환하여 배열을 생성하였다. 위 과정을 거쳐 생성된 각 시군구의 배열은 미세먼지 농도 상태의 계층적 군집분석을 위한 정보배열분석법의 입력 자료가 된다.
3. 전국 시도별 미세먼지 농도 기반 권역 구분
분석 과정은 그림 2와 같다. 먼저 앞선 과정을 거쳐 생성된 각 시도에 위치한 시군구의 PM10, PM2.5 농도배열을 입력 자료로 사용하여 정보배열분석법을 적용한다. 정보배열분석법은 서로 다른 명목형 배열 패턴의 유사성을 정량적으로 측정할 수 있는 방법이다(Wilson, 1998). 서로 다른 배열을 일치시키는데 소모되는 추가, 삭제 비용이 배열 간 유사성이 된다. 예를 들어, ‘A-B-C’배열을 ‘B-A-C’배열과 일치시키기 위해서는 2번째 항목인 B를 삭제하고 1번째 위치에 B를 추가해야 한다. 추가와 삭제 행위는 각 1의 비용이 소모되기 때문에 예시 배열의 일치 비용은 2가 된다. 즉, 비용이 작을수록 배열이 유사하다고 판단할 수 있다. 단일 배열을 비교할 때는 단차원 방법이 사용되며, 2개 이상 배열을 비교하는 경우 다차원 방법이 사용된다. 다차원 방법은 배열의 일치 과정에서 추가와 삭제가 중복된 위치에서 발생하면 중복된 비용을 제거하여 최종 일치비용을 산정하는 방식이다(Joh et al., 2002). 본 연구에서는 PM10 배열과 PM2.5 배열을 동시에 사용하기 때문에 다차원 방법을 사용하였다. 정보배열분석법을 적용하여 모든 시군구별로 쌍대 비교를 진행한다. 반복과정을 거쳐 거리행렬을 생성할 수 있다. 서울시는 25개 구로 이루어져 있기 때문에 25×25 크기의 거리 행렬이 생성된다. 거리 행렬을 사용하여 분열 계층적 군집분석(divisive hierarchical clustering)을 진행한다. 분열 계층적 군집분석은 이질성을 기준으로 항목을 분류하는데 장점이 있다(Guénoche et al., 1991). 다음으로 계층적 군집분석 결과로 덴드로그램(dendrogram)을 생성한다. 덴드로그램은 군집을 이루는 형태의 구조를 확인할 수 있는 다이어그램이다. 덴드로그램의 높이값을 확인하여 군집간 차이가 최대가 되는 지점을 군집의 개수로 선정하였다. 각 군집에 포함되어 있는 시군구 배열에서 시기별로 최빈값을 도출하여 대표 배열을 생성한다. 사례에서는 1번 군집과 2번 군집의 대표 배열을 비교해보면 1번 군집이 2번 군집보다 PM10과 PM2.5의 농도가 낮은 배열인 것을 볼 수 있다. 반면 2번 군집은 고농도 PM10・PM2.5가 길게 지속되는 것을 볼 수 있다. 마지막으로 각 군집의 농도 분포 패턴을 확인하고 군집의 결과를 바탕으로 권역을 구분한다.
4. 권역 구분 결과 및 논의
분석을 통한 15개 시・도별 권역 구분 결과는 시각화 결과를 통해 각 군집에 포함되어 있는 시군구와 위치를 확인할 수 있으며 군집의 대표 배열을 통해 각 군집의 시계열 PM10과 PM2.5의 농도 등급 변화를 관찰할 수 있다. 군집의 분포 형태를 토대로 각 권역을 명명하여 결과에 함께 제시하였으며, 기존 시도에서 적용하고 있는 기존 미세먼지 권역을 함께 시각화하였다.
먼저 그림 3 특별시・광역시 권역 구분 결과부터 살펴보면, 서울시(그림 3-a)는 중남부권과 외곽권으로 분류되었다. 두 권역의 PM10 농도는 대상 기간 동안 비슷한 형태를 보이지만 중남부권이 PM2.5의 지속기간이 1월 초~2월 초 기간에 길게 분포하는 특징이 있다.
인천시(그림 3-b)는 중부권과 옹진・동부권으로 분류되었다. 옹진・동부권은 연구 기간 중 고농도 PM10과 PM2.5가 지속되는 것을 확인할 수 있다. 옹진・동부권과 중부권의 PM2.5 농도는 비슷한 패턴을 보이나, 1번 군집에서 고농도 PM10이 더 많이 관찰되었다.
부산시(그림 3-c)는 동부권과 서부권으로 분류되었다. 기존 권역과 비슷한 공간적 분포를 나타내는데, 기존 권역의 동부권역과 중부권역, 남부권역을 함께 묶어 동부권으로 설정하였다. 또한 기존 권역인 서부권역과 사상구, 사하구를 서부권으로 분류하였다. 서부권이 동부권보다 PM10과 PM2.5 모두 고농도 기간의 빈도가 높고 길게 지속되는 것이 특징이다.
대구시(그림 3-d)는 중부권과 북부권으로 분류되었다. 북부권은 중부권보다 고농도 PM2.5 기간이 짧은 것을 볼 수 있는데 이는 북구권이 대부분 산지이기 때문에 지형의 영향을 받은 것으로 추정된다. 전반적으로 대구광역시는 PM10 농도 패턴이 유사하게 나타났다.
울산시(그림 3-e)는 중부권과 동부권으로 분류되었다. 울주군과 남구를 포함한 중부권이 동부권보다 고농도 PM10과 PM2.5 기간이 약간 더 높은 것으로 나타났지만 뚜렷한 차이는 발견되지 않았다.
광주시(그림 3-f)는 남서권과 북동권으로 분류되었다. 북동권의 고농도 PM10과 PM2.5 기간이 길게 나타나는 것이 특징이다. 이는 북구와 서구의 높은 인구 밀집도에 따른 것으로 판단된다.
대전시(그림 3-g)는 북서권과 남동권으로 분류되었다. 남동권은 3월 중순 이후를 제외하고 대부분의 기간에서 고농도 PM10・PM2.5가 지속되며 북서권은 PM10의 고농도 지속기간이 남동권보다 비교적 짧게 나타나는 것이 특징이다.
그림 4에 제시한 도 권역 구분 결과는 다음과 같다. 경기도(그림 4-a)는 북동권과 중부권으로 분류되었다. 중부권이 북동권보다 고농도 미세먼지 농도가 길게 지속된 것을 확인할 수 있다. 특히 중부권의 PM2.5는 연속적인 고농도가 지속적으로 관찰되었다.
강원도(그림 4-b)는 동부권과 서부권으로 분류되었다. 서부권이 동부권보다 고농도 PM10・PM2.5 농도 지속기간이 길게 나타났다. 높은 산맥의 지형적 요건과 더불어 영서 지방에 위치한 화천군, 양구군, 인제군, 정선군이 영동 지방과 비슷한 농도 패턴을 나타내는 것을 확인할 수 있다.
경상북도(그림 4-c)는 중부권, 동부권, 포스코・서부권으로 분류되었다. 동부권은 기존 미세먼지 권역의 동부권역과 유사함을 볼 수 있고 다른 권역과 비교하여 대기질이 좋은 것이 특징이다. 포스코・서부권은 PM10과 PM2.5 모두 고농도 미세먼지 지속기간이 길게 나타나는 특징이 있고, 중부권은 PM2.5 고농도 지속기간이 길게 나타나지만 PM10의 고농도 기간은 비교적 짧은 것이 특징이다.
경상남도(그림 4-d)는 남부권과 북부권으로 분류되었다. 권역의 공간적 위치가 비교적 뚜렷하게 구분되었으며, 북부권이 남부권보다 PM10과 PM2.5 모두 고농도 지속기간이 길게 나타나는 특징이 있다. 경상남도는 전반적으로 ‘매우 나쁨’농도 등급이 다른 시도와 비교하여 적게 나타나는 것이 특징이다.
전라북도(그림 4-e)는 남중권과 북중권으로 분류되었다. 북중권이 남중권보다 PM10과 PM2.5 모두 고농도 기간이 길게 지속되는 것이 특징이다. 특히 북중권의 PM2.5 농도는 분석 기간 전체에 걸쳐 ‘나쁨’이상의 고농도 기간이 지속된 것을 볼 수 있다.
전라남도(그림 4-f)는 서부권과 동부권으로 분류되었다. 기존 미세먼지 권역과 공간적으로 매우 유사하게 나타났다. 서부권과 동부권의 PM10 패턴 차이는 크지 않지만, 동부권의 PM2.5 농도가 비교적 길게 나타나는 것이 특징이다.
충청북도(그림 4-g)는 중부권, 북동권, 남서권 3개 권역으로 분류되었다. PM10은 북동권과 중부권이 남서권과 비교하여 비교적 고농도 일수가 낮은 패턴을 나타냈다. 청주시 흥덕구와 영동군이 포함되어 있는 남서권은 PM10의 고농도 일수가 가장 길게 나타났다. PM2.5 농도 역시 남서권이 가장 고농도 지속일수가 길게 분포하였지만 중부권과 북동권 역시 대기질이 연속적으로 좋지 않은 패턴임을 확인할 수 있다.
충청남도(그림 4-h)는 중남부권과 북부권으로 분류되었다. 기존 권역의 북부권역이 동일하게 북부권으로 설정되었고, 기존 권역의 서부권역과 동남부권역이 묶여 중남부권으로 설정되었다. 북부권이 중남부권과 비교하여 PM10과 PM2.5 모두 고농도 지속기간이 뚜렷하게 긴 것을 확인할 수 있다.
본 연구에서 제안한 권역 구분 방법의 활용성을 높이기 위해서는 다음과 같은 추가 연구가 필요하다. 먼저 권역을 구분하기 위한 군집 설정의 객관적인 기준 설정이 필요하다. 앞서 결과에서 제시한 것과 같이 본 연구에서는 덴드로그램의 구조를 통해 군집의 개수를 설정하였다. 하지만 일부 시도의 경우 군집 간 편차가 크지 않아 유사한 미세먼지 농도가 나타남을 확인할 수 있었다. 즉, 유의미한 군집을 구분할 수 있는 유사성 기준의 임계값을 어떻게 설정할 것인가에 따라 권역 구분 결과가 다르게 나타날 수 있다. 이를 극복하기 위해 군집의 개수를 선정하는데 널리 사용되는 군집 평가 지수를 활용할 수 있을 것이다. 또한 군집을 형성하는 기준을 모든 시도에 동일하게 적용시킬 수도 있지만 각 지역의 특성을 고려한 기준 설정 방법도 검토되어야 할 것이다. 이와 관련하여 연구 결과의 실질적인 활용을 위해서는 각 시도별 결과 권역의 지리적 위치 특성과 권역별 대표 배열을 함께 고려해야 할 것이다.
다음으로 여러 시기의 PM10과 PM2.5 농도를 활용한 분석이 필요할 것이다. 본 연구에서는 COVID-19 팬더믹의 영향으로 2019년 1월~3월의 농도 데이터만을 사용했기 때문에 관측 범위가 제한적이다. 하지만 미세먼지 문제는 과거부터 누적되어 발생하고 있기 때문에 연속성의 성격을 갖고 있다. 또한 관측의 시간적 범위를 어떻게 설정하느냐에 따라서 결과가 달라질 수 있다. 본 연구에서는 PM10과 PM2.5의 연평균 농도가 높게 나타나는 시기의 집중적인 관찰을 위해 시간적 범위를 설정했기 때문에 12개월 전체의 농도 배열을 생성하여 분석 결과와 비교하는 연구가 가능할 것이다. 또한 2019년 외에 다른 연도의 농도값을 누적시켜 권역 구분을 하는 연구도 진행될 수 있을 것이다.
마지막으로 여러 미세먼지 관측 센서를 통해 취득된 농도값을 활용한 연구가 필요할 것이다. 우리나라 대기오염 관측소는 설치 위치에 따라 주변 환경이 서로 상이하며 목적에 따라 도시 대기 측정망, 국가 배경농도 측정망, 교외 대기 측정망, 도로변 대기 측정망, 항만 측정망으로 구분된다. 각 측정망은 주변 환경과 고도, 인프라 등 조건이 서로 상이하기 때문에 동일하게 취득된 농도값을 활용한 방법이 시도될 수 있을 것이다. 또한 IoT(사물인터넷) 센서, 간이측정기 등 고정 측정망 외 센서가 등장하면서 활용할 수 있는 농도 데이터가 다양해졌기 때문에 측정소 결측치 보완을 통한 미세먼지 농도 패턴 분석이 가능할 것이다.
5. 결론
현재 우리나라의 미세먼지 경보제는 전국 17개 시・도에서 시행되고 있으며 각 지자체에서 자체적으로 권역을 구분하여 운영하고 있다. 지자체별로 임의의 권역 구분 기준을 적용함에 따라 서로 다른 공간 단위를 사용 중이다. 서울, 대구, 광주, 울산, 세종, 제주는 각각 하나의 권역으로 구분되어 있으며, 부산, 인천, 대전, 경기, 강원, 충북, 충남, 전남, 경북은 여러 시군을 묶은 세부 권역으로 구분되어 있다. 전북, 경남은 도내 모든 시군을 개별 권역으로 설정하여 운영 중이다. 이처럼 서로 다른 공간 단위의 미세먼지 경보 권역의 운영으로 인해 지역별 경보・주의보 발령 횟수의 편차가 발생하는 등 종합적인 관리가 어려우므로 전국 시도의 시계열 미세먼지 농도 변화 패턴을 이용하여 일괄된 기준으로 권역을 구분하는 방법을 제안하였다. 미세먼지 농도값을 국가 기준의 명목형 농도 등급으로 변환하여 시계열 변화 패턴의 군집화가 가능하도록 하였다. 각 시군구의 농도 배열의 정량적인 유사성 비교를 위해 정보배열분석법을 활용하였고, 도출된 유사성을 사용하여 계층적 군집분석 결과를 통해 농도 변화가 비슷한 시군구를 군집화하였다. 또한 각 군집에 포함된 농도 배열을 확인하여 최종적인 권역을 구분하였다. 이러한 방법으로 미세먼지 농도 변화의 유사성이라는 하나의 기준으로 각 시도의 미세먼지 관리 구역을 설정할 수 있었다.
미세먼지는 실생활에서 가장 빈번하게 마주치는 사회 재난이다. 미세먼지 저감을 위해 국가적 차원의 노력이 계속되고 있으며 많은 자원이 투입되고 있다. 한정된 인적자원과 물적 자원의 활용 계획 수립 측면에서 본 연구에서 제안한 시계열 미세먼지 농도 기반의 권역 방법이 효과적으로 사용될 수 있을 것이다. 연구 결과로 제안한 각 시도 권역의 경계와 농도 변화 정보는 미세먼지 방재를 위한 자원의 배분 전략 수립에 활용될 수 있을 것이다. 또한 누적된 결과를 종합함으로써 지자체별 미세먼지 오염 변화의 양상을 파악할 수 있기 때문에 실질적인 정책적 의사결정에 활용될 수 있을 것이다.






