1. 서 론
미세먼지는 인간의 건강영향에 부정적인 영향을 끼 치는 것으로 알려져 있으며, 이에 미세먼지 농도를 파 악하는 것은 매우 중요하다(Dockery and Pope, 1994). 미세먼지 농도를 측정하는 방법으로 크게 중량법과 베타선법이 있으며, 중량법은 포집된 미세먼지의 중 량을 저울로 직접 재는 방식이고, 베타선법은 미세먼 지에 흡수되는 베타선의 양으로 농도를 자동 측정하 는 방법이다(NIER, 2018). 중량법은 미세먼지의 중량 을 일정시간동안 포집하여 직접 칭량하기 때문에 측 정값의 정확도가 매우 우수하여 국가 측정소의 측정 기로 사용 중에 있다. 베타선법은 중량법에 비해서 다 소 부정확하나 측정의 신뢰도가 우수한 편이며, 최소 1시간 단위로 측정이 가능하여 중량법 대비 높은 시 간해상도의 자료를 확보할 수 있다(NIER, 2018;Baek, 2021). 한편, 두 측정법은 정확도에 있어서는 문제가 없으나 측정 장비의 가격이 고가이고, 장비의 크기가 커 다양한 실내·외 공간에 설치함에 있어 많은 어려 움이 있다(Park et al., 2021).
최근 저가형 공기질 측정기(Low-Cost Air Sensor, LCS)의 등장으로 전통적인 방식의 PM2.5 측정장비의 설치가 어려운 곳에서의 실시간 측정이 가능해졌다. 이러한 LCS 측정기는 크기가 작고 경량화되어 보조 배터리 혹은 건전지로 전력을 감당할 수 있는 수준의 전력 소모 수준이 적어 휴대가 간편하고, 공간적 제 약이 없다(Park et al., 2016a;Park et al., 2016b). 또한, 대부분의 LCS 측정기가 무선 인터넷 기반의 자료 송 수신체계를 가져 실시간으로 오염물질 농도를 파악 할 수 있다는 특성을 가지고 있어, 최근 다양한 실내 및 실외 환경에서의 미세먼지 노출평가에 많이 이용 되어지고 있다(An et al., 2021;Lee et al., 2021).
이러한 LCS 측정기의 대부분은 광산란 방식을 적 용하고 있으며, 광산란 방식은 입자의 광산란 특성을 이용하여 입자 개수와 입자 크기를 측정하고, 질량환 산계수를 적용하여 농도를 표출한다(Lee et al., 2021). 이때 측정한 입자 크기는 중량법과 달리 절대적인 입 자의 크기가 아니며, 광산란 검출기를 통해 추정된 입 자 크기이므로(Kim et al., 2022a), 측정한 농도 값은 미 세먼지의 개수 및 산란 양을 이용하여 해당 환경에서 의 입자밀도에 해당하는 값인 보정계수 (factor)를 구 하여 계산한 상대적인 값이기 때문에 측정기가 사용 한 센서, 측정 환경, 제조사에 따라 농도의 차이가 발 생할 수 있다(Kim et al., 2010). 한편, 이러한 보정계수 는 제조사로부터 공개되지 않아 측정값을 사용함에 있어 추가적인 보정이 필요한 실정이다(Kim et al., 2019). 이에 최근들어 다양한 LCS 장비의 성능을 평가 하는 연구가 다수 수행되어지고 있다(Tryner et al., 2020;Rye et al., 2022;SHI et al., 2017). 그러나, 이들 대부분의 연구들은 특정 LCS 장비와 베타선법 혹은 중량법 측정장비와 비교하여 저가형 측정기의 센서 자체의 성능만을 평가한 연구로 해당 측정기를 사용 하지 않거나, 작동조건(상대습도, 온도, 미세먼지 질 량농도)이 다를 경우 다른 결과를 초래할 수 있다는 한계가 있다(Gao et al., 2015;Kelly et al., 2017). 선행 연구에 따르면, 실험실 조건과 주거용 공기 및 인근 실외환경에서 PMS A003 센서 3종에 대해 평가하였 으며, 세 장비의 정확도는 기준장비로 사용된 고가의 광산란 장비와 베타선법 측정장비 대비 13~90% 범위 로 매우 큰 범위에서 측정값의 차이가 있는 것으로 확 인되었다(Levy et al., 2018).
한편, 이러한 베타선법과 중량법은 정확도 측면에 서는 우수할 수 있으나, LCS 장비 대비 시간해상도가 매우 낮아, 시간 및 주변 환경조건에 따라 변화가 큰 미세먼지 혹은 오염물질 농도를 보다 정확하게 보정 하기 위해서는 동일한 시간해상도를 가진 장비와의 비교가 필요하다. 이에 최근 높은 정밀도와 신뢰성을 가진 광산란 장비인 GRIMM 장비를 활용하여 보정계 수를 산출하는 연구가 활발히 수행 중에 있다(Kim et al., 2023;Macías-Hernández et al., 2023;Thị Hoa- Huyen Doa et al., 2023). 이때 기준장비로 사용하는 GRIMM 장비는 고급 입자 광학 카운터(Optical particle counter, OPC)로 0.25 μm에서 35.15 μm 크기의 입자를 광학적 크기에 따라 31개의 채널로 구분하고 다이오 드 레이저(30 mW, 655 nm)를 사용하여 개별 입자를 계수할 수 있는 능력을 가진 장비이다(GRIMM Aerosol Technik, 2010). 선행연구에 따르면, 2종의 저가형 측 정장비(Plantower PMS3003, Plantower PMS7003)를 기준장비인 GRIMM 11-D와 동시 측정하여 실험실 평 가와 현장평가를 수행한 결과, 실험실 평가에서는 입 자 크기에 따라 작은 입자 크기에서는 LCS 장비가 기 준 장비 대비 높은 농도로 나타났으나, 입자 크기가 큰 경우 기준 장비 대비 낮은 농도로 측정되었다(Kim et al., 2023). 반면 실외 현장평가에서는 대부분 기준 장비 대비 LCS 장비가 높은 농도로 나타났다. 또한, 계 절별로 동일한 LCS 장비(PMS7003) 3대와 기준장비인 GRIMM 11-C 장비를 동시에 측정하여 측정값의 평균 값을 비교한 결과, PM10 농도가 사계절 내내 LCS 장 비가 기준장비 대비 낮은 농도로 나타났다(Macías- Hernández, 2023). 한편, 개별 측정값을 확인한 결과, PM2.5 농도는 가을, 겨울철에 기준장비 대비 LCS 장비 가 일부 지점에서 높은 농도로 측정되었다. 즉 이는 일반적으로 LCS 장비는 상대습도에 큰 영향을 받는 것으로 알려져 있으나, 온도 역시 중요한 영향요인 중 하나이며, 그 외 다른 조건도 LCS 장비에 영향을 끼칠 수 있음을 확인할 수 있는 결과이다. 또한, 가을, 겨울 철 일부 지점에서만 LCS 장비와 기준장비의 농도가 다른 구간과 달리 역전된 경향을 보인 것은 일괄적인 보정계수를 활용해서 보정을 했을 경우 이에 따른 추 가적인 문제가 발생할 수 있음을 시사하는 바이다.
이에 본 연구에서는 실내·외 광산란 기반 측정기를 통해 측정된 PM2.5 및 PM10 농도를 효과적으로 평가 하기 위해 인공지능 기법을 활용하여 농도 구간을 분 류하고 구간별 보정계수를 산출함으로써 관측값의 신뢰도를 개선시키는 방법을 제시하는 것을 목표로 하였다. 이에 광산란장비의 성능평가 시 기준 장비로 널리 사용되는 GRIMM 11-A 장비와 두 종류의 LCS (IAQ-C7, PMM-130) 장비를 실내와 실외에 설치하고 온도, 상대습도, PM10, PM2.5 농도를 동시에 측정하였 다. 또한, 환경 조건에 따라 LCS와 기준 장비가 다른 추세를 보이는 구간을 연구자가 설정한 임의의 구간 이 아닌 보다 과학적으로 파악하기 위해 분류와 회귀 문제 해결 시 사용되는 머신러닝 기법인 의사 결정 트 리 모형을 사용하여 상관성이 높은 농도 구간을 일차 적으로 분류하고, 이룰 통해 구간별로 종속변수 개수 에 따른 보정식을 산출하고, 이들의 값을 비교함으로 써 PM10, PM2.5 측정값의 정확한 보정 방법을 제시하 고자 하였다.
2. 연구방법
2.1 연구 방법
2.1.1 측정기기 및 측정방법
본 연구에서는 광산란 기반 LCS 장비로 PMM-130 (Brilliant & Company Co. Ltd, Korea, Seoul), IAQ-C7 (K-Weather, Korea, Seoul), 기준 장비로 GRIMM 11-A (GRIMM Aerosol Technik Ainring GmbH & Co. KG, Germany)을 실내 및 실외 환경에서 동시간 측정이 이 루어질 수 있도록 동일공간에서 기기 간 약 20cm의 이격거리를 두고, 바닥으로부터 약 0.5 m 이상의 동일 높이에 설치하였다. 실내환경의 경우 서경대학교 유 담관 건물 내에서 측정하였으며, 실외환경의 경우 동 일 건물의 발코니에 설치하여 측정을 수행하였다. 측 정기간은 실내와 실외 각각 2023년 06월 16일부터 2023 년 6월 19.일, 2023년 6월 23일부터 2023년 6월 26일까 지 약 72시간 동안 PM10, PM2.5 농도를 측정하였다. 본 연구에서 사용된 LCS 측정기 사양은 Table 1에 정리 하였다.
기준 장비로 사용된 광산란 기반 장비인 GRIMM 11- A는 에어로졸 흡입구를 통해 유입된 공기를 측정 셀 내부의 광산란 감지기에 의해 감지한 뒤, 모든 단일 입자의 산란광 펄스를 계산하여 광신호의 강도에 따 라 입자 크기를 감지한다. 입자 수 농도는 0.52~ 32.00 μm 구간의 입자를 다이오드 레이저(660 nm)로 단일 입자의 광산란 강도를 측정하여 얻는다(GRIMM Aerosol Technik, 2015). GRIMM 11-A의 측정 사양은 Table 2와 같다.
2.1.2 기준 장비를 활용한 광산란기반 측정기의 보정식 산출
2종의 LCS 장비와 기준장비를 통해 수집된 실내 및 실외 PM10, PM2.5 농도는 통계패키지 SPSS (Ver 23)을 사용하여 기술통계 분석을 수행하였으며, 정확한 보 정계수를 산출하기 위해 농도 구간을 세분화하고자 python (Ver 3.10)을 사용하여 머신러닝 기법 중 의사 결정 트리 학습법을 적용하였다. 의사결정트리는 분 류와 회귀기법이 있으며, 본 연구에서는 Scikit-learn (Ver 1.0.2)의 Decisiontree 라이브러리를 활용한 회귀 트리를 통해 농도 구간을 분류하였다(Scigit-learn, 2023). 여기서 회귀트리는 오차 제곱합 (R Squared Sum, RSS) 을 가장 최소화할 수 있는 변수(predictor)를 기준으로 분기(split)를 만들어 결과를 예측하는 기법이며, 본 연 구에서는 회귀트리를 통해 만들어진 분기를 농도 구 간의 기준점으로 설정하였다.
각 LCS 및 입자 크기별로 산출된 기준점을 기준으 로 농도 구간을 분류한 뒤 해당 구간에 포함되는 농 도 데이터를 활용하여 농도 구간별 회귀분석을 수행 하였다. 이때, 회귀분석은 PM10, PM2.5, 온도 및 상대습 도를 모두 고려할 수 있는 다중회귀분석을 활용하였 으며, 종속변수의 개수에 따라 단변량회귀분석과 다 변량회귀분석 두 종류의 분석기법을 통해 보정계수 를 산출하였다. 단변량회귀분석의 경우 PM10, PM2.5 농도를 각각 보정하였으며, 독립변수는 PM10 혹은 PM2.5 농도와 온도, 상대습도, PM2.5/PM10로 설정하였다. 다 변량회귀분석의 경우 「환경분야 시험·검사 등에 관 한 법률」에서 미세먼지 간이측정기 성능인증제도에 서 LCS 장비의 성능평가는 PM2.5를 기준으로 평가한 다는 점을 고려하고(Kim et al., 2022b), PM10과 PM2.5 농도를 동시에 사용했을 때의 다중공선성 오류를 방 지하고자, 회귀식의 독립변수는 LCS장비의 PM2.5, 온 도, 상대습도, PM2.5/PM10 ratio로 선정하였고, 종속변 수는 GRIMM 11-A의 PM10, PM2.5 농도로 설정 후 분 석을 수행하였다. 보정식의 정확도는 일반적인 회귀 기반 예측모델의 성능 지표인 평균제곱근오차(Root Mean Squared Error, RMSE)와 결정계수(Coefficient of determination, R2)를 통해 보정된 LCS 측정값과 기 준장비의 PM10, PM2.5 농도 간 차이를 확인하였다. RMSE와 R2의 식은 다음과 같다 ((1), (2)).
여기서, pi 는 보정계수를 통해 보정된 값이고, yi 는 기준 장비의 PM10, PM2.5 농도이며, yi 은 기준 장비의 PM10, PM2.5 농도의 평균값이고, N은 총 데이터의 수 이다.
3. 결 과
3.1 미세먼지 농도 측정 비교
두 종의 LCS (IAQ-C7, PMM-130) 장비와 기준 장비 (GRIMM 11-A)를 통해 측정한 실내·외 PM10, PM2.5 농 도의 기술통계분석 결과는 Table 3과 같다. 실내와 실 외 모두 PMM-130에서 측정한 PM10, PM2.5 농도 모두 가장 높은 농도로 나타났으며, 각 PM10은 12.58 ± 3.90 μg/m3, 34.44 ± 9.87 μg/m3, PM2.5는 12.40 ± 3.85 μg/m3, 34.02 ± 9.73 μg/m3로 확인되었다. 그 다음으로 GRIMM 11-A, IAQ-C7 순으로 높은 농도로 나타났으 며, 측정기 간의 PM10, PM2.5 농도는 통계적으로 유의 한 차이가 있는 것으로 확인되었다 (p<0.05). 또한, 각 기기별로 측정한 실내 및 실외 농도 역시 통계적으로 유의한 차이가 있어(p<0.05), 각 LCS 장비별, 실내·외 공간에 따른 PM10 및 PM2.5 농도에 대한 보정계수를 개별적으로 산출되는 것이 필요함을 확인할 수 있었다.
IAQ-C7과 PMM-130 측정기로 확인한 실내온도는 각 23.41 ± 0.85°C, 26.42 ± 1.98°C, 실외온도는 각 28.74 ± 3.72°C, 31.72 ± 3.81°C로 PM10 및 PM2.5 농도와 같이 기기 및 실내·외 공간별로 통계적으로 유의한 차이가 확인되었다. 위치 혹은 기기에 따른 온도가 통계적으 로 유의한 차이가 있는 것으로 확인되었다(p<0.05). 실 내 상대습도는 IAQ-C7과 PMM-130 각 50.93 ± 1.22%, 48.79 ± 2.88%, 실외의 경우 각 50.52 ± 9.33%, 48.84 ± 5.86%로 기기 간에는 통계적으로 유의한 차이가 있었 으나(p<0.05), 실내와 실외 상대습도 간에는 통계적으 로 유의한 차이가 없는 것으로 확인되었다(p>0.05).
실내 PM10, PM2.5 농도의 측정값을 시계열 그래프를 통해 확인한 결과는 Fig. 1 (a, b)과 같다. 두 LCS 기기 에서 측정한 실내 공간의 PM10 및 PM2.5 농도값은 기 준장비인 GRIMM 11-A에서 측정한 농도값과 유사한 시계열적 분포를 나타냈으나, PMM-130은 기준장비 농도값에 비해 높은 농도를 보인 반면 IAQ-C7은 기 준장비 농도 값 대비 낮은 농도를 보이는 것으로 나 타났다. 이의 결과를 통해 두 기기에서 측정한 실내 PM10 및 PM2.5 농도에 대한 보정이 필요함을 재확인 할 수 있었다.
또한, PM10과 PM2.5 모두 PMM-130는 GRIMM 11- A 대비 변동성이 컸으며, 평균 대비 고농도 구간에서 저농도 구간 대비 변동성이 커지는 것으로 나타났다. 이는 농도가 높아질수록 측정값의 과대평가가 우려 되는 결과였다. 한편, 비교적 낮은 농도 구간인 5.0~ 12.5 μg/m3 사이의 범위에서는 15.00 μg/m3 이상 구간 대비 GRIMM 11-A 측정값과 유사한 것으로 확인되었 다. 한편, IAQ-C7의 경우 PM10, PM2.5 모두 대부분의 농 도 구간에서 GRIMM 11-A와 각 약 5.00 μg/m3, 7.00 μg/m3 차이가 나는 것으로 확인되었으나, 일부 농도 구간(PM10, PM2.5 모두 5.00~7.50 μg/m3, PM10의 경우 10.00~12.50 μg/m3)에서는 타 구간 대비 농도 차이가 낮게 나타나 기기별 실내 PM10 및 PM2.5 농도 보정계 수 산출에 있어 농도 구간별 보정계수 산출을 통한 보 정이 이루어지는 것의 필요성을 확인할 수 있었다.
실외 공간 PM10 및 PM2.5 시계열 농도 분포 역시 실 내에서 측정한 결과와 같이 두 LCS에서 측정한 PM10 및 PM2.5 농도 값이 기준장비인 GRIMM 11-A에서 측 정한 농도 값과 유사한 시계열적 분포를 나타내고 있 는 것으로 나타났다(Fig. 1(c,d)). 농도 구간 별 LCS 측 정기와 GRIMM 11-A의 측정 값의 차이를 확인한 결 과, PMM-130은 PM10 및 PM2.5 농도가 특정 농도(각 40.00 μg/m3, 30.00 μg/m3) 이상의 구간에서 기준 장비 와의 농도 차이가 타 구간 대비 급격하게 증가했다. IAQ-C7은 PM10, PM2.5 모두 GRIMM 11-A와 평균적으 로 5.0 μg/m3의 농도 차이를 보였으며 GRIMM 11-A 측 정값 대비 대다수 낮은 농도로 나타났으나, 특정 구 간에서 IAQ-C7 측정값이 GRIMM 11-A 값 대비 높게 나타났다. 즉 이는 실내와 같이 실외공간도 역시 기 기별 실외 PM10 및 PM2.5 농도 보정계수 산출에 있어 농도 구간별 보정계수 산출을 통한 보정이 필요한 것 으로 판단된다.
한편, PM10 농도는 PM2.5 농도와 같거나 높게 나타 난다(Magi et al., 2020;Park et al., 2016b). 이에, 두 종 의 LCS 장비와 GRIMM 11-A의 PM2.5/PM10 비를 확인한 결과, 실내 PM2.5/PM10은 IAQ-C7, PMM-130, GRIMM 11-A 각 0.63 ± 0.04, 0.99 ± 0.03, 0.99 ± 0.01로 나타났 으며, 실외의 경우 0.67 ± 0.01, 0.99 ± 0.01, 0.95 ± 0.02 인 것으로 나타났다. 한편, 시계열 그래프를 통해 PM2.5/ PM10을 확인한 결과, PMM-130이 IAQ-C7과 GRIMM 11-A 대비 1로 나타나는 빈도가 높게 나타난 반면에, IAQ-C7은 두 장비 대비 PM2.5/PM10이 낮았다(Fig. 2).
3.2 구간 분류 여부에 따른 보정계수 산출 결과
PM10, PM2.5 농도 구간을 분류하기에 앞서, 구간을 분류하지 않고 회귀분석을 통해 보정계수를 산출하 였다(Table 4). 단변량 혹은 다변량 회귀분석 기법에 따른 성능 차이는 크게 나타나지 않았으나, 실내와 실 외의 성능 차이는 비교적 크게 나타났다. RMSE의 경 우 실내환경에서는 1을 초과하지 않았으나, 실외의 경 우 RMSE가 1 이상으로 나타났다. 한편, R2의 경우 실 내 대비 실외에서 더 높은 설명력을 보였다.
3.3 의사결정트리를 활용한 농도 구간 분류
본 연구에서는 PM10, PM2.5 농도 구간별 측정값의 분 포 차이를 보정계수에 반영하고자 머신러닝 기법 중 분류 및 회귀 문제에 활용되는 의사결정트리 기법을 활용하여 측정기 및 공간별 농도 구간을 설정하였다. 이때 의사결정트리 중 농도와 같은 연속형 데이터를 사용하여 농도 구간을 산출하므로 회귀트리를 활용 하였고, sklearn의 DecitionTreeRegressor를 사용하였 다. 회귀트리에서 종속변수를 기준장비인 GRIMM 측 정값, 독립변수를 보정이 필요한 장비인 광산란장비 의 측정값으로 설정하였다. 또한, 회귀분석 시 새로운 관측값이 적용되었을 때 오류를 야기하는 과적합 문 제를 피하고, 모든 장비에서 공통적인 구간 수로 분 류하고자 최대깊이를 3으로 설정하여 4개 이상의 구 간으로 산출되지 않도록 제한하였다. 농도 구간 산출 결과는 Table 5와 같다.
3.4 회귀분석 기반 구간별 보정 결과
앞서 의사결정트리를 통해 산출한 농도 구간을 바 탕으로 구간별 회귀식을 산출하였고, 회귀식은 PM2.5/ PM10이 1을 초과하는 비중을 최소화하기 위해 다중 회귀분석을 통해 산출하였다. 다중회귀분석의 경우, PM10, PM2.5 농도를 각각 산출하는 단변량다중회귀분 석과 동시에 산출하는 다변량다중회귀분석을 통해 두 종류의 보정식을 산출하였으며, 결과는 Table 6과 같다. 보정계수의 성능은 두가지 방법이 큰 차이가 없 었다.
단변량다중회귀분석을 통해 산출한 보정계수를 적 용하여 실제 값을 보정한 결과, 보정 이후 GRIMM 11- A의 측정값과 유사한 분포를 보였다(Fig. 3). 다변량 다중회귀분석을 통해 산출한 보정계수를 적용하여 실제 값을 보정한 결과도 역시 GRIMM 11-A의 실제 값과 유사한 패턴을 보이는 것으로 나타났다 (Fig. 4).
한편, 두가지 방법으로 산출한 예측값의 PM2.5/PM10 비율을 확인한 결과, 단변량다중회귀분석을 통해 개 별적으로 보정한 예측값은 실내 환경에서 IAQ-C7 (Fig. 5,a)과 PMM-130 (Fig. 5,b) 모두 PM2.5/PM10이 1을 빈 번하게 초과하는 것을 확인할 수 있었으며, 실외환경 에서는 단변량회귀분석을 통해 산출된 예측값만 1을 초과하였다.
PM2.5/PM10가 1을 초과하는 비중을 확인해본 결과, 실내 환경에서 단변량회귀분석을 통해 보정한 값은, IAQ-C7이 경우 전체 보정 값의 PM2.5/PM10 중 약 6.2% 의 값이 1을 초과하였으며, PMM-130은 약 31.7% 값 이 1을 초과하였다. 한편, 다변량회귀분석을 통해 보 정한 결과, 전체 보정 값의 PM2.5/PM10 중 IAQ-C7와 PMM-130 각 1.3%, 3.4%의 값이 1을 초과하는 것으로 확인되어 실내환경에서 IAQ-C7의 경우 79.1%, PMM- 130의 경우 89.3% 까지 개선되었다. 즉, 이러한 결과 는 PM10과 PM2.5 농도를 보정함에 있어, PM2.5/PM10의 비도 필수적으로 고려되어야함을 확인할 수 있는 결 과이며 이러한 미세먼지의 특성을 보다 잘 반영하기 위해서는 두가지 물질을 한번에 고려할 수 있는 다변 량회귀분석기법이 적합함을 알 수 있는 결과이다.
4. 고 찰
본 연구는 최근 미세먼지 농도 측정에 자주 사용되 는 여러 종류의 광산란 기반 LCS 측정기의 데이터를 보다 효과적으로 활용함에 있어, 기준 장비로 사용되 는 GRIMM 11-A를 활용한 실내·외 공간 및 머신러닝 기법을 활용한 농도 구간별 농도 보정계수 산출에 대 한 방법을 제시하고자 하였다. 실내·외 공간 및 농도 구간 별 회귀식을 개별적으로 산출하여 기준 장비와 매우 유사한 수준으로 보정하는 방법을 제시하고자 하였다. 이에 농도 구간별 보정계수 산출 구간을 설 정하기 위해 딥러닝 기법 중 분류와 회귀문제 해결 시 사용되는 결정트리기법을 활용하여 보다 과학적이며 합리적인 보정계수 산출을 위한 농도 구간을 설정하 고자 하였다.
두 종의 LCS (IAQ-C7, PMM-130) 및 기준 장비인 GRIMM 11-A를 활용하여 PM10, PM2.5 농도를 측정한 결과 PMM-130에 측정한 PM10 및 PM2.5 농도가 실내 외 모두 가장 높게 나타났으며, 기준장비인 GRIMM 11-A와 LCS 장비인 IAQ-C7 장비가 뒤를 이었다. PMM-130은 선행연구와 유사하게 GRIMM 11-A 장비 대비 높은 농도로 나타났으며(Kim et al., 2023), 반면 IAQ-C7의 경우 일반적으로 낮은 농도로 나타나 이는 LCS 장비 내 센서에 따라 농도가 다르게 나타남을 확 인할 수 있는 결과이다.
측정 값별 CV (%) 산출 결과. 본 연구에서와 유사 한 조건에서 GRIMM 11-D 장비로 PM2.5, PM10 농도를 측정한 연구에 따르면, 학교 내 PM2.5, PM10 농도는 각 20.45 ± 12.55 μg/m3, 29.07 ± 17.52 μg/m3로 본 연구에 서 측정한 농도 대비 약 2배 높은 농도로 나타났다(Kim et al., 2022). 또한, 해당 연구에서도 역시 LCS 장비 (PMS303, PMS7003)와 GRIMM 11-D 장비를 활용하여 동시에 PM2.5 및 PM10 농도를 측정한 결과, PM2.5의 경 우 2종의 LCS 장비 각 39.28 ± 28.46 μg/m3, 38.40 ± 26.71 μg/m3로 GRIMM 11-D 대비 약 2배 차이가 나타 난 것으로 확인되었다. PM10의 경우 42.88 ± 31.02 μg/ m3, 50.71 ± 34.95 μg/m3로 약 1.5배의 농도 차이를 확 인할 수 있었다. 본 연구에서 사용한 LCS 장비도 역시 PM10 대비 PM2.5가 기준 장비와 농도 차이가 약 2배 나 타나는 것과 유사한 결과였다. 이는 본 연구에서 사 용된 LCS 장비 뿐 아니라, 대다수의 LCS 장비가 농도 차이가 크게 나타날 수 있으므로, 기준 장비를 통한 측정값 보정의 필요성을 확인할 수 있었다.
한편, LCS 장비를 통해 실내와 실외의 온도 및 상대 습도를 동시에 측정한 결과, 실내온도는 약 25°C, 실 외온도는 약 30°C로 나타났고, 상대습도는 실내·외 모 두 약 50%인 것으로 확인되었다. 선행연구에 따르면 광산란 센서는 상대습도가 50% 이상을 초과했을 때 측정값의 오류가 커질 수 있다(Jayaratne et al., 2018;Magi et al., 2020). 즉, 이러한 결과는 본 연구에서 실내 와 실외 모두 상대습도를 보정계수의 입력변수로 사 용한 것이 적합함을 확인할 수 있는 결과이다. 한편, 실내온도의 CV(%)는 IAQ-C7과 PMM-130 각 3.6%, 7.5%, 실외의 경우 각 12.9%, 12.0%로 나타났으며, 상 대습도의 경우 실내는 IAQ-C7과 PMM-130 장비 각 2.4%, 5.9%, 실외는 18.5%, 12.0%로 실내가 실외 대비 온·습도 변화량이 안정적인 것으로 확인되었다.
시계열 그래프를 통해 측정값을 확인한 결과, 실내 와 실외 모든 공간에서 PMM-130의 측정값이 IAQ-C7 과 GRIMM 11-A 측정값 대비 외부환경에 민감하게 반 응하는 것으로 확인되었으며, IAQ-C7의 경우 GRIMM 11-A와 농도 범위는 다르게 나타났으나, 분포 패턴은 매우 유사한 것으로 확인되었다. 한편, 농도 구간별로 GRIMM 11-A에서 측정한 값과 LCS 장비 측정값 간 오 차가 다르게 나타났으며, 특히 실외에서 IAQ-C7 장비 의 경우 30 μg/m3을 기준으로 기준을 초과하는 구간 에서는 GRIMM 11-A 대비 높은 농도로 나타났으나, 기준 이하의 구간에서는 GRIMM 11-A 농도 대비 낮 은 농도로 나타났다. 즉, 이는 실내 및 실외, 농도 구 간에 따라 기준 장비와의 농도 차이가 다르게 나타나 구간을 분류한 후 농도를 보정해야됨을 확인할 수 있 는 결과였다. 박승식 등(2016)의 연구에서도 본 연구 결과와 유사하게 PM2.5가 약 30 μg/m3의 농도를 초과 하는 지점에서 “A“사의 광산란 측정장비의 값이 GRIMM 장비 농도 대비 높은 농도로 나타났으며, 반면 30 μg/ m3 이하의 농도에서는 GIRMM 장비의 농도가 LCS 장 비 대비 높은 농도로 나타나는 것으로 확인되었다.
결정트리 기법을 활용하여 농도 구간을 분류한 뒤 단변량, 다변량 다중선형회귀분석을 통해 보정계수 를 산출한 결과, 기존의 농도 구간을 분류하지 않은 보정 방법 대비 실내, 실외 모두 RMSE와 R2가 개선된 것을 확인할 수 있었다. 특히, GRIMM 11-A와 보정 값 간의 차이인 RMSE가 IAQ-C7의 경우 실내는 약 26.5%, 실외 환경은 약 33.8% 개선되었으며, PMM-130은 실 내·외 각 34.6%, 16.3%로 보정 성능이 상당히 개선된 것을 확인할 수 있었다. 선행연구에 따르면 PM10/PM2.5 를 기준으로 농도 구간을 나누어서 보정계수를 구간 별로 산출한 결과, 구간을 나누지 않았을 때 대비 눈 에 띄게 성능이 개선된 것을 확인할 수 있었다(Kim et al., 2022a). 즉, LCS 장비의 보정계수 산출 시 농도 구 간을 분류하여 보정하는 것은 보다 정확하게 보정하 기 위해 필수적인 과정인 것으로 판단된다.
또한, PM2.5/PM10를 통해 미세먼지의 일반적인 특 성이 보정 과정에서 반영되었는지 확인한 결과, 단변 량회귀분석을 통해 보정계수를 산출하였을 때는 PM2.5 와 PM10 농도를 개별적으로 보정하여, PM2.5/PM10이 1을 초과하는 문제를 확인할 수 있었다. 반면 다변량 회귀분석을 통해 보정한 결과 단변량회귀분석 대비 PM2.5/PM10이 1을 초과하는 비중이 IAQ-C7의 경우 79.1%, PMM-130의 경우 89.3% 개선된 것을 확인할 수 있었다. 이러한 결과는 PM10, PM2.5와 같이 복합적으 로 고려되어야할 값들을 보정할 때에는 동시에 고려 해야함을 확인할 수 있는 결과이다.
한편, 본 연구에서 제시한 방법의 경우, 실험 기간 이 약 일주일 정도로 짧으며, 타 연구들과 같이 본 연 구와 다른 환경조건에서 적용 시 본 연구결과와 다르 게 나타날 수도 있다. 또한, 현장 평가 중심의 연구로 온도 및 상대습도가 동일한 조건으로 유지되는 실험 실 평가는 별도로 수행하지 않았다. 그러나, 본 연구 를 통해 LCS 장비를 활용했을 때의 기준 장비를 통한 보정할 때 농도 구간 분류의 필요성을 확인할 수 있 었으며, 환경조건 뿐 아니라 입자상 물질의 입자크기 를 반영할 수 있는 PM10/PM2.5도 필수적으로 고려되 어야함을 확인할 수 있었다. 또한, 농도 구간을 선행 연구와 같이 임의적으로 혹은 PM10/PM2.5 비 등 두 개 의 구간으로 분류하는 것이 아닌, 머신러닝 중 분류· 회귀 문제에 사용되는 결정트리 기법을 활용하여 오 차를 최소화 할 수 있는 최적의 구간으로 PM10, PM2.5 농도를 분류함으로써, 정량적인 근거를 기반으로 구 간을 분류할 수 있었고, 이에 따라 보정 성능 역시 개 선할 수 있었다. 또한, 두가지 회귀기법을 통해 보정 값을 산출함으로써 PM10, PM2.5 농도를 각각 보정했 을 때의 문제점을 확인하고 및 보완가능한 방안을 제 시하였다.
본 연구에서 확인된 결과는 향후 LCS 장비를 활용 한 연구에서 측정값의 신뢰도를 향상시킬 수 있는 기 초자료가 될 것으로 사료되며, 특히 현장 평가를 중 심으로 이루어졌기 때문에 보다 현장의 상황을 잘 반 영할 수 있는 방법론이 될 것으로 판단된다. 또한 머 신러닝을 활용하여 의미있는 농도 구간을 산출한 뒤 해당 값을 기점으로 구간을 분류하여 구간 별 회귀식 을 산출하였기 때문에, 단순히 구간을 분류하지 않거 나, 임의로 구간을 설정하여 보정계수를 산출한 후 보 정하는 방법 대비 기준 장비와 더 가까운 값으로 보 정할 수 있을 것으로 판단된다.
5. 결 론
본 연구는 최근 미세먼지 농도를 측정하는 데 빈번 하게 사용되는 광산란 기반 LCS 측정기의 미세먼지 측정값 보정에 대한 새로운 방법론을 제시하였다. 기 존의 보정 방법 대신, 머신러닝 중 분류·회귀 문제에 사용되는 결정트리 기법을 활용하여 최적의 농도 구 간을 산출하였고, 해당 구간별로 단변량 혹은 다변량 다중선형회귀분석을 적용하여 보정계수를 획득하였다.
2종의 LCS (IAQ-C7, PMM-130) 장비와 GRIMM 11-A 장비를 통해 실내와 실외에서 PM10, PM2.5 농도 를 측정한 결과, PMM-130이 가장 높은 농도로 나타 났고, GRIMM 11-A, IAQ-C7 순으로 높은 농도로 나타 났으며, 시계열그래프를 통해 세가지 장비의 농도 분 포를 확인한 결과, 특정 농도 구간에 따라 GRIMM 11- A 장비와 LCS 장비의 농도 차이가 다르게 나타났다. 이 에 결정트리기법을 활용하여 PM10, PM2.5 농도 구간 을 분류하고 구간 별로 회귀식을 산출한 뒤 농도를 보 정한 결과, 농도 구간을 분류하지 않은 방법에 비해 정확도와 설명력이 상당히 향상된 것을 확인할 수 있 었다. 한편, PM2.5/PM10을 통해 미세먼지의 특성이 보 정 과정에서 반영되었는지에 대한 여부를 확인한 결 과, 단변량다중회귀분석의 경우 1을 초과하는 비중이 매우 높아 보정이 제대로 이루어지지 않은 것을 확인 할 수 있었다. 한편, PM10과 PM2.5를 동시에 고려할 수 있는 다변량회귀분석 기법을 통해 보정을 수행한 결 과 단변량회귀분석을 통해 보정된 값 대비 PM2.5/PM10 이 1을 초과하는 비율이 IAQ-C7의 경우 79.1%, PMM- 130의 경우 89.3% 줄어든 것을 확인할 수 있었다. 즉, 본 연구결과를 통해 LCS 장비의 측정값 보정 시 농도 구 간에 따른 보정의 필요성과 PM10, PM2.5의 동시 보정 의 중요성을 확인할 수 있었다.
본 연구는 LCS 장비의 측정값을 더욱 정확하게 보 정하는 방법론을 제시하는 기초 자료로 활용될 수 있 을 것이며, 머신러닝 기법을 적용함으로써 더욱 과학 적이고 합리적인 방식으로 데이터 보정의 가능성을 탐구하였다는데 의의가 있다. 또한, 이를 바탕으로 앞 으로의 미세먼지 연구 및 실제 활용 분야에서 더욱 정 확한 측정값 활용이 가능해질 것으로 기대된다.