1. 서 론
2017년 국가 대기오염물질 배출량 통계에 따르면 국 내 암모니아 총배출량은 308,298 ton이고, 이 중 농업 부문의 기여도는 79.3% (244,335 ton)로 조사되었다 (ME, 2020). 농업 부문 중 돼지의 분뇨관리, 즉 돈사 유래 암모니아 배출량은 106,057 ton으로 국내 전체 암 모니아 배출량의 34.4%를 차지하며, 닭 54,811 ton (17.8%), 소 53,827 ton (17.5%)에 비해 높은 수치를 보 여준다. 암모니아는 흡착성이 높고 강한 악취 물질일 뿐 아니라 대기 중 초미세먼지의 전구체로 작용한다. 이에 매년 증가하는 암모니아 배출량의 사회적 우려로 돈사 유래 암모니아의 배출 동향은 높은 관심을 얻고 있다. 현재 국내에 적용하고 있는 축산 부문 배출량은 각 가축의 배출계수와 연 단위 사육두수의 산술값으로 계산한다. 이는 배출구에 설치된 원격 모니터링 시스템 (tele-monitoring system, TMS)으로 실시간 배출량을 산정하는 산업부문에 비해 TMS 시스템이 없는 축산 부문의 불확도가 높을 수 있음을 의미한다. 특히 돈사 의 경우 고농도, 부식성 악취 물질, 높은 습도의 이유 로 모든 축산농가에 TMS를 설치하는 일은 실질적인 어려움이 있으므로 국내 실정에 맞는 암모니아 배출계 수 개발 연구가 꾸준히 수행되고 있다(Kim et al., 2015;Jo et al., 2020a).
배출계수 개발을 위해 실시간 암모니아를 측정할 때, 돌발 상황으로 인해 모니터링이 중단될 수 있다. 전기 공사에 의한 전원 차단, 안개 분무/수세로 인한 센서부 고장, 지속적인 고농도 가스에 의한 기기 부식, 누출 또는 막힘으로 인한 흡인 유량 유실 등이 원인이 될 수 있으며 모니터링이 중단된 시점부터 기기 수리를 통해 다시 모니터링이 수행되기까지 적게는 몇 시간에서 길 게는 며칠 이상의 소요 시간이 요구된다. 배출량을 산 정함에 있어 이러한 결측 데이터는 모니터링 지점의 최종 배출량을 과소/과대 산정할 가능성이 크다. 결측 데이터 처리에는 전통적으로 다양한 통계기법이 사용 될 수 있다. 기본적으로 제거(deletion)와 보간(imputation) 중 선택이 이루어지며 시간 흐름에 따른 오염도 의 상관성이 높을 경우 보간 위주의 처리 방식을 주로 택하게 된다. 간단하게 결측 데이터가 적을 때 전-후 데이터의 평균(mean)을 적용하거나, 시계열에 일정한 주기가 형성되었을 경우 전 또는 후 주기의 데이터를 복제(duplication)하여 값을 유추한다. 또한, 회귀 (regression)식을 구해 해당 함수에서 도출된 값을 적용 할 수도 있다(Jo et al., 2020b). 최근에는 인공신경망 (artificial neural network, ANN) 기반 예측 기법이 발 전함에 따라 기존 데이터를 학습한 후 데이터를 보간 하거나 미래를 예측하는 다양한 시계열 모델이 연구되 고 있는 추세이다(Hochreiter and Schmidhuber, 1997;Ahmed et al., 2010;Cho et al., 2014). 전술한 처리 방 법에 비해 복잡하지만 기존 방법에서 탐지 불가한 이 상치(outlier)를 도출할 수 있으며 최적화된 모델의 경 우 실제 데이터와의 오차가 매우 적다는 장점이 있다. 이미 환경 부문에서는 대기, 수질 등 오염도 예측에 활 발히 적용되고 있으며 꾸준한 모델 개선이 이루어지고 있다(Liao et al., 2020;Sit et al., 2020). 축산 부문에서 는 국외의 경우 오염도 예측 및 배출량 정량화 등에 이 용되고 있으나(Xie et al., 2017;Hempel et al., 2020), 국내의 경우 가축 개체 구분, 질병 가능성 파악 등의 가축 사양 관련 연구에 활발히 적용됨에 비해(Lee et al., 2017) 오염도와 같은 환경요소 모델 개발은 전무한 실정이다.
이에, 본 연구는 국내 비육돈사에서 수집된 시계열 환경요소 데이터를 통해 인공신경망 기반 암모니아 농 도 예측 수준을 평가하고 실제 데이터와 비교하여 현 장 적용 가능성에 대해 논하고자 한다.
2. 연구 방법
2.1 Time-Series Data
데이터는 국내 강제환기식 슬러리 비육돈사에서 2020년 3월 5일~2020년 5월 26일(총 83일) 동안 수집 되었다. 실험 돈사 구조 및 측정 방법론은 Jo et al. 2020c와 동일하며, 1시간 해상도로 암모니아, 환기량, 온도, 상대습도를 실시간 측정하였다. 암모니아 농도는 선행 연구에서 물질에 대한 직선성이 가장 좋은 광음 향 분광장치(INNOVA 1512i)로 분석하였다(Jo et al., 2020d). 돼지는 실험 시작일 일괄 입식(all-in) 되어 비 육 된 후 실험 종료일 다음 날 일괄 출하(all-out) 되었 다(102마리, 입식 평균 체중 약 30 kg). 입식/출하 시 정전과 내부 수세에 의한 데이터 흔들림 현상이 발견 되어, 해당 기간을 측정 취약 구간으로 판단해 실제 데 이터는 전·후 5일씩 제거된 데이터셋(총 73일, 1752시 간)을 이용하였다(2020년 3월 10일~2020년 5월 21일).
수집된 시간별 시계열 데이터를 Fig. 1에 그래프로 나타내고 Table 1에 통계량으로 요약하였다. 암모니아 농도(r=0.71), 돼지 1마리당 환기량(r=0.50), 온도(r= 0.75)는 시간 흐름에 따라 서서히 증가하는 경향을 보 였으나 상대습도(r=0.30)는 뚜렷한 증감 경향이 없는 것으로 분석되었다. 요소별 최솟값-최댓값은 암모니아 농도 1.6-36.1 ppm, 환기량 13.5-40.6 m3 h-1 pig-1, 상 대습도 29.4-82.0%, 온도 19.1-30.0°C의 범위를 보였다.
수집 데이터 요소별 상관분석 결과를 Table 2에 나 타내었다. 실험 돈사의 환기팬은 실내 온도에 따라 자 동으로 조절되기 때문에 온도와 환기량의 상관도는 강 한 양의 값(r=0.83)을 나타내었다. 다음으로 온도와 암 모니아의 상관도(r=0.67)가 높게 분석되었고, 다른 요 소의 상관성은 매우 낮은 것으로 나타났다.
2.2 Long Short-Term Memory (LSTM)
시계열 데이터를 예측함에 있어 ANN 중 순환신경 망(recurrent neural network, RNN) 모델이 주로 사용 된다. RNN은 입력값과 출력값 사이 은닉층(hidden state)을 추가 구성하고 이 층에 저장된 데이터를 다음 은닉층에 순환시킴으로써 시퀀스 데이터를 기억할 수 있다는 장점이 있다. 즉, RNN의 출력값은 기존 결괏값 에 의존하게 된다. 하지만 이런 기본적인 RNN 모델에 서는 시간 흐름이 길어질수록 기억된 데이터가 희미해 지는 기억 소실(vanishing gradient) 현상이 발생한다. 이를 해결하기 위해 장단기 메모리(long short-term memory, LSTM) 모델이 개발되었다(Hochreiter and Schmidhuber, 1997). LSTM의 내부 동작 구조 및 연산 식을 Fig. 2와 식 (1)에 나타내었다(Géron, 2019). 1개 의 LSTM 셀은 크게 입력값 (x(t)), 출력값 (y(t))을 지니 며 각 셀은 단기상태(short-term state, h(t)), 장기상태 (long-term state, c(t))의 두 개의 벡터로 나뉘어 값이 전 달된다.
입력값 x(t)와 전 스텝의 단기상태 h(t-1)는 f(t), i(t), g(t), o(t)층에, 전 스텝의 장기상태 c(t-1)는 forget gate에 주 입된다. 주 층인 g(t)는 x(t)와 h(t-1)를 분석하는 역할을 담당한다. f(t), i(t), o(t)는 로지스틱 함수를 이용하는 게 이트 제어기(gate controller)이다(출력 범위 0-1). 이 층 은 hadamard product에 의해 연산 되어 게이트를 여닫 는 역할을 한다(0: 게이트 닫음, 1: 게이트 열림). f(t)가 제어하는 forget gate는 c(t-1)의 일정부분 삭제를, i(t)가 제어하는 input gate는 g(t)의 일정부분 덧셈을, o(t)가 제 어하는 output gate는 장기상태의 어느 부분을 h(t), y(t) 로 보낼지에 대한 역할을 담당한다. c(t-1)는 forget gate 를 지나면서 일정 기억을 잃고, input gate에서 새로운 기억 일부를 추가한다. 이렇게 생성된 c(t)는 다음 셀로 보내지면서 계속 일부 기억이 삭제됨과 동시에 새로운 기억이 추가되는 과정을 거친다. 추가로 덧셈 연산 (addition) 후 c(t)가 복사되어 tanh 함수(hyperbolic tangent function)로 전달된다. 이 결과는 output gate에서 정제된 후 최종 h(t) (= y(t))를 생성한다.
LSTM 입력 데이터로서 단독 요소(element)인 온도 ([T]), 환기량([V]), 습도([RH])를 단변량(univariate) 입 력값, 요소 조합([T, V], [T, RH], [V, RH], [T, V, RH]) 을 다변량(multivariate) 입력값으로 각각 적용해 총 7 개 모델을 생성하였다. 전체 73일 중 앞의 70일(1680 시간)을 training set으로 설정하여 학습시키고, 뒤의 3 일에 대해 test set을 구성한 후 최종 암모니아 농도 예 측을 수행하였다. 각 모델은 예측 데이터와 실측 데이 터의 root mean square error (RMSE) 값으로 평가되었 으며 0에 가까울수록 좋은 모델임을 나타낸다(식 (2)).
다음 단계로서, 가장 적은 오차값을 보이는 상위 3개 모델을 선정하여 training set 이후 12시간씩 누적된 기 간(12~72시간, 총 3일)에 따른 예측 안정성을 평가하 였다. LSTM training을 위해 설정한 하이퍼 파라미터 를 Table 3에 정리하였다. LSTM 모델 학습 및 예측은 python (version 3.8.0)의 tensorflow library (version 2.3.1)를 이용하였다. 모델의 학습횟수(epoch)는 300, 1 epoch에 나눠 들어가는 batch size는 128, window size 는 120으로 설정하였으며 학습 최적화 알고리즘은 Adam (Kingma and Ba, 2015)을 사용하였고 learning rate는 0.01로 설정하였다. 본 연구에서 인공신경망 농 도 예측의 축산분야 기초 연구 관점에서의 적용성 평 가를 위해 하이퍼파라미터를 조정한 결과 비교는 따로 진행하지 않았으며 일반적으로 사용되는 고정된 값을 이용해 연구를 수행하였다.
3. 연구 결과 및 고찰
돈사 내 암모니아 LSTM 모델링 후, 실측값에 대한 최종 3일 RMSE 결과를 Table 4에 나타내고 적은 오 차율을 보이는 세 모델을 Fig. 3에 도시하였다. 단독 입력 변수 중에서는 [RH]가, 두 가지 입력 변수 조합 중에서는 [V, RH]가 가장 적은 오차값을 나타내었다. 모든 변수를 입력값으로 넣은 [T, V, RH]은 [V, RH]와 비슷한 결과로 분석되었다. 요소별 상관도 분석 시 T 는 암모니아와 상관성이 높았지만 예측 결과 높은 오 차율을 보였고, RH는 암모니아 농도와 상관도가 낮았 음에도 불구하고 LSTM 결과에서 RH가 들어간 모델 의 오차가 다른 모델에 비해 적은 것으로 나타났다.
최종 3일 예측 결과에서 [RH]는 실측값 대비 전반적 으로 낮은 농도를 예측하였다. 이에 반해 [V, RH]와, [T, V, RH]는 1일 차를 제외하고 매우 비슷한 주기를 예측하였다. 세 모델 전부 1일 차 농도 최곳값이 출현 하는 시점을 오후 늦은 저녁으로 예측하며 실측과 다 른 모습을 보였으나 예측 농도는 실제와 크게 벗어나 지 않았다.
시간 흐름에 따른 모델 안정성을 살펴보기 위해 상 위 세 모델의 12시간 누적 오차값을 Table 5와 Fig. 4 에 나타내었다. RMSE 계산 결과 [RH], [V, RH], [T, V RH] 각각 3.63 ± 1.02, 1.87 ± 0.49, 1.90 ± 0.52의 범 위를 보였다. [RH]는 72시간 예측에 대해서 시간 경과 에 따라 RMSE가 급격히 증가하는 것으로 분석되었으 나, [V, RH] 및 [T, V, RH]의 경우 [RH]에 비해 소폭 증가하여 비교적 안정적인 범위를 갖는 것으로 나타났 다. [V, RH]와 [T, V, RH] 모두 48시간까지 안정적인 예측세를 보였지만 이후 오차율은 증가하였다. 특히 [T, V, RH]의 경우 48시간까지 시간이 흐를수록 RMSE 가 낮아지는 모습을 보였다. 이러한 결과로 돈사 유래 암모니아 농도 예측에 있어 단독 환경변수를 입력값으 로 사용하는 모델에 비해 온도, 환기량, 습도값을 복합 적으로 학습하는 모델, 즉 다변량 학습 모델이 안정성 측면에서 우수한 것으로 나타났으며, 본 연구에서 다변 량 입력값에 의해 학습된 모델의 지속 안정 기간은 2 일 정도로 분석되었다.
최근 돈사 유래 악취 민원이 사회적인 문제로 부상 함에 따라 다수의 농장에서 사육 기간 중 돈사 내부 수 세, 슬러리 배출, 안개 분무 등의 자체적인 저감 행위 를 수시로 실행하고 있다. 돈사 내 암모니아는 돼지의 활동도에 따라 일정한 주기를 띄며 활동성이 높은 주 간에 가장 많이 발생 된다(Aarnink et al., 1995, 1996;Jeppsson, 2002;Blanes-Vidal et al., 2008;Costa, 2017;Jo et al., 2020a). 사육환경, 환경요소에 따라 농도 peak가 관찰되는 시간이 각기 다르므로, 자체 농도 모 니터링 기기가 없는 영세 농장의 경우 효율적인 저감 시점을 인지하지 못하는 경우가 많다. 기존 데이터를 활용해 앞으로의 발생 주기를 예측할 수 있다면 효율 적인 암모니아 농도 관리를 할 수 있고 더 나아가 세정 액 등의 과사용으로 인한 환경 부하가 줄어들 수 있다.
이에 본 실험에서 예측된 결과를 토대로 실제 데이 터와의 농도 peak 시점을 상위 3개 모델별로 비교했다 (Fig. 5). 예측 1일 차에서 [RH], [V, RH], [T, V, RH] 모두 실제 peak 시점과 10시간 차이를 나타내었다. 하 지만 시간이 지남에 따라 2일 차에서 [RH]와 [V, RH] 는 3시간, [T, V, RH]는 1시간 차이를 보이며 간극을 좁혀 예측되었다. 마지막 3일 차에서 [RH]는 2시간 차 이를 보여 1시간 줄어들었고, [V, RH]는 5시간 차이를 나타내 2일 차에 비해 늘어난 농도 peak 시점을 예측 했다. [T, V, RH]의 경우 2일 차와 동일한 1시간 차이 를 보여 비교 모델 중 실제 농도 peak와 매우 비슷한 시점을 예측하였다. 그러나 본 연구에서의 비교는 단순 peak 시점만을 다루었기 때문에 실제 농가 적용을 위 해서는 모델 고도화와 현장 맞춤형 실증 연구가 추가 로 수행되어야 할 것으로 사료된다.
4. 결 론
국내 강제환기식 슬러리 비육돈사에서 암모니아 농 도를 장기적으로 모니터링하고 환경요소(환기량, 내부 온도, 습도) 데이터를 수집한 후, 인공신경망 기반 암 모니아 예측 모델의 적용 가능성을 연구를 수행하였다. 모델은 시계열 예측에 적합한 LSTM을 선택하였으며 모니터링 기간 중 마지막 3일의 예측을 통해 각 환경 요소의 조합별 실제값과의 오차를 비교하였다. 분석 결 과, 암모니아 농도와 상관성이 낮은 습도가 입력값으로 포함된 모델이 다른 모델에 비해 우수하였고, [V, RH], [T, V, RH]의 조합이 가장 낮은 오차값을 갖는 것으로 분석되었다. 또한, 3일에 대해 고농도 peak가 출현하는 시점을 예측한 결과 [T, V, RH]가 실제 출현 시간에 가 장 근접한 예측값을 보여주었다. 이러한 결과는 인공신 경망 기반 예측 모델을 통해 암모니아 분석 기기가 없 는 농장주에게 농도 관리 측면에서의 자세하고 높은 신뢰성의 정보를 제공할 수 있음을 시사한다.
인공신경망 기반 시계열 오염물질 농도 예측 모델은 한정적으로 돈사뿐만 아니라 다양한 축종에 적용될 수 있다. 오염물질 외 실제로 추적하기 어려운 기타 요소 들(사료 섭취량, 체중 증가량 등) 또한 정확도 높은 예 측 결과를 얻을 수 있다. 다만 모델이 학습하기 위한 충분한 데이터가 누적되어야 하고 축사 환경 및 계절 에 따라 결과가 다를 수 있으므로 실제 환경에서의 테 스트가 반드시 선행되어야 한다. 또한, 모델 특성상 원 인-결과의 상관성 규명이 어려우므로 얻은 결과를 모 델 학습에 맞게 전처리하는 과정이 매우 심도 있게 수 행되어야 한다. 본 연구를 기초로 축산 분야의 오염도 예측의 범주에서 인공신경망 모델 적용은 긍정적일 것 으로 사료된다.