Journal Search Engine
Download PDF Export Citation Korean Bibliography PMC Previewer
ISSN : 2288-9167(Print)
ISSN : 2288-923X(Online)
Journal of Odor and Indoor Environment Vol.17 No.4 pp.322-329
DOI : https://doi.org/10.15250/joie.2018.17.4.322

An analysis of indoor environment research trends in Korea using topic modeling : Case study on abstracts from the journal of the Korean society for indoor environment

Hyung Jin Jeon1, Do Youn Kim1, Kook Jin Han1, Dong Woo Kim1, Seung Woo Son1, Cheol Min Lee2*
1Korea of Environment Institute
2Department of Chemical & Biological Engineering, Seokyeong University
Corresponding author Tel :+82-2-940-2924 E-mail :cheolmin@skuniv.ac.kr
15/10/2018 30/10/2018 07/11/2018

Abstract


The objective of this study is to identify the research trend in the field of indoor environment in Korea. We collected 419 papers published in the Journal of the Korean Society for indoor environment between 2004 and 2018, and attempted to produce datasets using a topic modeling technique, Latent Dirichlet Allocation(LDA). The result of topic modeling showed that 8 topics (“VOCs investigation”, “Subway environment”, “Building thermal environment”, “School health”, “Building particulate matter”, “Asbestos risk”, “Radon risk”, “Air cleaner and treatment”) could be extracted using Gibbs sampling method. In terms of topic trends, investigation of volatile organic compounds, subway environment, school health, and building particulate matter showed a decreasing tendency, while the building thermal environment, asbestos risk, radon risk, air cleaners, and air treatment showed an increasing tendency. The results of this topic modeling could help us to understand current trends related indoor environment, and provide valuable information in developing future research and policy frameworks.



토픽모델링을 활용한 실내환경 분야 연구동향 파악 : 실내환경학회지 초록 사례연구

전 형진1, 김 도연1, 한 국진1, 김 동우1, 손 승우1, 이 철민2*
1한국환경정책평가연구원
2서경대학교 화학생명공학과

초록


    © Korean Society of Odor Research and Engineering & Korean Society for Indoor Environment. All rights reserved.

    1. 서 론

    실내 환경 문제는 거주자들의 활동에 의해 실내로 다양한 오염물질들이 방출되어 실내 환경을 오염시켜 발생되어지는 다양한 문제를 의미하며, 이와 같은 실내 환경 문제 중 가장 대표적인 것은 실내공기오염 즉 실 내공기질에 대한 문제라 할 수 있다(Woods, 1991;Kim et al., 2005). 실내공기질에 대한 문제의 발생 배 경을 살펴보면, 1970년대 이후 각종 산업분야에서 에 너지 절감 및 효율을 높이기 위한 노력의 일환으로 열 효율 향상을 위한 건물의 밀폐화와 에너지 절감 장치 를 설치한 건물의 증가로 인하여 이들 건물의 실내공 기질이 악화되면서 발생되었다(NAS, 1981). 또한 산업 화와 도시화로 인한 도시의 인구집중 및 경제적 수준 의 향상은 도시인의 생활양식과 직장인의 근무양식에 큰 변화를 가져와 현대 도시인의 경우 일상생활 대부 분의 시간을 실내에서 생활하게 됨으로써 쾌적한 실내 환경에 대한 인식이 새롭게 부각되기에 이르렀다 (Wade et al., 1975).

    국내 실내공기오염의 중요성은 김윤신에 의해 1980 년대 초 처음 소개된 이후 환경부를 주체로 하여 1989 년도 환경과학연구협의회를 통하여지하공간의 공기 오염 및 공기 중 미량 유해물질에 관한 조사 연구사 업을 실시하였으며, 이 사업 결과를 기초로 하여 1990 년도에 지하공간의 환경과 위생관리 개선을 목적으로 한지하공간 환경기준 권고치를 제정한 바 있다. 또한 환경부에서는 지하역사, 지하상가 등 지하생활공 간의 규모나 이용객의 수의 급증에 따른 실내공기오염 에 대한 심각성이 사회적으로 인식됨에 따라 1996년에 지하생활공간 공기질 관리법을 입법화하여 시행한 바 있으며, 2003년도에는통합 실내공기질 관리정 책의 수립을 위한 토대를 마련하고자 실내공기질 관 리시설의 확장 및 다양한 관리기법을 도입하기 위해 2003년 5월다중이용시설 등의 실내공기질관리법 을 제정·공포한 이후 지금까지 수차례의 계정 과정을 거치며 시행하여 오고 있다(Lee and Kim, 2004). 또한 국내 실내공기질 관련 산·학·연에서 수행한 연구결 과를 토대로 국가 실내공기질 정책 수립에 있어 기초 적 자료 제공 및 국민적 공감대 형성을 통한 국내 실내 공기질 향상을 목적으로한국실내환경학회다 중이용시설 등의 실내공기질관리법이 제정·공포된 이듬해인 2004년도 설립하여 지금까지 운영하여 오고 있다. 특히 한국실내환경학회의 주요활동 중 하나인 학 술지 및 실내환경 관련 학술자료 발간의 경우 학회활 동의 가장 근간이 되는 활동으로, 학술지를 통해 공학, 자연과학, 의학 및 정책에 이르기 까지 매우 다양한 분 야의 학문이 서로 융합하고 실내환경 분야의 주요한 학문적 주제들과 새로운 가치를 구현하고자 하는 목적 으로 환경부의 국가 실내공기질 증진을 통한 국민 보 건 증진을 목적으로 한통합실내공기질관리 정책수 립에 크게 기여하여오고 있음에 틀림없다. 이와 같이 환경부의 다중이용시설 등의 실내공기질관리법제 정 및 시행의 궁극적 목적은 국가 통합실내공기질관 리 정책 수립으로 이의 달성을 통해 현재까지 수행 되어져 오고 있는 정책 동향의 파악을 통한 향후 정책 방향을 설정하는 것은 매우 중요하다 할 수 있다.

    최근 다양한 분야의 연구에서 텍스트마이닝 기법을 활용한 연구동향 분석이 점차 증가하고 있다. 텍스트마 이닝 기법은 비구조화된 또는 반 구조화된 텍스트로부 터 지식을 발견, 추출하는 것이라고 정의된다(Kao and Poteet, 2007;Choudhary et al., 2009). 텍스트마이닝 기법을 활용하면 방대한 양의 텍스트 데이터를 활용하 여 객관적이고 실효성 높은 분석결과를 도출할 수 있 다. 또한 각 분류에 따른 연구주제와 동향을 파악하고 의사결정 및 통찰력을 향상시키는데 용이하다고 제시 하고 있다(Berkhin, 2006;Park and Song, 2013;Liu et al., 2015;Kim et al., 2017). 텍스트마이닝을 활용한 동향 분석연구는 토픽모델링을 통해 문서에 포함되어 있는 주요 주제어를 찾아내고 각 주제어들의 시간에 따른 비율 변화를 분석하는 방법과 문헌에 나타난 단 어들의 동시출현 빈도를 통해 네트워크 구조를 파악하 는 방법이 주로 활용되고 있다(Yoon and Yoon, 2017).

    토픽모델링 기법중 하나인 LDA (Latent Dirichlet Allocation)분석은 광범위하고 비정형적인 문서 집합에 잠재되어 있는 주제들을 발견하기 위한 통계적 알고리 즘으로, 간단하고 보편적으로 사용되고 있는 토픽모델 링 기법이다. LDA 모델은 잠재적 확률추정기법을 사 용하며, 이 기법은 하나의 문서는 여러 개의 주제를 포 함하거나 여러 문서가 공통의 주제의 분포는 데이터 전체 분포의 하위집합으로 구성되는 위계모델(Hierarchial model)의 특성을 지닌다(Kang et al., 2017;Kim and Yoon, 2016). 잠재적인 토픽들이 무작위로 혼합되 어 있는 문서를 이루고 있다고 가정하고, 각 토픽의 특 성은 문서상에 분포해 있는 관측 가능한 단어들의 패 턴을 통해 추론된다. 토픽 모델링은 다양한 분야의 문 헌, 소셜 미디어, 뉴스 데이터 등 방대한 텍스트에서 정보를 얻고자 하는 연구에서 다양하게 활용되고 있다.

    텍스트마이닝 기법을 활용한 국내 환경분야의 연구 동향 및 정책수요 분석 등의 선행연구들이 수행되었다. Lee et al. (2014)는 국내 온라인 전통 미디어와 소셜미 디어 채널에서 수집된 데이터를 바탕으로 감성 분석, 연관어 분석, 키워드 네트워크 분석을 수행하였다. Kang et al. (2017)는 한국환경정책평가연구원의 연구 보고서(1993~2016년)와 네이버 환경뉴스(2004~2016 년) 기사 데이터를 기반으로 토픽모델링 분석, 연관어 분석 및 네트워크 분석을 수행하였다. 최근 정보통신기 술 발전으로 데이터의 저장, 처리 능력이 크게 향상되 고 있다. 많은 데이터를 가공하여 필요한 정보를 전달 해주는 다양한 기술들이 발전하고 있다. 특히 기술동향 및 예측을 위해 특허정보를 대상으로 텍스트 마이닝 기법을 활용한 다양한 연구가 수행되고 있다(Park et al., 2017). 그러나 아직 국내 연구에서 실내환경 분야 의 학술지를 대상으로 LDA 기반의 토픽모델링 기법을 활용하여 연구동향을 파악하는 연구는 이루어지지 않 았다.

    이에 본 연구에서는 국내 실내공기질 정책과 같이 발맞춰 오고 있는 한국실내환경학회의 주요 학술지인 실내환경학회지와 실내환경 및 냄새 학회지에 2004년 부터 2018년까지 발표된 논문의 영문제목, 영문초록, 영문 핵심어를 수집하여 LDA (Latent Dirichlet Allocation) 기반의 토픽모델링을 통해서 실내환경 분야 주요 연구주제와 연구동향을 파악하여 제시함으로써 국가 실내공기질 관련 정책의 동향 분석 및 향후 실내공기 질 정책 수립에 있어 기초적 자료를 제공하고자 한다.

    2. 연구 방법

    본 연구는 한국실내환경학회지 투고논문을 대상으로 텍스트마이닝 기법을 활용하여 연구동향을 분석하는데 목적이 있다. 연구 수행절차는 연구목표 및 범위설정하 고, 분석 데이터의 수집, 데이터 전처리 그리고 분석 및 시각화의 순으로 수행하였다(Fig. 1)

    2.1 데이터 수집

    본 연구는 2004년 1권부터 2018년 17권까지 실내환 경학회지와 실내환경 및 냄새학회지에 게재된 논문을 대상으로 선정하였다. 자료 수집을 위해 학회지검색서 비스의 웹 페이지를 크롤링(Crawling)하여 자료를 수 집하여 DB화 하였다. 웹 크롤링은 방대한 웹 문서를 자동으로 수집하는 기술을 말한다. 수집된 데이터 중 영문 제목, 영문 초록, 영문 핵심어를 수집하였으며, 영 문 초록이 없는 데이터는 제외하였다. 각 기간별 분석 대상 논문 편수는 Table 1과 같다.

    2.2 텍스트 마이닝 기법에 의한 데이터 처리

    수집된 데이터를 바탕으로 영문제목, 영문초록, 그리 고 영문키워드의 데이터를 한 단위로 처리할 수 있도 록 한 문장으로 병합하였다. R을 이용하여 소문자 통 일, 약어와 단복수형, 띄어쓰기 등을 표준화하고, 특수 문자와 주제와 관련이 없는 불용어(stopwords) 등을 제 거하는 필터링 작업을 하여 말뭉치(corpus)를 작성하였 다. 사용자 정의 사전과 불용어 사전은 대상 논문에서 추출한 키워드를 기반으로 생성하였으며 형태소 분석 및 출현빈도가 매우 낮은(Sparse Terms) 삭제, Low TF-IDF (Term Frequency-Inverse Document Frequency) 삭제 등 전처리를 수행하였다.

    2.3 토픽모델링 분석

    토픽모델링 기법에는 LSA (Latent Semantic Analysis), PLSA (Probabilistic Latent Semantic Analysis), LDA 등이 있으며 본 연구에서 적용한 LDA는 확률 그 래프모델로 디리클레 분포(Dirichlet distribution)를 이 용하여 어떤 주제에 대해 단어들이 포함될 확률을 모 델링하는 것이다(Blei et al., 2003). LDA 모델은 잠재 적 확률추정기법을 사용하며, 이 기법은 하나의 문서는 여러 개의 주제를 포함하거나 여러 문서가 공통의 주 제를 공유할 수도 있다는 점을 전제로 하고 있으며, 각 주제는 일정한 분포를 가지고 있고, 각 주제의 분포는 데이터 전체 분포의 하위집단으로 구성되는 위계모델 의 특성을 지닌다(Kang et al., 2017). 본 논문에서는 적절한 토픽 수를 결정하기 위하여 토픽의 수를 5개에 서 15개까지 변화시켜 가면서 LDA 분석 알고리즘의 VEM 기업을 이용하여 R언어에서 제공되는 perplexity 함수 결과 값과 토픽의 해석 가능성, 의미 유용성 등을 고려하여 8개로 결정하였다. 토픽 수가 결정된 후에는 LDA 분석 기법에서 collapsed Gibbs sampling 알고리 즘을 이용하여 8개의 토픽별로 빈도수가 높은 15개의 단어들을 최종적으로 추출하였다(Cho et al., 2017). 추 출된 8개의 토픽들이 비중과 유사도를 파악하기 위하 여 IDM을 생성하였다. 이를 통해 유사도가 높은 토픽 들은 의미 유용성을 고려하여 나타내었다.

    3. 연구 결과 및 고찰

    3.1 토픽모델링 결과

    Fig. 2는 수집된 419편의 논문에서 가장 높은 빈도로 출현하는 50개의 단어로 작성한 워드클라우드이다. 워 드클라우드는 텍스트를 시각적으로 나타낼 수 있는 대 표적인 방법 중의 하나이다. 입자상 물질, 노출, 배출, 냄새 빌딩, 학교, 휘발성유기화합물의 순으로 높은 빈 도로 나타났다.

    Table 2는 토픽모델링 분석결과로 도출된 8개의 토 픽들과 각 토픽별 20개의 키워드를 나타내었다. 토픽 모델링에서 토픽수를 결정하는 것은 중요한 이슈이며, Perplexity 분석결과를 통해 산출된 8개로 토픽수를 설 정하고 토픽모델링을 실시하였다. 키워드는 토픽모델 링 결과 도출된 단어들이고, 주제어는 각 토픽별 키워 드 종류, 키워드 출현빈도를 기반으로 단어의 의미적 연관성을 고려하여 연구자가 부여한 명칭이다. 주제어 에 대한 신뢰성 부여를 위해서 실내환경 분야의 박사 및 교수 5인의 검토를 통해서 최종적인 주제어를 제시 하였다.

    첫 번째 토픽은 전체 토픽 중 14.4% 비중을 차지하 고 있으며, 연관 키워드로 휘발성유기화합물, 톨루엔, 총휘발성유기화합물, 폼알데하이드, 벤젠 등의 키워드 가 많이 출현하였다. 이 토픽의 주제어는 주택에서 휘 발성유기화합물 및 폼알데하이드의 조사 및 기준 관련 된 주제로 “휘발성유기화합물의 조사”라고 부여하였다.

    두 번째 토픽은 전체 토픽 중 13.8% 비중을 차지하 고 있으며, 연관 키워드로 지하역사, 일산화탄소, 박테 리아, 다중이용시설, 입자상물질 등의 키워드가 많이 출현하였다. 이 토픽의 주제어는 지하역사 및 다중이용 시설 등에서 일산화탄소, 박테리아, 그리고 입자상 오 염물질의 실태조사와 관련된 주제로 “지하역사의 환경” 로 부여하였다.

    세 번째 토픽은 전체 토픽 중 11.7% 비중을 차지하 고 있으며, 연관 키워드로 빌딩, 온열, 상관성, 가스, 거 주자, 주택 등의 키워드가 많이 출현하였다. 이 토픽의 주제어는 빌딩 및 주택의 온열환경 및 가스와 관련된 주제로 “건물의 온열환경”이라고 부여하였다.

    네 번째 토픽은 전체 토픽 중 12.8% 비중을 차지하 고 있으며, 연관 키워드로 학교, 교실, 폼알데하이드, 초등학교, 건강, 이산화탄소 등의 키워드가 많이 출현 하였다. 이 토픽의 주제어는 학교 및 교실에서의 폼알 데하이드 및 이산화탄소 등에 대한 건강영향에 관련된 주제로 “학교 보건”이라고 부여하였다.

    다섯 번째 토픽은 전체 토픽 중 11.1% 비중을 차지 하고 있으며, 연관 키워드로 입자상오염물질, 섬유, 필 터, 포집, 빌딩 등의 키워드가 많이 출현하였다. 이 토 픽의 주제어는 빌딩에서의 입자상물질 및 포집 등에 대한 주제로 “입자상물질 포집”이라고 부여하였다.

    여섯 번째 토픽은 전체 토픽 중 11.2% 비중을 차지 하고 있으며, 연관 키워드로 석면, 어린이집, 위해도, 라돈, 필터 등의 키워드가 많이 출현하였다. 이 토픽의 주제어는 어린이집에서의 석면 및 라돈 등의 위해도 관련된 주제로 “석면의 위해도”이라고 부여하였다.

    일곱 번째 토픽은 전체 토픽 중 11.8% 비중을 차지 하고 있으며, 연관 키워드로 라돈, 위해도, 빌딩, 건강, 평가 등의 키워드가 많이 출현하였다. 이 토픽의 주제 어는 빌딩에서의 라돈의 위해성 평가와 관련된 주제로 “라돈의 위해도”라고 부여하였다.

    여덟 번째 토픽은 전체 토픽 중 13.3% 비중을 차지 하고 있으며, 연관 키워드로 휘발성유기화합물, 오존, 청정기, 가스, 등의 키워드가 많이 출현하였다. 이 토픽 의 주제어는 가스상 오염물질(휘발성유기화합물, 오존) 등에 대한 청정 및 처리와 관련된 주제로 “공기 청정 및 처리”라고 부여하였다.

    토픽모델링 분석결과로 도출된 IDM (Intertopic Distance Map)은 각 토픽의 크기와 토픽간의 유사도를 파 악하였다(Fig. 3). 그림에서 알 수 있듯이 토픽이 중복된 영역이 없이 8개의 토픽으로 추출되었지만, 토픽간의 유 사도는 존재하는 것으로 나타났다. 토픽 1과 2는 공동주 택 및 다중이용시설(지하역사)에서 휘발성유기화합물, 일산화탄소, 그리고 박테리아 등에 대한 조사가 유사한 것으로 나타났다. 토픽 4, 6, 7은 학교, 어린이집, 그리 고 건물에서 석면 및 라돈의 건강영향조사가 유사한 것 으로 나타났다. 토픽 3과 5는 건물에서의 온열환경과 입자상물질의 포집 등이 유사한 것으로 나타났다. 토픽 8은 다른 토픽과의 유사도가 없는 것으로 나타났다.

    3.2 토픽 동향 분석

    토픽 동향분석은 시간의 흐름에 따라 어떤 주제로 실내환경학회지에 논문을 게재하였는지를 분석하는 것 으로 의미한다. 본 연구에서 추출된 토픽에 대한 동향 을 백분율로 표현하여 분석하였다. 시계열의 간격은 환 경부의 실내공기질 관리 기본계획 수립년도를 기반으 로 1차 실내공기질 관리 기본계획(2004~2008), 2차 실 내공기질 관리 기본계획(2009~2013), 3차 실내공기질 관리 기본계획(2015~2019)을 기반으로 구분하였고, 3 차 실내공기질 관리 기본계획의 경우 2014년부터 2018년 기간을 수정하여 분석하였다.

    분석결과 휘발성유기화합물 조사의 경우 지속적으로 감소하는 추세를 보였고, 지하역사 환경의 경우는 2차 시기에 3% 증가하고 이후 다시 감소하는 것으로 나타 났다. 건물의 온열환경의 경우는 지속적으로 증가하는 추세를 보였고, 학교 보건의 경우는 3차 시기에 다소 감소하는 것으로 나타났다. 입자상물질 포집의 경우 1 차 시기부터 지속적으로 감소하는 추세를 보였고, 석면 위해도의 경우는 2차 시기에 3% 증가하고 이후 다시 감소하는 것으로 나타났다. 라돈 위해도의 경우는 1차 시기에 비해 증가한 것으로 나타났고, 공기 청정 및 처 리의 경우 2차 시기에 2% 감소하다가 3차 시기에 8% 증가한 것으로 나타났다. Fig. 4

    3.3 연관어 및 네트워크 분석

    수집된 자료를 기반으로 연관어 분석 및 네트워크 분석을 수행하였다. 연관어 분석은 데이터 내부의 항목 들 간에 나타나는 연관 규칙(Association rule)을 발견 하는 과정이다. 연관어 분석결과를 직관적으로 파악하 기 위해 네트워크 분석을 수행하였다. 네트워크는 키워 드를 각각 노드로 설정하고 키워드 간 연결 중심성 (Degree centrality)을 엣지로 표현하였다. 노드의 크기 는 키워드의 발생빈도를 의미하며, 엣지의 굵기는 키워 드간의 관련성을 의미한다. 분석결과 폼알데하이드 및 휘발성유기화합물의 인체 위해성평가, 학교 및 아파트 의 관리, 실내 환경의 특성파악, 입자상 물질 등의 연 구가 활발했음을 알 수 있다. Fig. 5

    4. 결 론

    본 연구에서는 국내 실내환경분야의 연구동향을 규 명하기 위해 한국실내환경학회지를 대상으로 지난 15 년간 발간된 논문들의 영문제목, 영문초록, 그리고 영 문 핵심어를 수집하여 LDA기반의 토픽 모델링을 수행 하였다. 토픽 모델링 결과 총 8개의 토픽(토픽 1 : 휘발 성유기화합물의 조사, 토픽 2 : 지하역사의 환경, 토픽 3 : 건물의 온열환경, 토픽 4 : 학교 보건, 토픽 5: 입자 상물질의 포집, 토픽 6 : 석면의 위해도, 토픽 7 : 라돈 의 위해도, 그리고 토픽 8 : 공기 청정 및 처리)이 도출 되었다. 토픽 간의 유사도를 파악한 토픽 1과 2는 공동 주택 및 다중이용시설(지하역사)에서 휘발성유기화합 물, 일산화탄소, 그리고 박테리아 등에 대한 조사가 유 사한 것으로 나타났다. 토픽 4, 6, 7은 학교, 어린이집, 그리고 건물에서 석면 및 라돈의 건강영향조사가 유사 한 것으로 나타났다. 토픽 3과 5는 건물에서의 온열환 경과 입자상물질의 포집 등이 유사한 것으로 나타났다. 토픽 8은 다른 토픽과의 유사도가 없는 것으로 나타났 다. 연구 동향 분석 결과, 휘발성유기화합물 조사의 경 우 지속적으로 감소하는 추세를 보였고, 지하역사 환경 의 경우는 2차 시기에 3% 증가하고 다시 감소하는 것 으로 나타났다. 건물의 온열환경의 경우는 지속적으로 증가하는 추세를 보였고, 학교 보건의 경우는 3차 시기 에 다소 감소하는 것으로 나타났다. 입자상물질 포집의 경우 1차 시기부터 지속적으로 감소하는 추세를 보였 고, 석면 위해도의 경우는 2차 시기에 3% 증가하고 다 시 감소하는 것으로 나타났다. 라돈 위해도의 경우는 1 차 시기에 비해 증가한 것으로 나타났고, 공기청정 및 처리의 경우 2차 시기에 2% 감소하다가 3차 시기에 8% 증가한 것으로 나타났다. 연관어 분석결과 폼알데 하이드 및 휘발성유기화합물의 인체 위해성평가, 학교 및 아파트의 관리, 실내 환경의 특성파악, 입자상 물질 등의 연구가 활발했음을 알 수 있다. 한국실내환경학회 는 설립 이후 실내환경분야와 관련된 다양한 주제의 연구들이 투고되어 왔으며, 연구 활동이 활발하게 이뤄 진 것으로 파악된다.

    본 연구는 실내환경분야의 동향을 파악하고 특징을 살펴봄으로써 관련 이해관계자들에 대한 이해를 높이 는데 활용될 수 있을 것으로 기대된다. 다만, 본 연구 는 한국실내환경학회지 발간된 논문만을 대상으로 하 였기 때문에 실내환경 분야 관련 학회 중 한국대기환 경학회, 대한건축학회, 한국주거학회, 한국생활환경학 회, 대한설비공학회 등의 학회에서 발간된 논문들은 수 집대상에서 제외된 것에 대한 한계점을 갖는다. 향후 환경부의 실내공기질 관리 기본계획 자료와 앞서 언급 한 학회에서 발간된 실내환경 관련 논문을 대상으로 추가적인 분석을 한다면 체계적이고 명확한 실내환경 분야 연구 동향을 파악할 수 있을 것으로 기대된다. 또 한 시계열 분석을 수행하기에 연도별 데이터가 부족하 다는 한계가 있어서 환경부의 실내공기질 관리 기본계 획 수립년도로 구분하여 분석하였으나 향후 보다 많은 데이터 기반으로 연구를 수행한다면 보다 의미 있는 결과가 도출될 것이라 판단된다.

    Figure

    JOIE-17-322_F1.gif

    Research flow chart.

    JOIE-17-322_F2.gif

    Result of word cloud.

    JOIE-17-322_F3.gif

    Intertopic Distance Map (IDM) created by 8 topics.

    JOIE-17-322_F4.gif

    Trends of topics.

    JOIE-17-322_F5.gif

    Association relation between each keyword.

    Table

    Number of analyzed articles per year

    Extracted 8 topics with its 15 key words

    Reference

    1. Berkhin, P. , 2006. A survey of clustering data mining techniques, Grouping Multidimensional Data, Springer Berlin Heidelberg, 25-71.
    2. Blei, D. M. , Ng, A. Y. , Jordan, M. I. , 2003. Latent dirichlet allocation , Journal of Machine Learning research3, 993-1022.
    3. Cho, K. W. , Bae, S. K. , Woo, Y. W. , 2017. Analysis on topic trends and topic modeling of KSHSM journal paper using text mining , The Korean Journal of Health Service Management11(4), 213-224. (in Korean with English abstract)
    4. Choudhary, A.K. , Oluikpe, P.I. , Harding, J.A. , Carrillo, P.M. , 2009. The needs and benefits of text mining applications on post-project reviews . Computers in Industry60(9), 728-740.
    5. Kang, S. W. , Lee, D. H. , Chang, K. B. , Jin, D. Y. , Hong, H. W. , Han, K. J. , KimJ. H. , Kang, S. A. , Kim, D. Y. , Jung, E. H. , 2017. Big data Analysis : Application to environmental research and service, Korea Environment Institute(KEI).
    6. Kao, A. , Poteet, S. R. , 2007, Natural language processing and text mining, Springer Science and Business Media, London, 1-7.
    7. Kim, C. S. , Kwahk, K. Y. , Yoon, H. , 2017. An analysis of research trend in tourism studies : Applying topic modeling and time series regression analysis , Journal of Tourism and Leisure Research29(12), 25-39.(in Korean with Englishabstract)
    8. Kim, S. H. , Yoon, J. W. , 2016. Analysis system for sns issues per country based on topic model , Journal of Korean Institute of Information Scientists and Engineers43(11), 1202-1209. (in Korean with English abstract)
    9. Kim, Y. S. , Roh, Y. M. , Hong, S. C. , Lee, C. M. , Jun, H. J. , Kim, J. C. , Cho, J. H. , 2005. A survey of indoor air quality in public facilities , Journal of Korean Society for Indoor Environment1(2), 144-155. (in Korean with English abstract)
    10. Lee, C. M. , KimY. S. , 2004. Analysis of research trend for indoor air pollutants and health risk assessment in publicfacilities , Journal of Korean Society for Indoor Environment1(1), 39-60. (in Korean with English abstract)
    11. Lee, M. S. , LeeC. H. , Kim, J. Y. , 2014. Big data analysis on demands for environmental policies, Korea EnvironmentInstitute.
    12. Liu, Z. , Yin, Y. , Liu, W. , Dunford, M. , 2015. Visualizing the intellectual structure and evolution of innovation systemsresearch : a bibliometric analysis , Scientometrics103(1), 135-158.
    13. National Academy of Sciences (NAS), 1981. Indoor Pollutants, National Academy Press, Washington DC.
    14. Park, J. S. , Hong, S. G. , Kim, J. W. , 2017. A study on science technology trend and prediction using topic modeling , Journal of the Korea Industrial Information Systems Research22(4), 19-28. (in Korean with English abstract)
    15. Park, J. H. and Song, M. , 2013. A study on the research trend in library and information science in Korea using topicmodeling, Journal of the Korean society for Information 33(2), 7-30. (in Korean with English abstract)
    16. Wade, W. A. , Cote, W. A. , Yocom, J. E. , 1975. A study of indoor air quality , Journal of the Air Pollution Control Association25(9), 933-939.
    17. Woods, J. E. , 1991. An engineering approach to controlling indoor air quality , Environment Health Perspectives95, 15-21.
    18. Yoon, S. Y. , Yoon, D. K. , 2017. A trend analysis on disaster and safety management using topic modeling , Journal of the Korean Society for Geospatial Information Science25(3), 75-85. (in Korean with English abstract)