Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1225-8857(Print)
ISSN : 2288-9493(Online)
Journal of Korean Society of Rural Planning Vol.24 No.4 pp.69-80
DOI : https://doi.org/10.7851/Ksrp.2018.24.4.069

Features of the Rural Revitalization Projects in Jang-su County Using LDA Topic Analysis of News Data

Young-Jin Kim, Yong-hoon Son*
Ph.D. Course, Interdisciplinary Program in Landscape Architecture, Seoul National University
*Associate Professor, Graduate school of Environmental Studies, Seoul National University

Corresponding author : Son, Yong-Hoon Tel : 02-880-8107 E-mail : sonyh@snu.ac.kr
04/09/2018 25/10/2018 20/11/2018

Abstract


In this study, we typified the project for revitalizing the rural area through text analysis using news data, and analyzed the main direction and characteristics of the project. In order to examine the factors emphasized among the issues related to the revitalization of rural areas, we used news data related to ‘tourism’ and ‘livelihood’, which are the main keyword of the project to promote rural areas. In the analysis, text mining techniques were used. Topic modeling was conducted on LDA techniques for major projects in ‘tourism’ and ‘livelihood’ keyword. Based on this, this study typified the projects that are carried out for the activation of rural areas by topic. As a result of the analysis, it was fount that the topics included in the project were distributed in 11 sub-types(Tourism Promotion, Regional Specialization, Local Festival, Development of Regional Scale, Urban and Rural Exchange, Agricultural Support, Community Forest Management, Improve the Settlement Environment, General Welfare Service, Low Class Support, Others). The characteristics of the rural revitalization projects were examined, and it was confirmed that domestic projects were carried out by tourism-oriented projects. To summarize, the government is making projects to revitalize rural areas through related ministries. Within the structure where the project is spreading to the region, a lot of projects are being carried out. It is understood that the tourism and welfare oriented projects are being carried out in the revitalization project of the domestic rural area. Therefore, in order to achieve the goal of rural revitalization, it is believed that it will be effective to carry out a balanced project to improve the settlement environment of the residents.



뉴스데이터의 LDA 토픽 분석을 통한 장수군 농촌지역 활성화 사업의 특징
- 관광 · 생활 키워드를 중심으로 -

김 용진, 손 용훈*
서울대학교 협동과정 조경학
*서울대학교 환경대학원

초록


    I. 서 론

    농촌지역은 고령화·난개발·과소화 등의 문제를 가지고 있다. 이는 국가의 경제 개발이 도시지역을 대상으로 초 점이 맞추어져 있어 농촌문제에 대한 관심이 상대적으로 약해진 결과로 볼 수 있다(Friedmann, 2001). 일반적으로 농촌지역에 발생하는 문제점의 개선을 위해서는 정주서 비스를 개선하고(Visvaldis et al., 2013), 문화·복지·교육 등 정주환경의 매력을 높이는 것이 필요하다(Niedomysl & Amcoff, 2011).

    우리나라에서도 정부를 중심으로 다각적인 정책사업 을 추진해오고 있다(Kim & Gim, 2013; Kim et al., 2015; Kim & Son, 2017). 대표적인 사례가 농촌중심지활성화사 업이다. 농촌중심지활성화사업은 지역의 정주거점으로서 서비스를 제공하고, 지역의 고유 자산을 활용하며, 경제· 사회·문화적 거점지역으로 읍·면 소재지역을 육성하는데 목적을 두고 있다(MAFRA, 2017). 지금까지 수행된 농촌 중심지활성화사업은 물리적 환경 개선에는 일부 효과가 나타났다고 평가할 수 있다. 반면 대상 지역의 성격을고려하지 못하거나, 불필요한 사업의 중복 시행, 거주민 과 소통 부재, 정치적 알력으로 계획이 본 목적대로 실 현되지 못하는 등 많은 문제점이 지적되었다(Song & Sung, 2004;Park & Kim, 2014).

    본 연구에서는 농촌지역 활성화를 위해 지방자치단체 별 중점적으로 시행하는 정책사업의 유형과 특징을 파악 하는데 있어서 뉴스데이터를 활용하였다. 최근에는 비정 형 데이터를 분석하는 연구가 발전하면서, 뉴스데이터를 대량으로 수집하여 분석한 논문이 다수 발표되고 있다 (Manyika et al., 2011;Gan et al., 2014;Daniel, 2015).

    본 연구의 목적은 뉴스데이터를 활용한 텍스트분석을 통해서 농촌지역 활성화를 위한 사업을 유형화하고, 그 특징을 해석하는 것이다. 뉴스데이터에 나타난 주요 사 업과 평가는 정부기관·지방자치단체·사업수행기관 등에 서 수행한 평가와 비교할 때 전문성 혹은 객관성이 부족 할 수 있지만, 현실 사회를 반영한다는 면에서 큰 의미 가 있다. 본 연구에서는 기존의 혼재되어 있던 농촌사업 을 유형화하여 개별사업단위 평가와 달리 지역 전체를 대상으로 포괄적 측면에서 농촌지역 활성화 사업을 분석 하는 방안을 찾는데 의의가 있다.

    II. 이론적 고찰

    1. 국내 농촌 활성화 사업의 동향

    정부에서 시행해온 농촌지역 활성화 관련 사업은 시 기적으로 마을단위 종합개발(1958~1979) - 농업위주 농 촌개발(1980~1990) - 부처별 분산적 농촌개발(1991~2002) - 균형발전을 위한 통합적 농촌개발(2003~현재)의 4단계 로 구분할 수 있다(MAFRA, 2016). 이러한 사업들은 농 촌의 거점지역인 중심지, 농업활동이 주로 이루어지는 배후농촌지역, 산촌·낙도지역 등 낙후지역을 대상으로 실시되었으며, 2000년을 기준으로 전·후 사업의 특성을 구분할 수 있다(Kim & Son, 2017). 2000년 이전에 수행 된 사업은 주로 생활기반시설 현대화를 중심으로 수행되 었다. 도로정비·상하수도 정비 등 농촌지역 생활기반시 설의 현대화와 거주지 기초환경정비에 중점을 두었으며, 사업의 범위에 있어서도 마을 및 주택단위의 소규모 공 간을 대상으로 하였다. 반면 2000년대에 들어서는 도농 교류·농촌관광 등 농촌지역이 보유한 새로운 가치를 발 굴하는 방향으로 사업이 추진되고 있다. ‘지방소도읍육 성지원법’, ‘포괄보조금제도’, ‘국토균형발전정책’ 등을 기반으로 기존 사업의 유지와 함께 사업추진에 있어서 거주민의 참여를 높이며, 각 지방자치단체별 자율성을 도모하고 있다.

    이러한 농촌지역 활성화를 위한 정책사업은 농촌지역 기초생활환경 개선에는 성과가 있었으나, 현재까지도 정 부주도의 하향식 사업으로 수행되고 있으며, 농촌지역의 경제적 활력 향상에는 큰 효과를 나타내고 있다고는 평 가할 수 없다. 이에 사업의 개선에 대한 연구가 활발하 게 이루어지고 있다.

    2. 농촌지역 활성화 사업의 평가

    농촌지역 활성화를 위한 사업은 성과를 측정하여 책 임소재를 명확히 해야 하고, 이를 통해 효율적인 사업이 수행될 수 있도록 해야 한다(Kelly & Swindell, 2002). 국 내에서 농촌지역 활성화를 위한 사업을 평가하는 방안으 로 사업지역에 대한 공간구문론을 활용한 구조분석(Lim et al., 2009), 주요 기능 구분 및 이용성향 분석을 통한 유형화 모델 제시(Ko, 2009), 농촌지역의 물리적 환경변 화 평가(Park & Lee, 2009) 등의 공간적 접근의 평가연 구가 있다. 또한 사업을 통해 조성된 시설 및 정주 환경 에 대한 만족도 조사(Song & Sung, 2004;Ahn & Jung, 2014;Jung & Ahn, 2015;Kim & Son, 2017)가 다수 이루 어졌다. 이밖에도 상대적 격차지수(RMM)를 통해 사업시 행지역의 소득 발생능력을 비교분석하여 사업의 영향을 평가(Lee, 2011)하거나, 델파이 조사와 AHP기법을 활용 한 사업 평가 기준의 문제점을 분석(Kim et al., 2012)하 는 연구도 수행되었다.

    선행연구에서는 농촌지역 활성화를 위해 정책적·사업 적인 다각적 접근을 시도하였으며, 개선을 위한 논의가 계속되고 있다. 그러나 농촌지역 활성화에 대한 필요성 과 근거가 미약하며, 쇠락하였고 정주환경이 취약하니 지원해야 한다는 주장이 주를 이루고 있다. 또한 개별 지원사업의 평가에 그치고 있어, 농촌지역 사업에 대한 종합적이고 구체적인 분석은 이루어지지 못하고 있다.

    3. 뉴스데이터 분석 및 토픽모델링 활용

    문헌자료를 이용한 빅데이터 분석기법은 다량의 정보 를 효과적으로 분석하여, 기존 질적연구에서 나타나는 주관성 개입을 최소화할 수 있어 다양한 분석방법이 등 장하고 있다(Hannigan, 2015;Matthies & Corners, 2015;Moreno & Redondo, 2015;Guo et al., 2016). 특히 뉴스데 이터는 대량으로 데이터를 획득할 수 있고, 여타 비정형 빅데이터에 비해 상대적으로 언어적 품질이 균질하여 분 석이 용이하다(Huang et al., 2014).

    뉴스데이터를 분석할 때에는 뉴스의 편향성을 인식해 야 한다(Barranco & Wisler, 1999;Earl et al., 2004). 일반 적으로 뉴스는 대규모 행사나 성공사례에 대해 언급하며 (Oliver & Myers, 1999), 과장성을 가지고 있다(Ready et al., 2006). 특히 본 연구와 같이 사업을 중심으로 연구를 수행하는 경우 정제되고 홍보를 목적으로 한 보도자료가 기사화되는 경우가 있다. 따라서 본 연구에서는 토픽을 해석하는 과정에서 농촌지역 활성화에 기여하지 않는 제 도, 예산 등의 항목은 특정 유형으로 분류하고, 해석에 있어 제외하였다.

    토픽모델링은 텍스트마이닝, 네트워크 분석 등 여러 분야에서 널리 사용되어온 머신러닝 기술로 거대한 정보 에 내포된 구조, 의미, 패턴을 파악하는 장점이 있다 (Blei, Ng & Jordan, 2003;Blei, 2012).

    토픽모델링 기법은 최근 농촌개발 정책수립에서 고려 사항 식별(Brauer & Dymitrow, 2014), 국회 연설·정치적 텍스트 분석(Greene & Cross, 2015), 공중보건부문의 트 위터 분석(Paul & Dredze, 2012), 질병에 대한 처방 및 증상분석(Zhang et al., 2011) 등 컴퓨터 공학, 지리학, 정 치학, 언어학, 의학 및 생물학, 소셜 네트워크, 범죄예측 등 많은 세부정보를 다루는 분야에서 정보를 추출하는데 활용되고 있다. 특히 토픽모델링 기법은 내포된 정보가 많아서 일반적인 클러스터링 유형화분석으로는 다룰 수 없는 데이터를 분석에 활용할 수 있는 부분에서 중요성 이 커지고 있다.

    따라서 토픽모델링을 활용하여 농촌지역을 대상으로 시행되는 사업을 유형화 하는 것은 내포된 사업의 특징 을 파악 할 수 있어 의미가 있을 것으로 보인다.

    III. 연구방법

    1. 연구대상

    본 연구에서는 고령화·과소화를 겪고 있으며, 지역산 업·경제규모가 축소되는 전형적인 농촌의 사례로 전라북 도 장수군을 대상으로 하였다. 장수군에서는 <Figure 1> 과 같이 전체 7개 읍·면 단위 지역을 대상으로 여러 사 업이 시행되었거나, 추진 중에 있다.

    장수군을 대상으로 한 뉴스데이터의 수집에는 ‘장수군 관광’과 ‘장수군 생활’이라는 검색어로 ‘관광’ 및 ‘생활’ 에 관련된 지역 기사를 추출하였다. 뉴스데이터의 검색 기간은 2017년 1월 1일에서 2017년 12월 31일의 1년 사 이에 작성된 기사를 대상으로 한다.

    2. 데이터의 수집 및 분석방법

    1) 데이터 수집

    본 연구에서는 <Figure 2>와 같이 분석을 실시하였다. 농촌지역 활성화에 관한 뉴스데이터의 수집에는 ‘텍스톰 (Textom)1)’ 사이트를 이용하여 웹크롤링(Web-crawling)을 수행하였으며, 수집된 데이터의 양은 <Table 1>과 같다.

    본 연구에서는 추출된 기사의 원문과 요약문 중에서 원문을 활용하였다. 뉴스데이터의 요약문을 활용하면, 데 이터의 확보가 용이하고, 분석에 필요로 하는 키워드에 집중하여 데이터를 추출할 수 있다. 하지만 요약문은 2~3줄의 짧은 글로 이루어져, 뉴스의 포괄적인 내용을 파악하기에는 매우 부족하므로 유효 문장의 수가 월등히 많은 원문이 본 연구에 더 용이하다고 할 수 있다.

    뉴스데이터와 같은 문장형 데이터는 비정형 데이터이 기 때문에 분석에 용이한 형태로 정제하는 작업이 필요 하다(Karl, Wisnowski & Rushing, 2015; Lucas et al., 2015). 데이터를 정제하는 전처리 단계에서는 정규화 (Normalization) 작업을 수행하였다. 정규화 작업에서는 먼저 저장된 뉴스데이터에 대해 불필요한 기호, 구두점 등을 제거하는 작업과, 동일한 의미를 가지는 유의어를 처리하여 결과 값을 반환하는 사전작업을 실시하였다.

    2) TF-IDF 작업

    TF-IDF는 하나의 텍스트 그룹에서 특정 단어의 중요 도는 해당 텍스트 내의 출현 빈도에 대해 비례하고, 전 체 데이터에 출현 빈도와 반비례하도록 가중치를 산출하 는 방법이다(Han & Kamber, 2011). 이 과정을 통해 일반 적 단어를 제거하고 유의미한 단어를 추출하였다.

    또한 사업과 관련된 키워드를 중심으로한 분석을 위 해 데이터 축소를 목적으로 사업 노드와 연결된 이웃 노 드를 추출하여 선택적 연결중심성분석(Degree Centrality) 을 한 차례 시행하였다.

    3) 토픽 선정 및 분석

    본 연구에서는 텍스트마이닝의 대표적 기법인 토픽모 델링(Topic Modeling)에 속하는 LDA(Latent Dirichlet Allocation)기법을 활용하였다. 단어 분석만으로는 여러 문서에 존재하는 복잡한 이슈를 효율적으로 분석할 수 없다. 따라서 문서 간에 나타난 단어 사이의 토픽이 잠 정적으로 내재한다는 가정 하에 토픽모델링을 사용하였 다(Blei, Ng & Jordan, 2003;Steyvers & Griffiths, 2007;Blei, 2011;Wiedemann, 2013;Kim & Baek, 2016). 토픽 모델링은 텍스트 분석기법 중 최근 주목받고 있는 방법 으로(Jockers, 2014), 텍스트 데이터에 사용된 단어의 동 시 사용 패턴을 기반으로 특정 주제, 이슈, 그룹을 자동 으로 추출한다(Blei, Ng & Jordan, 2003;Steyvers & Griffiths, 2007;Blei, 2011, 2012;Battisti, Ferrara & Salini, 2015).

    LDA 기법은 다른 토픽모델링에 비해 결과 해석이 용 이하고(Blei, 2012), 과적합 문제를 해결할 수 있어 방대 한 비정형 데이터를 축소해 여러 토픽을 도출하는데 장 점(Griffiths & Steyvers, 2004)이 있다.

    위와 같은 과정을 거쳐 산출한 단어들을 기반으로 토 픽별 상위 100개의 단어를 선정하였다. 일반적으로 단어 수의 선정에 있어서 상위 20개의 단어를 주로 이용하고 있다(Hu & Li, 2011). 이는 입력 단어의 수가 과다하게 많을 경우 결측치가 증가하고, 유의미하지 못하지만 상 관관계가 높은 변수가 나타날 가능성이 높아질 수 있기 때문이다(Geman et al., 1992;Friedman, 1997;Hastie et al., 2008; Shmueli et al., 2010; Shmueli & Koppius, 2011). 하지만 본 연구에서는 기존 선행연구와 다르게 뉴스의 원문을 연구에 활용하여 데이터의 양이 방대하고, 사업 을 중심으로 연구를 진행한 차이점이 있다. 따라서 각 사업의 영향력을 나타내고 토픽을 형성하는데 상위 100 개의 단어를 선택하는 것이 용이하다고 판단되어 단어의 수를 추가하였다.

    이후 도출된 토픽의 내용에 따라 토픽 명을 명명하였 으며, 토픽을 ‘관광’과 ‘생활’ 키워드를 기반으로 구분하 여 특성별로 유형화하였다. 분류한 유형은 유형별 대표 적인 사업의 특성을 분석하였다.

    본 연구에서는 NetMiner 4.0을 활용하여 LDA 토픽모 델링을 수행하고 시각화 하였으며, 농촌지역 활성화 사 업의 특징을 유형화하였다.

    IV. 연구결과 및 논의

    1. 데이터 전처리 및 키워드 분석

    수집된 ‘관광’ 및 ‘생활’ 분야의 뉴스데이터를 분석하 고, 나타난 사업을 중심으로 데이터를 축소한 결과, <Table 2>와 같이 단어·단어-뉴스의 관계가 도출되었다.

    2. 토픽모델링

    LDA 기법에서는 TF와 TF-IDF를 선택적으로 분석에 활용할 수 있다. 일반적으로 연구에서 활용하는 TF-IDF 의 경우 단어 분석에 유용하나, 새로운 개념이나 고유명 사를 분석함에 있어서 중요도가 과소·과대평가될 수 있 다(Lim & Park, 2015). 따라서 본 연구에서는 이러한 한 계를 보완하기 위해 TF를 중심으로 토픽모델링을 시행 하였다. LDA 분석에는 정확성이 높고 분석의 속도가 개 선된 붕괴된 깁스 표집(Collapsed Gibbs Sampling)을 이용 한 몬테카를로 마르코프 체인(MCMC)기법(Griffiths & Steyvers, 2004)을 이용하였다. 사후 분포의 추정 및 토픽 모형 생성 시 표준화(Normalization)를 위해 반복수행 횟 수(iteration)와 상위모수인 alpha, beta 값 및 토픽의 개수 를 설정하였다.

    토픽의 수 선정에는 연구자가 해석가능성과 적합성 등을 고려해 임의의 수를 지정해 토픽분석을 수행하거나 (Grant, Cordy & Skillicorn, 2013;Binkley, Heinz, Lawrie & Overfelt, 2014), 여러 경우의 토픽 수를 가정하고 토픽 모델링을 실시한 후, 토픽이 분류하는 단어의 정확도가 높은 지점의 토픽 수를 결정하는(Griffiths & Steyvers, 2004;Asuncion, Welling, Smyth & Teh, 2009;Ding & Chen, 2014;Battisti, Ferrara & Salini, 2015;Chandra, Jiang & Wang, 2016) 두 가지 방법이 있다. 본 연구에서 는 자동화된 분석을 통한 토픽의 수를 결정하기 위해 후 자의 방법을 이용하였다.

    토픽모형 생성의 반복수행 횟수는 분석시간과 반비례 의 관계에 있다. 따라서 분석의 정확성과 효율성을 모두 충족시키기 위해서 적당한 값을 설정해야 한다(Jacobbi, van Atteveldt & Welbers, 2015). 본 연구에서는 여러 수 를 대입하여 분석을 시행하고, 결과가 우수한 10,000의 반복횟수를 입력하였다. 상위모수인 Alpha와 Beta 값은 50/토픽 수와 0.01(Steyvers & Griffths, 2007)을 기준으로 결과를 비교한 후, 설명력이 가장 높은 값을 채택하여 분석에 활용하였다.

    장수군의 관광·생활 키워드를 중심으로 토픽모델링 분 석결과 <Figure 3>과 같이 각각 18개의 토픽이 도출되었 으며, 토픽의 명칭은 응집성을 중심으로 형성된 클러스 터의 키워드와 이를 포함하는 문장을 검토한 후 명명하 였다. 각 토픽은 <Table 3>과 같이 응집성(Modularity)이 0.3 이상으로 나타나 유의한 수준의 모듈화가 이루어졌 다(Newman, 2004).

    3. 관광·생활 키워드분석에 나타난 토픽의 특징

    본 연구에서 ‘관광’과 ‘생활’의 키워드를 중심으로 뉴 스 데이터를 분석한 결과 총 36개의 토픽이 도출되었다.

    ‘관광’과 ‘생활’ 키워드로 도출된 각 토픽들이 실질적 으로 지역에 미치는 영향을 파악하기 위해 키워드 및 본 문을 통해 고찰하였으며, 이를 중심으로 토픽별 내용의 특성과 농촌지역 활성화에 관련된 정도에 따라 <Table 4>와 같이 11가지 세부유형(관광활성화, 지역특화, 지역 행사, 권역단위거점개발, 도농교류, 농업지원, 산림관리, 정주환경개선, 복지서비스, 취약계층지원, 기타)으로 구 분하였다. 이때 모든 토픽 및 사업이 농촌지역 활성화에 기여하지 않기 때문에 사업에 관련된 제도, 예산 등의 항목은 ‘기타’ 유형으로 분류하였다.

    주요 세부유형별 특징을 살펴보면 ‘관광활성화’의 경 우 지역 관광지 조성, 홍보 등을 통하여 지역 활성화를 모색하는 토픽을 중심으로 구성하였다. 해당 유형에 포 함된 토픽들은 관광홍보를 목적으로 하는 유형(T4, T5, T15)과 토픽 내에 분포한 사업들의 평가(T7, T14)에 대 한 유형으로 분류할 수 있었다. 토픽별 내용을 분석한 결과 지역관광지에 대한 홍보의 뉴스가 많았으며, 사업 평가결과 추진과정에서의 절차를 준수하지 않았고(T7), 프로그램의 저조한 이용 및 만성적 적자발생(T14)의 문 제점이 나타났다.

    ‘지역특화’의 경우 지역 고유의 역사·문화유산 또는 지역 중심산업을 기반으로 타 지역과 차별화하려는 사업 들이 포함된 토픽을 중심으로 구성하였다. 해당 유형에 는 개발사업(T9)과 평가(T16, L5)에 관련된 토픽이 분포 하였다. 개발사업에 관련된 (T9)‘가야문화유산 활용방안’ 의 경우 지역의 역사·문화자원인 가야유적을 활용하여 지역발전을 모색하고 있으나, 정치적 이슈로 주목받는 사업으로 연구 및 복원작업이 성급하게 이루어지고 있다 는 의견이 나타났다. 또한 평가(T16, L5)의 경우 지역 미 래성장동력산업으로 막대한 예산을 투입하여 추진 중에 있는 말 산업이 포함되었다. 평가 결과 사업의 추진과정 에 있어서 문제점(투자심사 미실시, 관리사무소 미완공 등)이 발생했으며, 효율적 운영이 이루어지지 않아 투입 예산에 비해 효과가 미비한 결과가 나타났다.

    ‘지역행사’ 유형은 지역에서 개최하고 있는 다양한 축 제, 행사 등의 프로그램을 포함하는 토픽을 중심으로 구 성하였다. 이 유형에는 지역의 체육·문화프로그램 홍보 (L14, L16)와 주요 지역축제에 대한 평가(T2) 토픽이 분 포하였다. 주로 지역에 조성된 체육 및 문화시설을 활용 하고자 하는 프로그램의 홍보가 주를 이루었다. 반면 평 가(T2)의 경우 지역의 주요 행사인 ‘사과랑 한우랑 축제’ 를 통해 34만 명의 관광객과 36억 원의 판매액, 177억 원의 경제효과 등 경제효과 및 실적에 대한 사항이 포함 되었으며, 거주민의 소득증대에 기여한 사실이 나타났다.

    ‘권역단위거점개발’의 경우 지리산을 중심으로 지역발 전을 모색하는 토픽(T6)을 분류하였다. ‘지리산권 관광 발전’의 경우 지리산권 관광개발조합, 공동마케팅, 연계 관광 홍보, 관광 순환로 조성 등이 포함되었다. 지리산을 중심으로 인접한 3개 도(전북, 전남, 경남), 7개 시·군(남 원시, 장수군, 곡성군, 구례군, 하동군, 산청군, 함양군)이 2008년 지리산권 관광개발조합을 설립하여 다양한 공동 사업을 진행해오고 있다. 이는 현재 시·군 단위 지방자 치단체 체계에서 권역단위 체계로 발전하는 긍정적 현상 으로 볼 수 있으며, 다양한 사업의 통합 시행으로 사업 의 효율을 높일 수 있을 것으로 보인다.

    ‘도농교류’ 유형은 도시민을 대상으로 지역 특산품의 판매방안을 모색하는 토픽(T17, T18)을 중심으로 구성하 였다. 이에 포함된 토픽인 (T18)‘지역특산품과 연계한 소 득확대’에는 사이버 팜 운영, 사과나무 분양사업 등 인터 넷 활용과 장수사과 품평회 개최, 셀프식당 운영 등 농촌 체험과 연계한 도농교류 및 소득증대방안 모색이 있었다.

    ‘농업지원’ 유형은 지역 농업 활성화를 위해 지원하고 있는 다양한 기관, 사업 및 활동을 포함하는 토픽으로 구성하였다. 이 유형의 경우 농업활성화방안(T8, L1, L9) 및 6차산업화(T11)에 관련된 토픽이 포함되었다. 농업활 성화방안에서는 지역 농업지원, 시설설치, 유통망 확대 등 다양한 프로그램을 통해 생산량 증대 및 판매로를 모 색하고 있다. 또한 최근 농촌지역에서 주목받고 있는 6 차 산업의 경우 관련시설사업에 막대한 예산이 투입되고 있다. 따라서 농업을 통한 지역소득증대방안 모색이 이 루어지고 있음을 알 수 있다.

    ‘산림관리’ 유형은 산악지역에 위치한 지역의 특성상 추진되고 있는 사업들을 중심으로 구성하였다. 이 유형 에 포함된 토픽(L8)에는 패트롤사업단 운영, 산림 바이 오매스 수집단 운영, 조림사업, 피해목 제거사업 등이 분 포하고 있었다. 특히 해당 토픽에 관련대회 및 평가에서 우수한 결과(임업인 경진대회, 숲 가꾸기 사업평가)를 나 타내는 등 관련 사업이 활성화되어 운영되고 있음을 알 수 있다.

    ‘정주환경개선’의 경우 거주민의 생활환경 개선을 위 한 H/W 및 S/W 사업을 포함하는 토픽으로 구성하였다. 해당 유형에는 생활환경 개선에 대한 사업(L2, L7, L13) 과 주요 사업에 대한 평가(T3)가 포함되었다. 생활환경 개선에 있어서는 교통안전 및 재난안전에 대한 사업이 포함되었다. 생활환경개선을 위한 사업의 평가에서는 거 주민의 삶의 질 개선에 성과(제7회 지방자치단체생산성 대상 장려상)가 있으나, 일부 사업(동부권 균형 발전사업 등)의 평가결과 낙제점을 받아 개선이 필요한 것으로 나 타났다.

    ‘복지서비스’ 유형은 거주민을 대상으로 생활·문화복 지 서비스를 제공하는 사업이 포함된 토픽을 중심으로 분류하였다. 이 유형에서는 복지사업에 대한 참여를 독 려하기 위한 홍보(T12, L10, L11, L15, L17) 및 평가(T10) 가 포함되었다. 이 토픽들에 분포한 사업들을 살펴보면 지역 거주민을 중심으로 한 직접적 혜택을 제공(의료비 지원, 수영장 무료개방 등)하는 사업의 참여를 독려하고 있었다.

    ‘취약계층지원’ 유형에서는 ‘복지서비스’ 유형과 함께 거주민을 대상으로 서비스를 제공하는 부분은 유사하나, 사회적으로 지원이 필요한 특정계층을 대상으로 하는 차 이점이 있다. 이 유형에서는 사업에 대한 참여를 독려하 기 위한 홍보(T1) 및 취약계층을 대상으로 한 복지에 특 화된 토픽(L6, L18)이 포함되었다. 이 유형에 포함된 토 픽들 역시 특정계층을 대상으로 직접적 혜택(다문화가정 고향방문 혜택, 노인 안 검진 등)을 제공하는 사업이 다 수 분포하였다.

    본 연구는 토픽분석을 통해서 지역에 수행되고 있는 사업을 유형화하고, 유형이 지닌 의미를 파악할 수 있었 다. 특히 지역에서 중점적으로 추진하고 있는 사업의 방 향성을 살펴볼 수 있다는데 토픽모델링 분석기법의 장점 이 나타났다.

    4. 장수군 농촌지역 활성화 사업의 특징

    농촌에서 이루어지는 지역 활성화사업은 관광·생활·문 화·소득·인구 등 다양한 분야의 사업들이 있다. 이중 본 연구에서는 농촌지역 활성화를 목적으로 시행되고 있는 주요 사업의 특징을 살펴보기 위해 <Table 5> 와 같이 앞서 도출한 농촌지역 활성화에 관한 11개 유형에 포함 되는 각각의 사업 수를 정리하였다.

    분석 결과 관광에 관련된 관광활성화·지역특화·지역행 사·권역단위거점개발·도농교류 유형에는 사업의 40.8%가 포함되었으며, 복지에 관련된 복지서비스·취약계층지원 유형에 관련하여 사업의 19.3%가 나타나며, 2017년 1년 간 장수군에 수행된 농촌지역 활성화사업의 60.1%가 관 광 및 복지사업으로 파악되었다.

    가장 많은 사업의 수를 차지한 관광사업은 농촌지역 에 빈번하게 수행하는 지역 활성화사업 중 하나인 특화 사업에 포함되기 때문에 다수 포함될 수는 있지만, 거주 민의 정주환경에 영향을 미치는 관련 사업에 비해 과다 하게 많은 비중을 차지하고 있다. 뒤를 이어 복지사업이 다수를 차지하고 있었다. 복지사업도 농촌지역 활성화에 일정부분 기여하는 바는 있으나, 거주민의 일반적인 생 활기반에 관련된 여타 사업에 비해 많은 양을 차지하고 있었다. 특히 사업의 내용을 살펴보면 저소득층, 노년층 등 사회취약계층을 대상으로 과잉복지사업을 수행하고 있어 제고의 필요성이 있었다. 이는 앞서 선행연구에서 언급된바와 같이 농촌지역 활성화를 위해서는 정주서비스 를 개선하고(Visvaldis et al., 2013), 정주환경의 매력을 높 이는 것(Niedomysl & Amcoff, 2011)이 핵심목표가 되어야 하나, 우리나라의 사업은 반대로 관광 또는 복지의 양극 단에 치우친 사업을 수행하고 있는 것으로 볼 수 있다.

    V. 결 론

    본 연구는 농촌지역 활성화를 목표로 추진되는 사업 의 주요 키워드인 ‘관광’과 ‘생활’에 관련된 뉴스데이터 를 연구에 이용하였다. 분석에 있어서는 텍스트마이닝 기법을 활용하였으며, ‘관광’과 ‘생활’ 키워드에 나타난 주요 사업들에 대해 토픽모델링을 실시하였다. 이를 토 대로 본 연구에서는 농촌지역 활성화를 목적으로 수행되 는 사업을 토픽별로 유형화하고 토픽에 나타난 사업의 특징을 살펴보았다.

    분석의 결과, 농촌지역 활성화사업이 포함된 토픽은 11가지 세부 유형(관광활성화, 지역특화, 지역행사, 권역 단위거점개발, 도농교류, 농업지원, 산림관리, 정주환경개 선, 복지서비스, 취약계층지원, 기타) 내에 분포하고 있 음을 파악하였다. 또한 각 토픽별로 내포하고 있는 세부 사업의 특징을 분석하였으며, ‘관광’ 및 ‘생활’ 키워드에 국한하여 연구를 진행하였음에도 수많은 사업이 지역에 투입되고, 해당 사업들이 중복·분산되어 수행되고 있어, 상호 연계와 위계를 지니고 체계적인 사업이 수행되는지 평가가 필요함을 파악할 수 있었다.

    특히 본 연구에서 나타난바와 같이 국내의 농촌지역 에 수행되는 사업은 공원 조성·시장 보수·가로수 식재 등을 실시함에 있어 대부분 특화, 명품 등을 언급하고 있다. 이를 전국단위사업으로 살펴보면 전국의 농촌지역 지방자치단체가 국비지원을 통해 명품관광지를 조성하고 있으며, 궁극적으로 우리나라 농촌지역 활성화는 전 군 이 관광지화 되면 농촌이 활성화되는 것으로 인식되고 있는 것이다. 또한 농촌지역을 장기적 관점에서 활성화 할 수 있는 사업에 비해 과다한 복지사업을 수행하고 있 는 문제점이 나타났다. 따라서 본질적으로 농촌지역 활 성화를 위해서는 공원, 문화시설, 생활기반시설, 환경개 선 등 거주민의 시선에서 부족한 부분을 균형에 맞게 보 완할 필요가 있다.

    우리나라 농촌지역 활성화사업은 거주민의 생활기반 에 비해 지역경제 활성화를 목적으로 한 관광과 지역 활 성화에 기여하는바가 적은 복지에 관련된 공공사업이 주 를 이루고 있다. 하지만 농촌지역은 관광지·복지시설이 아니며, 거주민의 정주만족도를 높일 수 있는 사업의 방 향을 더 모색해야 할 필요가 있다.

    본 연구는 농촌지역 활성화를 위한 사업의 성과 측정 및 유형화함에 있어서 기존 정책평가 또는 전문가 중심 의 평가와 차별화된 방법으로 분석하였다. 특히 분산된 정책사업의 관계성을 파악하고, 특정 사업에 대해 단편 적으로 접근하지 않아 객관성을 확보하였으며, 다양한 사업을 통합적으로 분석하였다. 이는 기존의 목표 지향 적이고 사업추진, 성과 위주의 계획을 중심으로 지역발 전계획이 수립되어, 큰 틀에서 수립한 계획안이 현실에 반영되지 않는 문제점을 개선하고, 국토계획평가방법이 정성적 기법에 치중되어 있어 평가결과의 구체성이 떨어 진다는 지적을 보완할 수 있을 것이다. 하지만 특정 지 역을 대상으로 연구를 수행하였고, 농촌지역 활성화에 영향을 미치는 키워드를 관광과 생활에 한해 분석을 진 행하여 그 결과를 여타 지역에 일반화 하는데 한계가 있 다. 따라서 추가적인 연구를 통해 농촌지역 활성화를 도 모할 수 있는 잠재적 요인을 검토할 필요가 있다. 이와 같은 한계점에 대해서는 후속 연구를 통해 보완되어야 할 것이며, 본 연구는 농촌지역 활성화를 위한 사업을 필요로 하는 지역에서 우선적으로 고려해야 할 사항을 제안하여 지역에 활력을 더하고, 매력적인 농촌지역을 조성하는 발전방안을 모색하는 연구로서 기여할 것으로 기대한다.

    본 연구는 서울대학교 환경대학원 환경계획연구소 의 일부 지원을 받아 연구되었음.

    Figure

    KSRP-24-69_F1.gif

    Site Overview

    KSRP-24-69_F2.gif

    Data Processing and Analysis Methods

    KSRP-24-69_F3.gif

    Topic Modeling Result of News Data of Jangsu-Gun ‘Tourism’ and ‘Livelihood’ Keyword

    Table

    Collection and Refinement of Jangsu-Gun ‘Tourism’ and ‘Livelihood’ Related Data

    The Process of Data Reduction

    Topic Modeling Result of News Data of Jangsu-Gun 'Tourism' and 'Livelihood' Keyword

    Classification of Topics in Tourism·Livelihood Keyword Analysis

    Number of Projects Derived

    Reference

    1. Ahn, S. , & Jung, W. (2014). An Analysis of Influence Factors on the Satisfaction of Rural Village Development Projects , The Korean Association for Local Government Studies, 2, 1-34.
    2. Asuncion, A. , Welling, M. , Smyth, P. , & Teh, Y. W. (2009). On smoothing and inference for topic models. In Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence, AUAI Press. 27-34.
    3. Barranco, J. & Wisler, D. (1999). Validity and systematicity of newspaper data in event analysis . Eur Sociol Rev, 15(3), 301-322.
    4. Battisti, F. D. , Ferrara, A. , & Salini, S. (2015). A decade of research in statistics: a topic model approach . Scientometrics, 103, 413-433.
    5. Binkley, D. , Heinz, D. , Lawrie, D. , & Overfelt, J. (2014). Understanding LDA in source code analysis. In Proceedings of the 22nd Int’l Conf. on Program Comprehension, ACM. 26–36.
    6. Blei, D. , & Jordan, M. (2003). Modeling annotated data. In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, ACM. 127-134.
    7. Blei, D. (2011). Introduction to probabilistic topic models . Communications of the ACM, 77-84.
    8. Blei, D. M. (2012). Probabilistic topic models . Communications of the ACM, 55(4), 77-84.
    9. Brauer, R. & Dymitrow, M. (2014). Quality of life in rural areas: A topic for the Rural Development policy? . Bulletin of Geography. Socio-economic Series, 25, 25-54.
    10. Chandra, Y. , Jiang, L. C. , & Wang, C. (2016). Mining social entrepreneurship strategies using topic modeling . PLoS ONE, 11(3), 1-28.
    11. Daniel, B. (2015). Big data and analytics in higher education: opportunities and challenges . British Journal of Educational Technology, 46(5), 904-920.
    12. Ding, W. , & Chen, C. (2014). Dynamic topic detection and tracking: A comparison of HDP, C-word, and cocitation methods . Journal of the Association for Information Science and Technology, 65(10), 2084-2097.
    13. Earl, J. , Martin, A. , McCarthy, J. D. , Soule, S. A. (2004). The use of newspaper data in the study of collective action . Annu Rev Sociol, 30, 65-80.
    14. Friedman, J. H. (1997). On Bias, Variance, 0/1-Loss, and the Curse of Dimensionality , Data Mining and Knowledge Discovery, 1, 55-77.
    15. Friedmann, J. (2001). Regional Development and Planning: The Story of a Collaboration , International Regional Science Review, 24(3), 386-395.
    16. Gan, Q. , Zhu, M. , Li, M. , Liang, T. , Cao, Y. , & Zhou, B. (2014). Document visualization: an overview of current research . Wiley Interdisciplinary Reviews: Computational Statistics, 6(1), 19-36.
    17. Geman, S. , Bienenstock, E. , & Doursat, R. (1992). Neural Networks and the Bias/Variance Dilemma , Neural Computation, 4, 1-58.
    18. Grant, S. , Cordy, J. R. , & Skillicorn, D. B. (2013). Using heuristics to estimate an appropriate number of latent topics in source code analysis . Science of Computer Programming, 78(9), 1663-1678.
    19. Greene, D. & Cross, J. P. (2015). Unveiling the Political Agenda of the European Parliament Plenary: A Topical Analysis. Proceedings of the ACM Web Science Conference, ACM, 2.
    20. Griffiths, T. L. , & Steyvers, M. (2004). Finding scientific topics . Proceedings of the National academy of Sciences, 101(1), 5228-5235.
    21. Guo, L. , Vargo, C. J. , Pan, Z. , Ding, W. , & Ishwar, P. (2016). Big social data analytics in journalism and mass communication: comparing dictionary-based text analysis and unsupervised topic modeling . Journalism & Mass Communication Quarterly, 93(2), 332-359.
    22. Han, J. , & Kamber, M. (2011). Data Mining: Concepts and Techniques, 3 rded, Morgan Kaufmann Publishers.
    23. Hannigan, T. (2015). Close encounters of the conceptual kind: disambiguating social structure from text . Big Data & Society, 2(2), 1-6.
    24. Hastie, T. , Tibshirani, R. , & Friedman, J. H. (2008). The Elements of Statistical Learning: Data Mining, Inference, and prediction, 2nd ed, New York: Springer.
    25. Hu, Y. , & Li, W. (2011). Document sentiment classification by exploring description model of topical terms . Computer Speech and Language, 25, 386-403.
    26. Huang, X. , Wan, X. & Xiao, J. (2014). Comparative news summarization using concept-based optimization , Knowledge and information systems, 31(3). 391-716.
    27. Jacobi, C. , van Atteveldt, W. , & Welbers, K. (2016). Quantitative analysis of large amounts of journalistic texts using topic modeling . Digital Journalism, 4(1), 89-106.
    28. Jockers, M. L. (2014). Text analysis with R for students of literature. Switzerland: Springer International Publishing.
    29. Jung, C. , & Ahn, J. (2015). A Study on the Recognition of the Residential Environments Connected to Local Central Cities - Focusing on Gyeongnam Area of the West , Residential Environment Institute of Korea, 13(2), 41-52.
    30. Karl, A. , Wisnowski, J. , & Rushing, W. H. (2015). A practical guide to text mining with topic extraction . Wiley Interdisciplinary Reviews: Computational Statistics, 7(5), 326-340.
    31. Kelly, J. , & Swindell, D. (2002). Service Quality Variation Across Urban Space: First Steps Toward a Model of Citizen Satisfaction , Journal of Urban Affairs, 24(3), 271-288.
    32. Kim, E. , Ahn, Y. , & Lee, M. (2012). An Improvement of Evaluation Indicator System Geared towards Comprehensive Rearrangement Projects in Seats of Township and Town Offices: Based on the Existing Evaluation Indicator System of Small Town Promotion Projects , Korean Institute of Rural Architectures, 14(1), 45-56.
    33. Kim, J. , & Gim, U. (2013). Review and Proposal of Central place Improvement Project in Basic Settlement Area-Centered on Comprehensive Improvement Project of the Seat of Eup(Dong) Myon, JKRDA, 25(4), 133-152.
    34. Kim, J. , & Baek, S. (2016). Analysis of Issues on the College and University Structural Reform Evaluation Using Text Big Data Analytics , Asian Journal of Education, 17(3), 409-436.
    35. Kim, Y. , & Son, Y. (2017). The Residents’ Perceptions on the Revitalization Project of Rural Centers Utilizing IPA: The Case of Janggye-myeon of Jangsu-gun , KSRP, 23(3), 133-145.
    36. Ko, Y. (2009). Typical Development Models for Revitalization of Rural Market Towns, Department of Bio Systems & Rural Engineering, Chonnam National University.
    37. Lee, S. (2011). An Comparative Analysis on the Regional Economic Effect of the Small Town Revitalization Project , Korean Association for Local Government Studies, 13(1), 31-54.
    38. Lim, C. , Choi, S. , & Sim, H. (2009). An Analysis on Spatial Characteristics in the Center Villages of Hub-Myun Site . KSRP, 15(3), 35-46.
    39. Lim, H. , & Park, S. (2015). A Tentative Approach for Regional Futures Strategy with Big Data: Through the Analysis using the Data of SNS and Newspaper . Journal of the Korean Cadastre Information Association, 17(1), 75-90.
    40. Lucas, C. , Nielsen, R. A. , Roberts, M. E. , Stewart, B. M. , Storer, A. , & Tingley, D. (2015). Computer-assisted text analysis for comparative politics . Political Analysis, 23(2), 254-277.
    41. MAFRA(2016). A New Approach to Rural Development.
    42. MAFRA(2017). A Plan to Develop General Farming and Fishing Villages in 2019.
    43. Manyika, J. , Chui, M. , Brown, B. , Bughin, J. , Dobbs, R. , Roxburghh, C. , & Byers, A. H. (2011). Big data: the next frontier for innovation, competition and productivity. McKinsey Global Institute Report.
    44. Matthies, B. , & Corners, A. (2015). Computer-aided text analysis of corporate disclosures-demonstration and evaluation of two approaches . The International Journal of Digital Accounting Research, 15, 69-98.
    45. Moreno, A. , & Redondo, T. (2015). Text analytics: the convergence of big data and artificial intelligence . International Journal of Interactive Multimedia and Artificial Intelligence, 3(6), 57-64.
    46. Newman, M. E. J. (2004). Fast algorithm for detecting community structure in networks , Phys. Rev. E69066133.
    47. Niedomysl, T. & Amcoff, J. (2011). Is there hidden potential for rural population growth in sweden? , Rural Sociology, 76(2), 257-279.
    48. Oliver. P. E. & Myer, D. T. (1999). How events enter the public sphere: conflict, location, and sponsorship in local newspaper coverage of public events . Am J Sociol, 105(1), 38-87.
    49. Park, K. , & Lee, H. (2009). Residents’ Participation and Satisfaction of the Altered Environment in the Development of Rural Agricultural Area , Korean Institute of Rural Architectures, 11(1), 57-66.
    50. Park, S. , & Kim, Y. (2014). A Study on the Revitalization of the Seat of Myeon for Rural Sustainability: Focusing on the Resident’s Perceptions of Seat of Myeon in Jeollanam-do , Architectural Institute of Korea, 16(5), 45-53.
    51. Paul, M. & Dredze, M. (2012). Factorial LDA: Sparse multi-dimensional text models . Advances in Neural Information Processing Systems, 2582-2590.
    52. Ready, J. , White, M. D. & Fisher, C. (2006). Shock value: a comparative analysis of news reports and official police records on TASER deployments . Policing An Int J Police Strateg Manag.32(1), 148-170.
    53. Shumueli, G. , Patel, N. R. , & Bruce, P. C. (2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, 2nd ed.New York: Wiley & Sons.
    54. Shmueli, G. , & Koppius, O. (2011). Predictive Analytics in Information Systems Research , MIS Quarterly, 35(3), 553-572.
    55. Song, M. , & Sung, J. (2004). A Study on the Evaluation and Model of participatory Community Development project in Korea, Korea Rural Economic Institute.
    56. Steyvers, M. , & Griffths, T. (2007). Probabilistic topic models. In Landauer, T. K. , McNamara, D. S. , Dennis, S. & Kintsch, W. (Eds.), Latent Semantic Analysis: A Road to Meaning. (427-448). Mahwah, NJ, US: Lawrence Erbaum Associates Publishers.
    57. Visvaldis, V. , Ainhoa, G. & Ralfs, P. (2013). Selecting indicators for sustainable development of small towns: the case of Valmiera municipality , Procedia Computer Science, 26, 21-32.
    58. Wiedemann, G. (2013). Opening up to big data: computer-assisted analysis of textual data in social science . Forum Qualitative Social Research, 14(2), Art. 13.
    59. Zhang, X.-P. , Zhou, X.-Z. , Huang, H.-K. , Feng, Q. , Chen, S.-B. & Liu, B.-Y. (2011). Topic model for chinese medicine diagnosis and prescription regularities analysis: case on diabetes . Chinese journal of integrative medicine, 17, 307-313.