본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

알림자료

contents area

detail content area

지역사회건강조사 표본설계와 관리
  • 작성일2016-12-29
  • 최종수정일2016-12-29
  • 담당부서만성질환관리과
  • 연락처043-719-7380
  • 1,511
지역사회건강조사 표본설계와 관리

한국갤럽조사연구소
이계오
질병관리본부 질병예방센터 만성질환관리과
고윤실, 김효진, 강양화, 김영택*
*교신저자: ruyoung@korea.kr, 043-719-7380 
Abstract

Sample Design and Monitoring for the Korean Community Health Survey
Gallup Korea
Lee Gye-o
Division of Chronic Disease Control, Center for Disease Prevention, KCDC
Ko Yun-sil, Kim Hyo-jin, Kang Yang-hwa, Kim Yeoung-taek

The Korean Community Health Survey (KCHS) has been a nationwide community-based cross-sectional survey in cooperation with the Korean Centers for Disease Control and Prevention(KCDC) and municipalities with the aim of producing comparable health statistics across the regions since 2008. The sample strategy, data collection, and processing of KCHS have been established based on continuous development and supplementation. However, the non-sampling error arising from the planning and process of the survey needs to be constantly managed in the future.


지역사회건강조사 개요
지역사회건강조사는 우리나라 시‧군‧구 단위의 비교 가능한 건강통계의 생산을 주목적으로 하여 질병관리본부가 전국 지자체와 협력하여 수행하는 지역보건법 제4조(지역사회 건강실태조사) 및 지역보건법시행령 제2조(지역사회 건강실태조사 방법 및 내용)에 근거한 지역 단위 건강 설문조사이다. 2007년 시범사업을 시작으로 2008년 전국으로 확대되어 현재까지 매년 8월부터 10월까지 조사를 실시하고 있으며, CAPI(전자조사표를 이용한 설문조사, Computer Assisted Personal Interviewing) 조사방법으로 수행되고 있다. 지역사회건강조사의 모집단은 각 보건소 관할 지역에 거주하는 만 19세 이상의 성인으로 정의하고 있으며, 시‧군‧구별 약 450가구를 추출, 평균 900명의 성인을 조사하고 있다. 지역사회건강조사에서는 매년 건강행태, 이환 및 의료이용, 사고 및 중독, 활동제한 및 삶의 질, 보건기관 이용, 교육 및 경제활동 등의 조사항목을 통해 지역별 건강지표를 산출하고 있다.

표본설계 및 관리의 필요성
시‧군‧구 단위별 비교평가와 지역적 특성을 반영한 정확한 건강지표를 생산하기 위해서는 각 지역의 특성을 고려하고 적정한 비용으로 효용성이 높은 통계를 생산할 수 있는 표본설계가 필요하다. 또한 표본설계에 의해 선정된 표본가구와 가구원의 조사에서 발생할 수 있는 비표본오차의 효과적인 통제방안이 중요하다. 특히 254개 보건소에서 약 23만명의 대규모 설문조사를 통하여 얻은 자료를 분석하여 254개 보건소별 생산된 건강지표는 다른 시‧군‧구간의 횡단적인 비교 분석과 종단적인 시계열 분석을 통하여 다양하고 유익한 정보를 도출할 수 있다.

표본설계 과정
표본설계의 첫 번째 과정은, 조사목적을 명시하고 모집단을 정의하는 것이다. 지역사회건강조사는 시‧군‧구 보건소 단위별로 지역주민의 건강지표를 정확하게 생산하는 것이 가장 큰 목적이므로 해당 보건소 내 거주하는 만 19세 이상의 모든 성인으로 모집단을 정의할 수 있다. 그러나 각 보건소별 관할지역 내 모든 성인에 대한 리스트를 이용할 수 없으므로 성인을 포함하는 표본추출틀을 별도로 구축하여야 한다. 지역사회건강조사는 가구 방문조사이므로 표본추출틀을 가구로 구성하였으며, 이는 행정자치부의 주민등록 전산자료와 국토교통부의 건축행정 전산자료를 연계하여 모집단을 통‧반/리 단위로 구분하여 작성하였다(figure 1). 여기서 통‧반/리는 1차 추출단위로, 통‧반/리 내의 가구는 2차 추출단위로 정의하였다.

두 번째 과정은, 모집단을 분석하고 층화하는 것이다. 매년 4월 기준 주민등록인구를 이용하여 통‧반/리별 가구수와 인구수를 분석하고, 지역사회건강조사의 주요 지표(현재 흡연율, 고혈압 평생의사진단 경험률 등)에 영향을 주는 요소인 인구사회학적 요인과 생활환경적 요인을 표본설계에 반영하기 위하여 층화변수로 주택유형과 동/읍‧면을 선정하여 조사결과의 정확성을 제고할 수 있도록 표본설계를 하였다.
세 번째 과정은, 표본크기를 결정하고 배분하는 것이다. 이 과정에서 고려하여야 할 주요 요소는 통계 생산단위와 요구되는 목표의 정도 및 소요예산 등이다. 표본크기는 보건소별로 건강지표를 정확하게 생산하고 각 지역간 비교분석 시 신뢰성 있는 결과를 도출할 수 있도록 만 19세 이상 인구수와 목표 허용오차의 수준 ±3.0%P를 반영하여 아래 식(1)으로 산출하였다.
(1)
위 식에서 은 보건소별 만 19세 이상 인구수, 는 허용목표오차, 는 신뢰계수, 는 현재 흡연율과 같은 지표를 나타낸다.
보건소별로 산출된 표본크기를 10(1차 추출단위인 통‧반/리에서 최소 10명씩 조사)으로 나누어 표본지점(통‧반/리)수를 계산하고, 동/읍‧면별로 1개 표본지점을 할당한 후 나머지는 인구수에 비례하여 배분하였다. 표본배분의 사례로 2016년 서울시 25개 보건소별 모집단 분포 특성과 표본크기, 표본지점수를 <표1>에 나타내었다.

네 번째 과정은 표본지점과 조사대상가구를 추출하는 것이다. 표본지점은 각 보건소별로 동/읍‧면별 주택유형별 표본지점 수를 할당한 후, 표본지점 내 가구수를 기준으로 확률크기비례 계통추출법으로 추출하며, 조사대상가구는 선정된 표본지점 내에서 가구를 주소 기준으로 정렬한 후 계통추출법으로 추출하여 선정하게 된다(figure 2).

비표본오차 관리
표본조사에서 발생하는 오차는 표본추출과정에서 발생하는 표본오차와 조사과정이나 조사원에 의해서 발생하는 비표본오차로 나눌 수 있는데, 지역사회건강조사와 같은 대규모 표본조사에서는 표본오차보다 비표본오차의 관리가 더욱 중요하다. 비표본오차의 발생요인은 조사기획, 표본추출과정, 조사원의 실사과정 및 자료분석 등으로 다양하고 복잡한데, 본고에서는 지역사회건강조사에서 수행하고 있는 비표본오차 관리 중 표본추출과정, 표본지점 관리 및 조사대상가구 관리에 대하여 설명하려고 한다.
첫 번째, 표본추출과정에서의 비표본오차 관리는 조사대상자로 정의된 모집단 구성원 중에서 누락, 중복 또는 비확률 추출 등으로 표본의 대표성을 훼손하거나, 모수추정에서 편향을 최소화하는 활동을 의미한다. 특히 가구 방문조사에서 누락 또는 응답회피 가능성이 높은 20대 또는 30대의 접촉률을 높이기 위하여, 타 지역에서 공부하는 학생들까지 최대한 조사하도록 하였다. 그러나 조사기간 내 조사를 완료하여야 하고 3회 이상의 방문조사에서 응답한 내용은 3회 방문 이전까지 조사한 내용과 차이가 있을 수 있으며, 3회 이상 방문조사는 비효율적이라는 기존 연구결과를 근거로 3회 방문까지 조사를 성공하지 못한 가구는 예비가구로 교체하도록 하였다. 또한 모집단 포괄성을 극대화하기 위하여 한 가구에서 취사, 취침 등 생계를 같이 하는 모든 구성원을 가구원으로 등록하도록 하였으며, 거주 기간이 3개월 이상인 친척, 타지역으로 공부하러 간 학생, 기러기 아빠 등을 포함하였다.
두 번째, 표본지점 관리 측면에서의 비표본오차 관리는 확률크기비례 계통추출법으로 선정한 표본지점을 특별한 사유가 없는 한 조사되도록 관리하는 활동을 의미한다. 만약 조사 용이성을 이유로 조사현장에서 선정한 표본지점을 조사한 경우 조사결과의 왜곡 또는 편향 등으로 비표본오차가 발생할 수 있기 때문이다. 중앙에서 최초 선정된 표본지점은 조사관리시스템을 통하여 보건소별로 배포하였으며, 지역에서는 조사 실시 전 조사적합성 여부를 판단하여 조사부적합 시 표본분과위원에게 교체 요청하여 승인받도록 시스템을 구축하였다. 조사부적합 사유로는 ① 재개발 또는 재건축 중인 지역으로 거주가 불가능한 지역 ② 상업지역 또는 공단지역으로 거주가 희박한 지역 ③ 특정집단 거주지역(기숙사, 종교단체집단거주지, 고아원, 양로원, 한센촌 등) ④ 지속적인 민원발생으로 조사협조가 어려운 지역 ⑤ 조사비용과다지역(할당된 조사수에 비해 조사비용이 과다하게 드는 지역)으로 명시하여 요청토록 하였다.
세 번째, 조사대상가구 관리 측면에서의 비표본오차 관리는 표본지점 내에서 4-6가구를 계통추출법으로 추출하고 표본가구에 거주하는 만 19세 이상 성인을 조사하도록 조사원을 관리하는 활동을 의미한다. 추출된 조사대상가구에는 조사원이 방문하기 전, 가구선정통지서를 미리 발송하였으며, 조사원은 가구선정통지서 발송 1-2주 이내에 가구를 방문하여 지역사회건강조사를 설명하고 조사참여 동의서 작성 후 조사를 실시하도록 하였다. 또한 조사완료자 중 10%를 랜덤으로 추출하여 조사 완료 후 2-3일 이내에 전화확인조사를 실시하여 조사수행, 문항지침 준수여부를 확인하였다. 전화확인조사에서 응답내용의 허위 또는 지침 미준수 등이 발견될 시, 지역에서 다시 한 번 진위 확인 후 해당 조사자료의 폐기여부를 결정하게 된다. 아울러 조사대상가구를 조사할 수 없는 경우, 다른 가구로 교체할 수 있는 교체사유를 명시하여 조사원이 자의적으로 가구교체를 할 수 없도록 관리하였다. 가구를 교체할 수 있는 타당한 사례는 ① 3회 이상 방문했으나 거주자 접촉 불가한 경우 ② 3회 이상 방문했으나 조사를 완강하게 거부한 가구 ③ 만 19세 이상 성인의 가구원이 없는 경우 ④ 거주자가 없는 빈집이거나, 사람이 거주하지 않은 경우(하계 별장, 마을회관 등) ⑤ 3가구 이상의 비혈연가구가 함께 사는 경우 등으로 제한하였다.

가중치 계산과 모수추정
조사완료 이후 보건소별 조사자료의 분포와 모집단의 분포를 유사하도록 조정하는 것을 표본가중치 계산이라 하며, 산출한 가중치를 적용하여 모집단의 특성인 건강지표를 산출하는 것을 모수추정이라 한다.

1) 가중치 계산
가중치는 보건소 내 동/읍‧면별 주택유형 층에서 표본추출률의 역수로 정의한다. 동/읍‧면별, 주택유형별로 전체 가구 중에서 조사적격 가구수를 추정한 후에 조사 완료된 가구수를 분자로 하고 조사적격가구수를 분모로 하여 가구기준의 설계가중치를 계산하게 된다. 조사과정 중 통제가 잘되어 적격가구가 모두 응답하였다면 다음에 고려할 가중치는 사후층화보정가중치이다. 이는 보건소별로 매년 7월 말 기준 주민등록인구의 성별 연령대별 인구를 기준으로 성별 연령대 별로 인구수와 설계가중치의 합계의 비(ratio)를 계산하고 이를 설계가중치에 곱하여 최종가중치를 계산한다.
가구가중치는 동/읍‧면내의 주택유형별로 표본추출률과 응답률을 반영하여 아래 식(2)으로 계산한다.
(2)
여기서 와 는 각각 동/읍‧면 주택유형의 모집단 크기와 표본 크기를 나타내고 는 동/읍‧면 주택유형층의 총가구수(= )를 나타내며 와 는 각각 동/읍‧면 주택유형층 내의 번째 표본지점의 가구수와 표본가구수를 나타낸다.
개인별 가중치는 조사대상가구원을 모두 조사했을 경우에 모두 “1”이 되지만 가구원 중에서 일부가 조사 완료되지 못한 경우에는 완료율의 역수가 가중치가 되며 아래 식으로 계산한다. 또한 (가구가중치) x (가구원 조사 완료율의 역수: )로 계산한 후에 보건소단위로 성별 연령대별로 개인가중치의 합계와 성별 연령대별 주민등록인구수의 비(ratio)를 성별 연령대별 사후층화보정치라 하고, 이 값을 개인가중치에 곱해서 최종가중치를 아래 식(3)으로 계산한다.
(3)

2) 모수추정
지역사회건강조사의 표본추출은 일종의 층화집락추출법을 적용하고 있으므로 적절한 모수 추정치 계산방법으로 SAS의 SURVEYMEANS의 사용을 제안하며, 모수추정에서 가능한 변동계수 또는 표본 오차를 모수추정치와 함께 제공함으로써 이용자들이 건강지표에 대한 정도(precision)를 참고하여 이용상에 오류가 없도록 하고 있다. 또한 가중값()과 관찰값()을 이용한 표본설계 기반의 추정량과 분산의 추정식은 아래 식(4)과 같다.

……………… (4)
위 식에서 는 층 집락 단위의 승수이며, 는 층 집락 단위의 관찰값이다.
식(4)에 주어진 추정량의 분산 추정치는 아래 식(5)으로 계산한다.

……………… (5)
위 식에서 이고, 이다.

식(4)에 주어진 추정량은 특정 보건소 지역에 대한 추정식이므로 만일 17개 시‧도별로 동일한 조사 항목에 대한 건강지표를 계산하기 위해서는 해당 시‧도내의 보건소의 추정치와 보건소의 구성비를 결합하여 아래와 같은 식(6)으로 계산할 수 있으며 여기서 시‧도는 로 나타내고 보건소는 으로 주어졌다.
……………… (6)
여기서 은 시‧도 내에서 시‧군‧구의 상대적 크기로 만 19세 이상의 인구수 또는 가구수를 기준으로 계산할 수 있으며 은 시‧도 내에서 시‧군‧구에 대한 모수 추정치를 식(4)로 계산할 건강지표이다.

향후 계획
지역사회건강조사는 2007년 시범조사 이후 지속적인 발전과 보완을 통해서 조사체계와 관리가 정착되었으나, 표본설계의 기본 정보인 표본추출틀의 정확한 정보와 최신화는 주민등록인구자료의 완전한 이용과 정확한 건축물 DB를 확보해야 해결될 수 있다. 이 문제는 단시간에 해결될 수 있는 과제는 아니므로 유관기관의 협조체계를 구축하여 꾸준한 노력이 필요하다. 254개 시‧군‧구 보건소별로 약 900명을 조사하고 전국적으로 약 23만명을 조사하는 대규모 조사에서는 조사기획과 조사과정 중 발생하는 비표본오차의 관리가 중요하다. 비표본오차의 주요 발생요인은 조사원의 조사 성실도와 조사원의 교육과 관리를 담당하는 중간관리자들의 투철한 사명의식에 의해서 축소될 수 있으므로 이에 대한 관심과 노력이 필요하다. 또한 보건소별 정확한 건강지표를 생산하는 것도 중요하나, 이의 활용성을 제고할 수 있는 방안에 대한 연구도 지속적으로 필요하며, 보건소 내의 소영역에 대한 통계생산의 필요성이 증대되고 있으므로 이에 대한 관심과 연구도 앞으로의 과제이다.


<참고문헌>

1. 질병관리본부, 한국조사연구학회. 2015. 2015년 지역사회건강조사 전국 표본설계 및 표본관리.
2. 질병관리본부. 2016. 2016년 지역사회건강조사 조사관리지침서.
3. 김영택 등. 2012. 지역사회건강조사의 조사 기획과 수행. 대한의사협회지 55(1), 74-83
4. Yang Hwa Kang, et al. 2015. Korea Community Health Survey Data Profiles. Osong Public Health Res Perspect 2015 6(3), 211-217
본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP