Journal of Korean Society of Dental Hygiene (J Korean Soc Dent Hyg)
Original Article

Analysis of predictive factors for dental caries risk among adolescents using the random forest algorithm

1618th Dental Company (AS), Dental Health Activity-Korea, USFK Army
2Department of Dental Hygiene, Baekseok Culture University
3Department of Dental Hygiene, Namseoul University

Correspondence to Su-Young Lee, Department of Dental Hygiene, Namseoul University, 91 Daehak-ro, Seonghwan-eup, Seobuk-gu, Cheonan-si, 31020, Korea. Tel: +82-41-580-2565, Fax: +82-41-580-2927, E-mail: batty96@nsu.ac.kr

Volume 25, Number 4, Pages 323-33, August 2025.
J Korean Soc Dent Hyg 2025;25(4):323-33. https://doi.org/10.13065/jksdh.2025.25.4.5
Received on July 21, 2025, Revised on August 06, 2025, Accepted on August 07, 2025, Published on August 30, 2025.
Copyright © 2025 Journal of Korean Society of Dental Hygiene.
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/4.0).

Abstract

Objectives: This study aimed to predict transitions from low/moderate to high/extreme caries risk among adolescents using the random forest (RF) algorithm and identify key contributing factors following a CAMBRA-students mobile application intervention. Methods: A quasi-experimental design with post hoc analysis was applied using data from 181 students aged 10–14 years. Of these, 23 (intervention: 15; control: 8) experienced an increase in risk. The RF model, built with 500 decision trees, was trained on pre–post changes in risk factors, seven protective factors, and four disease indicators. Class imbalance was handled using Synthetic Minority Over-sampling Technique (SMOTE), and the model performance was evaluated through cross-validation based on accuracy, precision, recall, F1 score, and area under the curve (AUC). Feature importance was assessed using permutation tests (p<0.05). Results: The RF model showed strong predictive performance (AUC: intervention=95.7%; control=99.7%). The key predictors in the intervention group included ∆R1 (frequent intake of fermentable carbohydrates), ∆D4 (tooth restoration within the past year), and ∆R4 (no use of oral hygiene items). In the control group, ∆D2, ∆D3, and ∆D4 were most important Conclusions: RF modeling effectively predicted the increase in caries risk and identified distinct predictors for each group. These f indings support the use of precision-targeted caries management.

Keywords

Adolescent, Dental caries, Machine learning, Random forest, Risk factors

서론

치아우식증은 청소년기에 높은 발생률을 보이는 대표적인 구강질환으로, 구강보건행태, 식습관, 구강 내 환경, 사회경제적 요인 등 다양한 요인이 우식 발생에 복합적으로 작용한다[1]. 청소년기의 치아우식 경험은 이후 성인기의 구강건강에도 장기적인 부정적 영향을 미치며, 이로 인한 치료 비용 증가와 사회경제적 부담을 초래할 수 있다[2].

CAMBRA (Caries management by risk assessment)는 우식 위험요인을 체계적으로 분석하고, 위험군을 분류한 뒤 각 위험군에 적합한 맞춤형 예방 전략을 제공하는 접근법으로 주목받고 있다[3]. 최근에는 한국 청소년의 특성과 생활환경을 반영한 CAMBRA 기반 모바일 애플리케이션이 개발되었으며[4], 프로그램 적용을 통한 효과도 실증적으로 확인된 바 있다. Yeo 등[5]의 연구에서는 CAMBRA 기반 접근에서 우식 병소의 진행 정도, 구강건강행동, 식이 습관 및 구강 환경요인 등과 같은 변수들과 치아우식 발생 간의 단일 요인으로서의 유의한 결과를 확인하였다. 특히 치면세균막의 양 변화는 중재군에서는 감소하였으나 대조군에서는 증가하는 결과가 나타났다. 그러나 CAMBRA는 각 위험요인과 질병지표, 보호요인에 대해 정량화된 점수를 부여한 후 이를 단순 합산하여 알고리즘에 의해 위험군이 분류되는 방식으로 구성되어 있다. 이로 인해 변수 간의 상호작용이나 맥락적 영향력을 반영하기 어려운 구조적 한계를 가진다. 복합적인 요인이 동시에 작용하거나 특정 요인의 조합에 따라 우식 발생 위험이 크게 달라지는 경우에도, CAMBRA는 이를 독립된 요인으로만 평가하게 되어 개인 맞춤형 대응에 한계를 보일 수 있다. 실제로 프로그램 적용 후 일부 학생은 치아우식 위험이 상향되는 역전 현상이 나타나기도 하였으며 이는 기존 우식 위험군 분류나 개입 전략만으로는 설명되지 않은 요인이 존재함을 시사한다. 우식 고위험군 및 초고위험군 대상자는 치아우식 발생 가능성이 높아 임상적 개입이 시급함에도 불구하고, 프로그램 적용 후 우식 위험이 증가한 대상자에 대해 심층 분석이 이루어진 바는 없다. 우식 위험군의 변화 양상을 보다 정밀하게 예측하고 설명하기 위해서는 단일 요인 중심의 전통적 분석을 넘어, 다변량 분석 및 기계학습 기법의 활용이 요구된다[6]. 기존 연구에서는 로지스틱 회귀분석, 의사결정나무, 다양한 머신러닝 기법 등이 우식 예측에 활용되어 왔으며[6,7], 이 중 랜덤포레스트(Random forest) 기법은 변수 간 상호작용을 반영하고 변수 중요도를 제시할 수 있다는 점에서 우식 위험 상승에 기여하는 주요 요인을 탐색하는 데 적합하다. 특히 CAMBRA가 간과할 수 있는 비선형적 관계나 잠재적 복합 요인을 파악할 수 있기 때문에 우식 위험군이 상향 전환된 대상자의 특성을 규명함으로써, 향후 보다 개인화되고 정밀한 예방 전략 수립을 위한 근거를 마련할 수 있다.

머신러닝 기반의 랜덤포레스트 알고리즘은 변수 간 상관성, 중요도 분석, 예측 평가 분석 등에 활용되며[8], 다수의 결정트리를 조합하여 예측의 안정성을 높이고, 변수의 중요도를 계량적으로 제공할 수 있어 보건의료 빅데이터 분석 분야에서 점차 활용이 확대되고 있다[9-13]. 랜덤포레스트는 청소년의 정신건강 문제[9], 성인 흡연자의 금연 행동[10], 당뇨병 발병 위험요인[11] 등의 예측 요인 규명에 활용된 바 있으며, 구강 분야에서도 치주질환[12], 12세 아동의 우식경험영구치아수[13] 예측 등에 활용되었다.

이에 본 연구는 청소년을 대상으로 한 CAMBRA 기반 우식 관리 프로그램 적용 후, 우식 위험군이 고위험군, 초고위험군으로 상향된 사례를 분석 대상으로 선정하고, 랜덤포레스트 기법을 활용하여 우식 위험도 상승에 기여한 주요 요인을 예측 및 규명함으로써 궁극적으로 향후 CAMBRA의 개인 맞춤형 중재 전략 개발과 중재 시기 설정에 기여할 수 있는 근거를 마련하고자 한다.

연구방법

1. 연구설계

본 연구는 초·중등학생(만 10–14세)을 대상으로, CAMBRA-students 모바일 애플리케이션을 활용한 프로그램 적용 후, 우식 위험 수준이 초기에 저위험 또는 중위험에서 중재 후 고위험 또는 초고위험으로 전환된 사례를 분석하고, 상승 전환에 영향을 미친 요인을 규명하기 위해 수행되었다. 연구는 CAMBRA-students 프로그램 개입 후 우식 위험이 증가한 사례를 중심으로 한 사후분석 기반의 준실험적 연구(A quasiexperimental study with post-hoc analysis)이다. 치아우식 위험 증가에 영향을 미치는 주요 요인을 탐색하고, 예측 가능성을 평가하기 위하여 머신러닝 알고리즘 중 하나인 랜덤포레스트를 적용하였다. 해당 기법을 통해 치아우식 위험도 전환 여부에 대한 예측모형을 구축하고, 변수 중요도 분석을 병행함으로써 주요 기여 요인을 파악하고자 하였다. 연구는 남서울대학교 생명윤리위원회의 승인(IRB No. NSU-202304-006)을 받아 진행되었다.

2. 연구대상

본 연구는 편의표본추출로 지역 내 초등학교와 중학교 각 1곳을 선정하고, 학교장 동의 및 보건교사 협조하에 학부모에게 안내문을 발송한 후 자발적으로 서면 동의한 학생을 모집하였다. 중재군과 대조군은 학급 단위로 무작위 배정하였다. 연구참여자는 만 10~14세의 초·중등학생으로, 본인과 보호자의 서면 동의를 받고 구강검진 및 앱 기반 설문에 참여할 수 있는 학생을 대상으로 선정하였다. 전신질환 보유자, 최근 6개월 이내 유사 프로그램 참여자는 제외하였다. 연구대상자 수는 G*power 3.0을 활용하여 유의수준 0.05, 효과크기 0.5, 검정력 85%를 기준으로 중재군과 대조군 각각 77명, 총 154명으로 산출하였다. 선행연구에 따라 20%[14]의 탈락률을 고려하여 총 184명을 모집하였으며, 중재군 중 3명이 중도 탈락하여 최종 참여자는 중재군 89명, 대조군 92명으로 총 181명이 치아우식관리 프로그램에 참여하였다. CAMBRA-students 애플리케이션을 이용하여 설문조사와 임상검사로 연구대상자의 우식 위험도를 평가하였으며, 중재군에게는 Qraycam pro (AIOBIO, Seoul, Republic of Korea)를 이용한 구강검사, 타액분비율검사, 불소도포 등을 2023년 6월부터 2024년 5월까지 1년간 수행하였다. 연구대상자 중 사전 우식 위험도가 저위험 또는 중위험이었으나 사후에 고위험 또는 초고위험으로 전환된 대상자가 최종 분석에 포함되며, 중재군 15명과 대조군 8명이 해당되었다.

3. 연구도구

본 연구에서 사용된 변수는 한국형 소아·청소년 우식 위험평가 도구[15]를 기반으로 CAMBRA-students 앱을 통해 수집되었으며, 각 항목은 설문과 임상검사를 통해 정량화되었다. 이 도구는 총 20개 항목으로 구성되며, 질병 지표 4문항, 위험요인 9문항, 보호요인 7문항으로 구성된다. 질병 지표는 ‘상아질 병소 또는 새로운 우식 와동’, ‘법랑질에 국한된 비와동성 병소’, ‘평활면 백색반점 또는 탈회 부위’, ‘최근 1년 이내 치아 수복 경험’으로 구성되며 위험요인에는 ‘치면세균막 침착’, ‘고정성 교정장치 부착’, ‘깊은 소와·열구’, ‘타액기능 감소’, ‘노출된 치근’, ‘하루 3회 이상 발효성 탄수화물 섭취’, ‘약물 복용에 의한 구강건조증’, ‘하루 1회 이하 칫솔질’, ‘구강관리용품 미사용’이 포함된다. 보호요인은 ‘하루 2회 이상 불소치약 사용’, ‘최근 6개월 이내 불소 바니쉬 도포’, ‘0.05% 불화나트륨 양치용액 사용’, ‘클로르헥시딘 구강 항균제 사용’, ‘무당 유제품 섭취’, ‘정상적인 타액기능’, ‘제1·2대구치 치면열구전색 존재’ 등으로 구성된다.

본 연구에서 랜덤포레스트 분석을 위해 활용된 입력 변수는 중재 전후 시점에서의 변화량을 기준으로 구성된 총 20개의 변수이며, 구체적으로는 위험요인 변화량(∆R1-∆R9), 보호요인 변화량(∆P1-∆P7), 그리고 질병지표 변화량(∆D1-∆D4)으로 구성되었다. 종속 변수는 Highrisk_ transition으로 명명되었으며, 이는 사전 우식 위험도가 저위험 또는 중위험군에 속하였으나 사후에는 고위험 또는 초고위험군으로 전환된 여부를 이진 변수(0=비전환, 1=전환)로 정의하였다.

4. 자료수집

본 연구에서 랜덤포레스트 분석 시행 시 분석 대상 집단에서 고위험군으로 전환된 사례 수가 상대적으로 적어 클래스 불균형(Class imbalance)이 존재하였고, 이에 따라 모델 학습의 편향을 보정하기 위해 SMOTE (Synthetic minority over-sampling technique)를 적용하여 소수 클래스에 대한 과샘플링(Over-sampling)을 수행하였다[16]. Python 기반의 Google colaboratory 환경에서 머신러닝 분류 기법인 랜덤포레스트 알고리즘을 적용하여 치아우식 고위험군 전환 여부에 대한 예측모형을 구축하였다. 모델 학습 시에는 예측 성능과 모델 다양성 확보를 위해 총 500개의 의사결정트리(N_estimators=500)를 기반으로 학습을 수행하였으며, 각 트리는 부트스트랩 샘플(Bootstrapped sample)을 활용하여 훈련되었다. 또한, 각 노드의 분할 기준은 무작위로 선택된 변수 집합 중에서 가장 최적의 분할 조건을 자동으로 도출하는 방식으로 설정되었다[17]. 모델의 예측 성능은 반복 교차검증을 통해 평가되었으며, 각 반복에서 정확도(Accuracy), 오차율(Error rate), 정밀도(Precision), 재현율(Recall), F1 점수(F1 score), 그리고 AUC (Area under the curve) 등의 분류 성능 지표를 산출하였다[18]. 변수 중요도(Feature importance)는 각 반복에서 산출된 값을 누적한 후 평균하여 도출하였으며, 이는 랜덤포레스트 알고리즘의 특성상 전체 합이 1이 되도록 정규화된 값으로 계산되었다[17].

해당 분석은 중재군과 대조군으로 나누어 독립적으로 수행되었으며, 각 군의 예측 성능과 함께 중요도 상위 10개 변수(Top-10 variables)는 시각화하여 비교 분석하였다.

더불어, 변수의 통계적 유의성을 평가하기 위하여 Permutation importance 기반의 p-value 분석을 추가로 실시하였다. 이를 위해 종속 변수인 Highrisk_transition을 무작위로 재배열(Shuffling)하여 예측력에 영향을 미치지 않는 상태의 귀무분포(Null distribution)를 생성하고, 각 변수에 대한 중요도를 500회 반복 측정하였다. 이후 각 변수의 실제 중요도 값(Observed importance)이 귀무분포 내에서 차지하는 상대적 위치를 기준으로 유의확률을 산출하였다<Fig. 1>.

Fig. 1. Random forest analysis procedure

5. 자료분석

수집된 자료는 IBM SPSS program (ver. 29.0; SPSS Inc., Armonk, NY, USA)과 Python 기반의 Google colaboratory 환경을 활용하여 분석하였다. 중재군과 대조군의 위험군별 DMFT index 변화를 비교하기 위해 비모수 검정인 Mann-Whitney U 검정을 사용하였다. 사전 우식 위험도가 저위험 또는 중위험이었으나 사후에 고위험 또는 초고위험으로 상승 전환된 학생을 대상으로 군 내 중재 전후 변화 분석에는 Wilcoxon signed-rank test를 사용하여 사전-사후값 간의 통계적 유의성을 검정하였다. 군 간 사후값 비교 시, 사전값에 유의한 차이가 있는 DMFT index의 경우에는 Quade’s ANCOVA를 적용하여 사전값을 공변량으로 통제한 후 군 간 차이를 검정하였다. 반면, 사전값 간 동질성이 확보된 SHS (Simple hygiene index)의 경우에는 Mann-Whitney U test를 통해 두 군 간 사후값의 차이를 비교하였다. 또한, 전환된 대상자 군에 대해 사전-사후 시점 간의 변화 유의성을 검정하기 위해 McNemar’s test를 사용하였다. 모든 변수는 이진형(0/1)으로 구성되었으며, 중재군(n=15)과 대조군(n=8)을 각각 독립적으로 분석하였다. 소표본 조건에 따라 정확 검정(Exact McNemar’s test)을 적용하였으며, p-value가 0.05 미만인 경우 통계적으로 유의한 변수로 판단하였다.

연구결과

1. 우식 위험군 전환 비율

사전검사에서 저·중위험군에 해당하던 대상자 중, 중재 후 고·초고위험군으로 전환된 대상자는 중재군 19명 중 15명(78.9%), 대조군 20명 중 8명(40.0%)으로 나타났다. 중재군에서는 전체의 4명만이 저·중위험군을 유지한 반면, 대조군에서는 12명이 위험군 수준에 변화가 없었다. 중재군의 위험군 상승 비율이 대조군에 비해 높았다<Fig. 2>.

Fig. 2. Transition rate of caries risk groups
(Green, Blue: Proportion of participants with increased caries risk levels)

2. 고위험군 및 초고위험군으로 전환된 대상자들의 SHS 및 DMFT index 변화

사전검사에서 우식 저위험군 및 중위험군으로 분류되었으나 사후 고위험군 및 초고위험군으로 전환된 대상자들의 SHS 및 DMFT index는 <Table 1>과 같다.

SHS 점수는 중재군에서 중재 전에 비해 중재 후에 0.07 증가하였고, 대조군에서는 0.62 증가하였으나 두 군 모두 통계적으로 유의한 차이는 없었다.

DMFT index 결과, 중재군에서 중재 후에 0.80 증가하였으나 통계적으로 유의한 차이는 없었다. 그러나 대조군에서 사전 DMFT index가 0이었으나, 사후 2.12로 증가하여 통계적으로 유의한 차이가 나타났다(p=0.008). 또한 사전 DMFT index는 중재군이 대조군에 비해 현저히 높아 유의한 차이가 있었다(p<0.001).

Table 1. Changes in SHS and DMFT index among participants transitioned to high or extreme-high caries risk groups

Unit: Mean±SD

table

*by Wilcoxon signed-rank test or Quade’s ANCOVA or Mann-Whitney U test
SHS: Simple hygiene index

3. 고위험군 및 초고위험군으로 전환한 대상자들의 요인변화

사전 우식 위험군이 저위험군 또는 중위험군이었으나 사후 고위험군 또는 초고위험군으로 전환된 대상자들을 분석한 결과, 중재군에서는 위험요인 중 ‘하루 3회 이상 발효성 탄수화물 섭취’ 항목이 통계적으로 유의하게 증가하였고(p=0.021), ‘고정성 교정장치 부착’, ‘깊은 소와·열구’ 비율이 중재 전보다 중재 후 증가하였으나 통계적으로 유의한 차이는 없었다. 또한, 4가지 질병지표가 모두 증가하였으나 통계적 유의성은 없었고 보호요인 중 감소한 항목은 없었다.

대조군에서는 중재군과 동일하게 4가지 질병지표 모두 증가하였으며, 이 중 ‘최근 1년 이내 치아수복’ 항목은 통계적으로 유의하게 증가하였다. 위험요인 중 ‘하루 3회 이상 발효성 탄수화물 섭취’, ‘구강관리용품 미사용’, ‘심한 치면세균막 침착’, ‘깊은 소와·열구’ 비율이 사전검사보다 사후검사에서 증가하였으나 통계적 유의성은 없었고, 보호요인 중에서는 ‘0.12% 클로르헥시딘 글루코네이트 구강항균제 사용’ 항목이 감소하였으나 통계적으로 유의하지 않았다<Table 2>.

Table 2. Changes in contributing factors among participants transitioned to high or extreme-high caries risk groups

Unit: N(%)

table

*p<0.05, by McNemar’s test

4. 랜덤포레스트를 이용한 요인별 중요도 분석

랜덤포레스트 기반 예측모형의 성과 평가 결과, 중재군의 정확도는 89.8%, 오차율은 10.2%였으며, 정밀도 90.6%, 재현율 89.5%, F1 점수 89.7%, AUC는 95.7%로 나타나 전반적으로 우수한 예측 성능을 보였다. 대조군은 정확도 96.3%, 오차율 3.7%, 정밀도 96.7%, 재현율 96.1%, F1 점수 96.3%, AUC는 99.7%로, 중재군에 비해 전반적으로 더 높은 예측 성능을 보였다.

중재군의 변수 중요도 분석 결과, ‘하루 3회 이상 발효성 탄수화물 섭취’와 관련된 위험요인 변화(∆R1), ‘최근 1년 이내 치아 수복 경험’(∆D4), ‘구강관리용품 미사용’(∆R4)과 관련된 위험요인 변화는 통계적으로 유의한 변수로 도출되었으며, 동시에 상대적으로 높은 중요도 점수를 기록하여 모델 예측에 실질적인 기여를 한 것으로 나타났다.

이와 함께 ‘고정성 교정장치 부착’과 관련된 위험요인 변화(∆R6) 역시 통계적으로 유의하였으나, 변수 중요도 점수는 상대적으로 낮게 나타났다. 이는 해당 변수가 모델 내에서 일정 수준의 예측 기여도를 가지지만, 전체적인 영향력은 제한적이었다고 나타났다<Fig. 3>. 대조군의 경우, ‘최근 1년 이내 치아 수복 경험’(∆D4), ‘평활면에 새로 생긴 백색반점 또는 탈회부위’(∆D3), ‘법랑질에 국한된 새로운 비와동성 병소’(∆D2)가 통계적으로 유의한 변수로 도출되었으며, 이들 모두 높은 변수 중요도 점수를 기록하였다. 이러한 결과는 대조군에서는 질병지표의 변화가 고위험군으로 전환되는 중요한 요인으로 나타났다<Fig. 4>.

Fig. 3. Variable importance of intervention group

Fig. 4. Variable importance of control group

총괄 및 고안

본 연구는 청소년을 대상으로 CAMBRA-students 프로그램 적용 후 우식 위험군이 고위험군 및 초고위험군으로 상향 전환된 사례를 중심으로 랜덤포레스트 기법을 활용하여 우식 위험군 전환에 영향을 미치는 주요 요인을 정밀하게 분석하고 예측하기 위해 수행되었다.

사전검사에서 저·중위험군에 속했던 대상자가 중재 후 초고·고위험군으로 전환된 비율이 중재군에서 78.9%, 대조군에서 40.0%로 나타났다. 중재군에서 우식 위험이 더 높아진 결과는 단순히 중재의 효과가 부족했던 것으로 보기보다는 사전검사 때부터 우식 경험 수준의 차이가 영향을 미쳤다. 실제로 DMFT index의 사전검사에서 중재군은 대조군보다 유의하게 높은 수치를 보였으며(p<0.001), 이는 본 연구에서 편의표본추출로 학교를 선정한 후, 각 학교의 학급을 단위로 하여 무작위로 중재군과 대조군을 배정하였다. 그러나 군 단위 무작위배정의 특성상 사전 동질성이 완전히 확보되지 않았으며, 실제 분석 결과에서는 중재군이 대조군에 비해 초기에 더 높은 우식 민감도를 가진 집단이었음을 알 수 있다. 이러한 차이는 치아우식 고위험군 분류에 영향을 주는 알고리즘[19] 결과에 반영되었을 가능성이 있다. 사전검사 결과, 실험군과 대조군 간 동질성이 완전히 확보되지 않아 본 연구에서는 Quade’s ANCOVA를 사용하여 사전검사 점수의 영향을 보정하고 중재 효과를 분석함으로써 연구의 타당성을 높이고자 하였다. CAMBRA-students 프로그램의 중재가 적용되었음에도 일부 청소년에서 여전히 우식 위험군 상승 전환이 나타난 것은 중재 프로그램에 대한 행동 이행의 차이가 영향을 미쳤을 가능성도 있다. CAMBRA-students는 앱 기반 개입으로 설계되었으며, 대상자의 개별적 실천 정도에 따라 효과의 차이가 발생할 수 있다. 특히 청소년은 외부 환경에 영향을 많이 받기 때문에, 식습관이나 생활습관의 개선이 제한적이었을 수 있다. Murariu 등[20]의 연구에서도 청소년의 구강건강을 위해 모바일 앱이 사용되지만, 개인의 실천 정도와 또래·가정환경 등 외부 요인에 따라 효과가 크게 달라질 수 있음을 체계적으로 정리하여 보고하였다. 하지만 본 연구에서는 중재군의 행동 이행 수준을 정량적으로 측정할 수 있는 지표가 포함되지 않았기 때문에 중재효과를 행동 변화 실패로 해석하는데 제한이 따른다. 향후 연구에서는 앱 사용 기록, 식이일지, 칫솔질 빈도와 같은 행동 실천 지표를 함께 수집하여 모바일 기반 중재의 효과를 보다 명확하게 분석할 필요가 있다. 이는 청소년 대상자들에게 위험군별 중재 가이드라인 만으로는 모든 고위험군 전환을 억제하기에는 어렵다는 점을 보여주며, 프로그램의 효과를 긍정적으로만 평가하기보다는 더욱 정밀한 개별 위험 요인 분석과 맞춤형 개입이 필요하다는 점을 시사한다.

치면세균막의 양을 나타내는 SHS 결과는 통계적으로 유의하지는 않았지만 중재 후 중재군보다 대조군에서 더 많이 증가하였다. 중재군에게는 중재 과정에서 Qraycam 이미지를 포함한 결과를 애플리케이션을 통해 피드백하여 동기 부여한 효과라고 판단되다. 중학생을 대상으로 한 Yeo와 Lee[21]의 연구에서도 Qraycam 이미지를 활용한 피드백으로 치면세균막의 양과 성숙도를 감소시키는데 유의한 감소가 나타났다.

저·중위험군에서 초고·고위험군으로 전환한 대상자들에 대한 질병지표, 위험요인, 보호요인들의 변화를 확인한 결과, 중재군에서는 위험요인 중 ‘하루 3회 이상 발효성 탄수화물 섭취’ 항목이 사전에 비해 사후가 유의하게 증가하였다. 선행연구[1]에서 청소년의 우식 위험에 영향을 주는 여러 요인 중 가당 탄산음료, 에너지 음료, 라면, 패스트푸드 섭취량과 유의한 결과가 나타났다. 이처럼 부모의 식이지도 시기를 지난 청소년기의 식습관은 치아우식증 발생 위험을 예측하는 데 있어 중요한 기준이 된다. 대조군에서는 위험요인 중 ‘1년 이내 치아수복 경험’ 항목과 4개의 질병지표가 유의하게 증가하였다. Selwitz 등[22]의 연구 결과와 유사하게 예방 조치가 이루어지지 않아도 초기 병소는 회복되기도 하지만 예방적 개입이 없을 경우, 더 심한 우식 병소로 진행될 가능성이 크다는 점을 나타낸다. 이러한 결과는 중재 유무에 따라 우식 위험군 전환에 영향을 미치는 위험요인이 달라질 수 있음을 보여주며 향후 치아우식 예방 및 관리 전략 수립 시 중재 환경을 고려한 개별화된 접근이 필요함을 시사한다.

CAMBRA의 기존 방식은 각 변수의 점수를 단순 합산하므로 이런 복합 작용을 반영하는데 어려움이 있었다. 따라서 단순히 빈도 기반의 우식 위험 평가가 아닌 통계적 유의성과 변수 중요도를 동시에 고려하는 분석 접근이 필요하다고 판단되어 본 연구에서는 고차원의 다변수 데이터를 처리할 수 있는 능력과 변수 간 상호작용을 자동으로 탐색할 수 있는 장점을 가진 랜덤포레스트를 활용하여 이를 평가하였다.

랜덤포레스트 분석 결과, 중재군에서는 ‘하루 3회 이상 발효성 탄수화물 섭취’(∆R1), ‘최근 1년 이내 치아 수복 경험’(∆D4), ‘구강위생용품 미사용’(∆R4) 등이 위험군 전환에 통계적으로 유의한 영향을 미친 것으로 나타났다. 발효성 탄수화물 섭취 빈도의 증가는 기존 연구[23]와 일치하며, 잔존 치면세균막의 당 대사를 통한 산 생성이 법랑질 탈회 및 우식 진행의 주요 기전임을 다시금 확인시켜 주었다. 또한 과거 치아 수복 경험은 향후 우식 위험을 예측하는 강력한 지표임이 이전 연구[24]에서 제시되어 왔고, 본 연구 역시 CAMBRA 이론적 배경과 부합하는 결과를 보였다[3]. 구강위생용품의 사용 여부 또한 정기적인 구강위생 관리의 중요성을 강조한 선행연구에서 지속적으로 언급되어 왔고[25], 본 연구에서도 우식 위험군 전환에 유의한 변수로 확인되었다. 반면, 중재군에서 ‘고정성 교정장치 부착’(∆R6)은 통계적으로 유의하였으나 변수 중요도는 상대적으로 낮아 전체적인 예측 기여도는 제한적인 것으로 나타났다. 이는 교정장치가 치면세균막 축적의 위험요인임에도 불구하고, 본 연구대상자 집단에서 비교적 적은 빈도로 관찰되어 예측 모델상 영향력이 약화되었을 가능성이 있다.

대조군에서는 ‘최근 1년 이내 치아 수복 경험’(∆D4), ‘평활면에 새로 발생한 백색반점 또는 탈회부위’(∆D3), ‘법랑질에 국한된 새로운 비와동성 병소’(∆D2) 등의 질병지표가 변수 중요도와 통계적 유의성 모두에서 높게 나타났다. 대조군에서 질병지표가 높은 변수 중요도를 보였다는 점은, 예방적 개입이 이루어지지 않는 상황에서 질병 진행 정도가 우식 위험 예측의 핵심 요인으로 작용할 수 있음을 의미한다. 결과적으로 중재군에서는 식습관 및 구강위생과 같은 행동 요인의 변화가, 대조군에서는 진행된 질병 상태의 변화가 우식 고위험군 전환에 더 큰 영향을 미친 것으로 나타났다. 이는 중재 유무에 따라 우식 위험군 상승에 작용하는 위험요인의 양상이 다르다는 점을 보여주며, 향후 치아우식 예방과 관리 전략 수립 시 중재 환경에 따라 개별화된 요인 중심 접근이 필요함을 시사한다.

본 연구에서 중재군의 랜덤포레스트 모델 성능(AUC 95.7%)도 매우 우수하였음에도 대조군의 모델(AUC 99.7%)이 더 높은 예측 성능을 보인 점은 주목할 만하다. 이는 대조군에서 위험군 전환 여부를 설명하는 변수가 보다 명확하고 일관되게 작용했을 가능성을 시사한다. 중재군에서는 중재로 인해 다양한 변수 변화가 복합적으로 일어나면서 예측 모델의 불확실성이 상대적으로 증가했을 수 있다. 이는 실제 임상에서도 중재 후 우식 위험군이 상향되는 일부 사례가 기존 CAMBRA 프로그램의 한계로 보고되고[5] 있는 점과 유사하다고 판단된다.

랜덤포레스트는 다수의 의사결정나무를 무작위로 구성하고, 각 나무의 예측을 집계하여 최종 결과를 도출하기 때문에 단일 트리 모델보다 과적합(Overfitting) 위험이 낮고 안정적인 예측력을 보인다[26]. 본 연구에서도 모델 반복 학습을 500회 수행함으로써 표본 크기가 제한적인 연구 설계에서 발생할 수 있는 추정치의 변동성을 완화하고, 신뢰할 수 있는 변수 중요도 추정을 가능하게 하였다. 랜덤포레스트의 한계로 지적되어 온 변수 중요도 산출 시 변수 간 상관관계(Correlation) 문제에 대해서도 본 연구에서는 순열 중요도(Permutation importance) 기반 분석을 통해 변수와 목표 변수 간의 무작위성을 제거하고, 모델의 예측 성능에 기여하는 정도를 직접 평가하였고 이러한 분석 접근은 단순한 변수 중요도 순위만으로는 파악할 수 없는 변수의 실제적 예측 기여도를 확인하여 상관성의 영향을 최소화하려는 노력을 기울였다. 이는 Strobl 등[27]이 제안한 방식으로, 지니 중요도(Gini importance)에 비해 더 정확하게 변수의 독립적 중요도를 평가할 수 있다는 점에서 의의가 크다. 특히 CAMBRA와 같은 우식 위험평가 체계는 개별 변수들이 서로 강한 상관성을 가지는 경우가 많기 때문에, 변수 간의 독립적 기여도를 평가하는 본 연구의 접근법은 적절하다고 판단된다. 또한 본 연구에서 적용한 SMOTE는 소표본 연구에서 발생할 수 있는 클래스 불균형(Class imbalance) 문제를 해결하기 위한 기법으로 모형의 민감도와 예측 정확도를 향상시키는 데 기여했으며 치아우식 예측 선행연구에서도 활용되었다[28]. 실제로 중재군과 대조군 모두에서 소수 클래스인 고위험군 전환 집단의 사례 수가 적었음에도 불구하고, 본 연구에서 높은 AUC 값을 기록할 수 있었던 것은 SMOTE의 효과와 순열 중요도의 정밀 분석이 함께 작용한 결과로 해석된다.

본 연구는 다음과 같은 한계를 지닌다. 첫째, 특정 지역 청소년을 대상으로 수행되었으며, 표본 수가 제한적이므로 결과를 일반 청소년 집단에 확장하여 적용하는 데에는 신중한 해석이 필요하다. 둘째, 중재군과 대조군 간 사전 동질성이 완전히 확보되지 않았으며, Quade’s ANCOVA로 보정하였으나 통계적 한계가 존재할 수 있다. 셋째, 표본 수의 한계를 인식하고 클래스 불균형에 따른 편향을 최소화하고자 하였으나, 자료 분석의 결과는 소규모 사례를 기반으로 한 탐색적 분석이므로, 해석과 적용에 주의가 필요하며 후속 연구에서 충분한 표본을 바탕으로 예측 모델의 일반화 가능성을 검증할 필요가 있다. 또한 랜덤포레스트 모델이 갖는 ‘블랙박스(Black box)’ 특성은 여전히 해석상의 한계로 지적된다. 변수 중요도 순위를 통해 각 변수의 상대적 기여를 알 수 있으나, 구체적으로 어떤 규칙이나 경로로 분류가 이루어졌는지는 직관적으로 이해하기 어렵다는 점이 단점이다[29]. 향후 연구에서는 SHAP (Shapley additive explanations) 값이나 LIME (Local interpretable model-agnostic explanations) 등의 모델 설명 기법을 함께 적용하여[30], 랜덤포레스트 예측의 구체적인 의사결정 과정을 시각화하고 해석력을 높이는 노력이 필요하다.

결과적으로, 본 연구의 랜덤포레스트 기반 분석은 청소년 치아우식 위험군 전환 예측 분야에서 변수 중요도 해석과 통계적 유의성 검증을 동시에 시도한 점에서 의의가 크며, 향후 단일 요인 중심의 우식 위험 평가에서 벗어난 다양한 구강건강관리 프로그램의 정밀한 근거 기반 전략 수립에 유용한 방향성을 제공할 것으로 기대된다. 본 연구 결과를 바탕으로 CAMBRA-students 앱은 단순 정보 제공을 넘어 개인별 맞춤형 리마인더, 부모·교사 연계 알림 기능, 행동 실천률 모니터링 등을 도입할 필요가 있다. 특히 발효성 탄수화물 섭취 감소와 구강위생용품 사용은 고위험군 전환에 유의한 요인으로 확인되었으므로, 이 항목에 대한 집중적 행동 강화 전략이 요구된다.

결론

본 연구는 치아우식관리 프로그램 적용 후 우식 위험이 고위험군 또는 초고위험군으로 상향 전환된 청소년을 대상으로, 주요 요인을 예측하기 위해 랜덤포레스트 기법을 활용하여 우식 위험군 전환에 영향을 미치는 요인을 분석하였으며, 다음과 같은 결론을 도출하였다.

1. 중재군에서는 ‘하루 3회 이상 발효성 탄수화물 섭취’, ‘최근 치아 수복 경험’, ‘구강위생용품 미사용’이 주요 예측 요인으로 나타났다.
2. 대조군에서는 질병지표인 ‘백색반점’, ‘법랑질 병소’, ‘치아 수복 경험’이 중요한 영향 요인으로 확인되었다.
3. 랜덤포레스트 모델은 중재군(AUC=95.7%)과 대조군(AUC=99.7%) 모두에서 우수한 예측 성능을 보여주었다.

이상의 연구 결과는, 랜덤포레스트 분석을 통해 청소년의 치아우식 고위험군 전환에 영향을 미치는 주요 요인을 규명하고자 시도되었다는 점에서 의의가 있으며, 이는 개인 맞춤형 구강건강관리 전략 수립을 위한 기초자료로 활용될 수 있다.

Notes

Author Contributions

Conceptualization: SY Lee, AN Yeo, YM Kang; Data collection: SY Lee, YM Kang, AN Yeo; Formal analysis: YM Kang; Writingoriginal draft: YM Kang, AN Yeo; Writing-review&editing: SY Lee, YM Kang, AN Yeo

Conflicts of Interest

SY Lee is a member of the Editorial Committee of the Journal of the Korean Society of Dental Hygiene, but was not involved in the review process of this manuscript. The authors declare no other conflicts of interest.

Funding

None.

Ethical Statement

This study was approved by the Institutional Review Board (IRB) of Namseoul University (IRB No. NSU-202304-006).

Data Availability

Data can be obtained from the corresponding author.

Acknowledgements

None.

References

  1. Yun JW. Convergence study on beverage intake and oral health in Korean adolescents. J Korea Converg Soc 2020;11(9):45–50. https:// doi.org/10.15207/JKCS.2020.11.9.045
  2. Bernabe E, Marcenes W, Abdulkader RS, Abreu LG, Afzal S, Alhalaiqa FN, et al. Trends in the global, regional, and national burden of oral conditions from 1990 to 2021: a systematic analysis for the Global Burden of Disease Study 2021. 2025;405(10482):897–910. https://doi.org/1 0.1016/S0140-6736(24)02811-3
  3. Featherstone JDB, Alston P, Chaffee BW, Rechmann P. Caries management by risk assessment (CAMBRA): an update for use in clinical practice for patients aged 6 through adult. J Calif Dent Assoc 2019;47(1):25–34. https://doi.org/10.1080/19424396.2019.12220743
  4. Kang YM, Yeo AN, Lee SY. Expert usability evaluation of a mobile application for systematic caries management in children and adolescents: a cross-sectional study. Int J Clin Pediatr Dent 2024;17(12):1370–6. https://doi.org/10.5005/jp-journals-10005-2992
  5. Yeo AN, Kang YM, Kim SG, Lee SY. The effect of using the CAMBRA mobile application on dental caries management in children and adolescents. J Korean Soc Dent Hyg 2024;24(4):281–9. https://doi.org/10.13065/jksdh.20240402
  6. Schwendicke FA, Samek W, Krois J. Artificial intelligence in dentistry: chances and challenges. J Dent Res 2020;99(7):769–74. https://doi.o rg/10.1177/0022034520915714
  7. Bomfim RA. Machine learning to predict untreated dental caries in adolescents. BMC Oral Health 2024;24(1):316. https://doi.org/10.1186 /s12903-024-04073-4
  8. Shin SB, Cho HJ. Correlated variable importance for random forests. Korean J Appl Stat 2021;34(2):177–90. https://doi.org/10.5351/ KJAS.2021.34.2.177
  9. Kim MH. Exploration of predictors of mental health problems among adolescents using random forest regression. J Youth Stud 2024;31(10):315–39. https://doi.org/10.21509/KJYS.2024.10.31.10.315
  10. Choi HY, Lee KS. Construction and evaluation of the prediction model for smoking cessation behavior among adult smokers by machine learning algorithm. Korean Public Health Res 2021;47(4):149–65. https://doi.org/10.22900/kphr.2021.47.4.011
  11. Lee HC, Park MB, Won YJ. AI machine learning–based diabetes prediction in older adults in South Korea: cross-sectional analysis JMIR Form Res 2025;9:e57874. https://doi.org/10.2196/57874
  12. Lim HJ. A step-by-step guide to random forest model using orange data mining in the field of periodontitis. J Korean Acad Oral Health 2021;45(4):218–26. https://doi.org/10.11149/jkaoh.2021.45.4.218
  13. Yang YH, Kim JS, Jung SH. Prediction of dental caries in 12-year-old children using machine-learning algorithms. J Korean Acad Oral Health 2020;45(1):55-63. https://doi.org/10.11149/jkaoh.2020.44.1.55
  14. Polit DF, Beck CT. Nursing research: generating and assessing evidence for nursing practice. 11th ed. Philadelphia: Wolters Kluwer; 2021: 2806.
  15. Lee JH, Lee SY. Development of caries risk assessment for children and adolescents using Delphi survey. J Korean Soc Dent Hyg 2022;22:5319. https://doi.org/10.13065/jksdh.20220060
  16. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: synthetic minority over-sampling technique. J Artif Intell Res 2002;16:321–57. https://doi.org/10.1613/jair.953
  17. Breiman L. Random forests. Machine Learning 2001;45(1):5–32. https://doi.org/10.1023/A:1010933404324
  18. Hastie T, Tibshirani R, Friedman J. The elements of statistical learning: data mining, inference, and prediction. 2nd ed. New York: Springer; 2009: 193–224, 257–98.
  19. Lee SY. The development of CAMBRA: updated CRA. J Korean Soc Dent Hyg 2021;21(4):221–36. https://doi.org/10.13065/jksdh.20210032
  20. Murariu A, Bobu L, Geletu GL, Stoleriu S, Iovan G, Vasluianu RI, et al. The impact of mobile applications on improving oral hygiene knowledge and skills of adolescents: a scoping review. J Clin Med 2025;14(9):2907. https://doi.org/10.3390/jcm14092907
  21. Yeo AN, Lee SY. The convergent effects of oral health education feedback using Qraycam™. J Korea Converg Soc 2017;8(3):63–70. https:// doi.org/10.15207/JKCS.2017.8.3.063
  22. Selwitz RH, Ismail AI, Pitts NB. Dental caries. Lancet 2007;369(9555):51–9. https://doi.org/10.1016/S0140-6736(07)60031-2
  23. Moynihan PJ, Kelly SA. Effect on caries of restricting sugars intake: systematic review to inform WHO guidelines. J Dent Res 2014;93(1):8–14. https://doi.org/10.1177/0022034513508954
  24. Hummel R, van der Sanden W, Bruers J, van der Heijden G. The relationship between claimed restorations and future restorations in children and adolescents: an observational follow-up study on risk categories for dental caries. PLoS One 2021;16(11):e0259495. https:// doi.org/10.1371/journal.pone.0259495
  25. Twetman S. Prevention of dental caries as a non-communicable disease. Eur J Oral Sci 2018;126:19–25. https://doi.org/10.1111/eos.12528
  26. Ciftci G, Asantogrol A. Utilization of machine learning models in predicting caries risk groups and oral health-related risk factors in adults. BMC Oral Health 2024;24:430. https://doi.org/10.1186/s12903-024-04210-z
  27. Strobl C, Boulesteix AL, Kneib T, Augustin T, Zeileis A. Conditional variable importance for random forests. BMC Bioinformatics 2008;9:307. https://doi.org/10.1186/1471-2105-9-307
  28.  Kang IA, Njimbouom SN, Kim JD. Optimal feature selection-based dental caries prediction model using machine learning for decision support system. Bioeng 2023;10(2):245. https://doi.org/10.3390/bioengineering10020245
  29. Touw WG, Bayjanov JR, Overmars L, Backus L, Boekhorst J, Wels M, et al. Data mining in the life sciences with random forest: a walk in the park or lost in the jungle? Brief Bioinform 2013;14(3):315–26. https://doi.org/10.1093/bib/bbs034
  30. Lundberg SM, Erion G, Chen H, DeGrave A, Prutkin JM, Nair B, et al. From local explanations to global understanding with explainable AI for trees. Nat Mach Intell 2020;2(1):56–67. https://doi.org/10.1038/s42256-019-0138-9
Section