#Medical AI #MIMIC Dataset #Data Engineering #Ensemble #SMOTE

MIMIC 데이터 기반
신장병(AKI) 이상 탐지 모델

"파편화된 의료 데이터를 하나의 흐름으로."
대용량 의료 데이터셋을 시계열로 재구성하고, 슬라이딩 윈도우 앙상블 기법을 적용하여 정확도 90%의 급성신손상 탐지 모델을 개발했습니다.

Host

분당서울대병원 (4인 팀)

My Role

Data Engineering & Preprocessing

Tech Stack

Python, Pandas, SMOTE, Ensemble

The Challenge: MIMIC 데이터의 복잡성

분당서울대병원 주관 대회에 참가하여, 전 세계적으로 가장 유명한 중환자실(ICU) 오픈 데이터셋인 MIMIC을 활용했습니다. 목표는 환자의 데이터를 분석해 급성신손상(AKI)을 조기에 탐지하는 것이었습니다.

가장 큰 난관은 데이터가 수십 개의 테이블로 파편화되어 있어 어떤 데이터가 유효한지 판단하기 어려웠고, '중증환자(ICU)' 데이터와 '외래진료' 데이터가 분리되어 있어 환자의 상태를 연속적으로 파악하기 힘들다는 점이었습니다.

슬라이딩 윈도우 분리 및 전처리과정

▲ 슬라이딩 윈도우 분리 및 전처리과정



My Key Contribution: 데이터 엔지니어링

저는 팀에서 원시 데이터(Raw Data)를 모델이 학습 가능한 형태로 가공하는 핵심적인 데이터 엔지니어링 역할을 수행했습니다.

Modeling & Results

자료 상세 보기 (PDF)
Back to Portfolio