웨어러블 AI 호르몬 추정 플랫폼: 혈액 검사 없이 내분비 상태를 진단할 수 있는가

핵심 요약

스마트워치 기반 웨어러블 데이터를 AI로 분석해 혈액 검사 없이 호르몬·대사 상태를 추정하는 플랫폼이 등장하고 있다. 국내 기업 식스레터스는 2026년 4월 디지털의료기기 제조 허가를 획득하며 미국 FDA 인증과 원격환자모니터링(RPM) 시장 진출을 선언했다. 이 기술이 실제 임상에서 의미 있는 도구가 될 수 있는지, 그 가능성과 한계를 구체적인 근거와 함께 살펴본다.

기술 소개: 무엇을 측정하고 어떻게 추정하는가

해당 플랫폼의 핵심 원리는 심박변이도(HRV), 광혈류측정(PPG), 체온, 수면 패턴, 활동량 등 다섯 가지 웨어러블 지표를 AI 모델에 입력해 남성·여성호르몬 및 대사 관련 건강 상태를 추정하는 것이다. 직접적인 생화학 분석 없이 생리학적 신호의 패턴에서 내분비 상태를 역산하는 방식이다.

이 접근의 생물학적 근거는 실재한다. 테스토스테론과 에스트로겐은 자율신경계 조절에 관여하며, 이는 HRV와 안정 시 심박수에 직접 영향을 준다. 갑상선 기능 이상은 체온 조절과 수면 구조 변화를 초래하고, 코르티솔 수준은 일주기리듬에 따른 체온 변동 폭과 연관된다. 즉, 웨어러블이 포착하는 생체 신호에는 이론적으로 내분비 상태의 흔적이 담겨 있다.

문제는 이 ‘흔적’을 얼마나 정확하게 읽어낼 수 있느냐다. 바로 이 지점에서 기술의 가능성과 한계가 갈린다.

현재 적용 수준: 규제 승인과 임상 검증은 다른 문제다

식품의약품안전처의 디지털의료기기 제조 허가는 제조 품질 관리 체계가 기준을 충족한다는 의미다. 임상적 정확도가 검증되었다는 의미가 아니다. 이 두 가지를 혼동하면 안 된다.

2026년 현재 FDA는 AI 의료기기에 대해 생애주기 기반 감독(lifecycle-based oversight) 체계를 강화하고 있으며, 알고리즘의 실제 예측 성능과 실사용 환경에서의 임상 검증 데이터를 점점 더 엄격하게 요구하고 있다. Life Sciences Voice의 2026년 4월 보고서(“Digital Health Regulations: What Life Sciences Companies Must Know”, Apr 3, 2026)는 소프트웨어 의료기기(SaMD)의 AI 규제 강화와 확대된 기기 분류 기준을 핵심 트렌드로 꼽았다.

학술 근거 면에서, HRV와 호르몬 수준의 연관성은 소규모 연구에서 반복적으로 보고되었으나, 개인 간 변동성이 크고 측정 맥락(수면 중, 운동 후, 스트레스 상태)에 따라 동일 개인에서도 수치가 크게 달라진다. Hailu 등(2023, npj Digital Medicine)은 웨어러블 기반 생리 신호로 생화학 지표를 추정하는 모델의 일반화 가능성이 현재로서는 제한적임을 체계적으로 분석한 바 있다. 특히 훈련 데이터의 인구 집단 편향, 개인 기저 상태의 다양성, 측정 기기별 알고리즘 차이가 누적될 경우 예측 오차가 임상적으로 허용하기 어려운 수준에 이를 수 있다고 경고했다.

의료적 의미: 어디까지 기대할 수 있는가

이 기술이 의미 있는 역할을 할 수 있는 영역은 분명 존재한다. 우선, 호르몬 이상 의심 환자의 ‘선별(screening)’ 도구로서의 가능성이다. 갱년기 여성에서 에스트로겐 감소와 연관된 수면 구조 변화, 체온 변동 증가, HRV 감소의 조합이 관찰된다면 이는 검진 권고의 트리거가 될 수 있다. 실제 혈액 검사를 대체하는 것이 아니라, 검사를 받아야 할 사람을 먼저 포착하는 역할이다.

두 번째로, 이미 진단을 받은 내분비 질환 환자의 치료 반응 모니터링에 활용될 수 있다. 갑상선 기능 저하증 환자에서 레보티록신 용량 조정 후 체온과 HRV의 변화를 추적하는 방식이 이에 해당한다. 이 경우 절대값보다 개인 내 변화 추이가 더 중요하며, 웨어러블의 연속 측정 특성이 오히려 강점이 된다.

그러나 이 기술을 독립적인 ‘진단’ 도구로 사용하는 것은 현재 근거 수준에서 정당화되기 어렵다. 특히 원격환자모니터링(RPM) 플랫폼과 결합될 경우, 알고리즘이 낮은 테스토스테론 또는 호르몬 불균형을 ‘추정’한 결과가 실제 검사 없이 치료 의사결정으로 이어지는 경로가 생길 수 있다. 이는 과진단 또는 불필요한 호르몬 치료로 이어질 수 있는 위험한 흐름이다.

한계와 구조적 위험

현재 이 분야에서 가장 큰 구조적 문제는 규제 언어와 마케팅 언어의 괴리다. FDA는 2026년 들어 “wellness AI”와 “medical AI” 사이의 경계를 더 명확히 긋고 있으며, 호르몬 상태를 ‘추정’하거나 ‘예측’하는 제품이 의학적 주장(medical claim)을 포함할 경우 SaMD로 분류해 규제한다는 입장을 강화하고 있다.

알고리즘 검증의 투명성도 문제다. 현재 대부분의 상업용 웨어러블 AI 플랫폼은 훈련 데이터의 구성, 검증 코호트의 인구학적 특성, 실사용 정확도 지표를 공개하지 않는다. 임상에서 사용 전 이러한 정보를 요구하고 검토하는 역량이 의료진에게 필요해지고 있다.

또한 PPG 기반 측정은 피부 색소, 문신, 말초 순환 상태에 따라 정확도가 달라지고, HRV는 수면 단계·카페인·자세에 따라 급격히 변동한다. 이러한 교란 변수를 얼마나 통제하느냐가 알고리즘 신뢰도의 핵심이지만, 현재 공개된 정보만으로는 이를 평가할 수 없다.

임상 현장에서의 시사점

응급실에서 일하다 보면 ‘검사 없이 진단을 내려야 하는 상황’이 실재한다는 것을 잘 안다. 반대로, ‘검사 결과를 과신해서 실제 임상 그림을 놓치는 상황’도 똑같이 자주 목격한다. 웨어러블 AI 호르몬 추정 플랫폼은 이 두 상황 중 어디에 위치해야 하는가.

내 판단은 이렇다. 이 기술은 지금 당장 ‘진단 도구’가 아니라 ‘신호 생성 도구(signal generator)’로 자리매김해야 한다. 즉, 이 플랫폼이 호르몬 이상 가능성을 신호로 보내면, 임상의가 그 신호를 해석해 혈액 검사를 처방하고 최종 진단을 내리는 구조다. 기술이 의사 결정을 보조하는 것은 가능하지만, 대체하는 것은 현재 근거 수준에서 허용되지 않는다.

국내에서 이 분류 기준이 충분히 정착되지 않은 채 제품이 시장에 진입할 경우, 의료진이 아닌 소비자가 플랫폼의 추정 결과를 진단으로 받아들이는 상황이 벌어질 수 있다. 규제 기관과 의료계가 함께 ‘어떤 주장은 허용되고 어떤 주장은 금지되는지’에 대한 언어를 정비하는 작업이 기술 개발만큼, 혹은 그 이상으로 시급하다.

References

Hailu RA, et al. “Wearable-based physiological signal models for estimating biochemical markers: a systematic review.” npj Digital Medicine. 2023;6:45.
Life Sciences Voice. “Digital Health Regulations: What Life Sciences Companies Must Know in 2026.” Apr 3, 2026. https://lifescivoice.com/digital-health-regulations/
FDA Digital Health Center of Excellence. “AI-Enabled Medical Devices List.” US Food & Drug Administration. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-enabled-medical-devices
Federal Register. “Advancing the Use of Digital Health Technologies in Clinical Investigations for Drugs and Biological Products.” Docket No. FDA-2026-N-2476. Mar 31, 2026.
머니투데이. “식스레터스, 디지털의료기기 제조 허가.. 美 원격의료 공략.” Apr 24, 2026. https://www.mt.co.kr/amp/industry/2026/04/24/2026042412543416427