Jak můžou data zachraňovat životy

Jako Revolt BI se často účastníme různých hackathonů. Dosud jsme naše zážitky moc nesdíleli, ale nemálo z vás se nás na to ptá. tak jsme si řekli, že pochlubit se občas není špatné, zvláště pokud jde o dobrou věc.

ktropp
3. července 2023

S využitím dat z běžných krevních testů, která nám byla poskytnuta, jsme byli schopni vyvinout model neuronové sítě #AI, který dokáže detekovat začínající chronické onemocnění ledvin CKD více než 800 dní před jeho diagnózou lékařem, s přesností vyšší než 84 %. Dokonce jsme byli schopni zjistit, které atributy (tj. laboratorní testy) jsou pro detekci CKD nejrelevantnější, za což jsme získali cenu #IKEM od Institut klinické a experimentální medicíny na European Healthcare Hackathon 2022!

Podívejte se na naše video.

Jak můžou zdravotní údaje zachránit životy

Na začátku hackathonu jsme dostali na výběr z různých výzev (challenges) k řešení. Vybrali jsme si číslo 6: odhalování chronického renálního selhání z laboratorních testů krve a moči různých pacientů IKEMu v čase.

Dospěli jsme k modelu neuronové sítě se 2 rekurentními vrstvami pro vnímání časového vývoje a díky zakódování přítomnosti testu jsme i pokryli občasná chybějící data (ne všichni pacienti měli vždy provedeny všechny testy a jejich testování neprobíhalo vždy pravidelně).

Tato data, i pokud při učení i klasifikaci byla skryta data odpovídající období od 800. dne před diagnózou u všech pacientů s pozitivním nálezem, byla schopna takto více než 800 dnů předem předpovědět budoucí diagnózu chronického selhání ledvin s přesností přes 84 % (při vyvážení falešně pozitivních a falešně negativních případů).

Některé jiné týmy (které se pak umístili výše než my) hlásily ještě větší přesnost, ale vzhledem k tomu, že si pořadatelé nenechali nějaká verifikační data, tak to nebylo možné během hodnocení ověřit.

Kódy (z důvodů citlivosti nesdílime data) jsou ve veřejném git repozitáři na našem firemním GitHubu, takže se zájemci mohou podívat na podrobnosti. Celý projekt jsme dělali v rámci Google Cloud Platform. Proces probíhal takto: data od IKEMu jsme si nahráli do Google Cloud Storage a zpracovali je pomocí BigQuery a Vertex AI Workbench, kde jsme i náš model natrénovali. Google má super rychlé grafické procesory NVIDIA GPU, určené na trénovaní neuronek, kde nám trénovaní modelu zabralo tak 20 minut než hitlo peak. A to vše v rámci Google free tieru.

Z toho, že jsme byli schopni během 48 hodin hrubého času (tj. včetně spánku, prezentací, nastalých komplikací a dalších věcí) natrénovat s náklady pod 1 000 Kč na výpočetní výkon takto silný model vyplývá, že je minimálně v oboru včasné diagnostiky chronického renálního selhání mnoho prostoru k aplikaci strojového učení.

Jen u tohoto onemocnění může využití dat výrazně zlepšit veřejné zdraví (tato diagnóza se týká podle The Lancet každého desátého Evropana) a mohlo by uspořit stovky milionů korun, ne-li jednotky či desítky miliard. Protože pokud je nemoc odhalena a léčena včas, lze předejít nákladné a komplikované léčbě, jako dialýza nebo transplantace ledvin.

Hackathony bývají ideální čas, kdy se seznámíte jako tým a je možné si vyzkoušet práci pod tlakem, otestovat si své zkušenosti i ochotu spolupracovat. Ať už jste zkušený programátor nebo technologický nováček, hackathony nabízejí jedinečnou příležitost dostat se k neočekávaným datům, otestovat své dovednosti a zjistit, čeho jste schopni.

Přečtěte si některý z našich dalších článků