Strojno učenje za prepoznavanje karcinoma

0
46

Prvi korak u odabiru odgovarajućeg tretmana za pacijenta s rakom je identificirati specifičnu vrstu karcinoma, uključujući određivanje primarnog mjesta, organa ili dijela tijela gdje rak počinje.

U rijetkim slučajevima, podrijetlo raka nije moguće utvrditi, čak ni opsežnim testiranjem. Iako su ovi karcinomi nepoznatog primarnog oblika obično agresivni, onkolozi ih moraju liječiti neciljanim terapijama, koje često imaju oštru toksičnost i rezultiraju niskim stopama preživljavanja.

Novi pristup dubokog učenja koji su razvili istraživači na Koch institutu za integrativno istraživanje raka na MIT-u i Općoj bolnici Massachusetts (MGH) može pomoći u klasificiranju nedijagnosticiranih karcinoma proučavanjem programa ekspresije gena koji se odnose na rani razvoj i diferencijaciju stanica.

"Ponekad možete primijeniti sve alate koje patolozi mogu ponuditi, a i dalje ostajete bez odgovora", kaže Salil Garg, klinički istraživač na Institutu Koch i patolog na MGH. "Alati za strojno učenje poput ovog mogli bi osnažiti onkologe da izaberu učinkovitije tretmane i daju više smjernica svojim pacijentima."

Garg je viši autor nove studije, objavljene 30. kolovoza u Cancer Discoveryju. Alat umjetne inteligencije sposoban je identificirati vrste raka s visokim stupnjem osjetljivosti i točnosti.

Raščlanjivanje razlika u ekspresiji gena među različitim vrstama tumora idealan je problem za korištenje strojnog učenja. Stanice raka izgledaju i ponašaju se sasvim drugačije od normalnih stanica, djelomično zbog velikih promjena u načinu na koji se izražavaju njihovi geni. Zahvaljujući napretku u profiliranju pojedinačnih stanica i nastojanjima da se katalogiziraju različiti obrasci stanične ekspresije u stanične atlase, postoji obilje podataka koji sadrže tragove kako i odakle su različiti oblici raka nastali.

Međutim, izgradnja modela strojnog učenja koji iskorištava razlike između zdravih i normalnih stanica, te između različitih vrsta raka, u dijagnostički alat je čin balansiranja. Ako je model presložen i uzima u obzir previše značajki ekspresije gena raka, može se činiti da model savršeno uči podatke o obučavanju, ali će posustati kada naiđe na nove podatke. Međutim, pojednostavljivanjem modela sužavanjem broja značajki, model može propustiti vrste informacija koje bi dovele do točne klasifikacije tipova raka.

Kako bi se uspostavila ravnoteža između smanjenja broja značajki, a da se ipak izvuku najrelevantnije informacije, tim je fokusirao model na znakove promijenjenih razvojnih putova u stanicama raka. Kako se embrij razvija i nediferencirane stanice specijaliziraju u različite organe, mnoštvo putova usmjerava kako se stanice dijele, rastu, mijenjaju oblik i migriraju. Kako se tumor razvija, stanice raka gube mnoge specijalizirane osobine zrele stanice. Istodobno, na neki način počinju nalikovati embrionalnim stanicama, jer dobivaju sposobnost proliferacije, transformacije i metastaziranja u nova tkiva. Poznato je da su mnogi programi ekspresije gena koji pokreću embriogenezu ponovno aktivirani ili disregulirani u stanicama raka.

Istraživači su usporedili dva velika atlasa stanica, identificirajući korelacije između tumorskih i embrionalnih stanica: Atlas genoma raka (TCGA), koji sadrži podatke o ekspresiji gena za 33 tipa tumora, i Atlas stanica organogeneze miša (MOCA), koji profilira 56 odvojenih putanja embrionalne stanice dok se razvijaju i diferenciraju.

"Alati za razlučivanje jedne stanice dramatično su promijenili način na koji proučavamo biologiju raka, ali drugo je pitanje kako ovu revoluciju učiniti utjecajnom na pacijente", objašnjava Moiso. "S pojavom atlasa razvojnih stanica, posebno onih koji se fokusiraju na rane faze organogeneze kao što je MOCA, možemo proširiti naše alate izvan histoloških i genomskih informacija i otvoriti vrata novim načinima profiliranja i identificiranja tumora i razvoja novih tretmana."

Rezultirajuća karta korelacija između obrazaca ekspresije razvojnih gena u tumorskim i embrionalnim stanicama zatim je transformirana u model strojnog učenja. Istraživači su raščlanili ekspresiju gena uzoraka tumora iz TCGA na pojedinačne komponente koje odgovaraju određenoj vremenskoj točki u razvojnoj putanji i svakoj od tih komponenti dodijelili matematičku vrijednost. Istraživači su zatim izgradili model strojnog učenja, nazvan Razvojni višeslojni perceptron (D-MLP), koji ocjenjuje tumor za njegove razvojne komponente i potom predviđa njegovo podrijetlo.

Nakon obuke, D-MLP je primijenjen na 52 nova uzorka posebno izazovnih karcinoma nepoznatog primarnog oblika koji se nisu mogli dijagnosticirati korištenjem dostupnih alata. Ovi su slučajevi predstavljali najzahtjevnije viđene u MGH tijekom četverogodišnjeg razdoblja počevši od 2017. Model je klasificirao tumore u četiri kategorije i dao predviđanja i druge informacije koje bi mogle voditi dijagnozu i liječenje pacijenata.

Na primjer, jedan uzorak došao je od pacijentice s poviješću raka dojke koja je pokazivala znakove agresivnog raka u tekućinskim prostorima oko abdomena. Onkolozi u početku nisu mogli pronaći tumorsku masu i nisu mogli klasificirati stanice raka pomoću alata koje su imali u to vrijeme. Međutim, D-MLP je snažno predvidio rak jajnika. Šest mjeseci nakon što se pacijentica prvi put pojavila, u jajniku je konačno pronađena masa koja se pokazala izvorom tumora.

Iako studija predstavlja moćan pristup klasifikaciji tumora, ima neka ograničenja. U budućem radu, istraživači planiraju povećati prediktivnu snagu svog modela uključivanjem drugih vrsta podataka, posebice informacija prikupljenih radiologijom, mikroskopijom i drugim vrstama snimanja tumora.

Original Article