AI čita milijune stranica teksta na sat s razumijevanjem

OCR ili optičko prepoznavanje znakova odnosi se na softver koji prevodi sliku otisnutog teksta s papira (odnosno učitanu sa skenera) u editabilni tekst, ili prevodi sliku sa znakovima u standardnu kodnu shemu predstavljajući ih u ASCII ili Unicode kodu. Amazon već nekoliko godina razvija svoj softver za prepoznavanje teksta pod nazivom Textract koji je znatno napredniji od drugih OCR programa zahvaljujući umjetnoj inteligenciji i algoritmima strojnog učenja i sada je objavio da je dostupan korisnicim njegovih Web Servisa.

Amazon kaže da Textract može prepoznati formate različitih dokumenata i njihove kontekste, pa će ih savršeno procesirati. Program razlikuje uzima li tekst iz tablica i obrazaca u dokumentima poput računa, porezne dokumentacije, ili stanja na skladištima, a potom generira strukturirane podatke bez potrebe za ljudskim unosom.

Obzirom da drugi OCR programi samo izbacuju zbrkane informacije kada vade tekst iz tablica i obrazaca, potrebna je intervencija ljudi koji će podatke ručno razvrstati što uzima vrijeme i dakako novac.

Textract je u stanju kroz nekoliko sati procesirati milijune stranica, što uvelike smanjuje cijenu procesiranja, a Amazon tvrdi da će za korisnike biti jako jednostavan za korištenje, bez potrebe da imaju imalo iskustva sa strojnim učenjem.

Amazon kaže da je softver u stanju prepoznavati informacije poput imena i brojeva socijalnog osiguranja i prenijeti ih iz tablica u PDF-ovima u lako pretražive proračunske tablice.

Nova usluga je za sada dostupna samo na engleskom jeziku i to samo u Irskoj i nekim dijelovima SAD-a, no Amazon najavljuje širenje tijekom iduće godine.

Više informacija potražite na ovoj poveznici.

Original Article