12-14-2016, 01:45 PM
(12-14-2016, 10:53 AM)mikikg Wrote: Za takve potrebe, dakle HTML i "nesto" da se nadje u njemu, uglavnom se koristi Regular Expresson (RegEx).
Tu je neophodno raditi nekoliko faza pred-procesiranja tako sto se prvo "odsece" shiri deo HTML code-a koji nas interesuje, pa se radi filtriranje nepotrebnih elemenata i karaktera (space-ovi, novi redovi i slicno) pa se na kraju u tom uzem delu radi RegExp koji izvlaci konkretnu informaciju.
Radio sam jedno vreme u firmi koja se bavi translacijom (internacionalizacijom) sadrzaja WEB stranica, i kao sto ti kazes njima je isto nekih 85-90% zavrsavao posao RegExp sa raznim pre/post procesiranjem dok je za onih ostalih 10-15% koje ne uspe program da izvuce su imali cca 50 ljudi koju su to manuelno radili! U pitanju je jedna od najvecih firmi u toj bransi ciji su klienti od CNN pa do recimo Silicon Laboratories, imaju armiju radnika sirom sveta i nisu mogli to drugacije da naprave, moralo je rucno da se rade neke stvari jer se zahtevala apsolutna tacnost tih prevoda a preduslov je da se tacno "uhvati" podatak (recenice u konkretnom slucaju) koje su dalje prosledjivane timovima koji to konkretno prevode na druge jezike ...
Tako sam i ja radio, ciscenje, hvatanje regex-om (poduzom kobasicom regex-a) , pa neko dodatno filtriranje kasnije ako ima vise poklapanja i sl.
Gledao sam sinoc opet malo https://github.com/diffbot i fora sto za thumbnails, za titlove i opise radi veoma lepo, ali za cene mnoooogo losije, a koliko sam nasao on bi trebao da je jedan od boljih alata ove vrste.