Login

vsavic · (This post was last modified: 12-14-2016, 05:02 AM by vsavic.)

Cao drugari, jel koristio neko mozda neuronske mreze za prepoznavanje tipografskih paterna i formata, ili bilo koje drugo "pametno" resenje?

Sta je konkretni problem, imam gomilu sajtova i sad oni su bukvalno details stranice nekih proizvoda gde izmedju ostalog se nalazi i cena. Ono sto meni treba je kako pametno prepoznati taj HTML element koji sadrzi informaiju o ceni.

Ja sam implementirao neko svoje resenje kojim sam pokrio nekih 90% i mozda malo vise od svih sajtova sto sam ja testirao ali mi je problem sto sa trenutnim mojim algoritmom ja one koje ne nalazim necu nikad ni da pronadjem vremenom, jer moj algoritam nije zasnovan na Ai-u, i nece nista da "nauci" vremenom.

Do sad nisam nikad radio sa neuronskim mrezama, tako da nisam siguran ni da li su adekvatno resenje, ali eto, cisto razmisljam na glas...

Diffbot je nesto najslicnije onome sto sam napravio samo bez Ai-a, medjutim testirao sam i ovo njihovo i zanimljivo da moje dummy resenje radi bolje na skoro svim sajtovima koje sam testirao Smile

Svaki savet dobrodosao. Smile

***vojinilic*** · 12-14-2016, 08:57 AM

Ne znam da li su ti neuronske mreze uopste dobro resenje za to. Kod njih je glavni problem sto ti treba veliki obucavajuci skup kako bi mogla nesto da uradi. Pored obucavajuceg skupa, potreban je test skup, kako bi se testirala obucena mreza. Neuronska mreza nece nista da nauci vremenom. Kod nje mora uvek da se ponovo aktivira proces obuke (doobuke), kako bi mogla dinamicki da siri svoje znanje.
Nesto novije od ANN su SVM (Support Vector Machines), ali i kod njih je slicna situacija. Nemam predstavu sta bi moglo da se koristi za ovo.

Pozdrav

Ubledeli · 12-14-2016, 10:35 AM

moze normalno, ali je zaista nephodan trening set, koji naravno mozes da podelis na trening optimizaciju i test
ne mogu sve neuralne mreze da uce iz novonastalog iskustva, samo odredjene topologije
neke su skuplje za treniranje a skoro besplatne za izvrsavanje(idealno za telefone)
druge se pak jeftinije treniraju ali se kasnije trose resursi za upotrebu algoritma(ovakve nisu pogodne za telefone i slabije racunare)
mogu se naci poluistrenirane mreze, pa samo dotreniras nekoliko poslednjih slojeva
i na kraju daju izvanredne rezultate, ali ako si vec dosao do preko 90% sa resenjem koje imas
razmisli koliko ti se isplati jurnjava za jos par posto

ako ti se igra za AI-jem deluje kao zanimljiv projekat za probati
baci oko na cs231n s obzirom da se bazira upravo na prepoznavanju objekata na slikama

***mikikg*** · (This post was last modified: 12-14-2016, 11:16 AM by mikikg.)

Za takve potrebe, dakle HTML i "nesto" da se nadje u njemu, uglavnom se koristi Regular Expresson (RegEx).

Tu je neophodno raditi nekoliko faza pred-procesiranja tako sto se prvo "odsece" shiri deo HTML code-a koji nas interesuje, pa se radi filtriranje nepotrebnih elemenata i karaktera (space-ovi, novi redovi i slicno) pa se na kraju u tom uzem delu radi RegExp koji izvlaci konkretnu informaciju.

Radio sam jedno vreme u firmi koja se bavi translacijom (internacionalizacijom) sadrzaja WEB stranica, i kao sto ti kazes njima je isto nekih 85-90% zavrsavao posao RegExp sa raznim pre/post procesiranjem dok je za onih ostalih 10-15% koje ne uspe program da izvuce su imali cca 50 ljudi koju su to manuelno radili! U pitanju je jedna od najvecih firmi u toj bransi ciji su klienti od CNN pa do recimo Silicon Laboratories, imaju armiju radnika sirom sveta i nisu mogli to drugacije da naprave, moralo je rucno da se rade neke stvari jer se zahtevala apsolutna tacnost tih prevoda a preduslov je da se tacno "uhvati" podatak (recenice u konkretnom slucaju) koje su dalje prosledjivane timovima koji to konkretno prevode na druge jezike ...

vsavic · 12-14-2016, 01:45 PM

(12-14-2016, 10:53 AM)mikikg Wrote: Za takve potrebe, dakle HTML i "nesto" da se nadje u njemu, uglavnom se koristi Regular Expresson (RegEx).

Tu je neophodno raditi nekoliko faza pred-procesiranja tako sto se prvo "odsece" shiri deo HTML code-a koji nas interesuje, pa se radi filtriranje nepotrebnih elemenata i karaktera (space-ovi, novi redovi i slicno) pa se na kraju u tom uzem delu radi RegExp koji izvlaci konkretnu informaciju.

Radio sam jedno vreme u firmi koja se bavi translacijom (internacionalizacijom) sadrzaja WEB stranica, i kao sto ti kazes njima je isto nekih 85-90% zavrsavao posao RegExp sa raznim pre/post procesiranjem dok je za onih ostalih 10-15% koje ne uspe program da izvuce su imali cca 50 ljudi koju su to manuelno radili! U pitanju je jedna od najvecih firmi u toj bransi ciji su klienti od CNN pa do recimo Silicon Laboratories, imaju armiju radnika sirom sveta i nisu mogli to drugacije da naprave, moralo je rucno da se rade neke stvari jer se zahtevala apsolutna tacnost tih prevoda a preduslov je da se tacno "uhvati" podatak (recenice u konkretnom slucaju) koje su dalje prosledjivane timovima koji to konkretno prevode na druge jezike ...

Tako sam i ja radio, ciscenje, hvatanje regex-om (poduzom kobasicom regex-a) Smile

, pa neko dodatno filtriranje kasnije ako ima vise poklapanja i sl.

Gledao sam sinoc opet malo https://github.com/diffbot i fora sto za thumbnails, za titlove i opise radi veoma lepo, ali za cene mnoooogo losije, a koliko sam nasao on bi trebao da je jedan od boljih alata ove vrste.

vsavic · 12-14-2016, 01:46 PM

(12-14-2016, 10:35 AM)Ubledeli Wrote: ako ti se igra za AI-jem deluje kao zanimljiv projekat za probati
baci oko na cs231n s obzirom da se bazira upravo na prepoznavanju objekata na slikama

Hvala @Ubledeli, bacicu pogled.

1van · 12-14-2016, 03:12 PM

Pogledaj i https://scrapy.org/ (Python)

vsavic · 12-14-2016, 05:46 PM

(12-14-2016, 03:12 PM)1van Wrote: Pogledaj i https://scrapy.org/ (Python)

Zdravo Ivane, znam za scrapy, gledao sam ga i ranije i koristio za neke druge stvari, ultra lak za koriscenje i radi veoma lepo, medjutim ne vidim da ima neku od osobina za "ucenje" ili sam propustio nesto...ili si ovo mislio kao neku drugu (fiksnu) varijantu?

1van · (This post was last modified: 12-14-2016, 06:21 PM by 1van.)

@vsavic, tako je nisi nista propustio Smile

Login
Username:
Password:	Lost Password?
	Remember me