Login

***mikikg*** · (This post was last modified: 12-28-2014, 11:54 AM by mikikg.)

Ja sam radio sa velikom kolicinom fajlova, oko 4TB koje sam trebao da "sazvacem" ali su to bili fixni (Apache) log fajlovi, nisu bili "zivi" u smislu da se radi tail -f fora. Pojedini fajlovi su bili veliki oko 200 - 600MB.
Tu sam primenio citanje po chunk-ovima, pomerao sam file pointer pa sam citao recimo 0-10MB i odradim parsiranje, pa 10-20MB i tako redom. Naravno ne moze se ucitati ceo fajl u memoriju a i da moze to bude sve uzasno sporo onda.

Trebas razmisliti malo detaljnije oko te problematike jer "pulling" varijanta (stalno proveravas da li nesto ima novo) nije bas najsrecnije resenje, moras nekako doci do event-driven varijante, da se nekakva funkcija aktivira bas kad nastane promena.

Ja za tim nisam imao potrebe pa se nisam mnogo bavio, ali sigurno ima neka sistemska varijanta za tako nesto …

Vidi da li NodeJS ima nesto u ponudi oko toga …

BTW: Ne znam sta ti je rezultat parsiranja i gde to smestas, ali u mom slucaju sam imao oko 10 milijardi redova i to nije moglo ni u ludilu da stane u MySQL! Morao sam da jurim neke druge engine, Casandra, CoachDB, InfiniDB, Hadoop/Xbase, tj specificne analiticke baze podataka ...

Login
Username:
Password:	Lost Password?
	Remember me