Kako pokrenuti AI‑modele offline | LLAMA | LMstudio

Kako pokrenuti AI‑modele offline | LLAMA | LMstudio | Pinokio - Printable Version

+- DIY Electronic projects (https://forum.yu3ma.net)
+-- Forum: Programiranje (https://forum.yu3ma.net/forumdisplay.php?fid=58)
+--- Forum: Desktop (https://forum.yu3ma.net/forumdisplay.php?fid=60)
+--- Thread: Kako pokrenuti AI‑modele offline | LLAMA | LMstudio | Pinokio (/showthread.php?tid=3055)

Kako pokrenuti AI‑modele offline | LLAMA | LMstudio | Pinokio - mikikg - 10-04-2025

Pozdrav svima!

Danas ću da vam pokažem kako možete da iskoristite moć svog računara sa novijom GPU (npr. NVIDIA RTX 5060 Ti) i da radite sa različitim AI modelima bez interneta.

Ne morate da plaćate cloud servise, a uz to dobijate veću privatnost i brže reakcije.

Zašto je offline pokretanje korisno

Privatnost - Svi podaci ostaju na vašem hardveru – nema slanja podataka serverima treće strane.
Brzina Lokalna komunikacija (GPU ↔ CPU) je mnogo brža od mrežnih zahteva.
Nema dodatne naknade - Jednom kada ste instalirali modele, ne plaćate nikakve mesečne takse.
Kontrola nad modelom - Možete da menjate konfiguracije, fine‑tune-ujete ili dodajete nove funkcionalnosti po vašoj želji.

Šta vam je potrebno

RTX 5060 Ti (ili bilo koji GPU sa barem 8 GB VRAM).
Llama i Stable Diffusion XL mogu da rade na 16 GB‑u, ali će biti sporiji ili će se koristiti CPU.
Windows / Linux/macOS, 16+GB RAM, 50+GB HD
Python (verzija 3.10+), ostale novije verzije nisu kompatibilne ili imaju probleme

CUDA Toolkit (ako želite maksimalnu GPU brzinu).
Najnoviji driver i CUDA 11.x ili 12.x su dovoljni za RTX 5060 Ti.
Neophodni Python paketi – instalirajte ih kroz pip.

Alati

Svaki od ovih alata je dizajniran da radi lokalno (bez klauza o “cloud” pristupu), ali zahteva odgovarajuću konfiguraciju hardvera, biblioteka i okruženja. U nastavku su kratki opisi i osnovna svrha.

LLaMA – Large Language Model Meta AI
Open‑source LLM razvijen od strane Meta (Facebook). Dostupan u verzijama 7 B, 13 B, 30 B i 65 B parametara.
Generisanje teksta, chat botovi, automatsko prevođenje, analitika podataka.
Najmanje zahteva u odnosu na velike modele; 7‑13 B varijante mogu raditi na RTX 5060 Ti bez overclockinga (≈16 GB VRAM).

LMStudio – Language Model Studio
GUI aplikacija koja omogućava jednostavno testiranje, fine‑tuning i vizualizaciju bilo kojeg LLM-a (LLaMA, GPT‑NeoX, etc.).
Brzo prototipiranje, analiza performansi, integracija u sopstvene projekte.
Potpuno lokalno, ne zahteva kod; podržava CUDA 12 i GPU akceleraciju

Pinokio AI
Lokalni LLM baziran na opt-6.7b arhitekturi, optimizovan za manje memorijske uređaje (12 GB VRAM).
Chat botovi, generisanje koda, asistent u razvoju softvera.
Brža inferencija od većih modela; odličan balans između performansi i resursa na RTX 5060 Ti.

Stable Diffusion XL – Generisanje slika
Najnovija verzija diffusion modela, sa 1.0B parametara (SD‑XL). Generisanje visokokvalitetnih slika iz teksta, stil transfer, retuširanje.
Omogućava kreiranje profesionalno izgleda slika na PC‑u bez potrebe za cloud‑servisima; GPU akceleracija je ključna.

Zaključak
LLaMA, LMStudio, Pinokio AI i Stable Diffusion XL su izvanredni alati za lokalno rad sa AI modelima na RTX 5060 Ti.
Svaki od njih ima specifične prednosti: LLaMA za tekst, LMStudio za GUI prototipove, Pinokio AI za brzinu i manji GPU footprint, SD‑XL za slike visokog kvaliteta.
Sa pravilnom instalacijom i konfiguracijom, sve ove tehnologije mogu da funkcionišu isključivo offline bez dodatnih troškova.

[Image: attachment.php?aid=46312]

RE: Kako pokrenuti AI‑modele offline | LLAMA | LMstudio | Pinokio - mikikg - 10-04-2025

Treba posebna tema za ovo, preview verzija samo za clanove foruma (ne deliti dalje), testni internet radio:
http://radio.devsector.net/

Tematski je to jedan kanal/playlista, planira se vise stilova/kanala ...

RE: Kako pokrenuti AI‑modele offline | LLAMA | LMstudio | Pinokio - mikikg - 10-09-2025

Quote:Uglavnom ukratko, bar kod ChatGPT sve je to do "rezervisane memorije", koliko je korisniku dozvoljeno da u nekom FREE modu postavi pitanje tj tekst tj "words", kao cirkularni buffer dok ima mesta on pamti sve to recimo do 4000 words, posle toga one starije infromacije izbacuje i za njega vise ne postoje i tako vrti u krug sa tom kolicinom rezervisane memorije.

U "registrovanom" rezimu za nalog (i dalje je besplatno sve samo mora da se ima nalog, Google, Github i slicno) je povecan taj limit na recio 20k words, ili recimo 200k words i onda vec ima mesta da mu se dobro objasni i najbitnije dostavi neka vezana dokumentacija, source-fajl programa na kome radimo ili PDF DS od neke periferije, i on sve te dokumente pretvara u words koje koristi u modelu za razmisljanje.

U "placenom" rezimu je ostavljen recimo taj 200k limit ali je dodato jos pomocnih alata oko te price.

Dakle, probao sam stvarno razne engine/modele i trenutno ni jedan NE RADI ISPRAVNO sa preko recimo 500 linija coda, bilo kog code-a, HTML, JS, C++, Python, sta god, za njega su to reci i ulazi u limite i tu se odprilike zavrsava karijra tih modela!

To je poznat problem i ko radi sa AI mora da racuna na to, i da ce da prica gluposti, i netacno, i nespravno i svasta! Glupi digitron!
Ljudi se "pale" na AI, kao to je nesto, ma nije to nista, glupo sokocalo koje trosi enorme resurse i struju i jos da im placam za to, jok more, RTX 50xx TI loklano i svi ti modeli rade lokalno, pa onda da osetite stvarno sta je to i kako radi, koliko je zahtevno i sta sve moze ili ne moze, da vidite "halucinacije", dead-loop, prskanje sistema zbog nedostatka memorije ...

Ovo je konkretni lokalni DEV-setup, baziranom na VS Code IDE gde je podesen AI agent da gadja lokalni servis koji se pokrece preko Ollama (Open LLMA) i koji je ucitao neki od modela, evo i spiska modela ovde, cela ekipa je tu, GPT-oss, Qwen (Alibaba) i ostali u raznim varijantama tj velicinama, 0.3, 8, 16 do 600b (bilion - milijardi) parametara:

https://ollama.com/library

[Image: attachment.php?aid=46347]

VScode je solidan IDE i tu je bitna stvar osim sto pokrecemo lokalno modele da postoji integracija ovih AI "kopilota" koji je tu malo bolje integrisan i upucen, jer mu je receno prvo u kom jeziku radimo i sva pravila za njega, ima pristup fajlu na kome se radi, ili se samo selektuje deo code-a na kome se radi ali tako da se "drzi fokus" teme striktno oko tu nekih recimo 10-ak kriticnih linja coda, da ne dira ostalo jer bi on rado to sve pisao ispocetka ako mu se drugacije ne specificira preko ovakvih alata.

[Image: attachment.php?aid=46346]

RE: Kako pokrenuti AI‑modele offline | LLAMA | LMstudio | Pinokio - mikikg - 10-11-2025

RE: Kako pokrenuti AI‑modele offline | LLAMA | LMstudio | Pinokio - mikikg - 10-15-2025

Oko ovoga je nastala cela "frka", NVIDIA krece da prodaje ove kompaktne racunare sa 128GB VRAM za GPU, 200Gb mreznom konekcijom i svasta dodatno nakrcano unatra za skromnih 3999$!

Izgleda da planiraju da budu gori i od Apple i Microsoft zajedno Smile

NVIDIA DGX Spark