Intrebari Frecvente despre Servicii IT - SecureNET Systems

Question 1

Ce este RAG si de ce nu folosesc direct un LLM standard ca ChatGPT?

Accepted Answer

RAG (Retrieval Augmented Generation) inseamna ca, inainte ca LLM-ul sa raspunda la o intrebare, un sistem de cautare semantica scoate din baza de cunostinte a clientului fragmentele relevante de text si le ataseaza la prompt. LLM-ul raspunde pe baza acelor fragmente, nu pe baza memoriei lui de antrenament. Avantaje fata de un LLM standard: (1) raspunde despre documentele tale specifice (contracte, proceduri interne, istoric proiecte), pe care un model public nu le-a vazut niciodata; (2) reduce halucinatiile pentru ca raspunsul e ancorat in surse reale; (3) poate cita exact din ce document a venit informatia; (4) actualizarea cunostintelor inseamna doar re-ingerare a documentelor, nu re-antrenare a modelului. RAG este, in 2026, arhitectura standard pentru orice deploy de AI peste documentele unei companii.

Question 2

De ce LLM self-hosted in loc de Azure OpenAI sau Anthropic Claude?

Accepted Answer

Pentru majoritatea companiilor, Azure OpenAI in tenant privat cu retentie zero este alegerea corecta si o recomandam ca optiune implicita. Self-hosted devine necesar in trei scenarii: (1) entitati NIS2 esentiale sau date medicale unde politica interna sau autoritatea de reglementare nu accepta nicio iesire a datelor catre furnizor extern, oricat de bine reglementat; (2) volume foarte mari de interogari unde costul per token devine prohibitiv comparativ cu hardware amortizat in 18-24 luni; (3) cerinte de izolare totala fata de internet (air-gapped). In 2026, modelele open weights (Llama 3.1 70B, Qwen 2.5, Mistral Large, DeepSeek V3) sunt suficient de bune pentru majoritatea task-urilor enterprise non-creative. Lucram onest: daca Azure OpenAI rezolva cazul, asta recomandam - nu vindem complicatie inutila.

Question 3

Functioneaza bine pe documente in limba romana?

Accepted Answer

Da, dar cu alegerea corecta a modelelor. Pentru embedding-uri (etapa de cautare semantica) folosim bge-m3 sau multilingual-e5 - ambele trateaza explicit limba romana si dau rezultate aproape de paritate cu engleza pe documente tehnice si juridice. Pentru generare (etapa de raspuns) folosim modele de 13B+ care au vazut destul text romanesc in antrenament: Llama 3.1 70B, Qwen 2.5, Mistral Large; modelele sub 7B sunt slabe pe romana cu diacritice si terminologie tehnica specifica. La PoC testam pe documentele reale ale clientului si masuram acuratetea inainte sa mergem in productie - daca un model nu e suficient, schimbam fara cost suplimentar in cadrul PoC-ului.

Question 4

Ce hardware imi trebuie pentru un LLM self-hosted util?

Accepted Answer

Depinde de model si volum. Pentru un model 7-13B care raspunde unui departament de 20-50 oameni: server cu GPU NVIDIA RTX 4090 24GB (~2.000 EUR) sau dual RTX 4090. Pentru modele 70B la calitate apropiata de GPT-4: GPU L40S 48GB sau H100 80GB (~25.000-30.000 EUR), sau cluster cu 2-4 GPU consumer cu tensor parallelism. CPU-only este posibil pentru modele 7B cuantizate (Q4_K_M) cu performanta limitata - util pentru PoC dar nu pentru productie cu mai mult de cativa utilizatori concurenti. Vector DB-ul (Qdrant sau pgvector) ruleaza confortabil pe CPU pe orice server modern cu 32-64 GB RAM. La PoC livram un sizing concret bazat pe volumul real al clientului si pe modelele validate.

Question 5

Cum se integreaza cu Active Directory si SharePoint existente?

Accepted Answer

Pentru autentificare si autorizare folosim SSO prin Entra ID sau AD FS, cu group-based access control: utilizatorul vede in raspunsuri doar documentele la care are deja permisiuni in SharePoint, fileshare sau aplicatie. Asta inseamna ca un agent de vanzari nu poate cere prin chat informatii din contracte HR pe care nu le poate citi nici manual. Pentru ingerare folosim Microsoft Graph API pentru SharePoint Online si OneDrive, conectori SMB pentru fileshare on-prem si MAPI pentru cutii postale Exchange. Re-indexarea incrementala se face programat (zilnic sau orar) cu detectarea modificarilor prin change feed - documentele noi sau modificate intra in vector DB fara reprocesarea intregii baze. Toate accesele si query-urile sunt logate centralizat pentru audit NIS2.

Question 6

Cat dureaza si cat costa un PoC?

Accepted Answer

PoC tipic: 3-5 saptamani, 2.500-7.000 EUR fixed price. Acopera o singura sursa de date (de exemplu un fileshare cu proceduri interne sau o biblioteca SharePoint) si un singur caz de utilizare (de exemplu asistent pentru ofertare cu acces la oferte istorice). Livrari: arhitectura documentata, instanta functionala accesibila pentru o echipa pilot, evaluation report cu acuratete masurata pe 50-100 intrebari reale, recomandare clara pentru pasul urmator (extindere sau abandon onest daca cifrele nu sustin investitia). Daca PoC-ul valideaza utilitatea, Pilot in productie dureaza 6-10 saptamani in plus si costa 5.000-15.000 EUR. Pentru productie completa cu hardware si licente, range-ul orientativ este vizibil pe pagina; cifra exacta vine dupa sizing.

Infrastructura AI Privata si RAG - LLM Self-hosted, Vector DB, Integrare AD/SharePoint

Ce include

Beneficii pentru companie