SecureNET Systems
    Sari la continutul principal

    Feature / AI / PRIVATE INFRASTRUCTURE

    Infrastructura AI Privata si RAG - LLM Self-hosted, Vector DB, Integrare AD/SharePoint

    Infrastructura AI privata: RAG peste documente interne, LLM self-hosted (Llama 3, Mistral, Qwen), vector DB Qdrant/pgvector, integrare AD, Exchange, SharePoint. Datele nu parasesc reteaua clientului - by-design pentru NIS2 si GDPR.

    By Mihai Gavrilas · 8 min read · Updated 2026-02-06
    Back · Servicii
    ~8 min remaining

    Cele mai multe companii romanesti care vor sa foloseasca AI peste documentele lor interne se opresc in fata aceleiasi intrebari: cum trimit contractele, procedurile sau corespondenta clientilor catre ChatGPT fara sa incalc GDPR sau cerintele NIS2? Raspunsul nu este sa renunti la AI - este sa muti AI-ul in interiorul perimetrului tau de date.

    Construim infrastructura AI privata: RAG peste documentele clientului, LLM-uri open weights (Llama 3, Mistral, Qwen, DeepSeek) rulate self-hosted cu Ollama sau vLLM, vector DB Qdrant sau pgvector si integrare directa cu Active Directory, Exchange si SharePoint. Daca un Azure tenant privat este acceptabil, integram Azure OpenAI cu retentie zero. Diferenta fata de serviciul nostru de Agenti AI si Automatizare este simpla: acolo agentul executa actiuni in sisteme externe folosind API-uri LLM publice; aici scopul este sa raspunda pe baza documentelor interne, fara ca acele documente sa paraseasca reteaua. Practica de baza in AI/Azure este confirmata de certificarea Microsoft Certified: Azure AI Fundamentals a fondatorului (vezi /despre-noi#certificari); peste 30 de ani de experienta senior-led in integrari Microsoft (Active Directory, Exchange, SharePoint, SQL Server) aduc fundatia tehnica pentru aceste deployment-uri.

    AI peste documentele tale interne nu inseamna sa le trimiti pe internet. Inseamna sa aduci modelul in reteaua ta.
    — Mihai Gavrilas · Founder, SecureNET Systems

    Ce include

    • RAG peste documente interne: PDF, Word, Excel, PowerPoint, email .pst/.eml, intranet, baze de cunostinte
    • LLM self-hosted cu Ollama sau vLLM: Llama 3, Mistral, Qwen, Phi-3, DeepSeek (7B pana la 70B+)
    • Vector databases self-hosted: Qdrant (preferat), pgvector pe PostgreSQL existent, Weaviate, ChromaDB
    • Embedding-uri locale cu suport limba romana: bge-m3, multilingual-e5, e5-mistral
    • Integrare cu Active Directory si Entra ID pentru SSO si filtrare per permisiuni utilizator
    • Conectori pentru Microsoft Exchange, SharePoint on-prem si Online, fileshare SMB, SQL Server, PostgreSQL
    • Guardrails si filtre PII (Microsoft Presidio, LLM Guard) inainte ca datele sa ajunga la model
    • Audit log complet al interogarilor, surselor citate si raspunsurilor, retentie configurabila pentru NIS2
    • Deployment on-premise pe Hyper-V sau Proxmox, sau in Azure tenant privat (Azure OpenAI, Azure AI Foundry)
    • Sizing hardware: CPU-only pentru modele 7-13B cuantizate, GPU NVIDIA (RTX 4090, L40S, H100) pentru 70B+
    • Evaluation harness cu seturi de teste in limba romana pentru detectarea regresiilor la fiecare update

    Beneficii pentru companie

    1. Datele nu parasesc reteaua clientului - by-design pentru entitati NIS2 esentiale, medical si financiar
    2. Conformitate GDPR fara DPA separat cu furnizor LLM extern
    3. Cost predictibil: CapEx hardware plus electricitate, fara surprize la facturarea token-urilor API
    4. Control complet pe model, prompt-uri si versiuni - fara breaking changes impuse de furnizor
    5. Integrare nativa cu stack-ul Microsoft existent (AD, Exchange, SharePoint, SQL Server)
    6. Citari cu sursa pentru fiecare raspuns - utilizatorul vede din ce document a venit informatia

    Intrebari frecvente

    Ce este RAG si de ce nu folosesc direct un LLM standard ca ChatGPT?
    RAG (Retrieval Augmented Generation) inseamna ca, inainte ca LLM-ul sa raspunda la o intrebare, un sistem de cautare semantica scoate din baza de cunostinte a clientului fragmentele relevante de text si le ataseaza la prompt. LLM-ul raspunde pe baza acelor fragmente, nu pe baza memoriei lui de antrenament. Avantaje fata de un LLM standard: (1) raspunde despre documentele tale specifice (contracte, proceduri interne, istoric proiecte), pe care un model public nu le-a vazut niciodata; (2) reduce halucinatiile pentru ca raspunsul e ancorat in surse reale; (3) poate cita exact din ce document a venit informatia; (4) actualizarea cunostintelor inseamna doar re-ingerare a documentelor, nu re-antrenare a modelului. RAG este, in 2026, arhitectura standard pentru orice deploy de AI peste documentele unei companii.
    De ce LLM self-hosted in loc de Azure OpenAI sau Anthropic Claude?
    Pentru majoritatea companiilor, Azure OpenAI in tenant privat cu retentie zero este alegerea corecta si o recomandam ca optiune implicita. Self-hosted devine necesar in trei scenarii: (1) entitati NIS2 esentiale sau date medicale unde politica interna sau autoritatea de reglementare nu accepta nicio iesire a datelor catre furnizor extern, oricat de bine reglementat; (2) volume foarte mari de interogari unde costul per token devine prohibitiv comparativ cu hardware amortizat in 18-24 luni; (3) cerinte de izolare totala fata de internet (air-gapped). In 2026, modelele open weights (Llama 3.1 70B, Qwen 2.5, Mistral Large, DeepSeek V3) sunt suficient de bune pentru majoritatea task-urilor enterprise non-creative. Lucram onest: daca Azure OpenAI rezolva cazul, asta recomandam - nu vindem complicatie inutila.
    Functioneaza bine pe documente in limba romana?
    Da, dar cu alegerea corecta a modelelor. Pentru embedding-uri (etapa de cautare semantica) folosim bge-m3 sau multilingual-e5 - ambele trateaza explicit limba romana si dau rezultate aproape de paritate cu engleza pe documente tehnice si juridice. Pentru generare (etapa de raspuns) folosim modele de 13B+ care au vazut destul text romanesc in antrenament: Llama 3.1 70B, Qwen 2.5, Mistral Large; modelele sub 7B sunt slabe pe romana cu diacritice si terminologie tehnica specifica. La PoC testam pe documentele reale ale clientului si masuram acuratetea inainte sa mergem in productie - daca un model nu e suficient, schimbam fara cost suplimentar in cadrul PoC-ului.
    Ce hardware imi trebuie pentru un LLM self-hosted util?
    Depinde de model si volum. Pentru un model 7-13B care raspunde unui departament de 20-50 oameni: server cu GPU NVIDIA RTX 4090 24GB (~2.000 EUR) sau dual RTX 4090. Pentru modele 70B la calitate apropiata de GPT-4: GPU L40S 48GB sau H100 80GB (~25.000-30.000 EUR), sau cluster cu 2-4 GPU consumer cu tensor parallelism. CPU-only este posibil pentru modele 7B cuantizate (Q4_K_M) cu performanta limitata - util pentru PoC dar nu pentru productie cu mai mult de cativa utilizatori concurenti. Vector DB-ul (Qdrant sau pgvector) ruleaza confortabil pe CPU pe orice server modern cu 32-64 GB RAM. La PoC livram un sizing concret bazat pe volumul real al clientului si pe modelele validate.
    Cum se integreaza cu Active Directory si SharePoint existente?
    Pentru autentificare si autorizare folosim SSO prin Entra ID sau AD FS, cu group-based access control: utilizatorul vede in raspunsuri doar documentele la care are deja permisiuni in SharePoint, fileshare sau aplicatie. Asta inseamna ca un agent de vanzari nu poate cere prin chat informatii din contracte HR pe care nu le poate citi nici manual. Pentru ingerare folosim Microsoft Graph API pentru SharePoint Online si OneDrive, conectori SMB pentru fileshare on-prem si MAPI pentru cutii postale Exchange. Re-indexarea incrementala se face programat (zilnic sau orar) cu detectarea modificarilor prin change feed - documentele noi sau modificate intra in vector DB fara reprocesarea intregii baze. Toate accesele si query-urile sunt logate centralizat pentru audit NIS2.
    Cat dureaza si cat costa un PoC?
    PoC tipic: 3-5 saptamani, 2.500-7.000 EUR fixed price. Acopera o singura sursa de date (de exemplu un fileshare cu proceduri interne sau o biblioteca SharePoint) si un singur caz de utilizare (de exemplu asistent pentru ofertare cu acces la oferte istorice). Livrari: arhitectura documentata, instanta functionala accesibila pentru o echipa pilot, evaluation report cu acuratete masurata pe 50-100 intrebari reale, recomandare clara pentru pasul urmator (extindere sau abandon onest daca cifrele nu sustin investitia). Daca PoC-ul valideaza utilitatea, Pilot in productie dureaza 6-10 saptamani in plus si costa 5.000-15.000 EUR. Pentru productie completa cu hardware si licente, range-ul orientativ este vizibil pe pagina; cifra exacta vine dupa sizing.
    Contact prin WhatsApp