Perché Ubuntu Server e non Debian o CentOS per deploy AI on-premise?

Ubuntu LTS offre 5 anni di supporto, driver NVIDIA ufficiali nei repository e la più ampia compatibilità con librerie ML come PyTorch e CUDA. I nostri clienti IT lo conoscono già.

Quante risorse servono per un server RAG Enterprise on-premise?

Minimo 32 GB RAM, 8 core CPU e 500 GB SSD NVMe per fino a 50.000 documenti. Oltre 200.000 documenti raccomandiamo 64 GB RAM e una GPU NVIDIA T4.

Linux Server: Il Fondamento di Ogni Deploy On-Premise di IA - Software & AI

Torna al Blog

Software & AI7 febbraio 2026

Linux Server: Il Fondamento di Ogni Deploy On-Premise di IA

linux server on-premise deploy ubuntu systemd

Ogni istanza di RAG Enterprise e CRM81 che installiamo gira su Ubuntu Server. Non è una scelta casuale: Linux ci dà il controllo totale sulle risorse, la sicurezza e l'affidabilità che i clienti enterprise pretendono. Ecco come configuriamo e blindiamo i nostri server.

Linux Server: Il Fondamento di Ogni Deploy On-Premise di IA - Software & AI | i3k

Ubuntu Server e Systemd: Il Cuore dei Nostri Deploy

Quando un cliente enterprise firma il contratto per RAG Enterprise on-premise, la prima cosa che facciamo è preparare un server Ubuntu 22.04 LTS. La scelta di LTS non è casuale — ci garantisce 5 anni di aggiornamenti di sicurezza senza dover toccare le dipendenze di sistema. Abbiamo avuto un cliente che ha tenuto la stessa installazione per 3 anni senza un singolo problema legato al sistema operativo. Ogni componente del nostro stack gira come unità systemd: il backend FastAPI, il database Qdrant, il servizio di embedding, il worker per l'indicizzazione dei documenti. Systemd ci dà restart automatico in caso di crash (Restart=on-failure con RestartSec=5s), gestione dei log centralizzata con journald e dipendenze tra servizi (After=qdrant.service). Se Qdrant non è pronto, FastAPI non parte. Usiamo unità systemd con sandboxing avanzato: ProtectSystem=strict, PrivateTmp=true, NoNewPrivileges=true. Ogni servizio gira con il minimo di permessi necessari. Il servizio FastAPI non può scrivere fuori dalla sua directory dati, il worker di indicizzazione non può accedere alla rete. È difesa in profondità a livello di processo.

Hardening: UFW, Fail2ban e Accesso SSH

La sicurezza di un server on-premise parte dal primo minuto. Appena il sistema operativo è installato, il nostro playbook Ansible applica un hardening completo. Il firewall UFW viene configurato con una politica deny-all in ingresso: apriamo solo le porte 22 (SSH), 443 (HTTPS tramite Nginx) e 80 (redirect a HTTPS). Nessuna porta del database, nessuna porta di Qdrant, nessuna porta del backend è esposta direttamente. Tutto passa per il reverse proxy. Fail2ban monitora i log di SSH e di Nginx. Dopo 3 tentativi falliti in 10 minuti, l'IP viene bannato per 24 ore. Per SSH abbiamo una policy ancora più restrittiva: autenticazione solo via chiave RSA/Ed25519, password login disabilitato, root login disabilitato, e accesso limitato a un gruppo dedicato (AllowGroups i3k-deploy). In 2 anni di deploy on-premise, non abbiamo mai avuto una violazione. Gestiamo anche gli aggiornamenti di sicurezza automatici con unattended-upgrades, configurato per applicare solo patch di sicurezza senza toccare i pacchetti applicativi. Ogni settimana un cron job ci invia un report sullo stato di sicurezza del server. Se un CVE critico viene pubblicato per un pacchetto installato, lo sappiamo entro 24 ore.

Monitoraggio Risorse e Gestione delle Performance

Un sistema RAG Enterprise su un server on-premise consuma risorse in modo molto diverso da un'applicazione web tradizionale. L'embedding dei documenti è CPU-intensive e può saturare tutti i core per ore durante l'indicizzazione iniziale. La ricerca vettoriale su Qdrant richiede RAM proporzionale alla dimensione dell'indice. Il modello LLM, se locale, ha bisogno di GPU dedicata. Per questo monitoriamo tutto con una combinazione di strumenti Linux nativi e Prometheus. Abbiamo script systemd-timer che ogni 30 secondi raccolgono metriche su CPU, RAM, I/O disco, e temperatura GPU. Se la RAM supera l'85% o la temperatura GPU supera i 82°C, riceviamo un alert su Slack. Abbiamo salvato almeno due server da OOM killer intervenendo proattivamente. Il dimensionamento dei server è un'arte che abbiamo affinato con l'esperienza. Per un'installazione RAG Enterprise con fino a 50.000 documenti, raccomandiamo minimo 32 GB di RAM, 8 core, e 500 GB SSD NVMe. Per installazioni più grandi (oltre 200.000 documenti) serviamo 64 GB di RAM e consideriamo una GPU NVIDIA T4 per l'embedding locale. Queste specifiche non sono teoria — sono il risultato di 20+ deploy reali.

Servizi Correlati

Scopri come applichiamo queste tecnologie nei nostri progetti enterprise.

Software Enterprise AI Integrazione AI Soluzioni On-Premise Realizzazione Software

Interessato?

Contattaci per ricevere un preventivo personalizzato.

Tutti gli articoli

Securvita S.r.l. — i3k.eu