DPControl ha utilizzato il server Lenovo ThinkSystem SR670 ad alte prestazioni con GPU NVIDIA A100 Tensor Core per istruire le reti neurali alla visione artificiale con velocità prestazionale 28 volte maggiore rispetto alla precedente infrastruttura.
Fondata nel 2002 e con sede a Salerno in Italia, DPControl (DPC) è specializzata in visione artificiale, reti neurali, intelligenza artificiale e telecamere smart. Grazie a iniziative di ricerca e sviluppo condotte in house, DPC offre sistemi hardware e software personalizzati ad alte prestazioni, sensori di imaging e multimodali per un’ampia gamma di utilizzi, tra i quali IoT industriale, automazione dei processi, robotica e droni, sicurezza e biometria, e molti altri ambiti di applicazione.
L’offerta di DPC si basa sulla sua capacità di estrarre dati rilevanti a partire da grandi volumi di immagini fisse e video in modo rapido e a costi ridotti. Per migliorare il proprio portfolio di prodotti, l’azienda è costantemente alla ricerca di nuove tecniche di elaborazione delle immagini per elevare le proprie competenze e poter offrire servizi innovativi a valore aggiunto.
Istruire le reti neurali alla visione artificiale
Portando all’edge i carichi di lavoro della visione artificiale si creano preziose opportunità per sviluppare nuove soluzioni per un ampio spettro di comparti industriali. Per sfruttare al meglio le opportunità offerte dal mercato in evoluzione, DPC punta a consentire a dispositivi piccoli e leggeri di eseguire casi d’uso di visione artificiale particolarmente onerosi.
Mario Vigliar, CEO DPControl, racconta: “Le telecamere edge hanno un potenziale incalcolabile nel retail, ma se da un lato abbiamo di fronte a noi molte nuove opportunità, dall’altra si presentano anche nuove sfide. A differenza dell’elaborazione tradizionale delle immagini in cui i dati vengono inviati a un server ad alte prestazioni per l’analisi, in questo caso l’intero processo di elaborazione dei dati deve essere portato a termine utilizzando l’hardware della telecamera. Per renderlo possibile, abbiamo bisogno di addestrare reti neurali che possano fornire risultati rapidi e accurati utilizzando risorse di calcolo minime“.
L’addestramento di queste reti neurali ha aumentato la complessità dei modelli di deep learning di DPC di 100 volte, facendo crescere allo stesso tempo il consumo di risorse di CPU e GPU. Grazie alla sua partecipazione a NVIDIA Inception, un programma che aiuta le startup a crescere più rapidamente attraverso l’accesso a tecnologie GPU all’avanguardia, DPC stava già utilizzando le GPU avanzate NVIDIA A100 Tensor Core per addestrare le proprie reti neurali.
Tuttavia, le prestazioni di calcolo della infrastruttura esistente basata su workstation stavano creando un significativo collo di bottiglia. “Più velocemente riusciamo ad addestrare le nostre reti neurali, prima possiamo arrivare sul mercato con soluzioni di telecamere perimetrali, ma in quel momento il nostro ambiente workstation non era più in grado di soddisfare i nostri requisiti” ha dichiarato Vigliar. “Gestiamo decine set di dati dai 2TB ai 10TB ognuno, dati che volevamo mantenere in loco. Di conseguenza, abbiamo cercato una piattaforma infrastrutturale efficiente in termini di costi che potesse soddisfare le nostre richieste di prestazioni sempre più esigenti”
Il ruolo di Lenovo per la formazione di reti neurali
Dopo aver valutato diverse soluzioni di data center, DPC ha selezionato il server ad alte prestazioni Lenovo ThinkSystem SR670 con adattatore di rete NVIDIA ConnectX 2x100GbE a bassa latenza come nuova infrastruttura on premise per la formazione delle reti neurali.
Il server ThinkSystem SR670 è certificato NVIDIA, il che significa che è stato convalidato per fornire prestazioni e scalabilità ottimali per una vasta gamma di carichi di lavoro accelerati, una volta configurato con GPU e rete NVIDIA. “Combinando le nostre quattro GPU NVIDIA A100 Tensor Core con Lenovo ThinkSystem SR670, possiamo portare a termine tutti i nostri carichi di lavoro di formazione delle reti neurali su un solo server”, spiega Vigliar. “La soluzione Lenovo non solo aumenta la velocità di elaborazione dei dati, ma semplifica anche notevolmente la nostra topologia di rete, rendendo la gestione complessiva molto più semplice”.
Con gli esperti di Lenovo, DPC ha determinato la configurazione ottimale delle risorse di storage per evitare colli di bottiglia tra le sue CPU e GPU. Vigliar commenta: “Lenovo ci ha aiutato a raggiungere il giusto equilibrio tra costi e prestazioni e a trovare la dimensione adeguata al nostro sistema in termini di capacità di storage, consumo energetico e ingombro fisico. Le GPU NVIDIA A100 Tensor Core offrono prestazioni di alto livello, mentre la precedente infrastruttura non ci permetteva di alimentare le GPU con i dati in modo sufficientemente rapido per trarne un reale vantaggio. Grazie al server Lenovo ThinkSystem SR670, abbiamo risolto questa sfida”.
Fine tuning della soluzione
DPC ha distribuito la nuova soluzione Lenovo ThinkSystem SR670, collaborando con Lenovo per configurare e mettere a punto l’ambiente.
“La compatibilità con le nostre GPU NVIDIA ha rappresentato un importante punto di forza che abbiamo considerato durante la fase di valutazione del progetto, perché all’epoca NVIDIA A100 Tensor Core era nuovissima” afferma Vigliar.
“Lenovo è stato uno dei primi fornitori a offrire supporto per la GPU NVIDIA e ci ha aiutato con la messa a punto, la manutenzione e il monitoraggio durante l’implementazione. Ho esperienza con le GPU grazie al mio background accademico, il che significa che non abbiamo bisogno di supporto per la formazione, ma abbiamo molto apprezzato che Lenovo avrebbe potuto offrircelo se lo avessimo voluto.”
“L’hardware Lenovo ha un’ottima reputazione per la qualità, l’affidabilità e la convenienza, e la nostra esperienza con la soluzione Lenovo ThinkSystem SR670 dimostra che questa reputazione è meritata. In contesti caratterizzati da carichi di lavoro impegnativi, il consumo di energia può avere un grande impatto sul Total cost of ownership e siamo molto soddisfatti dell’efficienza della soluzione.”
I risultati
Da quando è stata fatta la migrazione da un ambiente workstation a un singolo server Lenovo ThinkSystem SR670, DPC ha ridotto il tempo necessario per completare i carichi di lavoro legati all’ addestramento delle loro reti neurali.
“Abbiamo ridotto il tempo necessario per l’addestramento da sette giorni ad appena sei ore da quando abbiamo iniziato a utilizzare la nuova piattaforma Lenovo e NVIDIA – ovvero siamo 28 volte più veloci di prima”, afferma Vigliar. “La nuova soluzione è rivoluzionaria. Infatti, adesso siamo in grado di completare i nostri carichi di lavoro legati all’addestramento in ore anziché in giorni di conseguenza possiamo effettuare più cicli nella stessa quantità di tempo – e questo ci consente di espanderci in nuove aree di ricerca, far evolvere i sistemi più promettenti e accelerare l’innovazione.”
Fondamentalmente, le nuove capacità permettono a DPC di portare più velocemente sul mercato soluzioni di telecamere edge, accrescendo il proprio vantaggio competitivo.
“La piattaforma Lenovo e NVIDIA ha decisamente migliorato il nostro time-to-market, cosa che non sarebbe stato possibile senza le capacità extra che ci assicura il server Lenovo ThinkSystem SR670“, aggiunge Vigliar. “Ora stiamo andando avanti con una soluzione basata su telecamere edge e questo rappresenta una grande opportunità di crescita per l’azienda. Siamo così soddisfatti delle nuove soluzioni che abbiamo già raccomandato Lenovo ad altre aziende del nostro gruppo impegnate in attività di deep-learning e stiamo pianificando di implementare altri server Lenovo per il prossimo anno”.