Zach Anderson
27 feb 2026 16:58
La nuova integrazione combina l'elaborazione distribuita di Ray Data con il parsing dei documenti di Docling per elaborare oltre 10.000 file complessi per applicazioni RAG in ore anziché giorni.
I team aziendali che creano applicazioni IA hanno appena ottenuto una soluzione al loro collo di bottiglia più frustrante. Anyscale ha dettagliato come la combinazione di Ray Data con Docling può trasformare settimane di elaborazione di documenti in ore, uno sviluppo che potrebbe accelerare i tempi di implementazione per le aziende con archivi di documenti massicci.
L'integrazione tecnica affronta quello che gli addetti ai lavori chiamano il "collo di bottiglia dei dati" nei sistemi di Retrieval-Augmented Generation. Mentre le demo fanno sembrare l'IA generativa semplice, la realtà comporta la gestione di migliaia di PDF legacy, tabelle complesse e immagini incorporate che gli strumenti di elaborazione tradizionali gestiscono in modo inadeguato.
Cosa Cambia Effettivamente
Il motore di esecuzione in streaming di Ray Data gestisce i dati attraverso attività CPU e GPU simultaneamente. L'architettura nativa Python elimina l'overhead di serializzazione che affligge altri framework durante la traduzione dei dati tra ambienti linguistici. Per i team che eseguono inferenze in batch o preelaborano dataset massicci, questo significa cicli di iterazione più veloci.
Docling gestisce la complessità di parsing che interrompe la maggior parte degli strumenti tradizionali, estraendo accuratamente tabelle e layout preservando la struttura semantica. Quando integrato con Ray Data, ogni nodo worker esegue un'istanza Docling con modelli IA incorporati in memoria, abilitando l'elaborazione parallela di documenti su larga scala.
L'architettura funziona così: un Ray Data Driver gestisce l'esecuzione e serializza il codice delle attività per la distribuzione. I worker leggono i blocchi di dati direttamente dallo storage e scrivono i file JSON elaborati alla destinazione. Il driver non diventa mai un collo di bottiglia perché non gestisce il throughput effettivo dei dati.
Fondamenta Kubernetes
KubeRay orchestra i cluster Ray su Kubernetes, gestendo l'autoscaling dinamico da 10 a 100 nodi in modo trasparente. Il sistema include il ripristino automatico quando i nodi worker falliscono, fondamentale per grandi job di ingestione che non possono permettersi di ripartire da zero.
Il flusso end-to-end sposta i documenti dall'object storage attraverso parsing e chunking, genera embeddings sui nodi GPU e scrive su database vettoriali come Milvus. Le applicazioni RAG interrogano quindi il database per fornire contesto agli LLM.
Aziende tra cui Pinterest, DoorDash e Instacart utilizzano già Ray Data per l'elaborazione last-mile e l'addestramento di modelli, suggerendo che la tecnologia ha dimostrato validità in produzione.
Oltre la Semplice Ricerca
Il gioco più ampio qui si rivolge ai flussi di lavoro di IA agentici in cui agenti autonomi eseguono attività multi-step. La qualità dei dati elaborati diventa più critica man mano che gli agenti si affidano a documentazione precisa per agire per conto degli utenti. Le organizzazioni che costruiscono architetture scalabili si posizionano ora per catene di inferenza avanzate con molteplici chiamate LLM sequenziali.
Le piattaforme Red Hat OpenShift AI e Anyscale forniscono opzioni di implementazione con requisiti di governance aziendale. La base open-source significa che i team possono iniziare i test senza ostacoli importanti nell'approvvigionamento.
Per i team IA che attualmente spendono più tempo nella preparazione dei dati che nell'ottimizzazione dei modelli, questa integrazione offre un percorso pratico da seguire. La domanda non è se l'elaborazione distribuita dei documenti sia importante, ma se la tua infrastruttura possa gestire ciò che verrà dopo.
Fonte immagine: Shutterstock
Fonte: https://blockchain.news/news/ray-data-docling-enterprise-ai-document-processing
