Pure Storage Data Stream helpt organisaties met AI data readiness
Pure Storage introduceert Data Stream, een door GPU-geoptimaliseerde en door AI gestuurde, geïntegreerde hardware- en software stack die bedrijven helpt hun data gereed te maken voor AI-toepassingen. Data Stream automatiseert en versnelt het verzamelen, transformeren en optimaliseren van data voor enterprise AI-pipelines.
Een belangrijke uitdaging bij AI-projecten, zoals Retrieval Augmented Generation (RAG), Large Language Models (LLM’s) en copliot implementaties, is de beschikbaarheid van data. Bedrijven besteden vaak tot 80% van de AI-projecttijd aan taken zoals het invoeren, opschonen, cureren, semantisch taggen en converteren (indexering en vectorisering) van data. Data Stream adresseert deze uitdagingen door datapipelines automatisch te integreren in de onderliggende AI-architectuur die storage en GPU’s direct met elkaar verbindt.
Data Stream vormt een integraal onderdeel van het Pure Storage Data Platform en is geoptimaliseerd voor enterprise-inferentie use cases op basis van het NVIDIA AI Data Platform-referentie design. Enkele belangrijke technische mogelijkheden van Data Stream zijn:
- Geautomatiseerde, real-time data-ingestie en -structurering: Data Stream verwerkt ruwe data uit verschillende bronnen, waaronder text, PDF’s, afbeeldingen en gestructureerde tabellen, en segmenteert en transformeert deze op intelligente wijze om de context te behouden en precieze toegangscontrole te bieden. De oplossing ondersteunt multiprotocol access (NFS, S3, SMB), kan miljarden bestanden en objecten verwerken en kan naadloos worden geïntegreerd met vectordatabases op Pure Storage FlashBlade//S.
- Naadloze NVIDIA NeMo-integratie: Data Stream orkestreert workflows end-to-end met NVIDIA NeMo Retriever. Hiermee kunnen organisaties ruwe data razendsnel omzetten in betekenisvolle digitale representaties (vectors), zodat AI-systemen context en verbanden beter kunnen begrijpen. Deze vectors maken geavanceerde zoekopdrachten op basis van betekenis mogelijk, waardoor AI-systemen in RAG-pipelines snel en nauwkeurig de meest relevante informatie kunnen ophalen. De integratie met NVIDIA NIM maakt geoptimaliseerde inferentie en naadloze schaalbaarheid mogelijk in on-premise en cloudomgevingen, via gestandaardiseerde API's.
- Geoptimaliseerde pipelines: door gebruik te maken van de rekenkracht van de NVIDIA RTX PRO 6000 Blackwell Server Edition GPU en verschillende software libraries, zoals NVIDIA Spark Rapids en NVIDIA cuVS kunnen organisaties GPU-geoptimaliseerde pipelines gebruiken voor gesynchroniseerde en efficiënte dataverwerking. Deze architectuur maakt gebruik van NVIDIA ConnectX-7 NIC's voor networked storage access (centrale dataopslag die via het netwerk toegankelijk is voor meerdere systemen) met lage latency. In combinatie met FlashBlade//S voorkomt deze synchronisatie compute bottlenecks in de RTX PRO server en biedt het prestatieverbeteringen bij vector ingestie.
- Transformatie en verrijking van de storage-laag: Data Stream verwerkt data verrijking rechtstreeks op FlashBlade DirectFlash Modules, met behulp van NVRAM voor snel metadatabeheer. Hierdoor zijn er minder data verplaatsingen nodig en wordt de efficiëntie verbeterd. De output wordt opgeslagen in formaten zoals JSON, Apache Parquet of Arrow, wat schaalbare vectoropslag en RAG-datasets op petabyte schaal mogelijk maakt.
“AI vraagt om een dataplatform dat enorme hoeveelheden ongestructureerde informatie kan omzetten in real-time inzichten. Pure Storage Data Stream maakt gebruik van het referentiedesign van het NVIDIA AI Data Platform om AI-redenering en -agents een boost te geven met een AI-ready storage infrastructuur met computing, networking en AI-software die full-stack door NVIDIA wordt versneld”, zegt Justin Boitano, Vice President of Enterprise AI bij NVIDIA.