NVIDIA NeMo Retriever Microservices Enhances LLM

AI, Get Up! Businesses can unleash the potential of their business data with production-ready NVIDIA NIM inference microservices for retrieval-augmented generation

[{"selector":"#anim-e1cb4ff2-0586-47db-85b3-e61a0834ad20 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(35.89313871566194%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-fc39d992-3085-4415-adb6-8e98810dfe7b","keyframes":{"transform":["translate3d(115.50632%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-aa40ed1b-9217-403f-8ab7-75fa006e19aa","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-52f48193-cd13-41a7-b47f-ca5b4571e37b","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Applications of generative AI are worthless, or even harmful, without accuracy, and data is the foundation of accuracy

[{"selector":"#anim-08d74319-f434-48f7-9506-fe3dee6a31b4 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.249999904429615%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-6bb1f168-9aef-4fbc-aa78-a7a28eda19ff","keyframes":{"transform":["translate3d(-115.18988%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-eb63320f-eb73-44ee-be4a-2306ca7a1f01","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6d79db69-3178-4729-bc68-52373af3dcdc","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

NeMo Retriever NIM microservices, when coupled with the today-announced NVIDIA NIM inference microservices for the Llama 3.1 model collection

[{"selector":"#anim-e91744f5-d3b6-43db-8021-5403555f2924 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.35190206075711%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-97a70608-4572-49be-9b00-3f38fe0ccc38","keyframes":{"transform":["translate3d(-115.18988%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-d8db9d4c-0a85-48e8-9bc8-1a00ee12a54a","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b9521be4-9595-4aaf-a90d-bb0938b04ee1","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

NeMo Retriever, for instance, can increase model throughput and accuracy for developers building AI agents and chatbots for customer support

[{"selector":"#anim-6e86a8dd-3b6f-420a-b9ac-b8f63c1767bc [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(35.115665494098025%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-b756520f-0a80-40ad-93a2-9e7d1e95c6de","keyframes":{"transform":["translate3d(115.18987%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f79367e1-9518-4fc8-9b4f-c1e50d3a5d0d","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f90d03bb-c691-4998-956c-6f6ea6c24cca","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

The NeMo Retriever NIM microservices enable developers to leverage all of this while leveraging their data to an even greater extent

[{"selector":"#anim-0086e0d0-c45e-43bf-b5a1-8d234603bc23 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(35.21169345865223%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-02e0b13b-ae07-4bd0-94dc-90abf80712d8","keyframes":{"transform":["translate3d(-115.18988%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e9fbffc4-e664-4732-ad8e-35699804ac03","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-061aa34e-ccfd-4497-bfea-bec7fa2f6e59","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Compared to conventional large language models, or LLMs, embedding models are quicker and less expensive computationally

[{"selector":"#anim-5fb397e5-ac15-4529-92ea-88c83b5a5ee9 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.249999904429615%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-a783e035-8bba-452d-909c-4a9f066f6607","keyframes":{"transform":["translate3d(-115.18988%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-8debaabc-1f55-4089-af13-430e6bba7afa","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-4e85d892-a611-4b66-a311-f9f14192e923","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

These models are slower and more computationally complex than embedding models, but they provide notable improvements in accuracy

[{"selector":"#anim-48f5dd79-456f-481f-a8b4-a01868ae64b3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(30.270522268341992%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-37ac74b5-526d-4db8-8b6f-715131cb19ac","keyframes":{"transform":["translate3d(120.52980%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-86e6d020-41c8-46b1-9d44-f27cc7f5c08b","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-be084c00-0c3a-4d12-bf5b-b5a0ee6f2888","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

The modular nature of NVIDIA NIM microservices allows developers to create AI applications in a variety of ways For more details govindhtech.com

[{"selector":"#anim-7d7b3c3f-a0eb-4196-8778-1b1b332a16e1 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.249999904429615%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-344919b3-1bf6-4bb4-9b9f-74232c3f8831","keyframes":{"transform":["translate3d(-114.87342%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-72eb692a-eb57-4aad-a72f-7a897714fd31","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-02b75c47-edbc-4aae-b1e2-aa9b23e6e3f9","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]