NVIDIA Energies Meta’s HyperLlama 3: Faster AI for All

NVIDIA revealed platform-wide optimisations aimed at speeding up Meta Llama 3, the most recent iteration of the large language model (LLM)

[{"selector":"#anim-32fc7e34-fd3a-4f0b-9af5-9bce7a52e9b6 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(33.901515053830174%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-d2a1d08d-648b-48ec-9329-6d00f532a229","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}]

Meta fine-tuned its network, software, and model designs for its flagship LLM with assistance from NVIDIA

[{"selector":"#anim-a9f48272-68e3-4580-817c-8cc41ccc7861 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.249999904429615%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-6a34e2d5-288a-4f6c-9a71-e01535a10a6e","keyframes":{"transform":["translate3d(162.00000%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-41923a09-9df2-47ff-8cfa-ce9e0a73c7d6","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

They are doing this while keeping up their leadership position in the responsible use and deployment of LLMs

[{"selector":"#anim-62af92e9-0472-4f38-bb12-6e689f69a84d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(35.21169345865223%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-00742060-4839-4389-87ff-7dc8f29a2e89","keyframes":{"transform":["translate3d(-140.35088%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-d7bb7f79-486b-4f80-a1e1-a9525be357d3","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

They improved upon Llama 2 in a number of significant ways. With a vocabulary of 128K tokens, Llama 3’s tokenizer encodes language far more effectively, significantly enhancing model performance

[{"selector":"#anim-292ee843-dd7b-4922-bff3-0d5ae1708a43 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-27.183734801310827%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-18e5378c-198b-4ce9-bddc-b01239ca2149","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-6a70ca2f-3fbc-42d8-b769-5878c8d1d7a3","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

They used a mask to make sure self-attention does not transcend document borders when training the models on sequences of 8,192 tokens

[{"selector":"#anim-29688fce-2164-4618-867a-dc1d1542674b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(21.874999829338595%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-975a8441-7062-413b-953f-c53f95721a11","keyframes":{"transform":["translate3d(-142.1875%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-63b2493c-39f1-4d96-8abb-bc9db91cb5ca","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-7936cc58-deab-4c41-97d5-c3609d5d01f9","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

The meta training dataset has four times more code and is seven times larger than the one used for Llama 2

[{"selector":"#anim-5b3ab35a-3839-4c72-b385-7084eba0ffb4 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-28.93339755556636%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-66e824cb-7ea8-485f-b57f-b474b319e86d","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

They created a number of data-filtering procedures to guarantee that Llama 3 is trained on the best possible data

[{"selector":"#anim-be564bb0-b893-432e-979c-30943978d7f7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.19732431882569%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-ead28059-32f1-4e2f-9a73-ba6fdd8ffa57","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

The best techniques for implementing a chatbot’s LLM balance low latency, fast reading speed, and economical GPU utilisation for more details govindhtech.com

[{"selector":"#anim-f00761b9-cc3e-4439-aa60-0f8e0ee4c36c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.284090795523493%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-da0ab3b1-8e36-44bb-9036-69d4a77ec0f2","keyframes":[{"offset":0,"transform":"translate3d(0, -143.27136%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -40.287906432%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -13.696742016%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -5.143441824%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -2.2350332159999997%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}]