Phi-2 Local LLM

large language models (LLMs) are incredibly powerful, their high processing power requirements make them unfeasible for use on ordinary computers

[{"selector":"#anim-9d24b2e9-e2a9-4065-b9d6-922571c2bac5 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.21556112871043%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-936387cf-dec9-49bc-8661-b996023f7791","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

The introductory assertion, the typical moderately priced laptop lacks the processing capability necessary to do LLMs at a level that is sufficient

[{"selector":"#anim-971d0caa-8b3c-4c9e-bf40-b199e6f3ca6e","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-ff04d47a-0c26-4051-b2b5-3ca17a8e0540 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-35.197368331230834%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

The most popular deep learning operations, such matrix multiplication and convolution, are accelerated by hardware built into modern CPU architectures

[{"selector":"#anim-59e524a1-cd12-4b8c-8e20-8b6890804f97 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.21556112871043%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-20434637-ae13-4b67-84cf-a80dbd4ef3cf","keyframes":{"transform":["translate3d(-115.18988%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-72a524ed-234d-4c40-9bfe-9846580683a7","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e86d5418-52c2-420a-a3b6-7d21ce3318fa","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

These models are as good as or better than larger models because of their creative designs and training methods

[{"selector":"#anim-f913043b-5d03-4470-8af7-1a1904ab43a7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.21556112871043%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-c2419bcd-efb9-44f6-95be-cf6cba8c1325","keyframes":{"transform":["translate3d(115.18987%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-db3676ec-7a4d-4188-ba87-c9d869d4d9a8","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-02381672-8bbb-43ed-9f69-566affdcf29f","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

The shift in bit width between, for example, 16-bit floating point (fp16) and 8-bit integers (int8) in model weights and activations

[{"selector":"#anim-bcb16bb9-b30d-48a4-a320-00e0e5c02ea8","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-a0fbcf56-c765-46f5-ac9b-b3e8ddf77dce [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-24.21874984356037%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

4-bit quantisation to the model weights beginning with the Microsoft Phi-2 mode thanks to the OpenVINO Toolkit integration in the Thire Optimum for Intel library

[{"selector":"#anim-29f76a6a-0678-4afc-85a7-3720d7821828 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-33.970207156617846%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-e3ed6904-9ac1-4061-8b33-d7f07dd32bd8","keyframes":{"transform":["translate3d(115.18987%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-b7dcfbef-9032-49d7-8a68-70ef6c7d2d34","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

with sixteen Xe Vector Engines (XVE) on each GPU (iGPU). As the name implies, a XVE can perform vector operations on 256-bit vectors

[{"selector":"#anim-7d43cd93-4fd5-4947-aef2-3b7163ec5453 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-35.937499914669296%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-8e7582e1-7b28-4f8a-8227-596cf7fffd66","keyframes":{"transform":["translate3d(-126.86568%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b661e1d8-4ffd-42fb-b367-d5043edd979b","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-74a7c5eb-16fe-475e-a767-e1748c6e0d0d","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

An initial offering is a neural processing unit (NPU) for Intel architectures

[{"selector":"#anim-da8d84b8-0bf7-416b-b1cc-906eb482229b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.21556112871043%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-72cd1574-0896-4507-9672-4ea8b3b2019a","keyframes":{"transform":["translate3d(117.91046%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-3d39cd46-cd97-45d4-92aa-f0c3eb63bb8d","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

An open-source toolset called OpenVINO (GitHub*, documentation) focused on model quantisation to maximise AI inference across a number of Intel hardware platforms For more details Govindhtech.com

[{"selector":"#anim-4811a588-8292-4f44-9754-c8aec14a8204 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.36295169414003%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-44690cc9-24fd-45a9-b691-8bf039eb35aa","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]