AMD RX 7900XTX improves ChatGLM2-6B inference

HEYINTELLIGENCE used an AMD Radeon RX 7900XTX GPU to optimize ChatGLM2-6B inference

[{"selector":"#anim-be42abb5-e151-4fae-b5e2-587069ce2810","keyframes":[{"offset":0,"transform":"translate3d(0, -174.47858%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -49.063376696%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -16.680152248%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -6.263781022%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -2.7218658479999998%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}] [{"selector":"#anim-f66490ff-c03e-4a53-90bd-f7b9e519f596 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.17737144549088%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

High-performance AI solutions in both hardware and software are provided by HEYINTELLIGENCE

[{"selector":"#anim-7e514659-90e7-4be8-9939-d5c33105d688","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}] [{"selector":"#anim-ca516c0a-f708-4712-9d75-4325973e1141 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

RMSNorm, MatMul fused with Rotary-EMB, MatMul fused with SwiGLU, and Decoding Attention in ChatGLM2-6B utilized

[{"selector":"#anim-1cbb4914-f238-4972-9d2e-a79147c0787e","keyframes":{"transform":["translate3d(-121.66667%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-9e114c75-2656-47ac-9a1b-ddf8de141f1b","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-2618a762-9d84-4efb-853a-8488f5df9adf [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.179687404002955%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

ChatGLM2-6B is an open-source large language model (LLM) focused on bilingual conversations in Chinese and English

[{"selector":"#anim-4216696b-27a1-4de2-9f7b-7a64e9887f14","keyframes":{"transform":["translate3d(115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-65bc3a12-62ac-4261-9944-1c5d83899806","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-c9f4070e-1046-430d-8d46-5ba6374469e4 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.284090795523493%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Quantization can reduce GPU memory consumption and increase concurrent users in LLM applications

[{"selector":"#anim-fcdee272-a140-4f3a-a329-041339add4cf","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}] [{"selector":"#anim-9f4d7af5-229a-4373-80c5-f8a9c801230d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-28.35693346242071%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

GCT retrieves the per-channel, 8-bit weight using the “Smooth Quant” method and saves the FP16 scaled value in a file because multiplication uses a lot of CPU

[{"selector":"#anim-aa7af8d3-2af6-42c4-9c1e-35bbebbdfef2","keyframes":{"transform":["translate3d(115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-480523c4-fe8e-4ded-a234-0c0c9af4f9fe","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-0922b7d7-0ee8-4d24-94a5-f87b8401b307 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-32.91666656300566%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

HEYINTELLIGENCE has amassed a vast amount of expertise in the practical deployment of AI models and hardware platforms

[{"selector":"#anim-3b35a41c-5ffd-40c0-aaeb-e7b7932b4533","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-8fef0f45-10c0-4bfc-b2b5-6ae4fb223b78 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.244791571064674%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

AMD AI developers by assisting the highly efficient AMD AI accelerators in handling complex AI workloads like LLMs For more details govindhtech.com

[{"selector":"#anim-5a0719bc-171b-477d-b9b8-12bd6481f2fa","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-9f6e297c-f65c-4947-b179-96f917f0222d","keyframes":{"transform":["translate3d(115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-47b9f722-9b71-40aa-90b7-743ecd09b93d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(21.874999829338595%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]