IBM Z AI Grows With Telum II Processor

IBM Telum II Processor with IBM Spyre Accelerator enable enterprise-scale AI features like large language models and generative AI

[{"selector":"#anim-dc50d8ec-72c9-4786-b0e8-f684af4ae8f2 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.18322425010088%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-d29204df-4cf9-4479-9028-6d3ec8ef14cf","keyframes":{"transform":["translate3d(-115.18988%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-990bdee5-c225-4626-8389-471782a617da","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b16f77dd-e6f4-4360-ad9e-a2a52f646055","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

At Hot Chips 2024, IBM disclosed the architecture for the future IBM Spyre Accelerator and IBM Telum II Processor

[{"selector":"#anim-af6b9ed6-cfb9-4b6d-9840-10e4402183e9 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-24.86895146040899%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-68f8f044-1e8e-4f31-9a85-b9012341abbb","keyframes":{"transform":["translate3d(116.22516%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-3f64d8eb-e823-4297-a55f-790a4232098c","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

Many generative AI projects use Large Language Models (LLMs), which require scalable, safe, and power-efficient solutions from proof-of-concept to production

[{"selector":"#anim-46ce18bf-ff58-4655-9ea9-7a1e9d247d5a","keyframes":[{"offset":0,"transform":"translate3d(0, -161.38956%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -45.382744272%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -15.428841936%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -5.7938852039999995%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -2.5176771359999996%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}] [{"selector":"#anim-9fa45daa-f86b-403c-ba53-d9dbbd578052 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.24624988620297%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

IBM Z has a coherently coupled DPU, 40% more cache, frequency, and an AI accelerator core than the first-generation Telum chip

[{"selector":"#anim-c4a02551-756c-4bc4-ad01-fb34ddcfc8af [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-34a79fc7-5230-490f-9010-7d4084a5473a","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}]

Telum II and Spyre chips offer scalable ensemble modeling with machine learning or deep learning AI models and encoder LLMs

[{"selector":"#anim-11e75b01-8f60-401c-bcc8-1d9a23e9a1b3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.21556112871043%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-09f11fbe-3419-440f-9206-319bf9d7cbae","keyframes":{"transform":["translate3d(-115.18988%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-53dfc96e-38eb-4a15-9b74-b9e0d253022d","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

Each core has 36MB of L2 cache, and the on-chip cache capacity has been increased by 40% to 360MB

[{"selector":"#anim-38bf848e-0938-445c-8843-b7912f5d0676 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.21556112871043%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-46ed0c59-bb34-4d88-b515-8cf13fb65689","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ace0bdb9-f310-4492-bc42-59feb646e1ff","keyframes":{"transform":["translate3d(0px, 137.14032%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}]

It has up to 1TB of memory that can support AI model workloads on the mainframe and is meant to use no more than 75W per card

[{"selector":"#anim-722aceb4-57aa-434a-b596-290b42f5ada0","keyframes":[{"offset":0,"transform":"translate3d(0, -196.78275%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -55.3353093%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -18.8124309%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -7.064500725%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -3.0698109%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}] [{"selector":"#anim-3abbfe81-e024-4b19-9182-6c3065bec89d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

With 32 compute cores per chip, low-latency and high-throughput AI applications can use the int4, int8, fp8, and fp16 datatypes For more details govindhtech.com

[{"selector":"#anim-a95318c0-7463-401e-ad2e-cbaaf0a5c504","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-64ec4b00-d1b4-43d5-9f7a-cb1c9ceb7dcb [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-54.45963529489263%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]