Intel FPGAs speed up databases with oneAPI and SIMD orders

FPGAs are known for high-performance computing via customizing circuits for algorithms. Their tailored and optimized hardware accelerates difficult computations

[{"selector":"#anim-ad1560f5-cad4-4888-99ea-95b4898b4c2b","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e9f17dfe-cfde-4215-8e0d-8129f3d0cfcd","keyframes":{"transform":["translate3d(0px, -129.61352%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-597c2852-122b-43a7-b3e9-3ef49d846b1e [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-33.69703379937932%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

SIMD parallel processing applies a single instruction to numerous data objects. Special hardware extensions can execute the same instruction on several data objects simultaneously

[{"selector":"#anim-6d2fd19a-62ea-4e7f-9ef6-f28a53ecc538","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-8e18cd87-3d74-49bd-baa2-f2f6caab6840","keyframes":{"transform":["translate3d(0px, -122.907%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b8f74a95-57d3-4c45-87a4-5e512657ef81 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.249999904429615%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Specialized implementations limit portability between platforms, hence SIMD abstraction libraries provide a common SIMD interface and abstract SIMD functions

[{"selector":"#anim-f2c70d5a-0b27-4cb0-b5d8-9bdc3bb0f635","keyframes":{"transform":["translate3d(-121.33333%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-824637fe-cb36-4bcc-9ad6-f983addd71f4","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2497a69d-93a5-420e-8fc7-7683cd9e5692","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] [{"selector":"#anim-37e6631d-3140-4d4c-8438-39eb2cdebb5a [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.113138571526644%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Traditional FPGAs required a strong understanding of digital design concepts and specific languages like VHDL or Verilog

[{"selector":"#anim-d06e8cd1-c419-4c0e-8254-e999ad22d2bc","keyframes":{"transform":["translate3d(-116.609%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-f3a18cb6-8d33-4d2a-acc1-7e6ad33fba72","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-f1e5477c-0512-4c52-9b46-f639d6025707 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(38.28124992889108%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

The scalar code specifies loading registers, and the pragma unroll attribute tells the DPC++ Compiler to implement all pathways in parallel in the generic element-wise addition

[{"selector":"#anim-a7501cda-ba8b-429c-b0de-1511bea92efd","keyframes":{"transform":["translate3d(116.27119%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-4ea31747-1f0e-4dbe-b170-59c90878b950","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2b1dd198-4430-4034-b1a7-7f8ec5a5a658","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] [{"selector":"#anim-cc3a0d03-a014-47a5-8b5f-5a7b8c7ab78e [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

First, they gradually increased the SIMD instance register width to see how it affected maximum acceleration bandwidth

[{"selector":"#anim-d1fd8817-fb98-442c-8601-944202b99394","keyframes":{"transform":["translate3d(-123.94823%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a9231ea8-f331-4d30-a531-e8eb1a66bb96","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-0472b5dc-09b1-44c3-99cc-308172bf6f99","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] [{"selector":"#anim-63a93b60-9e1b-4523-a8bc-5f56edd1f89d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(35.21169345865223%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

The second scenario, a filter-count kernel with a data dependency in the last stage of the adder tree, demonstrated similar behavior but saturates earlier at the PCIe link width

[{"selector":"#anim-b7f3dcc5-09d8-4336-a6c1-64d35e6770d5","keyframes":{"transform":["translate3d(-115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-fd199459-cc98-4e3d-8e1d-2dd255ca7960","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-c29cbd92-afee-4b0a-a643-744436641702 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(38.28124992889108%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

As expected, per-core CPU bandwidth decreased as thread count and CPU core count grew. FPGA performance was peak across all workloads For more details Govindhetch.com

[{"selector":"#anim-dd9c730a-69fd-4619-9a14-f52985676d05","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-722dee73-2e5f-4d0d-804c-e36464422b6d","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-53046fae-ff01-4948-9206-dcabf1079c1c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-35.937499914669296%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]