Dataflux: Machine Learning Data Loading Efficiency

Large datasets are ideal for machine learning (ML) models, and quick data loading is essential for ML training that is affordable

[{"selector":"#anim-78547c68-05e5-4c12-b53b-ea1b4cf473de","keyframes":[{"offset":0,"transform":"translate3d(0, -165.0366%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -46.408291919999996%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -15.77749896%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -5.92481394%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -2.57457096%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}] [{"selector":"#anim-50dbd8c1-9840-4d46-a03e-9bbd6e3ac9c0 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-29.04989910381352%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Google Cloud advise utilising Dataflux Dataset for training workflows instead of alternative libraries or making direct calls to the Cloud Storage API

[{"selector":"#anim-2c26772e-0894-4671-902e-80375de6c22b","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ff3c47b6-456e-453b-ab3b-b202271d0350","keyframes":{"transform":["translate3d(0px, 149.39580%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e7333dd1-1113-4af9-8a5f-158c4dceedb4 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-21.874999829338588%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Optimise performance to attain up to 3.5 times quicker training times, particularly for smaller files

[{"selector":"#anim-e80f970b-c103-4b92-8e40-000fdf59c094","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-df942359-d841-4c20-942a-9d6b2a7a3576","keyframes":{"transform":["translate3d(0px, -188.85109%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-542b9833-8823-4fe8-968f-d46a7ec5ae1b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-28.550583527433314%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

PyTorch Dataset primitive: Easily integrate with well-known PyTorch ideas

[{"selector":"#anim-0fd85fc4-d946-4847-ac8b-73df0031635f","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-1081da34-f689-44a4-974f-03cc2eddcb81 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

Dataset implementation if you use PyTorch and have data stored in cloud storage

[{"selector":"#anim-a8174aaa-1404-4c03-a6f1-12638d76e7cb","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-cfc3e2f9-9ecf-45ea-a389-32dbbe2d8b45","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-2c03fb8d-5f72-4191-af93-e2ca1673a6c3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(21.874999829338595%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

If reading and generating a batch takes longer than GPU processing, the GPU is blocked and underutilised, increasing training times

[{"selector":"#anim-7f7d4b38-f92c-46d4-bc17-30734e4054ee","keyframes":{"transform":["translate3d(118.95425%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-e274cd8b-f0d2-48e6-bfbe-0482f1cdb413","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-ddc8fed5-f551-45a7-8ec5-cbe3bf64a04c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.17499990397451%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Google used a Cloud Storage function in Dataflux called Compose items, which allows us to dynamically merge multiple smaller items into a larger one

[{"selector":"#anim-dd45ec1c-9f2c-4a9b-b666-49031003a0fc","keyframes":{"transform":["translate3d(115.23810%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-7d3923b1-bf11-40c0-b6d1-3f247f60173c","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-bcd4c01a-29c2-4839-9c01-eafb124eefbd","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] [{"selector":"#anim-b5e84e53-defe-4916-a614-c2cf4f79b24a [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-36.178571344703535%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Dataflux uses sophisticated work-stealing. Initial AI training works on datasets with tens of millions of items

[{"selector":"#anim-9267395d-d55d-4c96-886b-f6059201498f","keyframes":{"transform":["translate3d(-121.33333%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-25f97dc9-cd88-4b64-84b6-cb856882bfb3","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-d2b9a814-580b-421e-9603-db0863791489 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-13.374196052581508%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

The Dataflux Client Libraries include fast-listing and dynamic composition, which may be accessed on GitHub For more details govindhtech.com

[{"selector":"#anim-933408ad-e939-4201-a449-5b57f55b7f7c","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-686145e3-8939-4118-91f2-a812d5ccfb83","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-7af0c3dc-5f0e-4036-8435-5f4646b13680 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-24.388297716929618%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]