Apache Spark Stored Procedures Enter BigQuery

BigQuery users can now create and run Spark stored procedures using BigQuery APIs, allowing them to extend their queries with Spark-based data processing

[{"selector":"#anim-2ab19ee7-36e2-439a-83fc-e67ccab247aa [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.249999904429615%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-5b88fbd8-ebcc-4fb5-9edc-52938e4d520c","keyframes":{"transform":["translate3d(-124.65754%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-25d73886-0c65-4b36-a230-94fcd1de692c","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-04b69eca-1440-4be1-ba8b-e649a298ada5","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

BigQuery data processing beyond SQL may require Spark-based business logic or Apache Spark expertise

[{"selector":"#anim-1b8a7ed3-83b6-4ea4-9c35-97ded2214ad8 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-f079721d-d915-45e1-8156-b3235f6fa896","keyframes":{"transform":["translate3d(111.07492%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-01cac3f3-fe5a-4137-95fd-a27f3b9c7820","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

To create, test, and implement your PySpark code, BigQuery Studio offers a Python editor as part of its unified interface for all data practitioners

[{"selector":"#anim-b85b2d25-be9e-41e9-87e9-562b66f3d8d5 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-a3b541f0-e6c0-477c-853d-9cde2edc161a","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}]

After testing, the process is kept in a BigQuery dataset, and it can be accessed and controlled in the same way as your SQL procedures

[{"selector":"#anim-f9d74920-8323-48a4-a627-f5b2b01376d3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(32.4713907387075%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-96362612-7e8c-4cb3-b767-9ad20a969bfc","keyframes":{"transform":["translate3d(-132.36364%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-00e8089b-50b5-4583-84f6-88d229ecd679","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

BigQuery Spark stored procedures can be configured to install packages required for code execution

[{"selector":"#anim-efce842f-bd9b-44ba-8ed9-02e67c27450f [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-37f4a680-9c36-4807-b7d1-b54dcc9f006b","keyframes":{"transform":["translate3d(-129.45736%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-660ff372-7d98-4419-9bcd-19b5887fef90","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

For data science, data engineering, and machine learning on single-node computers or clusters, Apache Spark is a multi-language engine

[{"selector":"#anim-f9e45f61-e11a-44e8-94be-078f192a0e6c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.043955928931506%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-3872e913-c39b-4275-a68d-131e60824df8","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e55ec51c-33a9-4b72-891b-de69a4113999","keyframes":{"transform":["translate3d(-123.74101%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}]

On a laptop, train machine learning algorithms, and then use the same code to scale to thousands of machines in fault-tolerant cluster

[{"selector":"#anim-c8b6f6dc-5d5e-4b45-9774-ea7558fc35af [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-701d4231-51dd-44bb-ab92-1be21f9f0532","keyframes":{"transform":["translate3d(117.14285%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-74e3f3f8-1508-4ddd-a755-204048bd2190","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

An advanced distributed SQL engine for large-scale data is the foundation of Apache Spark

[{"selector":"#anim-87b6bfc2-4158-470a-8a6f-8a8f2f95d235 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(32.4713907387075%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-06ddcdff-6ded-40fa-ac86-212189a85b46","keyframes":{"transform":["translate3d(-137.44681%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-45f2a8c8-ea3f-4305-86fb-f7295beddbe1","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

Both structured and unstructured data, including JSON and images, can be handled by Spark SQL. For More Details Govindhtech.com

[{"selector":"#anim-308f9591-be4c-4c58-9638-4426b75b184b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-32.784090804625436%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-7ca293db-0708-4c60-a72e-d5c827247352","keyframes":{"transform":["translate3d(-119.14894%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-fd4a0378-52a8-4c1f-a5db-a073716b98f0","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]