Cell2Sentence: Understanding Single-Cell Biology With LLMs

Yale University and Cell2Sentence-Scale (C2S-Scale) announce a set of open-source large language models trained to understand biology at the single-cell level

[{"selector":"#anim-9d375a64-a5ee-467b-8fe5-bfff8b8df5de","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-a2867c46-f71f-45b7-a34c-84c883f50dfd","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-00b611a9-1808-4a55-b0a9-c76d5cedd77e [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

By bridging the gap between biology and artificial intelligence, C2S-Scale transforms intricate cellular data into easily understood cell sentences

[{"selector":"#anim-02ad7ae0-7306-4dbb-9205-7082d4c5035c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-7b59d184-eecd-4e03-b3fa-e8d25adc8427","keyframes":{"transform":["translate3d(-115.09434%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-df1f1db7-8f52-4598-8d79-8eff66fce16b","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-352c02a1-b96f-4758-a9ea-17bb56dc20a4","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Trillions of cells make up each human, and each one has a specific purpose, such as constructing organs, battling infections, or transporting oxygen

[{"selector":"#anim-ed89f8d7-69a5-426b-894b-a5dcd50e404e","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-072a18ec-a1aa-49aa-aa8e-5cad3824f39d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

In the “Scaling Large Language Models for Next-Generation Single-Cell Analysis” session, Google is excited to introduce Cell2Sentence-Scale (C2S-Scale), a set of robust, open-source LLMs that “read” and “write” biological data at the single-cell level

[{"selector":"#anim-2a664797-7ea7-4d54-8813-685724be6e0e","keyframes":{"transform":["translate3d(-115.09434%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-b331f4df-bc10-4726-b6bb-8cef16b038ec","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-1719eaaf-086d-46c6-ab01-385bde5ac7b3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

From characterizing the cell types of individual cells to producing summaries of entire tissues or experiments, Cell2Sentence-Scale can automatically provide biological summaries of scRNA-seq data at various levels of complexity

[{"selector":"#anim-df8c7c7c-2a87-4896-a0ca-5449c30c64f8","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}] [{"selector":"#anim-d5f67397-1fc6-42bc-9fcc-a3dbd7c7a942 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

Google work’s main conclusion is that biological language models exhibit well-defined scaling rules, with performance improving predictably with increasing model size

[{"selector":"#anim-6d895536-9a14-4517-979a-fba299eaea57","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-597f16e3-3df8-418f-b45c-fd39ba28666e","keyframes":{"transform":["translate3d(0px, -220.27226%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-626160cf-5684-4704-ac2a-edfda6377215 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Predicting a cell’s reaction to a perturbation, like as a medication, gene deletion, or cytokine exposure, is one of the most fascinating uses of Cell2Sentence-Scale

[{"selector":"#anim-383b877f-6970-4f24-bb6d-44ab9bd323ef","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e6b8bf40-80f9-4d64-8ac4-38c37d6b76c0 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Google use comparable strategies to improve Cell2Sentence-Scale models for biological reasoning, just as reinforcement learning is used to fine-tune big language models like Gemini to follow instructions and respond in useful, human-aligned ways

[{"selector":"#anim-13378e9d-54be-4694-a20d-0eb44209b014","keyframes":[{"offset":0,"transform":"translate3d(0, -161.49808%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -45.413260095999995%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -15.439216448%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -5.797781071999999%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -2.519370048%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}] [{"selector":"#anim-6273d145-a0ba-4c81-9f12-380765e2f2b2 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Cell2Sentence materials and models are now accessible on websites like GitHub and HuggingFace

[{"selector":"#anim-ca4b08a8-deab-44db-bd7e-abf2e5064d5d","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-ed7e803c-e692-4789-ba50-6950277932d2","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-c6ab9024-7339-464c-b77b-e039838491ec [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]