Distribution vectors 

Training large language models better. Combining models trained on different datasets can reduce computational costs by 91%. Tuning a pretrained model to different data distributions increases task performance

[{"selector":"#anim-b777a5b3-d738-4373-9265-84b800e611a2 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-6ebd44f5-71bc-4d81-8c41-e15067510859","keyframes":[{"offset":0,"transform":"translate3d(0, -202.94894%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -57.069241928%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -19.401918664%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -7.285866946%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -3.1660034639999997%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}]

Large language models (LLMs) undergo pretraining, instruction tailoring, and reinforcement learning from human input on heterogeneous datasets with different distributions

[{"selector":"#anim-56a9b428-f675-419f-9448-13fd51e5423e","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-27288d93-88bc-4645-911f-e6b192797daa","keyframes":{"transform":["translate3d(0px, 213.78669%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}]

At the recent Conference on Empirical Methods in Natural-Language Processing (EMNLP), it can reduce LLM or neural-network-based model training costs by 91% even with mixed data distributions. Additionally, the technique improves model quality

[{"selector":"#anim-e77841fd-07ea-477e-828a-086003f5cdc0 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-c1c78a9e-18b5-46ce-8baa-ba37765b0f7b","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

This requires a great deal of time, money, and flexibility because, once trained, the model cannot be altered without paying further expenses

[{"selector":"#anim-de102196-7d2b-49f8-9ca4-8f88c190ae43 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-564b192c-8b80-4cdb-a5c3-5c1cdf22ee91","keyframes":{"transform":["translate3d(-139.738%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ca80f744-d656-4708-a7d0-f53f2cf9047d","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-bd1f35da-7a25-46b3-8c3e-a06624ab9d3b","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Subtract the original model's parameter values from the fine-tuned models. To generate a composite model, a weighted sum of the distribution vector is added to the original model's parameters

[{"selector":"#anim-3df2fdc8-70fa-445f-b99b-7c590eb4f565","keyframes":{"transform":["translate3d(116.9014%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c0c9cd68-b276-4e33-860e-ab18e9607f52","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-23be6c01-78dc-4004-a806-c16019dce0a1","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] [{"selector":"#anim-ec059b2d-4680-461a-8281-97b3cfb016e7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

The final model is called a distribution-edited model to stress weight vector arithmetic during model editing. The weights are based on each fine-tuned model's perplexity, or possibility of predicting its parameter values from the original model

[{"selector":"#anim-a31f864b-3189-4a02-b085-67d1d96fd30c","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-e1ad8ecf-cd6f-481a-8453-6d6f586653d7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

The initial model is trained on individual data distributions using traditional methods. Checkpoints of the model state after training on a dataset are retained for later use

[{"selector":"#anim-2a349195-7659-4c62-931b-39dc6a362791 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-3677d2ed-fe65-489f-beaf-cb2741845028","keyframes":[{"offset":0,"transform":"translate3d(0, -177.57938%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -49.935321656%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -16.976588728%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -6.375099742%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -2.7702383279999996%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}]

Trained LLMs with increasing sizes from 3 billion to 13 billion parameters during instruction-tuning to evaluate the approach

[{"selector":"#anim-3387b14d-0b80-4f10-a18f-7b617a739a6b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-3bf01f21-10ed-42a6-9ec0-5e31bba53ed3","keyframes":{"transform":["translate3d(-141.77777%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-52c15329-5ee3-49a4-9662-941568d2920d","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

Tests on datasets like MathQA, Super-Natural Instructions (SNI), and Chain-of-Thought (CoT) show that DEM is effective in a number of areas

[{"selector":"#anim-c2048424-1d02-4b98-b10a-3b7abd7c489d","keyframes":{"transform":["translate3d(-132.39999%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a60b89c1-307a-4c32-8597-5cb9da03c61a","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-df31badf-07e0-47a3-83b4-629d357101cc","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}] [{"selector":"#anim-01ce5642-93e5-425e-91e2-fd8f59479dc8 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Future studies should test the framework in additional training conditions and with different model designs, such as mixture-of-experts or encoder-decoder frameworks

[{"selector":"#anim-cc6bad37-17fa-4d2d-ace6-402dd6424461 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-0263e058-771a-4628-98d3-de80e1519a5a","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-0b9c5112-9824-4df8-9e1a-5d084bc2d284","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]