OpenAI PaperBench: AI Research Replication Evaluation

OpenAI provides PaperBench to assess AI bots' ability to copy recent AI research. Agents must duplicate 20 ICML 2024 Spotlight and Oral papers from scratch. They must understand each paper, design a program, and pass assessments

[{"selector":"#anim-9c37b2b5-d396-4841-8f3e-6c04b4ea4342","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-c1b4009c-acd5-4815-b9b5-dc4419f91370","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-fe4149dc-108e-4a30-91e4-20a7a1aa1869 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.179687404002955%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

PaperBench is a benchmark that evaluates AI agents’ capacity to reproduce modern AI research

[{"selector":"#anim-ad05aef4-2d6e-4da6-8084-93bd609bd5d3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-ad305baf-0849-42ca-89d2-080967cdc002","keyframes":{"transform":["translate3d(115.09433%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-0e308031-548e-4de4-824a-67035a3d62ee","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5b2824fe-277a-43d9-bf8c-ffa9dc447214","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

PaperBench is a test for Artificial Intelligence (AI) systems, exactly designed to see how they can understand and repeat actual AI research

[{"selector":"#anim-25250403-09c5-40f8-993e-08e539f94e4b","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-5a2e4b2a-97b1-4f5d-a7bf-e6514b93eab1 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.246320529845473%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

The idea of PaperBench is to assess how independent (self-reliant) AI agents are at real-world research and development in the field of machine learning

[{"selector":"#anim-b7ac8752-54c5-4577-a453-c3d01d00c9b5 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.179687404002955%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-051f9910-534d-4791-9807-c972c561c554","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

It is important to be able to accurately measure this ability for the purpose of understanding the strengths and weaknesses of advanced AI

[{"selector":"#anim-b0c396fb-e36f-4a58-8341-4ecc9b9ecf81 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.179687404002955%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-1bda9182-99f0-4e0c-bda0-80943b7d87b6","keyframes":{"transform":["translate3d(-115.09434%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-5dd742a6-8aec-4f8e-a2ff-6f26b05e00e1","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

The PaperBench team generated a thorough “rubric” for each of the 20 research publications. A rubric is a multi-level checklist that lists every research article aspect to replicate

[{"selector":"#anim-1740eea1-1f0b-441e-a867-bd0b733c18d7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.249999886225726%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-d054dca0-3694-458d-8638-5ecf3f8f6e57","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}]

The rubrics are organized in a graded way, meaning that larger tasks are divided into smaller, more controllable sub-tasks

[{"selector":"#anim-437778ea-0622-4f63-803d-0f3bfb0b381d","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-efc3bbfb-92ed-4bd8-ae93-167fe130848e","keyframes":{"transform":["translate3d(0px, 130.76494%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-40e65610-bc5e-4db5-8679-b76b7184a011 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-7.812499744007886%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Reproduce.sh is crucial to the AI's submission. This script starts all the code needed to duplicate the paper's results

[{"selector":"#anim-0a14acc7-b485-4897-a87e-9d2197923a2d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.179687404002955%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-fe3bddbb-dfac-42b3-87b5-7f65d9d986ea","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}]

Detailed tasks in the rubric have been graded by the AI judge, the scores are collective based on the graded structure and the weights assigned to each task

[{"selector":"#anim-024fc39a-2446-4f41-927a-7c7c26e6563a [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.179687404002955%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-86b2d2ad-a09e-46da-9429-db15c864b95a","keyframes":[{"offset":0,"transform":"translate3d(0, -288.55649%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -81.14208498800001%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -27.586000444%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -10.359177991000001%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -4.501481244%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}]

The PaperBench team also created a distinct evaluation for the judges themselves, called “JudgeEval”

[{"selector":"#anim-d9a92f99-1c4e-498f-b7f8-9fa7241f70b4","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-45f3dfee-58b7-4d3a-915d-69eea732b4ac","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-f6cc66dd-a9af-4f80-b895-7bce33378a43 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.249999886225726%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

The makers of PaperBench also released “PaperBench Code-Dev”. The AI's ability to write replication code is evaluated in this version, rather than running the code or evaluating if the outcomes match the paper

[{"selector":"#anim-8d900968-5b85-44c1-acea-1949d8c97252 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-3d5dbfe4-9e82-4ea3-ad1b-fa3af195b8d1","keyframes":{"transform":["translate3d(114.4654%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c14a13e1-55a2-4bfc-842e-582b1d093c57","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-46ed0ebb-7a17-4d0a-8ccd-f911eacfad09","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

The PaperBench team evaluated several front-line AI models on the benchmark. The best-performing model they tested, called Claude 3.5 Sonnet, achieved an average replication score of only 21.0% on the full PaperBench

[{"selector":"#anim-9c487ca7-454d-4eaa-ae0d-f4f35e9cebdf","keyframes":{"transform":["translate3d(114.4654%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-ecf8147e-30b7-441c-9ec3-8046b2bf8179","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-1e444264-a0cd-43ff-8876-91b33bd6615e [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

How AI performance compares to human capabilities, the PaperBench team also recruited experienced machine learning PhD students to attempt to replicate a subset of the papers

[{"selector":"#anim-514e9f2e-33c3-4b9e-a403-89d937aea56e [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.179687404002955%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-49958a55-fcec-4d77-904a-1d055f31ae5a","keyframes":{"transform":["translate3d(115.09433%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-53887ed5-96b7-4f11-afe1-385b1ccbd441","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

PaperBench is a significant step towards creating hard and complete evaluations of AI’s research capabilities in machine learning

[{"selector":"#anim-48053a06-220f-4992-bec8-ed2b4258caf9","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c9b855bb-a7b7-4d54-926c-e2a8a28e86dd","keyframes":{"transform":["translate3d(0px, -323.99116%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-813928bc-5bdd-49c2-a356-b3a5e78b828a [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.249999886225726%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

While PaperBench is a valuable tool, it’s important to note some of its limitations. It focuses on the ability to replicate experiential research in machine learning, meaning research that involves experiments and data

[{"selector":"#anim-40dd3687-555b-4c9e-b304-ea066a98ff10","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-6d38ece5-1258-4bfe-ba02-e56ab1435a72","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-74d8073f-daab-403f-ba59-06ed71cfdaf0 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.179687404002955%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]