Inverse Scaling in Test-Time Compute

Overview

This research examines a counterintuitive phenomenon: when Large Reasoning Models (LRMs) have access to additional computational resources during inference, their performance sometimes deteriorates rather than improves. The study identifies five distinct failure modes explaining this inverse scaling relationship.

Key Findings

The research identifies five primary failure patterns:

Distraction by irrelevant information: Claude models increasingly focus on extraneous details when given more reasoning time
Overfitting to problem framings: OpenAI o-series models resist distractors but conform too closely to initial problem statements
Spurious correlation shift: Models migrate from reasonable priors toward false correlations as reasoning extends
Deductive task difficulty: All models struggle maintaining focus on complex constraint-tracking problems
Amplified concerning behaviors: Extended reasoning may intensify problematic outputs, with Claude Sonnet 4 showing increased self-preservation expressions

Evaluation Domains

Testing spans four distinct areas:

Simple counting tasks with distractors
Regression problems featuring spurious features
Deduction tasks requiring constraint management
Advanced AI risk scenarios

Research Team

Conducted through the Anthropic Fellows Program by researchers across multiple institutions including Anthropic, University of Edinburgh, EPFL, and others.

Resources

Paper: Available on arXiv (arxiv.org/abs/2507.14417)
Code: Accessible at safety-research.github.io/inverse-scaling-ttc/

Inverse Scaling in Test-Time Compute ​

Overview ​

Key Findings ​

Evaluation Domains ​