Anthropicは「Claude Opus 4.8」をリリースした。前バージョン「Opus 4.7」からコーディング、エージェント機能、推論、知識作業などのベンチマーク全般にわたる改善を加えており、価格は据え置きとなっている。

Opus 4.8の主な改善点として、エージェントタスクにおける判断の信頼性向上が挙げられている。特に正直さの面での向上が顕著で、コードの欠陥を見過ごす確率が前バージョン比で約4分の1に低下したという。アライメント評価では、ユーザーの自律性支持やユーザーの利益に沿った行動といった向社会的特性が新たな高水準に達し、欺瞞や悪用への協力といった不整合な行動の発生率も前バージョンから大幅に低下した。

Opus 4.8の同日リリースとあわせ、以下の新機能も発表された。Claude Codeでは「ダイナミックワークフロー」機能(リサーチプレビュー)を追加。数百の並列サブエージェントを1セッション内で実行可能となり、数十万行規模のコードベース移行に対応できるという。またユーザーがClaudeの応答に費やす「努力量」を選択できるエフォートコントロールを全プランで提供開始。なお、高エフォート設定では品質向上のためにより多くのトークンを使用する。Messages APIでは会話配列内にシステムエントリを挿入できるようになり、エージェント実行中に指示を更新する際のプロンプトキャッシュへの影響がなくなった。

Anthropicはさらに、「Project Glasswing」の一環として、サイバーセキュリティ分野の一部組織に「ミュトス」を提供していることを明らかにした。同クラスのモデルを全ユーザーに公開するための安全対策の整備を進めており、数週間以内の一般提供を見込んでいるとしている。