Home
News
About
English
Español
中文
日本語
AIニュース
English
Español
中文
日本語
Compact View
TechCrunch
May 29, 2026
CognitionのScott Wu氏、AIコーディングエージェントは人間を置き換えるべきではないと語る
CognitionのCEOであるScott Wu氏は、AIコーディングエージェント「Devin」は人間のプログラマーを支援するためのものであり、代替ではないと主張しています。
TechCrunch
May 29, 2026
KiwibitのAI搭載バードフィーダーは、私の新しい裏庭の相棒です
Kiwibit Bird Feeder Pro 4K AI Cameraは、アプリを通じて野鳥を識別・記録できる太陽光発電式のスマートなフィーダーです。
The Verge
May 29, 2026
Jony Iveのファンキーなフェラーリ
「The Vergecast」の最新エピソードでは、Jony Iveがデザインに関わったフェラーリ初の電気自動車「Luce」の物議を醸すデザインについて議論しています。
TechCrunch
May 29, 2026
このチップスタートアップが1億3500万ドルを調達、AIの最大のボトルネックは計算ではなくメモリであるという賭けに出た
スタートアップのXCENAは、データをメモリ近くで処理し、AIインフラコストを削減するメモリ中心型チップ開発のため1億3500万ドルを調達した。
OpenAI
May 29, 2026
ボストン小児病院、AIを活用し新たな診断を実現
ボストン小児病院はAIを組織全体に導入し、運営効率化と40件以上の希少疾患の診断を実現しました。
The Verge
May 29, 2026
このAIスタートアップは未来のロボットを訓練するために無料であなたの家を掃除します
スタートアップのShiftは、AIロボットの学習用データを収集するため、撮影を条件に無料で家事代行サービスを提供しています。
PsyPost - Psychology News
May 29, 2026
AIチャットボットに温かみと共感を持たせる学習を行うと、事実の正確性が低下する
AIチャットボットを温かく共感的に訓練すると、事実の正確性が損なわれ、ユーザーに同調しすぎる傾向が強まることが研究で明らかになりました。
The Verge
May 29, 2026
Adobeの会話型AIエージェントは平凡なデザインインターンである
Adobeの新しいFirefly AIアシスタントは、編集プロセスを説明しながらタスクを実行する便利なチャットボットですが、その腕前はまだ未熟です。
Fortune
May 29, 2026
研究者たちがAIモデルにシミュレーション社会を運営させた。Claudeが最も安全で、Grokは4日間で180件の犯罪を犯し絶滅した | Fortune
Emergence AIのシミュレーションにより、AIモデルごとに社会の結果が大きく異なり、自律型AIのガバナンスが不可欠であることが示されました。
TechCrunch
May 29, 2026
Gleanの収益が3億ドルを突破、AI予算削減が主要なセールスポイントに
エンタープライズAI検索企業のGleanがARR 3億ドルを達成し、AIコスト削減機能が成長を牽引しています。
OpenAI
May 29, 2026
信頼できる第三者評価のための共有プレイブック
OpenAIは、透明性の高い評価環境、適切な引き出し手法、厳格な妥当性検証の重要性を強調し、AI評価のベストプラクティスを提示しています。
TechCrunch
May 28, 2026
インターネットはマシンのために作り直されている
AWSなどのテクノロジー企業は、自律型AIエージェントが生成する独特なバーストトラフィックに対応するため、クラウドインフラを再構築しています。
The Verge
May 28, 2026
Microsoft 365 Copilot、速度向上とデザインの刷新を実施
Microsoftは365 Copilotをアップデートし、読み込み速度の向上、デザインの刷新、より構造的な応答機能を提供します。
TechCrunch
May 28, 2026
AsanaがノーコードエージェントビルダーのStack AIを買収
Asanaは、AIネイティブなワークプレイスプラットフォームを強化するため、ノーコード・ワークフロー自動化のスタートアップであるStack AIを買収しました。
TechCrunch
May 28, 2026
Anthropicが650億ドルを調達、IPOを控え評価額は1兆ドルに迫る
Anthropicは650億ドルの資金調達を実施し、評価額9650億ドルに到達。上場に向けた動きを加速させています。
TechCrunch
May 28, 2026
金や石油のように、私たちは間もなくAIトークン先物を取引できるようになる
金融取引所は、企業が計算コストの変動をヘッジできるよう、AIトークンやGPUレンタルの先物市場を開発しています。
Anthropic
May 28, 2026
AnthropicがシリーズHラウンドで650億ドルを調達、時価総額は9650億ドルに
AnthropicはシリーズHで650億ドルを調達し、評価額9650億ドルに到達。AI研究の推進と計算リソースの拡大を図ります。
TechCrunch
May 28, 2026
StrictlyVCが3週間後にロサンゼルスにやってきます
StrictlyVCロサンゼルス2026が6月18日に開催され、投資家と起業家がベンチャーキャピタルと最先端技術の未来について議論します。
TechCrunch
May 28, 2026
Anthropicが新「ダイナミック・ワークフロー」ツールを搭載したOpus 4.8をリリース
Anthropicは、データ処理能力を向上させたOpus 4.8をリリースし、複雑なタスクを管理する新機能「ダイナミック・ワークフロー」を公開しました。
The Verge
May 28, 2026
Claudeの新しいモデルは、ミスをした時に「誠実」に振る舞う
Anthropicは、自身の限界や誤りをより正確に認識し報告する新しいAIモデル「Claude Opus 4.8」を発表しました。
Anthropic
May 28, 2026
Claude Opus 4.8のご紹介
Anthropicは、推論能力やエージェント機能、新しいワークフロー制御を強化したClaude Opus 4.8を発表しました。
The Verge
May 28, 2026
2,000ドルのAI生成映画がトライベッカでデビューへ
制作費2,000ドルのAI生成映画『Dreams of Violets』がトライベッカ映画祭で上映されることになりました。
The Verge
May 28, 2026
YouTube が本格的なポッドキャストアプリになるための第一歩を踏み出す
YouTubeは、Premium会員向けにオーディオ優先モードやAIによる再生速度調整など、ポッドキャスト体験を向上させる新機能を導入します。
TechCrunch
May 28, 2026
AnthropicとSpaceXのリース契約はどれくらいの期間か?意見は分かれている。
イーロン・マスク氏はAnthropicとの契約を短期的なものと主張していますが、SpaceXのSEC提出書類には3年間の契約と記載されています。
TechCrunch
May 28, 2026
Oculusの創業者らが立ち上げた対話型AIスタートアップ「Sesame」がiOSアプリを公開
Oculusの創業者らが設立したAIスタートアップSesameが、人間のように自然な会話を行うAIエージェント搭載のiOSアプリをリリースしました。
Gemini
May 28, 2026
I/O 2026の12のハイライトを振り返る
Google I/O 2026では、Gemini Omniモデルや新しい検索エージェント、スマートアイウェアなど、AIに関する主要な発表が行われました。
TechCrunch
May 28, 2026
Siriの新アプリを先行公開:ChatGPTなどに対抗するAppleの計画が明らかに
リーク情報によると、AppleはSiriを刷新し、AI検索機能と新しいチャットボットアプリを導入してChatGPT等に対抗する計画です。
CNBCTV18
May 28, 2026
CNN、ニュース記事を無断でコピーしたとしてAI検索スタートアップPerplexityを提訴
CNNは、Perplexity AIが自社の著作権保護されたニュースコンテンツを無断で使用したとして、同社を提訴しました。
The Verge
May 28, 2026
iOS 27の新しいレンダリング画像がSiriの大きな再設計を示唆
iOS 27のレンダリング画像が流出し、ChatGPTのようなインターフェースとAI機能の強化を伴うSiriの刷新が示唆されました。
TechCrunch
May 28, 2026
RSIは新しいAGIであり、定義するのは同様に困難である
再帰的自己改善(RSI)はAI界の新たな流行語で、人間の介入なしに継続的に自己アップグレードを行うシステムを指します。
TechCrunch
May 28, 2026
YouTubeがAIレコメンドツールや「自動再生速度」を含む新しいポッドキャスト機能を追加
YouTubeは、Premiumユーザー向けにAIレコメンド、自動再生速度調整、ポータブルな操作モードなどの新しいポッドキャスト機能を提供開始しました。
The Verge
May 28, 2026
CNNがPerplexityを提訴、「逐字」的なコピー記事をめぐり
CNNは、AIスタートアップのPerplexityが許可なくコンテンツをスクレイピングして複製しているとして、著作権侵害で提訴しました。
The Verge
May 28, 2026
Rivianのソフトウェア責任者は、CarPlayもボタンも不要だと考えている
Rivianのソフトウェア責任者Wassym Bensaid氏は、AI定義の車両と音声インターフェースが、物理ボタンやCarPlayを不要にすると主張している。
TechCrunch
May 28, 2026
Visa、開発者向けエージェント決済強化のためReplitに投資
VisaはAIコーディングプラットフォームのReplitに出資し、AIエージェントによる直接決済の実現を目指します。
TechCrunch
May 28, 2026
AIコンピューティングの探求は、次なるCerebrasを発掘したのか?
General Computeは、SambaNovaの専用チップを活用した高性能推論クラウドを構築し、従来のGPUプロバイダーに挑みます。
OpenAI
May 28, 2026
EndavaはいかにしてCodexでエージェント組織を構築しているか
EndavaはCodexを用いてシニアエンジニアの知見をエージェント化し、ジュニアチームの生産性と開発の質を飛躍的に向上させています。
The Verge
May 28, 2026
YouTube、AIでカスタム動画フィードを作成可能に
YouTubeは、AIを活用して特定のプロンプトに基づいたパーソナライズされた動画フィードを作成できる新機能を導入しました。
TechCrunch
May 28, 2026
Vertu、6,880ドルからのAI搭載折りたたみスマホでCEOの業務管理を支援
高級ブランドVertuは、企業向けAIエージェントを統合し、ビジネス管理を可能にする高級折りたたみスマートフォン「Alphafold」を発表しました。
TechCrunch
May 28, 2026
なぜGoogleのAIは「Google」(や他の単語)を正しく綴れないのか
GoogleのAIが簡単な綴りを間違えるのは、言語モデルがテキストを文字単位ではなく数値トークンとして処理しているためです。
OpenAI
May 28, 2026
MUFGはOpenAIと連携し「AIネイティブ」化を目指す
MUFGはOpenAIと提携し、ChatGPT Enterpriseの導入を通じて日常業務および顧客サービスへの生成AI活用を推進しています。
Global Fujitsu
May 27, 2026
富士通がAnthropicと戦略的パートナーシップを締結
富士通はAnthropicと提携し、AI技術の活用を通じて日本の企業のDX推進と社会インフラの信頼性向上を目指します。
TechCrunch
May 27, 2026
給与計算スタートアップのRemote、人員を追加せずに従業員一人当たりの収益が50%増加したと発表
給与サービス企業のRemoteは、全社的なAI導入により、人員を増やさず従業員一人当たりの収益を50%向上させました。
TechCrunch
May 27, 2026
MetaがInstagram、Facebook、WhatsAppのサブスクリプションを開始、AIプランを含むさらなる展開も予定
MetaはInstagram、Facebook、WhatsAppの有料プランを世界的に開始し、AIやクリエイター、企業向けの新たなサブスクリプションも試験導入します。
TechCrunch
May 27, 2026
AIコーディングスタートアップのCognition、250億ドルのプレマネー評価額で10億ドルを調達
AIスタートアップのCognitionが、Devinツールの企業利用急増により250億ドルの評価額で10億ドルを調達しました。
The Verge
May 27, 2026
AIはこの政治家を葬り去ろうとしたが、今や彼の名は広く知れ渡っている
テック企業系スーパーPACによる多額の攻撃広告が、規制推進派のAlex Bores州議会議員の知名度を意図せず押し上げた。
The Verge
May 27, 2026
Robinhoodは、あなたのAIエージェントが株式を取引し、大金を得る(あるいは失う)ことを可能にします
Robinhoodは、AIエージェントを連携させて株式取引や仮想クレジットカードでのショッピングを自動化できるベータ機能を導入しました。
TechCrunch
May 27, 2026
Startup Battlefield 200の応募は本日締め切り:創業者を推薦、またはスタートアップを応募しよう
Startup Battlefield 200への応募受付が本日終了します。賞金や投資家との繋がり、世界的な露出を得るチャンスです。
TechCrunch
May 27, 2026
ElevenLabsの新しい音楽生成モデルは、曲の途中でジャンルを切り替えることができる
ElevenLabsは、曲の途中でのジャンル変更やセクションごとの楽曲構築を可能にするAIモデル「Music v2」を発表しました。
The Verge
May 27, 2026
このスマートバードフィーダーは私の裏庭のドラマをもっと捉えてくれる
Auraスマートバードフィーダーは広い視野と優れたバッテリー寿命を誇りますが、識別精度や使いやすさではBirdbuddyが優れています。
TechCrunch
May 27, 2026
元Bose睡眠部門責任者による睡眠テックスタートアップ「SOND」、ステルス状態を脱し700万ドルを調達
睡眠テック企業のSONDは、生理学的信号を追跡して睡眠を改善するAI搭載イヤホン「Dreambuds」を発表し、700万ドルを調達しました。
TechCrunch
May 27, 2026
中国は最高の人材を自国に囲い込みつつある
中国政府は米中競争の激化を受け、AI研究者や企業の海外渡航制限や資本規制を通じて国内AI人材の流出阻止を強化しています。
TechCrunch
May 27, 2026
ClickHouseの年間売上高が2億5,000万ドルに3倍増、IPOへの道筋を明確化
データベースプロバイダーのClickHouseが年間売上高を2億5,000万ドルに伸ばし、IPOに向けた準備を進めています。
The Verge
May 27, 2026
YouTubeはAIラベルをユーザーが実際に目にする場所に配置します
YouTubeはAIコンテンツの開示ラベルをより目立つ場所に配置し、AI生成コンテンツの自動検出を導入します。
TechCrunch
May 27, 2026
YouTubeがAI動画を自動的にラベル付けへ
YouTubeは、AI生成された写実的なコンテンツを自動検出してラベル表示する新機能を導入します。
CNBC
May 27, 2026
あなたのAIエージェントがRobinhoodで取引やクレジットカード決済を行えるようになりました
Robinhoodは、AIエージェントがユーザーに代わって株式取引や買い物を行える新しいツールを発表しました。
TechCrunch
May 27, 2026
テック企業のCEOたちは「AI精神錯乱」に陥っているようだ
BoxのCEOであるAaron Levie氏は、経営層が現場の作業を理解せず、AIの能力を過大評価していると指摘しています。
TechCrunch
May 27, 2026
RobinhoodがAIエージェントによる株式取引を解禁
Robinhoodは、AIエージェントが専用口座や仮想カードを使用して株式取引や決済を行える新機能を導入しました。
The Verge
May 27, 2026
The AI fight brewing inside The New York Times
「ニューヨーク・タイムズ」の技術ギルドが、AIツールを用いた従業員の監視やパフォーマンス評価を巡り経営陣と対立しています。
The Verge
May 27, 2026
教皇はAGIに染まっていない
教皇レオ14世の新しい回勅は、AIの社会的リスクを論じ、汎用人工知能(AGI)への言及よりも人間の尊厳の保護を優先しています。
OpenAI
May 27, 2026
シスコとOpenAIがCodexでエンタープライズエンジニアリングを再定義
シスコはOpenAIのCodexを開発ワークフローに統合し、複雑な企業向けエンジニアリングの自動化と開発期間の大幅な短縮を実現しています。
Blocknow: Be ready. Be informed
May 27, 2026
KOSPIが2026年に100%急騰、AIチップ銘柄が韓国で過去数十年間で最大のラリーを牽引
世界的なAIチップ需要に支えられ、2026年の韓国KOSPI指数は歴史的な100%の急騰を記録しました。
Anthropic
May 27, 2026
Anthropicがイタリアの企業、研究、開発者を支援するためミラノにオフィスを開設
Anthropicはミラノに新オフィスを開設し、イタリアの企業や開発者がAIを安全に活用できるよう支援します。
The Verge
May 27, 2026
教皇はAIの危険性について書くためにAIを使用したのか?
分析によると、教皇 Leo XIV の最近のAIに関する回勅の一部が人工知能によって書かれた可能性があることが示唆されています。
OpenAI
May 27, 2026
2026年の選挙情報と保護措置
OpenAIは、2026年の世界的な選挙を保護するため、透明性の向上、サイバーセキュリティの強化、信頼できる情報の提供に取り組んでいます。
Auganix.org
May 27, 2026
Niantic SpatialとSpexi、ドローン映像を物理AIのための3Dインテリジェンスに変換するパートナーシップを締結
Niantic SpatialとSpexi Geospatialは、ドローン映像を物理AI学習用の3Dガウシアンスプラットに変換する技術で提携しました。
Anthropic
May 26, 2026
AnthropicがKiYoung Choiを韓国代表取締役に任命
Anthropicは、韓国でのClaudeの需要拡大に対応するため、ソウルオフィスの開設に向けKiYoung Choiを韓国代表取締役に任命しました。
TechCrunch
May 26, 2026
DuckDuckGoのインストール数が30%増加、ユーザーがGoogleのAI検索の「強制」を拒否
GoogleのAI検索強制に反発するユーザーが増加し、DuckDuckGoのアプリインストール数が30%急増しました。
Fortune
May 26, 2026
Uberは2026年分のAI予算を4ヶ月で使い果たした。今、同社のCOOはその価値があるのかを疑問視している | Fortune
UberのCOOであるAndrew Macdonald氏は、2026年分のAI予算をわずか4ヶ月で消費したことを受け、AI投資の費用対効果を疑問視しています。
TechCrunch
May 26, 2026
OpenRouter、1年で評価額が2倍以上の13億ドルに到達
OpenRouterは、CapitalGが主導する1億1300万ドルのシリーズB資金調達により、評価額が13億ドルに達しました。
TechCrunch
May 26, 2026
このスタートアップは、インドのギグ経済が世界のロボットを訓練できると賭けている
Human Archiveは、インドのギグワーカーからロボット学習用の動画やセンサーデータを収集し、物理AIのトレーニングに活用しています。
ニュースをもっと見る
Best LLMs and AI Chatbots
Data Source:
Artificial Analysis
Rank
Model
Score
1
Claude Opus 4.8 (Adaptive Reasoning, Max Effort)
(Anthropic)
61.4
2
GPT-5.5 (xhigh)
(OpenAI)
60.2
3
GPT-5.5 (high)
(OpenAI)
58.9
4
Claude Opus 4.7 (Adaptive Reasoning, Max Effort)
(Anthropic)
57.3
5
Gemini 3.1 Pro Preview
(Google)
57.2
6
GPT-5.4 (xhigh)
(OpenAI)
56.8
7
GPT-5.5 (medium)
(OpenAI)
56.7
8
Qwen3.7 Max
(Alibaba)
56.6
9
Gemini 3.5 Flash (high)
(Google)
55.3
10
Gemini 3.5 Flash (medium)
(Google)
54.8
11
Kimi K2.6
(Kimi)
53.9
12
MiMo-V2.5-Pro
(Xiaomi)
53.8
13
GPT-5.3 Codex (xhigh)
(OpenAI)
53.6
14
Grok 4.3 (high)
(xAI)
53.2
15
Claude Opus 4.6 (Adaptive Reasoning, Max Effort)
(Anthropic)
52.9
16
Muse Spark
(Meta)
52.2
17
Claude Opus 4.7 (Non-reasoning, High Effort)
(Anthropic)
51.8
18
Qwen3.6 Max Preview
(Alibaba)
51.8
19
Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)
(Anthropic)
51.7
20
DeepSeek V4 Pro (Reasoning, Max Effort)
(DeepSeek)
51.5
21
GLM-5.1 (Reasoning)
(Z AI)
51.4
22
GPT-5.2 (xhigh)
(OpenAI)
51.3
23
GPT-5.5 (low)
(OpenAI)
50.8
24
Qwen3.6 Plus
(Alibaba)
50.0
25
DeepSeek V4 Pro (Reasoning, High Effort)
(DeepSeek)
49.8
26
GLM-5 (Reasoning)
(Z AI)
49.8
27
Claude Opus 4.5 (Reasoning)
(Anthropic)
49.7
28
MiniMax-M2.7
(MiniMax)
49.6
29
Grok 4.20 0309 v2 (Reasoning)
(xAI)
49.3
30
MiMo-V2-Pro
(Xiaomi)
49.2
31
MiMo-V2.5
(Xiaomi)
49.0
32
GPT-5.2 Codex (xhigh)
(OpenAI)
49.0
33
GPT-5.4 mini (xhigh)
(OpenAI)
48.9
34
Grok 4.3 (medium)
(xAI)
48.8
35
Grok 4.20 0309 (Reasoning)
(xAI)
48.5
36
Gemini 3 Pro Preview (high)
(Google)
48.4
37
GPT-5.4 (low)
(OpenAI)
47.9
38
GPT-5.1 (high)
(OpenAI)
47.7
39
GLM-5-Turbo
(Z AI)
46.8
40
Kimi K2.5 (Reasoning)
(Kimi)
46.8
41
GPT-5.2 (medium)
(OpenAI)
46.6
42
DeepSeek V4 Flash (Reasoning, Max Effort)
(DeepSeek)
46.5
43
Claude Opus 4.6 (Non-reasoning, High Effort)
(Anthropic)
46.5
44
Gemini 3 Flash Preview (Reasoning)
(Google)
46.4
45
DeepSeek V4 Flash (Reasoning, High Effort)
(DeepSeek)
46.0
46
Qwen3.6 27B (Reasoning)
(Alibaba)
45.8
47
Qwen3.5 397B A17B (Reasoning)
(Alibaba)
45.0
48
MiMo-V2-Omni-0327
(Xiaomi)
44.9
49
GPT-5 Codex (high)
(OpenAI)
44.6
50
GPT-5 (high)
(OpenAI)
44.6
51
Claude Sonnet 4.6 (Non-reasoning, High Effort)
(Anthropic)
44.4
52
GPT-5.4 nano (xhigh)
(OpenAI)
44.0
53
Grok 4.3 (low)
(xAI)
43.9
54
KAT Coder Pro V2
(KwaiKAT)
43.8
55
GLM-5.1 (Non-reasoning)
(Z AI)
43.8
56
Qwen3.6 35B A3B (Reasoning)
(Alibaba)
43.5
57
MiMo-V2-Omni
(Xiaomi)
43.4
58
Gemini 3.5 Flash (minimal)
(Google)
43.3
59
GPT-5.1 Codex (high)
(OpenAI)
43.1
60
Claude Opus 4.5 (Non-reasoning)
(Anthropic)
43.1
61
Claude 4.5 Sonnet (Reasoning)
(Anthropic)
43.0
62
Kimi K2.6 (Non-reasoning)
(Kimi)
42.9
63
GLM 5V Turbo (Reasoning)
(Z AI)
42.9
64
Claude Sonnet 4.6 (Non-reasoning, Low Effort)
(Anthropic)
42.6
65
GLM-4.7 (Reasoning)
(Z AI)
42.1
66
Qwen3.5 27B (Reasoning)
(Alibaba)
42.1
67
GPT-5 (medium)
(OpenAI)
42.0
68
Claude 4.1 Opus (Reasoning)
(Anthropic)
42.0
69
Hy3-preview (Reasoning)
(Tencent)
41.9
70
MiniMax-M2.5
(MiniMax)
41.9
71
GPT-5.5 Instant (May 2026)
(OpenAI)
41.8
72
DeepSeek V3.2 (Reasoning)
(DeepSeek)
41.7
73
Qwen3.5 122B A10B (Reasoning)
(Alibaba)
41.6
74
MiMo-V2-Flash (Feb 2026)
(Xiaomi)
41.5
75
Grok 4
(xAI)
41.5
76
Gemini 3 Pro Preview (low)
(Google)
41.3
77
GPT-5 mini (high)
(OpenAI)
41.2
78
GPT-5.5 (Non-reasoning)
(OpenAI)
40.9
79
Kimi K2 Thinking
(Kimi)
40.9
80
o3-pro
(OpenAI)
40.7
81
GLM-5 (Non-reasoning)
(Z AI)
40.6
82
Qwen3.5 397B A17B (Non-reasoning)
(Alibaba)
40.1
83
Qwen3 Max Thinking
(Alibaba)
39.8
84
MiniMax-M2.1
(MiniMax)
39.4
85
DeepSeek V4 Pro (Non-reasoning)
(DeepSeek)
39.3
86
Gemma 4 31B (Reasoning)
(Google)
39.2
87
Mistral Medium 3.5
(Mistral)
39.2
88
GPT-5 (low)
(OpenAI)
39.2
89
MiMo-V2-Flash (Reasoning)
(Xiaomi)
39.2
90
Claude 4 Opus (Reasoning)
(Anthropic)
39.0
91
GPT-5 mini (medium)
(OpenAI)
38.9
92
Claude 4 Sonnet (Reasoning)
(Anthropic)
38.7
93
Qwen3.5 Omni Plus
(Alibaba)
38.6
94
GPT-5.1 Codex mini (high)
(OpenAI)
38.6
95
Grok 4.1 Fast (Reasoning)
(xAI)
38.6
96
Step 3.5 Flash 2603
(StepFun)
38.5
97
Ring-2.6-1T
(InclusionAI)
38.5
98
o3
(OpenAI)
38.4
99
GPT-5.4 nano (medium)
(OpenAI)
38.1
100
Step 3.5 Flash
(StepFun)
37.8