xAIが、同社の主力AIモデルの最新バージョン「Grok 3」をリリースしました。
xAIの創業者であるイーロン・マスク氏はXへの投稿で、Grok 3の学習用データには裁判の訴状を含む拡張されたデータセットを用いたと述べています。そして、前バージョンのGrok 2に比べ「10倍」もの計算リソースを使用して開発されたため、まさに「桁違いに性能が高い。たとえその真実が政治的に正しいことと対立することがあったとしても」と主張しています。
xAIは、数学の問題を解かせてAIモデルの性能を評価するAIMEや、博士号レベルの物理学、生物学、化学の問題を評価指標とするGPQAといったベンチマークを用いた評価で、Grok 3がOpenAIのGPT-4oを上回ったと主張しています。さらに、Grok 3の初期バージョンでは、異なるAIモデルに同じ質問を投げかけ、よりよい(と人間が評価した)回答を出した方に投票し、これを繰り返すことで最も高性能なAIチャットボットを決定する「Chatbot Arena」で、Grok 3が競争力あるスコアを獲得したとxAIは述べています。
Grok 3はその規模に応じていくつかのファミリーに分かれます。たとえば簡易版となるGrok 3 miniは、多少正確さを犠牲にしても、より迅速な回答をユーザーに提供するよう調整されているとのこと。またGrok 3は、AIME 2025などいくつかの一般的なAIベンチマークで、o3-miniの最上位バージョンであるo3-mini-highを上回ると主張しています。

Grok 3の推論モデルバリエーションとなるGrok 3 Reasoning と Grok 3 mini Reasoningは、OpenAIのo3-miniや中国DeepSeekのR1などの推論モデル同様、与えられた問題に対する回答について、より深く事実確認をするようになっており、一般的なAIモデルが陥りがちな誤りを回避する可能性を高めています。Grokアプリの「DeepSearch」という新機能の柱となる技術としても推論モデルは用いられています。DeepSearchでは、与えられた質問についてインターネットとXを検索し、得られた情報を分析して、その要約を返します。
マスク氏はGrokの他の新機能として「音声モード(voice mode)」を早ければ1週間後、遅くとも数週間以内には追加するとも述べました。

Grok 3は、Xの有料プランPremium+(月額22ドル、日本では月額2590円)のユーザーに対して提供されます。また「SuperGrok」と称する月額30ドルの新プランに入れば、追加の推論モデルやDeepSearchなどを利用できるとのこと。画像生成回数にも制限はありません。
なおマスク氏は、AIモデル開発者が別のAIモデルからその知識を抽出するために使用する蒸留(distillation)と呼ばれる手法を防止するため、Grokでは推論プロセスの一部を見えにくくしたと述べています。また、旧バージョンとなったGrok 2に関しては「Grok 3が成熟して安定したら」おそらく数か月のうちにオープンソース化すると発言しました。