「Grok-2」新機能に画像生成!ChatGPT越えの性能を誇るX(Twitter)上で使えるAIの新モデルを解説!

人工知能(AI)の分野は急速に進化しており、その中でも言語モデルは、自然言語処理からコード生成に至るまで、さまざまなアプリケーションにおいて重要なツールとなっています。この分野での最新の進歩の一つが、X(旧twitter)イーロン・マスク氏が設立したAI企業xAIによって開発された「Grok」です。

そんなGrokの新たなモデルGrok-2がリリースされ、こちらがGPT-4を超える性能であるということから、かなり注目を集めています。今回は、そんなGrok-2の概要について詳しく紹介いたします。

1章 Grok-2とは?

Grok-2は、Grokの最新バージョンであり、成功を収めた前モデル「Grok-1.5」に続くものです。この新しいモデルは、チャット、コーディング、推論タスクなど、複数の領域で卓越した性能を示しているようです。Grok-2は、より小型の「Grok-2 mini」として、現在ベータ版としてプラットフォーム(旧Twitter)で提供されています。

Grok2は画像生成可能?新機能と改善点!

Grok2が改善されたことを示すグラフ

画像出典 XAI

Grok-2は、単なる前モデルの改良にとどまらず、多くの新機能と改善がなされています。このモデルは、さまざまな学術ベンチマークで評価され、その性能が際立っています。以下は、Grok-2が提供する主な機能と改善点です。

  1. 画像生成機能:以前までテキストでのやり取りしかできなかったものの、テキストプロンプトから画像を生成できるようになりました!
  2. 高度な推論能力: Grok-2は、複雑なタスクを理解し、適切な文脈に基づいた正確な応答を生成する高度な推論能力を備えています。これにより、言語と論理の深い理解が求められるタスクにおいて非常に有用なツールとなります。
  3. 優れたベンチマーク性能: Grok-2は、推論、読解、数学、科学など、さまざまな学術ベンチマークで評価され、その性能は前モデルであるGrok-1.5を大きく上回っています。また、特定のベンチマークにおいて、GPT-4-TurboやClaude 3.5 Sonnetなどの主要なモデルをも凌駕しています。
  4. 多用途な機能: Grok-2は、テキストベースのタスクにとどまらず、視覚的なタスクにも優れています。視覚的な数学的推論や文書ベースの質問応答など、幅広いアプリケーションに対応できる汎用性の高いツールです。
  5. 向上したユーザー体験: Grok-2はプラットフォームに統合され、再設計されたインターフェースと新機能を備えています。これにより、ユーザーはアプリから直接Grok-2の機能にアクセスできるようになり、AIを利用するためのプロセスがさらに簡単になります。
  6. リアルタイム情報の統合: Grok-2の特筆すべき機能の一つが、プラットフォームからのリアルタイム情報を統合できる点です。これにより、最新の情報を基にした応答やインサイトを提供でき、正確でタイムリーな情報が求められるユーザーにとって非常に貴重なツールとなります。
  7. エンタープライズAPIと開発者向けツール: 近日中に、xAIはGrok-2とGrok-2 miniをエンタープライズAPIプラットフォームを通じてリリースする予定です。これにより、開発者は自社のアプリケーションにGrok-2を統合することが可能になります。このAPIは、低遅延アクセスを提供するだけでなく、多要素認証や詳細なトラフィック統計、課金分析などの強化されたセキュリティ機能も提供します。

ベンチマークでの性能

ベンチマークでの他のLLMとの比較

画像出典 XAI

Grok-2は、いくつかの学術ベンチマークで評価され、その結果は非常に優れたものでした。以下は、Grok-2が特に優れた成績を収めたベンチマークの一部です。

  • 一般知識(MMLU): Grok-2は87.5%のスコアを達成し、前モデルや競合モデルを上回る成績を収めました。このベンチマークは、モデルが一般知識に関する質問にどれだけ理解し、適切に応答できるかをテストするもので、Grok-2の総合的な言語理解能力の高さを示しています。
  • 数学(MATH): 数学的推論において、Grok-2は76.1%という高いスコアを記録しました。これにより、複雑な数学問題を処理する能力が証明され、正確な計算や論理的推論が必要なアプリケーションにおいて特に有用です。
  • コーディング(HumanEval): Grok-2はコーディングタスクでも優れた性能を発揮し、pass@1ベンチマークで88.4%のスコアを達成しました。これは、コードを理解し生成する能力の高さを示しており、開発者やエンジニアにとって貴重なツールとなります。
  • 視覚的推論(MathVista): Grok-2は、MathVistaベンチマークで69.0%のスコアを記録し、テキストだけでなく視覚情報の解釈や推論にも対応できることを示しました。
  • 文書ベースの質問応答(DocVQA): このベンチマークでは、Grok-2は93.6%のスコアを達成し、視覚的文書に基づいて正確に質問に答える能力を証明しました。これは、大量の文書データを処理・分析するアプリケーションにとって重要な機能です。

いくつかの項目では、Grok-2はGPT-4oよりも高いスコアを達成しており。こちら総合してみても、Grok-2とGPT-4oはほとんど互角のスコアを出していることがわかります。

2章 Grok-2はどうやって使える?

GrokはX(旧twitter)上で使うことができますが、使い方がわからない方もいるかと思います。それでは、実際にGrokを使っていきましょう!

2-1 Grok-2のはじめ方

GrokをX上で使える場所を示す。

画像出典 X

Grokは現在X(旧Twitter)上で使うことができ、画像で示した真ん中のボタンを押すことによってGrokのトーク画面に進むことができます。こちらのボタンがない場合には、アプリの更新をしてみてください!

サブスクリプションぷらんに入る必要がある

画像出典 X

Grok-2は無料で使える?料金は?

Grok-2は現時点では無料で使うことはできません。Grokを使うためには有料のサブスクライブプランに入る必要があるので、注意が必要です。

Xの有料プランの料金

画像出典 X

こちらがXのサブスクリプションプランとなっています。Grok-2を使うためには、この有料プランの中でもプレミアムプラン以上に加入する必要があります!そのため、月額857円の支払いが必要となります。

3章 Grok-2を実際に使ってみた!

grok-2で画像生成

それでは、早速Grok-2を使って実際に画像生成をしてみましょう。テキストプロンプトによって以下の画像を作成してもらいます。

スケートボードに乗っている犬の画像を生成して

作成された画像は以下のようになります!

Grok-2で作成した画像

画像出典 XAI

このようにテキストプロンプト通りの画像を生成できました!クオリティも非常に高いと言えます。Xでポストをする際に添付したい画像を同じアプリで作成するという使い方もできそうです。

Grok-2の回答の精度を試してみた

Grok-2の強みとして、Xの投稿からも学習しているということがあります。これにより、他のLLMと比べてカルチャーやトレンドへの造詣が深いという特徴があります。

例えば、

「しかのこのこのここしたんたん」とはなんですか?

と最近流行りのフレーズを聞いてみましょう。すると、

Grok-2による回答

画像出典 XAI

このようにフレーズの元となっているアニメの説明を詳しくしてくれました、一方で、同じ質問をGPT-4oにしてみましょう!

同じ質問をGPT-4oにする

画像出典 OpneAI

このように学習データに含まれていないためか、うまく回答ができていません!

他にも、

「厳しいって」という言葉が流行っているのはなぜ?

といったアニメと違い、参照する情報が難しい質問もしてみました!

他のトレンドワードを聞く

画像出典 XAI

TikTokやYouTube発のトレンドにもしっかりと対応できていることがわかります。これは確実にGrok-2にしかできないことであると言えるしょう!

4章 まとめ

今回は、X(旧twitter)上で使えるイーロンマスク発のLLMであるGrok-2について紹介しました!以前のモデルであるGrok-1.5よりも情報の正確さが上がっているほか画像生成までできるようになり、着々とChatGPTの背中が見えるようになってきました!

今後は、ユーザ側が動画や画像の情報をプロンプトに含められるようになればさらに使いやすくなっていくことでしょう。皆さんもぜひ使ってみてください!

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事