ついに公開!X(旧Twitter)で使えるLLM「Grok」を使ってみた!性能や使用感を紹介

X(旧Twitter)を運営しているイーロンマスク氏が「xAI」という会社を設立して発表した新たなLLM(大規模言語モデル)であるGrokがついに日本でも使えるようになりました!

始めに、このGrokというLLMが発表されたのは昨年11月のことでした。本サイトでも、発表当時にGrokについての記事を公開しており、すぐに日本でも使えるようになると思われていました。結局発表してから日本で使えるようになるには、半年もの期間を要しましたね。

今回は、実際にGrokを使ってみての所感や当初の発表とのギャップについてご紹介していきたいと思います!

1章 Grokとは?

1-1 Grokの概要

以前の記事でも紹介しましたが、Grokの概要について一緒に復習していきましょう!

初めに、xAIのGrokに関する発表を見ていきましょう。

Grok は銀河ヒッチハイク ガイドをモデルにした AI で、ほぼすべてのことに答えることを目的としており、さらに難しいことには、どのような質問をすればよいかを提案することさえできます。

Grok は、少し機知に富んだ質問に答えるように設計されており、反抗的な性格があるため、ユーモアが嫌いな場合は使用しないでください。

Grok のユニークかつ基本的な利点は、 プラットフォームを通じて世界に関するリアルタイムの知識を持っていることです。また、他のほとんどの AI システムでは拒否されるような難しい質問にも答えます。

Grok はまだ非常に初期のベータ版製品であり、2 か月のトレーニングでできる最高の製品です。そのため、皆様のご協力により、週を追うごとに急速に改善されることが期待されます。

xAI公式ホームページより

「少し機知に富んだ質問に答える」・「反抗的な性格」など、従来の対話型AIと比べてより人間に近い特徴があることがわかります。

実際に、コカインの作り方に答えるといったような際どい質問にもGrokは答えることができるようです。コカインの作り方にも答える

情報のリアルタイム性

さらに重要な点として、「Xプラットフォームを通じて世界に関するリアルタイムの知識を持っている」という点があります。これは他の対話型AIとの違いであるといえます。

例えば、ChatGPTの場合無料プランであるGPT-3.5では情報はリアルタイムではありません。試しに「現在のテニスの世界ランキング1位の選手は?」という質問をGPT-3.5に聞いてみましょう。

 GPT-3.5がリアルタイムの情報を持っていないことを示す画像

画像出典Chat GPT

このように、ChatGPTの最新の情報は2022年までのものであるということがわかります。

Grokでは、この様な質問に対しても回答することができるのです。

オープンソース

GrokはChatGPTを特に意識しており。イーロンマスク氏のXでのポストにおいてもChatGPTとの差別化を強調するような内容の投稿が何度か見られています。

オープンソースであるという点においてGrokはChatGPTと差別化されていると言えます。ChatGPTはクローズドLLMと言われ、企業が独占的に所有し、APIを通してのみ利用可能なモデルを指します。

企業が大規模なリソースをもとに開発されたパラメータであるため、汎用的に使うのに適したモデルとなっている一方、内部がブラックボックス化されているためユーザ側でパラメータを調整することは難しいとされています。詳しくはこちらの記事をご覧ください!

一方で、Grokではこのようなパラメータがオープンソースで公開されており、ユーザが用途に合わせて重みづけなどを調整することができます。

1-2『Grok』の性能

Grokは現在Grok-1という1番初めのバージョンが公開されており。Grok-1.5という改良モデルがテストとして一部ユーザに公開されている状態となっています。

始めに、Grok-1の性能を見ていきましょう!

Grokとその他のAIのスコアを比較した表

画像出典xAI

ちなみにテストの内容は以下の様になっています。

  • GSM8k:段階的な思考を必要とする中学校の数学の文章題
  • MMLU : 57の学術分野の多肢選択問題
  • HumanEval : Pythonのコーディングを評価する
  • MATH : LaTeXで書かれた中学高校の数学の問題

これらから、学術的な知識やコードの知識はもちろんのこと知識を組み合わせて思考をする能力や問題を正確に読み取る能力などが測られているということが予想できます。

画像のスコアから、Grak-1はGPT-3.5やLLaMA2よりも総合的に高いスコアであることがわかります。これだけでもGrakの性能がある程度保証されたものであることがわかります!

続いて、Grok-1.5の性能を見ていきましょう!

grok-1.5の性能スコア

画像出典 X

現状1番性能が高いとされているClaude3 Opusには及ばないものの、GPT-4といい勝負をしていると言えるでしょう。今後、Grok-1.5が無料で使えるようになれば、有料プランであるGPT-4を使う必要はなくなるかもしれません!

2章 Grokを実際に使ってみた!

それでは、実際にGrokを使っていきましょう!

2-1 Grokは無料で使える?

GrokをX上で使える場所を示す。

画像出典 X

Grokは現在X(旧Twitter)上で使うことができ、画像で示した真ん中のボタンを押すことによってGrokのトーク画面に進むことができます。

サブスクリプションぷらんに入る必要がある

画像出典 X

ちなみに、Grokを使うためには有料のサブスクライブプランに入る必要があるので、注意が必要です!

2-2 Grokの使用例

まずは、情報のリアルタイム性について試していきましょう!

リアルタイム性

本日のニュースを教えてくれる

画像出典 X

このように、Grokは実際に今日(5月8日)にあったニュースを実際に示してくれました!このようにGrokにはリアルタイムの情報を提示できるということが実際に検証できました!

質問への制限やユーモア

続いて、実際に麻薬の作り方を答えてくれるのかを試してみましょう。

麻薬の作り方は答えてくれなかった

画像出典 X

麻薬の作り方は、教えてもらえませんでした。ユーモアモードとありますが、特にユーモアに富んだ返しをしてくれるわけでもありませんね。ここに関しては少し期待外れですね。

LLMとしての推論能力

最後に推論能力を調べていきます!今回は、定番のプロンプトである

あなたは今マラソンをしています。3位の選手を追い抜いた場合、あなたは何位になりますか?

 

というプロンプトをしていきます!これは、2位と答えてしまいがちですが、3位の選手を追い抜いたので自分が3位になるのが正解です。

答え方も不自然だし間違っている

画像出典 X

残念ながら、こちらの質問に正しく答えることはできませんでした。答え方も少し不自然ですね。

このように、GrokはXから取得することでリアルタイムの情報については答えることができますが、LLM本来の性能としては従来のChatGPTやClaudeと比べて高いとは言えないです。

3章まとめ

今回は、ようやく日本で使うことができるようになったLLM Grokについてご紹介しました!公開までの時間がかなり長かった分期待が高まっていましたが、まだ性能に改善の余地はありそうです!

しかし、情報ソースをX(旧Twitter)からとってくることができるというのは他のLLMにはない特徴であり、今後ユーモアに富んだユニークなLLMとなっていくことも十分期待できると思います!

今後の成長に期待しながら、Grokをぜひ楽しんでいきましょう!

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事

コメント

この記事へのコメントはありません。