マルチモーダルや画像生成ができる「Reka AI」の使い方・料金を紹介

ChatGPTに盛り付けを採点させる

画像出典 OpenAI

現代のビジネス環境では、AIの活用はもはや選択肢ではなく必須の要素となっています。

しかし、AI技術の複雑さや、適切なツールの選定、コストの問題など、多くの企業や開発者が直面する課題は少なくありません。

そんな中、新たにRekaというLLM(大規模言語モデル)が注目を集めております。

本記事では、Rekaの概要、その独自の特徴、使い方、料金プランについて詳しく解説します。Rekaがどのようにして他の大規模言語モデルと異なるか、そしてそれがどのようにしてビジネスやプロジェクトに具体的なメリットをもたらすかに焦点を当てています。

1章 Rekaの概要

1-1 Rekaの概要と機能

Rekaは、最新のAI技術を活用した大規模言語モデルです。話題のchatGPTやClaude3Google geminiと同様ですね。

このツールは、特にマルチモーダル(テキスト、画像、動画を含む)タスと多言語処理において優れた性能を発揮します。

マルチモーダルとは、テキストだけでなく同時に画像や動画の入力に対して処理をすることができるということです。

さらに、Rekaは言語処理や画像処理のほかに画像生成も行うことができます!例えばClaude3は高性能の情報処理能力が評価されていますが、画像生成は行うことができません。このように全てのLLMが画像生成を行うことができるわけでないのです。

1-2 Rekaの特徴

Rekaは他のモデルと比較して、特に動画理解や限られたリソースでの推論パフォーマンスにおいて優れています。

このため、リソースが限られた環境や、動画とテキストの両方を解析する必要があるシナリオではRekaが最適です。

さらに、Rekaは多言語タスクにおいても高い能力を持ち、特に日本語を含む複数の言語での作業が求められる場合に役立ちます。

2章 Rekaの使い方

Rekaを利用するための手順はシンプルで直感的です。

まずは、Rekaの公式ウェブサイトにアクセスし、アカウントを登録します。

公式サイトからrekaを無料でボタンを示している

画像出典 Reka

画面赤枠で囲われた「Try Our Models Free」をクリックしてください。アカウント作成には基本的な情報の入力が求められ、数分で完了します。

アカウントが設定された後、Rekaのダッシュボードにログインし、利用したいAIモデルを選択します。

各モデルの違い

画像出典 Reka

AIモデルは以下のような3種類があります。

REKA・Edge:ローカル展開に最適化された7B(70億)パラメータの軽量モデル

REKA・Flash:高速かつ高性能な21B(210億)パラメータの「ターボクラス」モデル

REKA・Core:複雑なタスクに対応する最大かつ最も高性能なモデル

モデルを選択した後、具体的なタスクやデータをシステムにアップロードします。Rekaはユーザーからの入力を受け取り、必要な処理を行い、結果を返します。

画像タスク処理

試しに、料理の画像をプロンプトとして入力して、Rekaが画像をどれくらい認識しているのかを試していきたいと思います。

チキン料理の画像をプロンプトにする

今回は鶏肉の料理の写真を上げてみましたが、写真の内容をしっかり把握して言語化できてました。(クリスピーがクリスプyになってましたが、、)

同様のタスクをchatGPTにも依頼してみましょう!

ChatGPTにも同様の処理をさせる

画像出典 ChatGPT

こちらも問題なく出力されました。どちらも画像の色からソースの材料などを推論しているあたり、相当な画像処理能力であることがわかります!

chatGPTの方が細かい情報をピックアップしてくれてる印象ですが、日本語として自然なのはRekaの方でしょうか。

Claude3でも同様のタスクを実行しました。

Claude3で同様のタスクを行う

画像出典 Anthropic

日本語としての文章も自然で、画像内の事実を出力するだけにとどまりません。

「栄養素面」のように画像に含まれる要素から言えることや、「盛り付け面」のように、複数の要素を掛け合わせた結果どのような状態と言えるのか、といったことまで出力されました。

流石のClaudeといったところですね。

画像生成の精度

Rekaは画像生成をすることができます!まずは、画像生成のその精度やそのクオリティを検証していきたいと思います。

せっかくなので、盛り付けの採点とフィードバック、改善イメージを出力させてみました。

始めにChatGPTから!

ChatGPTに盛り付けを採点させる

画像出典 OpenAI

chatGPTはさすがの画像生成レベルです。

フィードバック内容を忠実に画像に反映し、違う盛り付け案を出力してくれました。

一方でRekaで同タスクの依頼をしましたが、イメージとは遠い出力となりました。

Rekaに盛り付けをさせてみた

画像出典Reka

(これは全然違うのでは、、、?)

また、画像出力にも時間がかかるため、現時点では画像読み込み→出力の優位性はchatGPTにある印象です。

動画タスク処理

Reka AIは画像だけでなく動画を読み込んでその内容について質問をすることもできます!

では動画のインプットに対してはどうでしょうか。

今回はこちらの動画の出力に対してRekaがどのように理解しているのかを考えていきたいと思います。

動画の入力に対する処理を見る

画像出典 Reka

動画の内容をテキストで文字起こしさせました。この動画は言語音声は入っていないため、純粋に映像だけで判断し文章化されています。

ただし、動画の内容に関しては一部誤りがありました。また、動画の解釈に関しては精度に疑問が残る印象です。

(本動画は犬が溺れそうで焦っている表情のように見えますが、Rekaではそう判断されませんでした)

文脈を考慮して事象を解釈する能力はない

画像出典 Reka

あくまでも視覚的な事実のピックアップにたけていて、動画という「文脈を考慮して事象を解釈する」といったことは対応していない印象でした。

3章 Rekaの料金プラン 商用利用

Reka AIはチャット機能は無料で利用可能で、商用利用も可能です。また、もしReka AIのAPIを利用するとなった時には有料プランに登録する必要があります。

APIの利用料金表

画像出典 Reka

  1. Reka Core: 最大かつ最も高機能なモデルで、複雑なタスクを処理できます。GPT-4やClaude 3 Opusに匹敵するベンチマークスコアを主張しています。Reka Coreの価格は、100万入力あたり10ドルです。
  2. Reka Flash: 21Bパラメータを持つ高速で高機能なモデルです。価格は100万入力あたり80セントです。
  3. Reka Edge: ローカル展開やリソースに制約のある環境に最適化された7Bパラメータの軽量モデルです。Reka Edgeの価格は、100万入力あたり40セントです。

3つのモデルはすべて、画像、音声付きビデオ、テキスト、PDFなどのドキュメントを含むマルチモーダル入力をサポートしています。API、オンプレミス、オンデバイスなど、柔軟な展開オプションを提供しています。

4章 まとめ

今回は、話題の大規模言語モデルReka AIについてその使い方や実際の性能について詳しく説明していきました!

Rekaは、多言語対応やマルチモーダルタスクに特化した強力なAIツールです。その使いやすいインターフェースと柔軟な料金プランにより、さまざまな規模の企業やプロジェクトに適応することが可能です。AIの導入を検討している企業や開発者にとって、Rekaは革新的なソリューションを提供し、ビジネスの可能性を広げる貴重な資源となるでしょう。

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事

コメント

この記事へのコメントはありません。