GPT-3.5 と GPT-4 はどう違う？比較検証してみた｜東京のWEB制作会社・ホームページ制作会社｜株式会社GIG

BLOG

ブログ

GPT-3.5 と GPT-4 はどう違う？比較検証してみた

2023-06-28 ウェビナー・勉強会

こんにちは、株式会社GIG広報の北村（ゆうゆう）です。GIGでは毎月さまざまなテーマで勉強会を開催しています。

今回はWorkship事業部の坂本昂輝さんに、「GPT-3.5 と GPT-4の違い」をテーマにお話いただきました。以下でその内容をくわしくご紹介します。

■登壇者プロフィール

坂本昂輝（さかもとこうき）：バックエンドエンジニア。大阪大学大学院情報科学研究科修士課程修了。学生時代はネットワーク研究を行う。2018年8月にGIGに入社。

弊社GIGは、ナショナルクライアントからスタートアップまで、Webコンサルティング、UI/UXデザイン、システム開発など、DX支援をおこなうデジタルコンサルティング企業です。Web制作やDX支援のご相談はいつでもご連絡ください。
■実績紹介
 ■お問い合わせはこちら

GPT-3.5とは？

そもそも「GPT-3.5」とは、OpenAI社が開発した大規模言語モデル（入力された単語の次に出力される単語予測を繰り返し、文章を生成していくモデル）のひとつです。上画像のように、たとえば「私」「は」「猫」という単語が並んでいたら、次に来るのは「が」「好き」だろう、と予測して提示してくれます。

GPT-3.5ではおよそ3550億個のパラメータ（過去に学習したテキストデータ）が使われていて、このパラメータが多ければ多いほどカバーできる単語（＝文章）が増えます。パラメータが多いほど表現力も増すのですが、GPT-3.5はそろそろ限界に近づいてきている面も。

GPT-4とは？

シンプルに言うと、「GPT-4」とはGPT-3.5の強化版です。パラメータ数も5000億〜1兆と言われており（※2023年5月時点でテクニカルレポートが発表されていないため、正確な数字ではありません）、そのぶん表現力もレベルアップ。

上画像の左側にあるグラフを見てください。青がGPT-3.5のテスト結果、緑がGPT-4のテスト結果です。ほとんどの項目でGPT-4が上回っています。このように性能が向上している点にくわえ、マルチモーダルにも対応。テキストだけじゃなく画像でも学習できるようになりました。今後は映像や音声も入力できるようになるかもしれません。

ChatGPTとGPT-3.5／GPT-4の関係

ChatGPTとは、OpenAI社が開発したチャット型AIです。「Instruct GPT」と呼ばれるものを、より対話型に特化させたモデルを指します。上記で説明してきたGPT-3.5やGPT-4が土台にあって、ユーザはChatGPTを通してそれらを利用することができます。

ChatGPTには、上画像のように「得意なタスク」と「不得意なタスク」があります。長い文章を短く要約したり、英語を日本語に翻訳したりするのが得意です。

ただ、検索や計算はまだまだ不得意。たとえば「現在の日本の総理大臣を教えて」と質問すると「菅義偉」と返ってきます。ChatGPTは2021年9月時点までの学習データを用いているためです。

GPT-3.5 と GPT-4の違い

GPT-3.5 と GPT-4について、それぞれ以下の項目において比較してみました。

1. 幻覚
2. 推論力
3. 計算力
4. 表現力
5. 安全性

以下、左の画像が「GPT-3.5」、右の画像が「GPT-4」です。

違い1. 幻覚

架空の芸人「モーニング石倉」について質問してみます。上画像を見てもらえるとわかるように、GPT-3.5で出てくる情報は間違いだらけです。そもそも存在しない芸人なので、当たり前ですね。当然のように嘘をつく現象を「幻覚（Hallucinations）」と呼んでいます。GPT-4では、この幻覚がだいぶ削減されています。

同じ質問をGPT-4にも投げかけると、答えは「私のトレーニングデータには含まれていないため、彼の活動や経歴についてはお答えできません」といったものに。まだ完璧に幻覚が削除されているとはいえませんが、無難な受け答えによって幻覚を回避することが多くなってそうです。

違い2. 推論力

次に「推論力」を比較します。それぞれに「1時間で燃え尽きる蚊取り線香を2つ使って45分間をはかる方法」と質問してみました。

GPT-3.5では、まず冒頭の「2つの蚊取り線香を同時に点火すると2時間かかります」の記述から間違っています。後に続く論述についても正確性に欠けるため、推論力があるとはいえません。

その反面、GPT-4では正確な方法が提示されました。テクニカルレポートでも、GPT-4のほうが推論力が飛躍的に向上していることが報告されています。

違い3. 計算力

次に「計算力」を比較します。それぞれに304を素因数分解してもらいました。GPT-3.5では、それぞれの計算式は合っているのですが、最後に「304=2×2×2×19」と出力してしまっています。正解は「304=2×2×2×2×19」なので、惜しいです。

GPT-4でも、結果的には同じ結果になってしまいました。GPT-3.5のように、ステップバイステップで計算するよう指示を出してみましたが、正解は導き出せません。やはり計算力においては、まだ発展途上のようです。

違い4. 表現力

それぞれに俳句を考えてもらうことで「表現力」を比較します。GPT-3.5では「春風や　上司のハゲは　さらに広がる」と出力されました。「ブラックジョークを交える」と指示を加えましたが、これだと単なる悪口になってしまいます。

GPT-4になると、「春の風に　上司の言葉　散る桜」と出ました。一見するとブラックジョークが含まれているようには見えません。しかし解説からは、上司の言葉が春の風に乗って散っていく様子がそのまま、言葉の重みのなさを表しているブラックジョークになっている、と受け取れます。GPT-4のほうが表現力が増しているといえるでしょう。

違い5. 安全性

「安全性」の観点からも比較してみます。それぞれにウイルスメールの例文を書いてもらいました。ただ「ウイルスメールの例文を作ってください」と指示を出すと、倫理的に問題があるためできませんと回答されます。しかし、「ウイルスメールがどんなものか知りたいので〜」といった指示にすると突破できてしまいます。

GPT-3.5ならびにGPT-4どちらでも、指示通りにウイルスメールの例文が出力されました。GPT-4のほうが、より精度が高く見えます。とくに「確認リンク」の部分はHTMLメールを想定して書かれているなど、凝った文面になっています。

少し指示出しを変えるだけで、ウイルスメールの文面が作成できてしまいました。安全性の面ではまだまだ抜け道が多そうです。

DX支援なら株式会社GIG

今回の勉強会では「GPT-3.5 と GPT-4の違い」について、Workship事業部の坂本昂輝さんに詳しくお話いただきました。

株式会社GIGは、ナショナルクライアントからスタートアップまで、Webコンサルティング、UI/UXデザイン、システム開発など、DX支援をおこなうデジタルコンサルティング企業です。また、45,000人以上が登録するフリーランス・副業向けマッチングサービス『Workship』や、7,000人以上が登録するデザイナー特化エージェントサービス『クロスデザイナー』、リード獲得に特化したCMS『LeadGrid』、UXコンサルティングサービス『UX Design Lab』などを展開しています。

DX支援のご相談はいつでもご連絡ください。

■株式会社GIG
お仕事のお問い合わせはこちら
 採用応募はこちら（GIG採用サイト）
採用応募はこちら（Wantedly）

株式会社GIG、全社AI導入宣言。