2024年05月 ChatGPTGPT-4o – 株式会社富士情報

　OpenAIが5月13日(米国時間)に最新ChatGPTのGPT-4oを発表しました。これまでのGPT-4に”o”がつきましたが、これはomni(オムニ)と読みます。オムニとはラテン語で「すべて」を意味します。これまでChatGPTでテキスト、音声、画像などを入力することは出来ました。GPT-4の音声モードは平均5.4秒の遅延がありました。GPT-4の音声モードでは、まず音声をテキストに変換し、変換したテキストに対して回答のテキストを作成し、最後に回答のテキストを音声に変換していました。この方法だと多くの遅延が発生し、テキスト化する際に感情や背景雑音など多くの情報を失ってしまいます。GPT-4はLLM(大規模言語モデル)と呼ばれていたとおり言語(テキスト)のみで学習し、音声、画像などの情報を処理する際にもテキスト化が必須なので、このような処理をせざるを得ませんでした。GPT-4oはテキスト、音声、画像などを直接学習することで変換の手間、情報の欠落等の問題点を解消したそうです。その結果、平均320ミリ秒という高速な応答速度を実現し、視覚と音声の理解に優れているとのことです。OpenAIのHPにはGPT-4oのデモがいくつか掲載されています。盲目の方が使用するデモでは、バッキンガム宮殿の前でGPT-4oをかざすとバッキンガム宮殿に旗が掲げられているのをGPT-4oが見て「旗が掲げられているので王は宮殿にいます」と説明しています。タクシーを使用する際にもGPT-4oを道路に掲げていると、タクシーが近づいた良いタイミングで合図を出してくれます。GPT-4oの紹介動画では登壇者(マーク)が「緊張している」というと「あなたは専門家です、深呼吸するように」とGTP-4oはアドバイスをします。マークがわざと大げさに深呼吸をすると、GPT-4oは「あなたは掃除機ではありませんよ」と返し、笑いを誘っていました。このようにGPT-4oと画像や音声をやり取りし、感情表現を含めて非常に自然な会話を行っていました。
　LifePrompt社が2024年の大学共通テストのうち7科目をGPT-4とGoogleのBard、AnthropicのClaude2に解かせて比較しました。受験生の平均正答率60%だったのに対し、AIの結果はGPT-4が正答率66%でClaud2の51%、Bardの43%を凌いでいました。科目毎では数学1A、2Bを除く5科目ですべて受験生を上回っていました。テレビプロデューサーのマキシム・ロット氏はAIにIQテストを受けさせて比較しています。GPT-4のIQは85でした。一般にIQの平均域は「IQ85以上115未満」と言われています。GPT-4はIQは若干低めですが、記憶力に優れたAIと言えると思います。
　電気自動車のテスラはFSD（フルセルフドライビング）を実装していてソフトウェアのアップデートを繰り返してきました。2月にテスラはFSD V12をリリースしました。これまでのプログラムベースのFSDとは異なり、AIで運転の判断を実現しています。V11までは車を取り巻く道路状況を元に判断するようなアルゴリズムを考えプログラムで記載していたため、ぎこちなさがあったそうです。例えば右折合流時にV11では必ず一時停止し安全確認していたところでも、V12では速度は落とすものの停止せず安全確認し合流するようになったようです。V12となり人間らしい自然な運転へ洗練されたようです。V11のプログラムは30万行を超える規模になっていました。V12でAI化することで規模が2桁小さい数千行程度になったそうです。賢いAIの実現には膨大なデータが必要になります。テスラはこれまで莫大な運転データを収集してきていたので、これが役に立ったのだと思います。このように大量のデータがあり標準的な振る舞いを期待されるような仕事やシステムはAIが得意な分野です。今後も我々の身の回りに広がり便利になると期待しています。