画像解析、位置情報特定… Chat GPTの新機能「GPT-4V」でココまでできる！

2023年9月25日、OpenAI社はChatGPTの新機能として、「GPT-4V（ジーピーティーフォービジョン）」を発表しました。GPT-4Vは有料プランである「Chat GPT plus」や「企業プラン」の契約者が利用できるサービス。Chat GPTの機能をさらにパワーアップさせることが可能です。

さて、GPT-4Vを使うと、具体的にどのようなことができるようになるのでしょうか。

今回のリリースで新たに搭載された機能として、まず挙げられるのが「画像認識」。従来のテキストによる質問だけでなく、画像をアップロードすることで、視覚情報の説明や要約、解析、位置情報の推測、ソースコードの発行などが行えるようになりました。

たとえば画像に写っているものや、イラストに描かれているものの名称を知りたいときは、該当の画像をアップしたうえで「これは何の画像？」などと質問すると、画像について文章で説明をしてくれます。アプリを使えば画像内に手書きでマークして、知りたいところにフォーカスすることも可能です。

視覚情報について説明する文章を書きたいときのサポートという活用法もあります。「外国語で書かれた文章を撮影して翻訳＆要約」「Excelの画像を使って関数について質問」といった使い方も便利です。

画像をただ認識するだけでなく、解析により何らかの知見を得られるのも魅力です。グラフや表・チャートも、GPT-4Vなら効率よく複数視点からの分析ができます。

自作した資料やイラスト・UI・ロゴなどのデザインについて、客観的なアドバイスを得るのも効果的です。ツッコミどころや改善点をピックアップしてもらえば、よりクオリティの高いアウトプットにつながるでしょう。

インテリアやファッションなどに応用することもできます。実現させたい印象・雰囲気を指示すれば、色彩やアイテムなどの具体的な改善案を得られます。

特定の場所が写っている写真をアップすれば、地名などの位置情報を推測することもできるとのこと。ただし、精度はまだ高いとはいえず、国や地方を限定した質問をするなどの工夫が必要なケースもあるようです。

Webサイトのデザインを再現したいときは、ソースコードの発行が便利です。ページのスクリーンショットやレイアウトのスケッチをアップロードして、HTML、CSSなどの言語を指定すれば、コードを出力してくれます。ここまでやれれば、コードを部分的に修正するだけで、簡単に必要とするWebデザインが仕上がります。

こういった画像認識の機能に加えて、GPT-4Vで新たに使えるようになったのが、スマホアプリによる音声での入力・返答機能。運転中や作業中でデバイスの操作ができないときでも、誰かと会話するように質問できるため、Chat GPTの利用シーンが大幅に広がりそうです。

現時点では画像・音声ともに、認識の精度は十分とはいえませんが、今後さらに性能が上がれば業務効率が一気に向上するでしょう。これを読んで、Chat GPTの進化のスピードに驚いている人もいるのではないでしょうか。近い将来、Chat GPTをベースにした新たなサービスが続々と登場するはずです。