NANIGE BLOG
2025.06.27
2025.06.27

名刺画像からのデータ抽出における Gemini API と OpenAI API の比較:コストと性能の実際

名刺画像からのデータ抽出における Gemini API と OpenAI API の比較:コストと性能の実際
ビジネスにおけるデジタル化が進む中で、紙の名刺からテキスト情報を自動抽出するニーズは高まっています。そこで注目されるのが、画像認識に対応したAI API の活用です。今回は、Google の Gemini API と OpenAI の OpenAI API(GPT-4-Vision) を使って、名刺から氏名、読み仮名、住所、会社名、電話番号を抽出し、JSON 形式で出力させるタスクを実施。その精度・処理のしやすさ・コスト面を中心に比較検証しました。

使用シナリオ概要

目的:名刺画像から以下の情報を抽出

  • 名前(氏名)
  • 読み仮名(ふりがな)
  • 住所
  • 会社名
  • 電話番号

出力形式:JSON(構造化データ)

入力方法:

Gemini API:画像ファイルを直接送信(Base64形式 or ファイルアップロード対応)

OpenAI API:画像は URL形式 で指定(※一時的にパブリックアクセス可能なストレージにアップ)

精度比較:OCRと構造理解

名刺情報の抽出精度について、両API間に顕著な差は見られませんでした

観点OpenAI APIGemini API
日本語のテキスト認識精度高精度高精度
ふりがなの抽出既に名刺に記載がある場合は正確記載がなくても名前から自然に推定可能
JSON構造の保持安定プロンプト次第でばらつきあり
複雑なレイアウト正確に把握一部崩れるケースあり

個人的な見解

特にふりがなのように名刺に明記されていない情報を“推定”しなければならないケースでは、Gemini の方が自然な日本語名から的確に読み仮名を推測できる傾向があり、精度が高いと感じました。

結論

全体の情報抽出精度に大差はないが、ふりがなの“補完・推定能力”においては Gemini に一日の長がある。

ローカル開発時の画像送信に関する違い

OpenAI API は、画像を扱う上で以下のような制約があります。

項目OpenAI APIGemini API
画像送信方法パブリックなURL経由のみ直接送信可能(Base64またはmultipart)
ローカル画像利用×(外部ストレージに一時アップ必要)○(そのままPOST可能)
セキュリティ・機密性一時的に外部公開されるリスクありクローズド環境で完結可能

OpenAI APIの注意点:ローカル環境での開発や機密性の高いデータを扱う場合、画像をインターネット上にアップロードしてURLを生成する必要があるため、セキュリティリスクや手間が発生します。

トークン消費とコストの比較

項目OpenAI APIGemini API
1枚の名刺処理時のトークン量30,000〜40,000 トークン3,000〜4,000 トークン
単価(概算)$0.0000015/トークン(Vision)$0.000001/トークン(Gemini Pro)
1分間あたりの処理上限80,000 トークン360,000 トークン以上
1リクエストあたりのコスト$0.06〜$0.08$0.003〜$0.004

OpenAI APIは精度が高い一方で、トークン消費とコストは約10倍。

実務視点での総合比較

比較項目OpenAI APIGemini API
精度(日本語名刺)
開発のしやすさ(ローカル)△(URL必須)◎(画像送信可)
トークン効率・コスト△(重め)◎(軽量)
セキュリティ△(画像を公開する必要あり)◎(閉じた環境で可)
レスポンス安定性○(プロンプト工夫が必要)

結論:コスパではGeminiが圧勝

名刺画像のデータ抽出という用途においては、性能差に関する差はほとんど見られないためコストパフォーマンスで圧倒的にGeminiが良いという結論に達しました。

特に、大量の名刺を一括処理する業務用途では Gemini API の軽量性が活き、トークン使用制限も抑えられるため短時間での処理が可能になります。

ただし今回は紹介していませんがOpenAI、Gemini APIを使用開始におけるコンソール画面の使い勝手は人によって好みが分かれるかもしれません。

使用プロンプト例(JSON出力)

以下の名刺画像から、次の情報を日本語でJSON形式で出力してください:
名前、ふりがな、住所、会社名、電話番号

出力例:
{
  "名前": "山田 太郎",
  "ふりがな": "やまだ たろう",
  "住所": "東京都港区〇〇1-2-3",
  "会社名": "株式会社サンプル",
  "電話番号": "03-1234-5678"
}

ABOUT ME
たけし
元教育業界で講師を務め

未経験で転職を成功。

現在はWEBを中心に

SEとして活躍中

djangoやlaravelを主に扱う

保有資格:

・ AWS SAA(ソリューションアーキテクトアソシエイト)

・統計検定2級

・日商簿記2級