IT
2025.06.27
名刺画像からのデータ抽出における Gemini API と OpenAI API の比較:コストと性能の実際



使用シナリオ概要
目的:名刺画像から以下の情報を抽出
- 名前(氏名)
- 読み仮名(ふりがな)
- 住所
- 会社名
- 電話番号
出力形式:JSON(構造化データ)
入力方法:
Gemini API:画像ファイルを直接送信(Base64形式 or ファイルアップロード対応)OpenAI API:画像は URL形式 で指定(※一時的にパブリックアクセス可能なストレージにアップ)
精度比較:OCRと構造理解
名刺情報の抽出精度について、両API間に顕著な差は見られませんでした。
観点 | OpenAI API | Gemini API |
---|---|---|
日本語のテキスト認識精度 | 高精度 | 高精度 |
ふりがなの抽出 | 既に名刺に記載がある場合は正確 | 記載がなくても名前から自然に推定可能 |
JSON構造の保持 | 安定 | プロンプト次第でばらつきあり |
複雑なレイアウト | 正確に把握 | 一部崩れるケースあり |
個人的な見解
特にふりがなのように名刺に明記されていない情報を“推定”しなければならないケースでは、Gemini の方が自然な日本語名から的確に読み仮名を推測できる傾向があり、精度が高いと感じました。
結論
全体の情報抽出精度に大差はないが、ふりがなの“補完・推定能力”においては Gemini に一日の長がある。
ローカル開発時の画像送信に関する違い
OpenAI API は、画像を扱う上で以下のような制約があります。
項目 | OpenAI API | Gemini API |
---|---|---|
画像送信方法 | パブリックなURL経由のみ | 直接送信可能(Base64またはmultipart) |
ローカル画像利用 | ×(外部ストレージに一時アップ必要) | ○(そのままPOST可能) |
セキュリティ・機密性 | 一時的に外部公開されるリスクあり | クローズド環境で完結可能 |
OpenAI APIの注意点:ローカル環境での開発や機密性の高いデータを扱う場合、画像をインターネット上にアップロードしてURLを生成する必要があるため、セキュリティリスクや手間が発生します。
トークン消費とコストの比較
項目 | OpenAI API | Gemini API |
---|---|---|
1枚の名刺処理時のトークン量 | 約 30,000〜40,000 トークン | 約 3,000〜4,000 トークン |
単価(概算) | $0.0000015/トークン(Vision) | $0.000001/トークン(Gemini Pro) |
1分間あたりの処理上限 | 約 80,000 トークン | 約 360,000 トークン以上 |
1リクエストあたりのコスト | 約 $0.06〜$0.08 | 約 $0.003〜$0.004 |
OpenAI APIは精度が高い一方で、トークン消費とコストは約10倍。
実務視点での総合比較
比較項目 | OpenAI API | Gemini API |
---|---|---|
精度(日本語名刺) | ◎ | ◎ |
開発のしやすさ(ローカル) | △(URL必須) | ◎(画像送信可) |
トークン効率・コスト | △(重め) | ◎(軽量) |
セキュリティ | △(画像を公開する必要あり) | ◎(閉じた環境で可) |
レスポンス安定性 | ◎ | ○(プロンプト工夫が必要) |
結論:コスパではGeminiが圧勝
名刺画像のデータ抽出という用途においては、性能差に関する差はほとんど見られないためコストパフォーマンスで圧倒的にGeminiが良いという結論に達しました。
特に、大量の名刺を一括処理する業務用途では Gemini API の軽量性が活き、トークン使用制限も抑えられるため短時間での処理が可能になります。ただし今回は紹介していませんがOpenAI、Gemini APIを使用開始におけるコンソール画面の使い勝手は人によって好みが分かれるかもしれません。
使用プロンプト例(JSON出力)
以下の名刺画像から、次の情報を日本語でJSON形式で出力してください:
名前、ふりがな、住所、会社名、電話番号
出力例:
{
"名前": "山田 太郎",
"ふりがな": "やまだ たろう",
"住所": "東京都港区〇〇1-2-3",
"会社名": "株式会社サンプル",
"電話番号": "03-1234-5678"
}
