AI文字起こしAPI連携の基礎知識と選び方

音声認識APIの最安はOpenAIのGPT-4o Mini Transcribeで1分あたり$0.003。最も高いAmazon Transcribeは$0.024。同じ「音声を文字にする」だけで8倍の価格差がある。

ただ、安ければ正解かというと全然そうじゃない。日本語の認識精度、リアルタイム対応の有無、ファイルサイズの上限、従量課金の計算方法——比較すべき軸が多すぎて、料金表だけ見ても判断できないのが正直なところだと思う。

この記事では、自社システムに音声認識APIを組み込むことを前提に、主要4サービスの料金・精度・制限を整理した。「どのAPIがベストか」は用途で完全に変わるので、選定の判断軸ごとに比較していく。

主要4つの音声認識APIを並べてみた

2026年4月時点で、日本語に対応している主要な音声認識APIは以下の4つ。それぞれクラウドプラットフォームの一部として提供されているものと、AI企業が単体で提供しているものがある。

API	料金（1分あたり）	無料枠	ファイル上限	リアルタイム
OpenAI Whisper API	$0.006	なし	25MB	非対応
GPT-4o Mini Transcribe	$0.003	なし	25MB	非対応
Google Speech-to-Text	$0.016	60分/月	制限なし（ストリーミング）	対応
Amazon Transcribe	$0.024	60分/月（12ヶ月）	2GB	対応
Azure Speech-to-Text	$0.017	5時間/月	制限なし（バッチ）	対応

表だけ見るとGPT-4o Mini Transcribeの$0.003が圧倒的に安い。ただしOpenAI系のAPIはリアルタイムストリーミングに非対応で、ファイルサイズも25MBまでという制約がある。1時間の会議音声をMP3にすると大体50〜90MBになるので、分割してアップロードする前処理が必要になる。この手間を「たいしたことない」と思うか「運用コストだ」と感じるかで、評価がかなり変わる。

一方、Google・Amazon・Azureはストリーミング入力に対応しているから、リアルタイムで文字起こししたいならこの3つのどれか。料金だけならGoogleの$0.016が最安だけど、後述する「隠れたコスト」があるので注意してほしい。

Amazon Transcribeは高いが、25万分を超えると$0.015/分まで下がるボリュームディスカウントがある。月に4,000時間以上処理するような大規模用途なら、逆に最安になる可能性もある。

PR ／編集部おすすめ

Notta

4.8 / 5.0

月額料金

¥0/月〜

日本語精度98.86%。業界最高水準
無料プランで月120分まで文字起こし可能
会議・動画・音声ファイルをリアルタイム処理

Nottaを無料で試す

✓ クレジットカード不要　✓ いつでも解約可　✓ 日本語精度98%

日本語の認識精度——Whisperが強いが、万能じゃない

日本語の精度だけで比べると、現状はWhisper系（Whisper API / GPT-4o Transcribe）が頭一つ抜けている。IZAIの検証記事によると、固有名詞を含むビジネス会話でもWhisperはほぼ100%に近い精度を出していて、出力形式の安定性も他のAPIより高かったそうだ。

Google Speech-to-Textは住所の認識に強い。住所を読み上げるような音声データを扱うなら、Googleを選ぶ合理性はある。ただ、全体的な精度はWhisperにやや劣る印象で、特にカジュアルな話し言葉（「えーっと」とか「あのー」が多い会話）では差が開くらしい。自分で全パターンを検証したわけじゃないので断言はできないけど、複数のテスト記事が同じ傾向を示していた。

Amazon Transcribeは意外な落とし穴がある。数字を漢数字で出力する傾向があるんですよね。「100万円」が「百万円」になったり、「2024年」が「二千二十四年」になったり。CER（文字誤り率）の数値上はWhisperに次ぐ精度なのに、実際の可読性は数字が示すほど高くないかもしれない。ここは用途次第で致命的になりうるポイント。

精度テストの注意点

音声認識の精度はテストデータによって大きく変わる。静かな環境で一人が話すデータと、雑音のある会議室で複数人が話すデータでは結果が全然違う。ベンチマークの数字だけで判断せず、自社の実データで必ず検証すべき。各APIとも無料枠やトライアルがあるので、比較検証のコストはほぼゼロで済む。

料金表に出てこない「隠れたコスト」の話

ここが一番伝えたいところかもしれない。

API単体の料金だけ比較して選ぶと、本番運用で「思ったより高い」という事態になる。理由は周辺コスト。

Google Speech-to-Textの場合。APIの$0.016/分は安く見えるが、GCPのエコシステムを使う前提になっている。音声ファイルをCloud Storageに置いて（$0.020/GB/月）、Cloud Functionsで処理して（$0.40/100万回）、結果をPub/Subで受け取って（$0.40/100万メッセージ）——気づいたら実効コストが$0.016の2〜3倍になっていたという話は珍しくない。

OpenAI系の場合。周辺コストは比較的シンプル。REST APIに音声ファイルをPOSTするだけなので、追加のクラウドインフラは不要。ただし25MBの壁があるから、長時間音声の分割処理を自前で実装する必要がある。このエンジニアリングコストを見落とす人が多い。

Amazon Transcribeも同様で、S3へのアップロードやIAMの権限設定、結果のポーリングなどAWS固有のお作法が必要になる。すでにAWSを使っているチームなら大した話じゃないけど、ゼロからだと学習コストがバカにならない。

正直、この「隠れたコスト」を正確に算出する方法は自分もまだ確立できていない。プロジェクトの規模やチームのスキルセットで変動が大きすぎるからだ。ただ、API料金の1.5〜3倍を総コストとして見積もるのが、実感値としては妥当だと思う。

用途別の選定フロー

結局どれを選べばいいのか。完全に用途次第なので、ケース別に整理する。

バッチ処理で日本語精度を最優先したい

→ GPT-4o Mini Transcribeの一択。$0.003/分で精度はWhisper相当。25MBの制約はffmpegで分割すれば回避できる。コスパだけなら現時点で最強だと思う。議事録の自動生成とか、録音データのアーカイブ検索用途に向いている。

リアルタイム文字起こしが必要

→ Google Speech-to-TextかAzure Speech-to-Text。Googleは73言語対応で料金も$0.016/分と比較的安い。AzureはMicrosoft 365との親和性が高いので、Teamsとの連携を考えるなら選択肢に入る。ZoomやTeamsの内蔵文字起こしと外部APIの精度差については別記事で検証しているので参考にしてほしい。

月間処理量が数千時間を超える

→ Amazon Transcribeのボリュームディスカウントが効いてくる。100万分超で$0.0102/分、500万分超で$0.0078/分まで下がる。コールセンターの全通話録音を処理するような規模感なら、圧倒的に安くなる。ただし、ここまでの規模だとAPI選定よりオンプレミスでWhisperを動かす選択肢も検討したほうがいい。

とりあえず試したい・プロトタイプ段階

→ OpenAI Whisper APIが手軽。APIキーを取得してcurlでPOSTするだけで動く。SDKもPython・Node.jsが公式で用意されていて、最短10行くらいのコードで文字起こしが動く。GCPやAWSのアカウント開設から始めるよりはるかに楽。

よくある疑問に先回りで答える

「話者分離（誰が話したか）はどのAPIでできる？」

Google Speech-to-Text、Amazon Transcribe、Azure Speech-to-Textの3つが話者分離（ダイアライゼーション）に対応している。OpenAIもGPT-4o Transcribeで対応を始めた。ただし、話者分離の精度は各社で差があるので、必ず実データで検証すべき。3人以上の会話になると精度が落ちるのはどのAPIも共通の弱点だと思う。

「無料のWhisperをローカルで動かすのとAPIの違いは？」

Whisperはオープンソースなので、自前のサーバーで動かせば利用料はゼロ。ただし、GPUサーバーの維持費がかかる。NVIDIA T4クラスのGPUをクラウドで借りると月$200〜400くらい。月間の処理量が3,000分を超えるあたりからAPIより安くなる計算だけど、サーバー管理の人件費を入れると損益分岐点はもっと上がる。詳しくはWhisperの基礎知識の記事にまとめている。

「課金は音声の長さ？それとも処理時間？」

全API共通で、課金対象は音声ファイルの長さ（duration）。処理にかかった時間じゃない。注意したいのはOpenAI系で、無音部分も課金対象になる。10分の音声ファイルのうち9分が無音でも10分ぶん請求される。前処理で無音区間を除去しておくとコスト削減になるけど、その処理自体にも工数がかかるので、少量なら気にしないほうが効率的。

「APIを使わずに済む方法はないの？」

ある。自社でAPI連携を組むほどの開発リソースがないなら、既製のSaaS型文字起こしツールを使うのが現実的な選択肢。たとえばNottaは無料プランでも月120分まで文字起こしできて、APIの知識がなくても使える。議事録の自動生成や録音データのテキスト化がメインの用途なら、APIをゼロから組むよりNottaのようなツールを試すほうが圧倒的に早いし、調べきれなかったが法人プランだとAPI連携機能もあるらしい。

結局、どう選べばいいのか

正直な結論を言う。

「全部の要件を満たす完璧なAPI」は存在しない。精度最優先ならWhisper系、リアルタイム必須ならGoogle/Azure、大量処理ならAmazon——という基本線は変わらないけど、実際のプロジェクトでは「精度もほしいしリアルタイムも必要」みたいに要件が混ざるのが普通。

自分がチームに提案するなら、まずGPT-4o Mini Transcribeで精度を検証して、リアルタイム要件があればGoogleかAzureを追加検証する、という2段階でやる。どちらも無料枠かトライアルで試せるので、机上で比較するより実データで回すほうが100倍早い。

そもそもAPI連携の開発工数を割けないなら、NottaのようなSaaS型ツールから始めて、本当にAPIが必要になった段階で移行するのが賢いと思う。無料プランがあるので、まず試してみて判断すればいい。

最終更新日: 2026年4月12日