AI文字起こしAPI連携の基礎知識と選び方
こんな方におすすめ
- 会議の議事録作成を効率化したいビジネスパーソン
- インタビューや取材の文字起こしを自動化したい方
- 音声コンテンツをテキスト化したいクリエイター
- 主要4つの音声認識APIを並べてみた
- 日本語の認識精度——Whisperが強いが、万能じゃない
- 料金表に出てこない「隠れたコスト」の話
- 用途別の選定フロー
- よくある疑問に先回りで答える
音声認識APIの最安はOpenAIのGPT-4o Mini Transcribeで1分あたり$0.003。最も高いAmazon Transcribeは$0.024。同じ「音声を文字にする」だけで8倍の価格差がある。
ただ、安ければ正解かというと全然そうじゃない。日本語の認識精度、リアルタイム対応の有無、ファイルサイズの上限、従量課金の計算方法——比較すべき軸が多すぎて、料金表だけ見ても判断できないのが正直なところだと思う。
この記事では、自社システムに音声認識APIを組み込むことを前提に、主要4サービスの料金・精度・制限を整理した。「どのAPIがベストか」は用途で完全に変わるので、選定の判断軸ごとに比較していく。
主要4つの音声認識APIを並べてみた
2026年4月時点で、日本語に対応している主要な音声認識APIは以下の4つ。それぞれクラウドプラットフォームの一部として提供されているものと、AI企業が単体で提供しているものがある。
| API | 料金(1分あたり) | 無料枠 | ファイル上限 | リアルタイム |
|---|---|---|---|---|
| OpenAI Whisper API | $0.006 | なし | 25MB | 非対応 |
| GPT-4o Mini Transcribe | $0.003 | なし | 25MB | 非対応 |
| Google Speech-to-Text | $0.016 | 60分/月 | 制限なし(ストリーミング) | 対応 |
| Amazon Transcribe | $0.024 | 60分/月(12ヶ月) | 2GB | 対応 |
| Azure Speech-to-Text | $0.017 | 5時間/月 | 制限なし(バッチ) | 対応 |
表だけ見るとGPT-4o Mini Transcribeの$0.003が圧倒的に安い。ただしOpenAI系のAPIはリアルタイムストリーミングに非対応で、ファイルサイズも25MBまでという制約がある。1時間の会議音声をMP3にすると大体50〜90MBになるので、分割してアップロードする前処理が必要になる。この手間を「たいしたことない」と思うか「運用コストだ」と感じるかで、評価がかなり変わる。
一方、Google・Amazon・Azureはストリーミング入力に対応しているから、リアルタイムで文字起こししたいならこの3つのどれか。料金だけならGoogleの$0.016が最安だけど、後述する「隠れたコスト」があるので注意してほしい。
Amazon Transcribeは高いが、25万分を超えると$0.015/分まで下がるボリュームディスカウントがある。月に4,000時間以上処理するような大規模用途なら、逆に最安になる可能性もある。
Notta
月額料金
¥0/月〜
- 日本語精度98.86%。業界最高水準
- 無料プランで月120分まで文字起こし可能
- 会議・動画・音声ファイルをリアルタイム処理
✓ クレジットカード不要 ✓ いつでも解約可 ✓ 日本語精度98%
日本語の認識精度——Whisperが強いが、万能じゃない
日本語の精度だけで比べると、現状はWhisper系(Whisper API / GPT-4o Transcribe)が頭一つ抜けている。IZAIの検証記事によると、固有名詞を含むビジネス会話でもWhisperはほぼ100%に近い精度を出していて、出力形式の安定性も他のAPIより高かったそうだ。
Google Speech-to-Textは住所の認識に強い。住所を読み上げるような音声データを扱うなら、Googleを選ぶ合理性はある。ただ、全体的な精度はWhisperにやや劣る印象で、特にカジュアルな話し言葉(「えーっと」とか「あのー」が多い会話)では差が開くらしい。自分で全パターンを検証したわけじゃないので断言はできないけど、複数のテスト記事が同じ傾向を示していた。
Amazon Transcribeは意外な落とし穴がある。数字を漢数字で出力する傾向があるんですよね。「100万円」が「百万円」になったり、「2024年」が「二千二十四年」になったり。CER(文字誤り率)の数値上はWhisperに次ぐ精度なのに、実際の可読性は数字が示すほど高くないかもしれない。ここは用途次第で致命的になりうるポイント。
精度テストの注意点
音声認識の精度はテストデータによって大きく変わる。静かな環境で一人が話すデータと、雑音のある会議室で複数人が話すデータでは結果が全然違う。ベンチマークの数字だけで判断せず、自社の実データで必ず検証すべき。各APIとも無料枠やトライアルがあるので、比較検証のコストはほぼゼロで済む。
料金表に出てこない「隠れたコスト」の話
ここが一番伝えたいところかもしれない。
API単体の料金だけ比較して選ぶと、本番運用で「思ったより高い」という事態になる。理由は周辺コスト。
Google Speech-to-Textの場合。APIの$0.016/分は安く見えるが、GCPのエコシステムを使う前提になっている。音声ファイルをCloud Storageに置いて($0.020/GB/月)、Cloud Functionsで処理して($0.40/100万回)、結果をPub/Subで受け取って($0.40/100万メッセージ)——気づいたら実効コストが$0.016の2〜3倍になっていたという話は珍しくない。
OpenAI系の場合。周辺コストは比較的シンプル。REST APIに音声ファイルをPOSTするだけなので、追加のクラウドインフラは不要。ただし25MBの壁があるから、長時間音声の分割処理を自前で実装する必要がある。このエンジニアリングコストを見落とす人が多い。
Amazon Transcribeも同様で、S3へのアップロードやIAMの権限設定、結果のポーリングなどAWS固有のお作法が必要になる。すでにAWSを使っているチームなら大した話じゃないけど、ゼロからだと学習コストがバカにならない。
正直、この「隠れたコスト」を正確に算出する方法は自分もまだ確立できていない。プロジェクトの規模やチームのスキルセットで変動が大きすぎるからだ。ただ、API料金の1.5〜3倍を総コストとして見積もるのが、実感値としては妥当だと思う。
用途別の選定フロー
結局どれを選べばいいのか。完全に用途次第なので、ケース別に整理する。
バッチ処理で日本語精度を最優先したい
→ GPT-4o Mini Transcribeの一択。$0.003/分で精度はWhisper相当。25MBの制約はffmpegで分割すれば回避できる。コスパだけなら現時点で最強だと思う。議事録の自動生成とか、録音データのアーカイブ検索用途に向いている。
リアルタイム文字起こしが必要
→ Google Speech-to-TextかAzure Speech-to-Text。Googleは73言語対応で料金も$0.016/分と比較的安い。AzureはMicrosoft 365との親和性が高いので、Teamsとの連携を考えるなら選択肢に入る。ZoomやTeamsの内蔵文字起こしと外部APIの精度差については別記事で検証しているので参考にしてほしい。
月間処理量が数千時間を超える
→ Amazon Transcribeのボリュームディスカウントが効いてくる。100万分超で$0.0102/分、500万分超で$0.0078/分まで下がる。コールセンターの全通話録音を処理するような規模感なら、圧倒的に安くなる。ただし、ここまでの規模だとAPI選定よりオンプレミスでWhisperを動かす選択肢も検討したほうがいい。
とりあえず試したい・プロトタイプ段階
→ OpenAI Whisper APIが手軽。APIキーを取得してcurlでPOSTするだけで動く。SDKもPython・Node.jsが公式で用意されていて、最短10行くらいのコードで文字起こしが動く。GCPやAWSのアカウント開設から始めるよりはるかに楽。
よくある疑問に先回りで答える
「話者分離(誰が話したか)はどのAPIでできる?」
Google Speech-to-Text、Amazon Transcribe、Azure Speech-to-Textの3つが話者分離(ダイアライゼーション)に対応している。OpenAIもGPT-4o Transcribeで対応を始めた。ただし、話者分離の精度は各社で差があるので、必ず実データで検証すべき。3人以上の会話になると精度が落ちるのはどのAPIも共通の弱点だと思う。
「無料のWhisperをローカルで動かすのとAPIの違いは?」
Whisperはオープンソースなので、自前のサーバーで動かせば利用料はゼロ。ただし、GPUサーバーの維持費がかかる。NVIDIA T4クラスのGPUをクラウドで借りると月$200〜400くらい。月間の処理量が3,000分を超えるあたりからAPIより安くなる計算だけど、サーバー管理の人件費を入れると損益分岐点はもっと上がる。詳しくはWhisperの基礎知識の記事にまとめている。
「課金は音声の長さ?それとも処理時間?」
全API共通で、課金対象は音声ファイルの長さ(duration)。処理にかかった時間じゃない。注意したいのはOpenAI系で、無音部分も課金対象になる。10分の音声ファイルのうち9分が無音でも10分ぶん請求される。前処理で無音区間を除去しておくとコスト削減になるけど、その処理自体にも工数がかかるので、少量なら気にしないほうが効率的。
「APIを使わずに済む方法はないの?」
ある。自社でAPI連携を組むほどの開発リソースがないなら、既製のSaaS型文字起こしツールを使うのが現実的な選択肢。たとえばNottaは無料プランでも月120分まで文字起こしできて、APIの知識がなくても使える。議事録の自動生成や録音データのテキスト化がメインの用途なら、APIをゼロから組むよりNottaのようなツールを試すほうが圧倒的に早いし、調べきれなかったが法人プランだとAPI連携機能もあるらしい。
結局、どう選べばいいのか
正直な結論を言う。
「全部の要件を満たす完璧なAPI」は存在しない。精度最優先ならWhisper系、リアルタイム必須ならGoogle/Azure、大量処理ならAmazon——という基本線は変わらないけど、実際のプロジェクトでは「精度もほしいしリアルタイムも必要」みたいに要件が混ざるのが普通。
自分がチームに提案するなら、まずGPT-4o Mini Transcribeで精度を検証して、リアルタイム要件があればGoogleかAzureを追加検証する、という2段階でやる。どちらも無料枠かトライアルで試せるので、机上で比較するより実データで回すほうが100倍早い。
そもそもAPI連携の開発工数を割けないなら、NottaのようなSaaS型ツールから始めて、本当にAPIが必要になった段階で移行するのが賢いと思う。無料プランがあるので、まず試してみて判断すればいい。
最終更新日: 2026年4月12日
この記事を書いた人
ジンベエ
AIツール活用ライター
Notta・Whisper・Teams文字起こしなど7種のAI文字起こしツールを3年以上業務で使い続けた実体験から発信。月100時間超の音声データを処理してきたノウハウをもとに、ツール選びの本音を書いています。