Microsoft、自社開発の音声認識AIモデル「MAI-Transcribe-1」を公開——25言語でWhisperを超える精度、GPU費用は半減

Microsoftは2026年4月2日、自社開発の音声認識AIモデル「MAI-Transcribe-1」のパブリックプレビューを開始した。同時に音声生成モデル「MAI-Voice-1」、テキスト→画像生成モデル「MAI-Image-2」の3モデルをMicrosoft Foundryおよびデベロッパー向けのMAI Playgroundで公開した。

MAI-Transcribe-1は主要25言語に対応した音声認識(Speech-to-Text)モデルだ。業界標準ベンチマーク「FLEURS」での評価では、単語誤り率(WER)3.8%を達成し、OpenAI Whisper large-v3、GPT-Transcribe、Google Gemini 3.1 Flash-Liteを上回り、対応25言語中11言語でトップの精度を記録した。GPU処理コストは競合製品比で約50%削減されており、エンタープライズ向けにコスト効率が高い設計となっている。

https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/

同モデルはバックグラウンドノイズ、低品質音声、複数人が同時に話す状況など、現実の過酷な収録環境での利用を想定して構築されている。ビジネス向けの主な活用シーンとしては、会議のリアルタイム文字起こし、コールセンターの通話分析、動画字幕の自動生成、アクセシビリティ対応、音声エージェント構築などが挙げられる。

音声生成モデルMAI-Voice-1は1枚のGPUで60秒分の表現豊かな音声を1秒未満で生成できる。MAI-Image-2はテキストから画像を生成するモデルで、Arena.aiの画像モデルリーダーボードで第3位にデビューした。Microsoftは、これらのモデルがすでにCopilot、Bing、PowerPointなどの自社製品に組み込まれていると説明している。

関連記事

最新ニュース記事

  1. YouTube、対話型AI検索「Ask YouTube」と生成AI「Gemini Omni」を発表——Shorts動画のリミックスや複雑検索が可能に

  2. シュクレイ、伊勢丹新宿店に新ミルフィユ専門店「MILLI MILLI(ミリミリ)」出店 ブランド力と「顧客体験」で勝負

  3. 乳幼児のRSウイルス重症化を防ぐ「母子免疫ワクチン」 原則無料の定期接種開始から1カ月半、現場の期待と課題

  4. 発酵性食物繊維で“腸活”を提案 「KINNOE518フェス」で給食型イベント開催

  5. タイミー、BPOサービス「Timee BPO」を正式提供開始——1,340万人基盤から即戦力ワーカーを最短翌日アサイン

  6. Runway、日本に本格進出 東京オフィス開設と40億円超の初期投資を発表

  7. AnthropicがAI初心者でも使える「Claude for Small Business」を発表――QuickBooksやPayPalと連携し15の業務ワークフローを自動化

  8. Google、Android向け新AI機能群「Gemini Intelligence」を発表——複数アプリ横断タスク自動化で端末を「インテリジェンスシステム」へ

  9. NTTドコモビジネス、AIエージェント経済圏の信頼基盤「属性情報レジストリ」のプロトタイプを開発

  10. NTT、触覚を伝えずに「柔らかさ」や「粘り気」を再現する世界初の錯覚手法を考案

365AIニュースセンター最新記事

  1. 不登校からの復学へ!お子様の心を動かす7つのきっかけ

  2. 入学できないことも?「フリースクール入学拒否問題」の現実とその対処法

  3. フリースクール中学校・通信制高校生の卒業後の進路:進学以外の就職という選択肢

  4. 中学生の不登校、30万人突破 – 教育現場の危機と新たな希望

  5. 【専門家が伝える】不登校のお子様を持つ親御様の「心の荷」を軽くする5つのヒント

  6. 不登校脱出への道?フリースクールの魅力と注意点-親子で考える新たな一歩-

  7. Amazonが「プライムデー夏祭り」を六本木で開催!

  8. 甘いとうもろこしとフライドチキンの絶妙コンビ。夏限定!「もろこしチーズバーガー」新登場