Microsoft、自社開発の音声認識AIモデル「MAI-Transcribe-1」を公開——25言語でWhisperを超える精度、GPU費用は半減

Microsoftは2026年4月2日、自社開発の音声認識AIモデル「MAI-Transcribe-1」のパブリックプレビューを開始した。同時に音声生成モデル「MAI-Voice-1」、テキスト→画像生成モデル「MAI-Image-2」の3モデルをMicrosoft Foundryおよびデベロッパー向けのMAI Playgroundで公開した。

MAI-Transcribe-1は主要25言語に対応した音声認識(Speech-to-Text)モデルだ。業界標準ベンチマーク「FLEURS」での評価では、単語誤り率(WER)3.8%を達成し、OpenAI Whisper large-v3、GPT-Transcribe、Google Gemini 3.1 Flash-Liteを上回り、対応25言語中11言語でトップの精度を記録した。GPU処理コストは競合製品比で約50%削減されており、エンタープライズ向けにコスト効率が高い設計となっている。

https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/

同モデルはバックグラウンドノイズ、低品質音声、複数人が同時に話す状況など、現実の過酷な収録環境での利用を想定して構築されている。ビジネス向けの主な活用シーンとしては、会議のリアルタイム文字起こし、コールセンターの通話分析、動画字幕の自動生成、アクセシビリティ対応、音声エージェント構築などが挙げられる。

音声生成モデルMAI-Voice-1は1枚のGPUで60秒分の表現豊かな音声を1秒未満で生成できる。MAI-Image-2はテキストから画像を生成するモデルで、Arena.aiの画像モデルリーダーボードで第3位にデビューした。Microsoftは、これらのモデルがすでにCopilot、Bing、PowerPointなどの自社製品に組み込まれていると説明している。

関連記事

最新ニュース記事

  1. すかいらーく全約2,600店舗にAIエージェント「ABILI Pal」を導入——現場クルーの疑問にマニュアル動画から即時回答

  2. LINEミニアプリ、デジタルコンテンツ課金機能を全事業者に本格提供——ゲームや動画・漫画の収益化を後押し

  3. オーミケンシにランサムウェア攻撃——VPN経由で侵入、基幹システム停止・決算発表も延期

  4. GeminiアプリがAIチャット上で3Dモデルとシミュレーションを生成——学習・研究・設計を変える視覚化機能が全世界展開

  5. Anthropic、エージェント開発を10倍加速する「Claude Managed Agents」をパブリックベータで公開

  6. GeminiアプリにNotebookLMと同期する「notebooks」機能——プロジェクト別に情報を一元管理

  7. Google、AI音声アシスタント「Gemini for Home」の早期アクセスを日本向けに開始——スマートカメラの映像検索や複雑なスマートホーム操作に対応

  8. Google Finance、AI搭載で100カ国以上に拡大——銘柄質問・テクニカル分析・決算ライブ聴取を一体提供

  9. Meta、AI部門MSL初のモデル「Muse Spark」を発表——WhatsApp・Instagramへ順次展開、並列エージェントで高度推論を実現

  10. Anthropic、AIサイバーセキュリティ連合「Project Glasswing」を始動——未公開モデル「Claude Mythos Preview」が主要OSの脆弱性を数千件発見

365AIニュースセンター最新記事

  1. 不登校からの復学へ!お子様の心を動かす7つのきっかけ

  2. 入学できないことも?「フリースクール入学拒否問題」の現実とその対処法

  3. フリースクール中学校・通信制高校生の卒業後の進路:進学以外の就職という選択肢

  4. 中学生の不登校、30万人突破 – 教育現場の危機と新たな希望

  5. 【専門家が伝える】不登校のお子様を持つ親御様の「心の荷」を軽くする5つのヒント

  6. 不登校脱出への道?フリースクールの魅力と注意点-親子で考える新たな一歩-

  7. Amazonが「プライムデー夏祭り」を六本木で開催!

  8. 甘いとうもろこしとフライドチキンの絶妙コンビ。夏限定!「もろこしチーズバーガー」新登場