アリババのAI研究チームQwen(Tongyi Lab)は3月30日、テキスト・画像・音声・動画の理解と生成を一括処理するマルチモーダルAIモデル「Qwen3.5-Omni」を発表した。
1億時間以上の視聴覚データで訓練されており、音声認識は日本語・英語を含む113言語・方言、音声合成は日本語・英語を含む36言語に対応。最大25万6,000トークンの長文コンテキストに対応し、10時間の音声または720P・400秒の映像を入力できる。内部アーキテクチャには「Hybrid MoE Thinker」と「Hybrid MoE Talker」を採用し、テキスト出力を音声に変換することで文脈に応じたリアルタイム応答を実現する。
映像と音声を同時に解析してコードを生成する「Audio-Visual Vibe Coding」や、声色・感情・音量をリアルタイムで調整する音声合成、ボイスクローニング、ウェブ検索機能も搭載。音声・映像理解のベンチマークでは複数テストでGemini 3.1 Proを上回ったとしている。














