當(dāng)前位置：首頁 > 休閑 > 阿里云百煉上線音視頻實時互動功能人人都能創(chuàng)建專屬多模態(tài)應(yīng)用

阿里云百煉上線音視頻實時互動功能人人都能創(chuàng)建專屬多模態(tài)應(yīng)用

發(fā)表于 2024-12-29 13:31:09 來源：下愚不移網(wǎng)

近日，阿里阿里云百煉上線了全新音視頻實時互動功能，云百用用戶可在百煉上自由選擇文本、煉上語音和視覺理解等200多款模型，線音無需代碼，視頻實數(shù)分鐘即可搭建一個能聽、互動能看、人人會說的都能多模專屬AI助手。阿里云百煉還支持以sdk的創(chuàng)建形式集成到Web、ioS和安卓應(yīng)用，專屬可應(yīng)用于AI虛擬助手、阿里虛擬陪伴和AI老師等場景。云百用

用戶在百煉上幾分鐘即可搭建一個能聽、煉上能看、線音會說的視頻實專屬AI助手

過去一年，大模型正在從純文本模態(tài)向語音和視覺等多模態(tài)演進，極大地拓寬了大模型應(yīng)用的想象空間。然而現(xiàn)有單一模型仍舊無法處理復(fù)雜的任務(wù)，為了進一步加速單一大模型構(gòu)建成像人一樣自然交互的復(fù)雜AI應(yīng)用，阿里云百煉提供了200多款語言模型Qwen、視覺語言模型Qwen2-VL、語音合成模型CosyVoice等全模態(tài)全尺寸大模型，同時聯(lián)合阿里云AI實時互動方案，在國內(nèi)率先為用戶提供了便捷的工作流應(yīng)用和智能體編排應(yīng)用，例如支持構(gòu)建RAG知識庫、Prompt調(diào)優(yōu)、sdk集成等。

據(jù)介紹，在視覺理解模型方面，阿里云Qwen2-VL具備強大的視覺智能體能力，例如采用多模態(tài)旋轉(zhuǎn)位置嵌入（M-ROPE）方法，能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息，模型具備更好地理解和建模復(fù)雜的多模態(tài)數(shù)據(jù)，該模型一經(jīng)推出就成為開源社區(qū)最受歡迎的多模態(tài)大模型；在音頻方面，阿里云語音合成模型CosyVoice，通過對生成語音的情感、韻律進行細(xì)粒度的控制，情感表現(xiàn)力上得到明顯提升，阿里云AI實時互動方案還可提供化智能降噪、智能打斷、智能斷句等超擬人對話能力。

以搭建一個視覺能力的AI應(yīng)用為例，用戶進入百煉應(yīng)用控制臺后，僅需上傳圖片知識庫、編寫提示詞、設(shè)置音頻、調(diào)優(yōu)這四步，數(shù)分鐘內(nèi)就能創(chuàng)建一個能完成專屬視頻交互的AI應(yīng)用，基于Qwen-VL強大的視覺推理能力，它不僅能識別物體的種類，還能準(zhǔn)確描述物體的風(fēng)格、特點、位置以及物體上的文字等關(guān)鍵信息。此外搭建好的應(yīng)用還支持以音視頻sdk集成到用戶的Web、ioS或者安卓應(yīng)用中，幫助企業(yè)快速實現(xiàn)業(yè)務(wù)創(chuàng)新。

據(jù)介紹，阿里云百煉上的通義API每百萬tokens價格已降至0.3元，一汽、金山、哈啰集團、國家天文臺等超30萬企業(yè)和機構(gòu)在使用阿里云百煉。

喜歡80 討厭43

隨機為您推薦

熱門文章

沉浸式酣戰(zhàn)FPS大作ROG 9系列操作拉滿輕松戰(zhàn)斗
硬核！中國核動力院核級制品用金屬3D打印機通過審查
記者：如果洛佩特吉下課，泰爾齊奇不會成為西漢姆新帥
伯恩茅斯主帥：我們度過了一個個美好夜晚，尤其是在主場對陣強敵
恰爾汗奧盧：我想穿著國米球衣拿歐冠；退役后更想當(dāng)體育總監(jiān)
對陣?yán)蠔|家！巴爾特拉：巴薩是目前世界上最好的球隊之一
[流言板]恩比德4投0中，武切維奇三分命中公牛12
六臺：巴薩并未排除引進萊奧的可能
[流言板]Timothy發(fā)文爆料：久哲已離開南京Hero！主教練大概率阿楚
28個月研制！長征八號甲火箭出發(fā)首飛：未來主力箭

文章排行

亚洲嫩模在线观看,日韩视频特黄色大片,乱色中文视频在线,动漫免费观看

阿里云百煉上線音視頻實時互動功能 人人都能創(chuàng)建專屬多模態(tài)應(yīng)用

阿里云百煉上線音視頻實時互動功能人人都能創(chuàng)建專屬多模態(tài)應(yīng)用