专利摘要:
一種用以解碼一編碼音訊信號之音訊解碼器,該編碼音訊信號包含在一資料串流之一酬載區段中一第一聲道元件及一第二聲道元件,及在該資料串流之一組態區段中針對該第一聲道元件之第一解碼器組態資料及針對該第二聲道元件之第二解碼器組態資料,該音訊解碼器係包含:一資料串流讀取器用以讀取在該組態區段中針對各個聲道元件之該組態資料,及讀取在該酬載區段中針對各個聲道元件之該酬載資料;用以解碼多個聲道元件之一可組配解碼器;及用以組配該可組配解碼器之一組態控制器,因此該可組配解碼器係當解碼該第一聲道元件時依據該第一解碼器組態資料組配,及當解碼該第二聲道元件時依據該第二解碼器組態資料組配。
公开号:TW201303853A
申请号:TW101109343
申请日:2012-03-19
公开日:2013-01-16
发明作者:Max Neuendorf;Markus Multrus;Stefan Doehla;Heiko Purnhagen;Bont Frans De
申请人:Fraunhofer Ges Forschung;Dolby Int Ab;Koninkl Philips Electronics Nv;
IPC主号:G10L19-00
专利说明:
具有彈性組態功能之音訊編碼器及解碼器
本發明係有關於音訊編碼及更特別係有關於高品質及低位元率編碼,諸如從所謂USAC編碼(USAC=統一語音與音訊編碼)為已知。
USAC編碼器係定義於ISO/IEC CD 23003-3。本標準命名為「資訊技術-MPEG音訊技術-第三部分:統一語音與音訊編碼」以細節描述基於統一語音與音訊編碼協定之呼叫的參考模型之功能區塊。
第10a及10b圖例示說明編碼器及解碼器之方塊圖。USAC編碼器及解碼器之方塊圖反映出MPEG-D USAC編碼結構。一般結構可描述成例如如下:首先,有個共用前/後-處理,包含:MPEG環繞(MPEGS)功能單元來處置立體聲或多聲道處理,及加強式SBR(eSBR)單元其處置輸入信號中之較高音訊頻率之參數表示型態。然後,有二分支,一者包含改良之高階音訊編碼(AAC)工具路徑,及另一者包含以線性預測編碼(LP或LPC定義域)為基礎之路徑,其又轉而決定LPC殘差之頻域表示型態或時域表示型態。AAC及LPC二者之全部傳輸頻譜在量化與算術編碼後係表示於MDCT定義域。時域表示型態使用代數代碼激勵線性預測編碼器(ACELP)激勵編碼方案。
MPEG-D USAC之基本結構係顯示於第10a圖及第10b圖。本圖之資料流係從左至右,從上到下。解碼器功能係找出位元串流酬載中之量化音訊頻譜或時域表示型態之描述,及解碼量化值及其它重建資訊。
以傳輸頻譜資訊為例,解碼器應重建量化頻譜,透過作用態的任一種工具處理位元串流酬載中之重建頻譜來到達如藉輸入位元串流酬載描述的實際信號頻譜,及最後,將頻域頻譜變換成時域。在頻譜重建的初始重建與定標後,有選擇性的工具來改良頻譜中之一或多者而提供更有效編碼。
以傳輸時域信號表示型態為例,解碼器應重建量化時間信號,透過作用態的任一種工具處理位元串流酬載中之重建時間信號來到達如藉輸入位元串流酬載描述的實際時域信號。
針對在信號資料上操作的各個選擇性工具,保留「傳送通過」選項,於處理被刪除之全部情況下,在其輸入的頻譜及時間樣本係未經修改而直接傳送通過該工具。
於資料串流的信號表示型態從時域改成頻域表示型態、或從LP域改成非LP域、或反之亦然之情況下,解碼器應協助利用適當過渡重疊加法開窗來從一個定義域變換至另一個定義域。
過渡處置後,eSBR及MPEGS處理係以相同方式施加至兩條編碼路徑。
位元串流酬載解多工器工具之輸入為MPEG-D USAC位元串流酬載。解多工器將位元串流酬載分開成針對各個工具之部分,及對各工具提供以與該工具有關的位元串流酬載資訊。
位元串流酬載解多工器工具之輸出為:
●取決於目前訊框之核心編碼型別,或為:
○由下列表示之量化的且無雜訊地編碼頻譜
○標度因數資訊
○算術編碼頻譜線
●或為:線性預測(LP)參數連同由下列中之任一者表示之一激勵信號:
○量化且經算術編碼之頻譜線(變換編碼激勵(TCX))或
○ACELP編碼時域激勵
●頻譜雜訊填補資訊(選擇性)
●M/S決定資訊(選擇性)
●時間性雜訊塑形(TNS)資訊(選擇性)
●濾波器組控制資訊
●時間展開(TW)控制資訊(選擇性)
●加強式頻譜帶寬擴延(eSBR)控制資訊(選擇性)
●MPEG環繞(MPEGS)控制資訊。
標度因數無雜訊解碼工具從該位元串流酬載解多工器取得資訊,剖析該資訊,及決定霍夫曼及DPCM編碼標度因數。
標度因數無雜訊解碼工具之輸入為:
●該無雜訊編碼頻譜之標度因數資訊
標度因數無雜訊解碼工具之輸出為:
●該等標度因數之解碼整數表示型態。
頻譜無雜訊解碼工具從該位元串流酬載解多工器取得資訊,剖析該資訊,解碼該算術編碼資料,及重建量化頻譜。此種無雜訊解碼工具之輸入為:
●該無雜訊編碼頻譜
此種無雜訊解碼工具之輸出為:
●該頻譜之量化值。
反量化器工具取得該頻譜之量化值,及將整數值變換成未經定標之已重建頻譜。此種量化器為伸縮量化器,其伸縮因數係取決於所選核心編碼模式。
反量化器工具之輸入為:
●該頻譜之量化值
反量化器工具之輸出為:
●未經定標之反量化頻譜。
雜訊填補工具係用來填補解碼頻譜中之頻譜間隙,出現在頻譜值係經量化為零時,例如由於編碼器的位元需求之強力限制。雜訊填補工具的使用為選擇性。
雜訊填補工具之輸入為:
●未經定標的反量化頻譜
●雜訊填補參數
●已解碼標度因數之整數表示型態
雜訊填補工具之輸出為:
●針對先前已量化為零之頻譜線之未經定標的反量化頻譜值
●已修改標度因數之整數表示型態。
重新定標工具將標度因數之整數表示型態變換成實際值,及將未經定標的反量化頻譜乘以相關的標度因數。
標度因數工具之輸入為:
●已解碼標度因數之整數表示型態
●未經定標的反量化頻譜
標度因數工具之輸出為:
●經定標的反量化頻譜。
有關M/S工具之綜論,請參考ISO/IEC 14496-3:2009,4.1.1.2。
有關時間性雜訊塑形(TNS)工具之綜論,請參考ISO/IEC 14496-3:2009,4.1.1.2。
濾波器組/區塊交換工具施加在編碼器進行的頻率對映之反對映。修正離散餘弦反變換(IMDCT)係用於該濾波器組工具。IMDCT可經組配來支援120、128、240、256、480、512、960或1024頻譜係數。
濾波器組工具之輸入為:
●(反量化)頻譜
●濾波器組控制資訊
濾波器組工具之輸出為:
●時域重建音訊信號。
當時間包繞模式被致能時,時間包繞式濾波器組/區塊交換工具置換普通濾波器組/區塊交換工具。濾波器組係與普通濾波器組相同(IMDCT),此外地,開窗時域樣本係藉時間改變重新取樣而從包繞時域對映至線性時域。
時間包繞式濾波器組工具之輸入為:
●反量化頻譜
●濾波器組控制資訊
●時間包繞式控制資訊
濾波器組工具之輸出為:
●線性時域重建音訊信號。
加強式SBR(eSBR)工具重新產生音訊信號之高帶。係植基於編碼期間截頭的諧波序列。調整所產生的高帶之頻譜波封及施加反濾波,及加上雜訊及S形成分檢重新產生原先信號之頻譜特性。
eSBR工具之輸入為:
●量化波封資料
●其它控制資料
●來自頻域核心解碼器或ACELP/TCX核心解碼器之時域信號
eSBR工具之輸出為:
●時域信號或
●使用信號之QMF域表示型態例如於MPEG環繞工具。
MPEG環繞(MPEGS)工具藉施加複雜的上混程序至由適當空間參數所控制的輸入信號而從一或多個輸入信號產生多個信號。於USAC脈絡中,MPEGS係藉傳輸參數側邊資訊連同所傳輸的下混信號而用以編碼多通道信號。
MPEGS工具之輸入為:
●下混時域信號或
●得自eSBR工具之QMF域表示型態
MPEGS工具之輸出為:
●多聲道時域信號。
信號分類器工具分析原先輸入信號及從其中產生控制資訊,觸發不同編碼模式的選擇。輸入信號的分析為體現相依性,且將試圖選擇一給定輸入信號框架之最佳核心編碼模式。信號分類器之輸出(選擇性地)也可用來影響其它工具的表現,例如MPEG環繞、加強式SBR、時間包繞式濾波器組及其它。
信號分類器工具之輸入為:
●原先未修正輸入信號
●額外體現相依性參數
信號分類器工具之輸出為:
●控制信號來控制核心編解碼器之選擇(非LP濾波頻域編碼、LP濾波頻域編碼、或LP濾波時域編碼)。
ACELP工具藉組合長期預測器(適應性碼字組)與脈衝樣序列(創新碼字組)而提供有效地表示時域激勵信號之方式。重建激勵係透過LP合成濾波器發送而形成一時域信號。
ACELP工具之輸入為:
●適應性及創新碼簿指數
●適應性及創新代碼增益值
●其它控制資料
●反量化與內插LPC濾波係數
ACELP工具之輸出為:
●時域重建音訊信號。
以MDCT為基礎之TCX解碼工具係用來將已加權LP殘差表示型態從MDCT域變換回時域信號,及輸出包含已加權LP合成濾波之一時域信號。IMDCT可經組配來支援256、512或1024頻譜係數。
TCX工具之輸入為:
●(反量化)MDCT頻譜
●反量化與內插LPC濾波係數
TCX工具之輸出為:
●時域重建音訊信號。
ISO/IEC CD 23003-3,以引用方式併入此處,揭示的技術許可定義聲道元件,例如只含單一聲道之酬載的單聲道元件,或包括二聲道之酬載的聲道對元件,或包括LFE(低頻加強式)聲道之酬載的LFE聲道元件。
五聲道多聲道音訊信號例如可以單聲道元件包括中心聲道、第一聲道對元件包括左聲道及右聲道、及第二聲道對元件包括左環繞聲道(Ls)及右環繞聲道(Rs)表示。一起共同表示該多聲道音訊信號的此等不同聲道元件係饋給入解碼器及使用相同解碼器組態處理。依據先前技術,於USAC特定組態元件中發送的解碼器組態係藉解碼器施用至全部聲道元件,因此存在有下述情況,針對全部聲道元件為有效的組態元件無法以最佳方式選用於個別聲道元件,而須針對全部聲道元件同時設定。但另一方面,業已發現用以描述直捷五聲道多聲道音訊信號之聲道元件彼此有極大差異。中心聲道為單聲道元件,具有與描述左/右聲道及左環繞/右環繞聲道之聲道對元件顯著不同的特性,及此外,兩個聲道對元件之特性也有顯著差異,原因在於下述事實,環繞聲道包括的資訊與包括於左及右聲道的資訊有重大差異。
針對全部聲道元件一起選擇組態資料使得需作折衷,造成必須選用對全部聲道元件並非最佳的組態,但該組態表示全部聲道元件間之折衷。另外,組態必須選擇為針對一個聲道元件為最佳,但如此無可避免地導致下述情況,該組態對其它聲道元件為非最佳。但如此導致具有非最佳組態的聲道元件之位元率增加,或另外地或此外地結果導致此等不具有最佳組態設定配置的該等聲道元件之音訊品質降低。
因此本發明之目的係提出一種改良之音訊編碼/解碼構思。
此項目的係藉如申請專利範圍第1項之音訊解碼器、如申請專利範圍第14項之音訊解碼方法、如申請專利範圍第15項之音訊編碼器、如申請專利範圍第16項之音訊編碼方法、如申請專利範圍第17項之電腦程式及如申請專利範圍第18項之編碼音訊信號而予達成。
本發明係植基於當傳輸針對各個個別聲道元件之解碼器組態資料時獲得改良之音訊編碼/解碼構思之發現。依據本發明,因而編碼音訊信號包含在一資料串流之一酬載區段中一第一聲道元件及一第二聲道元件,及在該資料串流之一組態區段中針對該第一聲道元件之第一解碼器組態資料及針對該第二聲道元件之第二解碼器組態資料。因此,該等聲道元件之酬載資料所在的該資料串流之該酬載區段係與該等聲道元件之組態資料所在的該資料串流之該組態資料分開。較佳地該組態區段為一串列位元串流之一接續部分,於該處屬於該位元串流之此一酬載區段或接續部分的全部位元係為組態資料。較佳地,該組態資料區段係接著為該資料串流之該酬載區段,該等聲道元件之酬載係位在該酬載區段。本發明之音訊解碼器包含一資料串流讀取器,用以讀取在該組態區段中針對各個聲道元件之該組態資料,及讀取在該酬載區段中針對各個聲道元件之該酬載資料。此外,該音訊解碼器包含用以解碼該等多個聲道元件之一可組配解碼器;及一組態控制器用以組配該可組配解碼器使得該可組配解碼器係當解碼該第一聲道元件時依據該第一解碼器組態資料組配,及當解碼該第二聲道元件時依據該第二解碼器組態資料組配。
如此確定針對各個聲道元件可選用最佳組態。如此允許最佳地考慮該等不同聲之不同特性。
依據本發明之音訊編碼器係經配置來編碼一多聲道音訊信號,具有例如至少二、三或較佳地多個三個聲道。該音訊編碼器包含一組態處理器用以產生針對一第一聲道元件之第一組態資料及針對一第二聲道元件之第二組態資料;及一可組配編碼器用以分別地使用該第一組態資料及該第二組態資料來編碼該多聲道音訊信號而獲得一第一聲道元件及一第二聲道元件。此外,該音訊編碼器包含一資料串流產生器用以產生表示一編碼音訊信號之一資料串流,該資料串流具有包含該第一組態資料及該第二組態資料之一組態區段,及包含該第一聲道元件及該第二聲道元件之一酬載區段。
現在,該編碼器及該解碼器已經準備好決定針對各個聲道元件之一個別的且較佳地最佳的組態資料。
如此確保針對各個聲道元件之該可組配解碼器係經組配來使得針對各個聲道元件,可獲得就音訊品質及位元率而言為最佳者而無需再做折衷。 圖式簡單說明
後文中將就附圖描述本發明之較佳實施例,附圖中:第1圖為解碼器之方塊圖;第2圖為編碼器之方塊圖;第3a及3b圖表示摘述針對不同揚聲器配置之聲道組態的一表;第4a及4b圖識別且以圖形方式例示說明不同的揚聲器配置;第5a至5d圖例示說明具有一組態區段及該酬載區段之該編碼音訊信號之不同構面;第6a圖顯示該UsacConfig元件之語法;第6b圖顯示該UsacChannelConfig元件之語法;第6c圖顯示該UsacDecoderConfig之語法;第6d圖顯示該UsacSingleChannelElementConfig之語法;第6e圖顯示該UsacChannelPairElementConfig之語法;第6f圖顯示該UsacLfeElementConfig之語法;第6g圖顯示該UsacCoreConfig之語法;第6h圖顯示該SbrConfig之語法;第6i圖顯示該SbrDfltHeader之語法;第6j圖顯示該Mps212Config之語法;第6k圖顯示該UsacExtElementConfig之語法;第6l圖顯示該UsacConfigExtension之語法;第6m圖顯示該escapedValue之語法;第7圖個別地例示說明用以識別及組配用於聲道元件之不同編碼器/解碼器工具之不同的替代方案;第8圖例示說明解碼器體現之一較佳實施例,具有用以產生5.1多聲道音訊信號之並列地操作的解碼器例;第9圖以流程圖形式例示說明第1圖解碼器之一較佳體現;第10a圖顯示USAC編碼器之方塊圖;及第10b圖顯示USAC解碼器之方塊圖。
有關所含音訊內容之高階資訊例如取樣率、確切聲道組態係存在於該音訊位元串流。如此使得該位元串流更加自容式,及當嵌置於轉送方案而該方案不具任何手段來明確地傳輸此項資訊時,使得組態及酬載的轉送更為容易。
組態結構含有訊框長度與頻譜帶寬擴延(SBR)取樣率比之組合指數(coreSbrFrameLengthIndex)。如此保證二值的有效傳輸,及確保訊框長度與SBR比之非有意義組合無法傳訊。後者簡化了解碼器的體現。
該組態可利用專用組態延伸機制擴延。如此將避免如從MPEG-4 AudioSpecificConfig()已知的組態擴延之龐大與傳輸無效率。
組態許可與各個被傳輸的音訊聲道相聯結的揚聲器位置之自由傳訊。常用聲道對揚聲器對映之傳訊可利用聲道組態指數(channelConfigurationIndex)有效地傳訊。
各個聲道元件之組態係含在一分開結構使得各個聲道元件可獨立地組配。
SBR組態資料(「SBR標頭」)係分裂成SbrInfo()及SbrHeader()。針對SbrHeader()界定內設版本(SbrDfltHeader()),可在位元串流中有效地參照。如此在需要重新傳輸SBR組態資料之處減少位元需求。
藉助於SbrInfo()語法元件,可有效地傳訊更常施加至SBR的組態變化。
頻譜帶寬擴延(SBR)及參數立體聲編碼工具(MPS212又稱MPEG環繞2-1-2)係緊密地整合入USAC組態結構。如此表示兩種技術實質上在標準上採用之遠更佳方式。
語法特徵為擴延機制,允許傳輸既有的及未來的擴延給編解碼器。
擴延可以聲道元件以任一種順序配置(亦即交插)。如此允許在須施加擴延的特定聲道元件之前或之後需要讀取擴延。
內設長度可針對語法擴延定義,使得恆定長度擴延之傳輸極為有效,原因在於擴延酬載之長度無需每次傳輸。
若有所需借助於逃逸機制來擴延數值範圍而傳訊一值的常見情況係經調變成專用真實語法元件(escapedValue()),該元件有足夠彈性來涵蓋全部期望的逃逸值信號線圖及位元欄位擴延。 位元串流組態 UsacConfig()(第6a圖)
UsacConfig()係經擴延來含有有關所含音訊內容之資訊以及完整解碼器設定所需的每個資訊。有關音訊的頂階資訊(取樣率、聲道組態、輸出訊框長度)係在起始收集以便容易從更高層(應用層)存取。 channelConfigurationIndex、UsacChannelConfig()(第6b圖)
此等元件給予有關所含位元串流元件及其對映至揚聲器之資訊。channelConfigurationIndex許可容易且方便的方式來傳訊被視為實際上相關的一定範圍經預先界定的單聲、立體聲或多聲道組態中之一者。
用於channelConfigurationIndex所不涵蓋的更精製組態,UsacChannelConfig()許可自由分派元件給32揚聲器位置之一列表中的揚聲器位置,該列表涵蓋用於家庭或劇院環繞再生之全部已知揚聲器配置中之全部目前已知之揚聲器位置。
此一揚聲器位置之列表為MPEG環繞標準中之特徵列表之超集(參考ISO/IEC 23003-1的表1及第1圖)。已經增加四個額外揚聲器位置來涵蓋晚近問世的22.2揚聲器配置(參考第3a、3b、4a及4b圖)。 UsacDecoderConfig()(第6c圖)
此一元件係在解碼器組態的重要位置,如此含有解碼器解譯位元串流所需的全部額外資訊。
更明確言之,該位元串流之結構係藉明確地起始在位元串流中的元件編碼及其順序而在此定義。
然後迴圈通過全部元件許可全部型別(單一、成對、lfe、擴延)的全部元件組態。 UsacConfigExtension()(第6l圖)
為了考慮未來擴延,該組態決定強而有力之機制特徵來擴延該組態用於目前尚未存在的USAC組態擴延。 UsacSingleChannelElementConfig()(第6d圖)
此一元件組態含有組配解碼器來解碼單一聲道所需的全部資訊。主要地此乃核心編碼器相關資訊,及若使用SBR,則為SBR相關資訊。 UsacChannelPairElementConfig()(第6e圖)
類似前文所述,此一元件組態含有組配解碼器來解碼一個聲道對所需的全部資訊。除了前述核心組態及SBR組態外,如此包含立體聲特定組態,例如所施加的立體聲編碼的確切類別(含或不含MPS212、殘差等)。注意此一元件涵蓋在USAC中可用的立體聲編碼之全部選項類別。 UsacLfeElementConfig()(第6f圖)
因LFE元件具有靜態組態,故LFE元件組態不含組態資料。 UsacExtElementConfig()(第6k圖)
此一元件組態可用以組配任何類別之既有的或未來的編解碼器擴延。各個擴延元件型別具有其本身專用的ID值。含括長度欄位來方便地跳過解碼器所未知的組態擴延。內設酬載長度之選擇性定義更進一步提高存在於實際位元串流中的擴延酬載之編碼效率。
已知涵蓋來與USAC組合的擴延包含:MPEG環繞、SAOC、及某種從MPEG-4AAC為已知的FIL元件。 UsacCoreConfig()(第6g圖)
此一元件含有對核心編碼器配置有影響的組態資料。目前此等資料為用於時間包繞工具及雜訊填補工具之切換。 SbrConfig()(第6h圖)
為了減少由sbr_header()的頻繁重新傳輸所產生的位元額外負擔,典型地維持恆定的sbr_header()元件之內設值現在係攜載於組態元件SbrDfltHeader()。此外,靜態SBR組態元件也攜載於SbrConfig()。此等靜態位元包含致能或去能加強型SBR之特定特徵的旗標,例如諧波轉位或交互TES。 SbrDfltHeader()(第6i圖)
此元件攜載典型地維持恆定的sbr_header()元件。影響元件之狀況例如幅值解析度、交叉頻帶、頻譜預平坦化現在攜載於SbrInfo(),許可該等狀況在行進間動態有效地改變。 Mps212Config()(第6j圖)
類似前述SBR組態,針對MPEG環繞2-1-2工具的全部配置參數係於本組態中組裝。與本脈絡不相關或冗餘的來自SpatialSpecificConfig()的全部元件皆被移除。 位元串流酬載 UsacFrame()
此乃環繞USAC位元串流酬載之最外側包繞器及表示USAC存取單元。如於config部分傳訊,其含有迴圈通過全部所含聲道元件及擴延元件。如此使得位元串流格式就所含而言更具彈性,且係任何未來擴延的未來保證。 UsacSingleChannelElement()
本元件含有解碼單聲串流的全部資料。該內容係分裂成核心編碼器相關部分及eSBR相關部分。後者現在已經遠更緊密地連結至核心,也遠更佳地反映該資料為解碼器所需的順序。 UsacChannelPairElement()
本元件涵蓋編碼立體聲對的全部可能方式之資料。更明確言之,借助於MPEG環繞2-1-2,涵蓋全部統一立體聲編碼風格,從舊式以M/S為基礎之編碼至全然參數立體聲編碼。stereoConfigIndex指示實際上使用哪個風格。於此元件發送適當eSBR資料及MPEG環繞2-1-2資料。 UsacLfeElement()
前述lfe_channel_element()僅重新命名來遵守一致的命名體系。 UsacExtElement()
擴延元件係經審慎設計來具有最大彈性,但同時具最大效率,即便對具有小型(或經常絲毫也沒有)酬載的擴延亦復如此。針對無知解碼器傳訊擴延酬載長度來跳過之。使用者界定的擴延可利用擴延型別之保留範圍傳訊。擴延可以元件順序自由地定位。一定範圍之擴延元件已經被考慮包含寫入填補位元的機制。 UsacCoreCoderData()
此一新元件摘述影響核心編碼器的全部資訊,因此也含有fd_channel_stream()及lpd_channel_stream()。 StereoCoreToolInfo()
為了容易化語法的可讀性,全部立體聲相關資訊係捕集於此一元件。處理立體聲編碼模式中的無數位元相依性。 UsacSbrData()
可定標性音訊編碼之CRC功能元件及舊式描述元件係從用來成為sbr_extension_data()元件中移除。為了減少因SBR資訊及標頭資料的頻繁重新傳輸造成的額外負擔,可明確地傳訊此等的存在。 SbrInfo()
經常在行進間動態修改之SBR組態資料。本表包含控制下列之元件,例如幅值解析度、交叉頻帶、頻譜預平坦化,先前對完整sbr_header()之傳輸所需。(參考[N11660]中之6.3,「效率」)。 SbrHeader()
為了維持SBR在行進間動態改變sbr_header()值的能力,於應使用SbrDfltHeader()發送的數值以外之該等值的情況下,現在可能將SbrHeader()攜載於UsacSbrData()內部。bs_header_extra機制係經維持來對大部分常見情況將額外負擔維持儘可能地低。 sbr_data()
再度SBR可定標編碼之餘部被移除,原因在於其不適用於USAC脈絡。取決於聲道數目,sbr_data()含有一個sbr_single_channel_element()或一個sbr_channel_pair_element()。 usacSamplingFrequencyIndex
本表為用在MPEG-4來傳訊音訊編解碼器之取樣頻率之表的超集。本表更進一步擴延來也含括目前用在USAC操作模式的取樣率。也加入取樣頻率之某些倍數。 channelConfigurationIndex
本表為用在MPEG-4來傳訊channelConfiguration之表的超集。本表更進一步擴延來許可常用的且涵蓋的未來揚聲器配置傳訊。本表的指數係以5位元傳訊來許可未來擴延。 usacElementType
只存在有四型元件。四個基本位元串流元件各有一型:UsacSingleChannelElement()、UsacChannelPairElement()、UsacLfeElement()UsacExtElement()。此等元件提供所需頂階結構同時維持全部需要的彈性。
usacExtElementType
在UsacExtElement()內部,本表許可傳訊大量擴延。為了未來有保證,位元欄位係經選擇夠大來允許全部可感知的擴延。除了目前已知之擴延外,已提示少數欲考慮的擴延:填補元件、MPEG環繞、及SAOC。 usacConfigExtType
若在某一點需要擴延組態,則可利用UsacConfigExtension()處置,則此時本表將允許分派一型別給各個新組態。目前可傳訊的唯一型別為該組態之填補機制。 coreSbrFrameLengthIndex
本表將傳訊解碼器之多個組態構面。更明確言之,此等為輸出訊框長度、SBR比、及所得核心編碼器訊框長度(ccfl)。同時指示用在SBR的QMF分析及合成帶數目。 stereoConfigIndex
本表決定UsacChannelPairElement()之內部結構。無論適用立體聲SBR,及無論殘差編碼係適用於MPS212,本表指示使用單聲或立體聲核心,使用MPS212。
藉將大部分eSBR標頭欄位移動至內設標頭,利用內設標頭旗標可參考該內設標頭,發送eSBR控制資料的位元需求大減。在實體世界系統中被視為最可能改變的先前sbr_header()位元欄位現在是外包給sbrInfo()元件,而非現在係由4元位涵蓋至多8位元組成。比較sbr_header()由至少18位元組成,如此節省10位元。
更難以評估此項變化對總位元率的影響,原因在於總位元率係大為取決於sbrInfo(),eSBR控制資料之傳輸率。但已經對常用情況而言,於該處在一位元串流中的sbr交叉變更,每次當發送sbrInfo()替代完整傳輸的sbr_header()時,位元節省可高達22位元。
USAC解碼器之輸出又更進一步藉MPEG環繞(MPS)(ISO/IEC 23003-1)或SAOC(ISO/IEC 23003-2)處理。若USAC中的SBR工具為作用態,則USAC解碼器典型地有效地組合接續MPS/SAOC解碼器,藉於ISO/IEC 23003-1 4.4中針對HE-AAC描述之相同方式連結於QMF域。若在QMF域的連結為不可能,則需連結於時域。
若利用usacExtElement機制(usacExtElementType為ID_EXT_ELE_MPEGS或ID_EXT_ELE_SAOC)MPS/SAOC側邊資訊被嵌入USAC位元串流,則USAC資料與MPS/SAOC資料間之時間排齊獲得USAC解碼器與MPS/SAOC解碼器間之最有效連結。若在USAC的SBR工具為作用態及若MPS/SAOC採用64帶QMF域表示型態(參考ISO/IEC 23003-1 6.6.3),則最有效連結係在QMF域。否則最有效連結係在時域。如此相對應於HE-AAC與MPS之組合的時間排齊,如ISO/IEC 23003-1 4.4、4.5及7.2.1之定義。
於USAC解碼後,藉加上MPS解碼所導入的額外延遲係由ISO/IEC 23003-1 4.5所給定,及取決於使用HQ MPS或LP MPS,及MPS是否係連結至QMF域或時域的USAC。
ISO/IEC 23003-1 4.4澄清USAC系統與MPEG系統間之介面。從系統介面遞送給音訊解碼器的每個存取單元將導致從該音訊解碼器輸送至系統介面的一個相對應組合單元亦即組合器。此將包含起始狀況及關斷狀況,亦即存取單元為一有限序列之存取單元的第一者或最末者。
針對音訊組合單元,ISO/IEC 14496-1 7.1.3.5組合時間戳記(CTS)載明施加至組合單元內部第n個音訊樣本的組合時間。對USAC而言n值經常性地為1。注意如此施加至USAC解碼器本身輸出。於USAC解碼器例如係組合MPS解碼器之情況下,須考慮在MPS解碼器的輸出遞送之組合單元。 USAC位元串流酬載語法之特徵




附屬酬載元件之語法之特徵




加強SBR酬載語法之特徵





資料元件之簡短描述






UsacConfig()
UsacConfig()含有有關輸出取樣頻率及聲道組態之資訊。此一資訊須與在此元件外側例如在MPEG-4 AudioSpecificConfig()傳訊的資訊相同。 Usac輸出取樣頻率
若取樣率非為表1右欄列舉的比率中之一者,則須推定取樣頻率相依性表(代碼表、標度因數帶表等)以便剖析位元串流酬載。因一給定取樣頻率係只與一個取樣頻率表相聯結,且因在可能的取樣頻率範圍期望最大彈性,故下表應用來聯結取樣頻率與取樣頻率相依性表。
UsacChannelConfig()
聲道組態表涵蓋大部分常用揚聲器位置。為了獲得進一步彈性,聲道可對映至近代揚聲器設施在各項應用所見32個揚聲器位置的總體選擇(參考第3a、3b圖)。
針對含在位元串流的各個聲道元件,UsacChannelConfig()載明此一特定聲道應對映的相聯結的揚聲器位置。由bsOutputChannelPos所檢索的揚聲器位置係列舉於第4a圖。以多聲道元件為例,bsOutputChannelPos[i]的指數i指示該聲道出現在位元串流之位置。第Y圖顯示揚聲器位置相對於收聽者之綜覽。
更明確言之,聲道係以其出現在位元串流之順序循序編碼,始於0(零)。於UsacSingleChannelElement()或UsacLfeElement()之普通情況下,聲道號碼係分派給該聲道,聲道計數值遞增1。以UsacChannelPairElement()為例,該元件中的第一聲道(具有指數ch==0)係編為1號,而該元件中的第二聲道(具有指數ch==1)接受下個更高數字,聲道計數遞增2。
接著numOutChannels應等於或小於位元串流中所含全部聲道之累積和。全部聲道之累積和係等於全部UsacSingleChannelElement()數目加全部UsacLfeElement()數目加兩倍全部UsacChannelPairElement()數目。
陣列bsOutputChannelPos中的全部分錄須彼此分開來避免位元串流中揚聲器位置的雙重分派。
於下述特例中,channelConfigurationIndex為0及numOutChannels係小於位元串流所含全部聲道的累積和,則非分派聲道之處置係在本說明書之範圍以外。有關此項資訊例如可藉於較高應用層的合宜手段或藉特別設計的(私密)擴延酬載而傳遞。 UsacDecoderConfig()
UsacDecoderConfig()含有解碼器要求解譯位元串流所需的全部額外資訊。首先,sbrRatioIndex之值決定核心編碼器訊框長度(ccfl)與輸出訊框長度間之比。其後,sbrRatioIndex迴圈通過在本位元串流中的全部聲道元件。針對各次迭代重複,元件型別係在usacElementType[]中傳訊,緊接著為其相對應組態結構。各個元件存在於UsacDecoderConfig()之順序須與UsacFrame()中的相對應酬載之順序相同。
一個元件之各個情況可獨立地組配。當讀取UsacFrame()中之各個聲道元件時,針對各個元件應使用該種情況之相對應組態,亦即具有相同elemIdx。 UsacSingleChannelElementConfig()
UsacSingleChannelElementConfig()含有組配解碼器來解碼一個單聲道所需全部資訊。SBR組態資料係唯有實際上採用SBR時才傳輸。 UsacChannelPairElementConfig()
UsacChannelPairElementConfig()含有核心編碼器相關組態資料,以及取決於SBR之使用的SBR組態資料。立體聲編碼演算法之確切型別係藉stereoConfigIndex指示。於USAC中,聲道對可以多個方式編碼。包括:
1.立體聲核心編碼器對使用傳統聯合立體聲編碼技術,藉於MDCT域中的複合預測可能性擴延。
2.單聲核心編碼器聲道組合以MPEG環繞為基礎的MPS212用於完整參數立體聲編碼。單聲SBR處理係施加至核心信號上。
3.立體聲核心編碼器對組合以MPEG環繞為基礎的MPS212,於該處第一核心編碼器聲道攜載下混信號及第二聲道攜載殘差信號。殘差可以是頻帶有限來實現部分殘差編碼。單聲SBR處理係只在MPS212處理前施加至下混信號上。
4.立體聲核心編碼器對組合以MPEG環繞為基礎的MPS212,於該處第一核心編碼器聲道攜載下混信號及第二聲道攜載殘差信號。殘差可以是頻帶有限來實現部分殘差編碼。立體聲SBR係在MPS212處理後施加至重建立體聲信號上。
在核心編碼器後,選項3及4可進一步與假LR聲道旋轉組合。 UsacLfeElementConfig()
因LFE聲道係不許可使用時間包繞式MDCT及雜訊填補,故無需對此等工具發射尋常核心編碼器旗標。取而代之應設定為零。
也在LFE脈絡中不允許使用SBR也無意義。故未發送SBR組態資料。 UsacCoreConfig()
UsacCoreConfig()只含有旗標來致能或去能時間包繞式MDCT及頻譜雜訊填補用在通用位元串流層面之用途。若tw_mdct係設定為零,則不應施加時間包繞。若noiseFilling係設定為零,則不應施加頻譜雜訊填補。 SbrConfig()
SbrConfig()位元串流元件用於傳訊確切eSBR配置參數之目的。一方面SbrConfig()傳訊eSBR工具之一般部署。另一方面,含有SbrHeader()的內設版本,亦即SbrDfltHeader()。若在位元串流中未傳輸不同的SbrHeader(),則應假設此內設標頭值。此機制之背景為在一個位元串流中只施加SbrHeader()值之一個集合。然後SbrDfltHeader()之傳輸允許藉只使用一個位元於位元串流中來極為有效地參考此內設值集合。藉允許在位元串流本身頻帶內傳輸新SbrHeader,仍然保有在行進間動態變更SbrHeader值的可能。 SbrDfltHeader()
SbrDfltHeader()乃所謂的基本SbrHeader()樣板,且應含有主要使用的eSBR組態之值。於位元串流中,藉設定sbrUseDfltHeader()旗標可參考此一組態。SbrDfltHeader()之結構係與SbrHeader()之結構相同。為了能夠區別SbrDfltHeader()與SbrHeader()之值,SbrDfltHeader()中的位元欄位係加「dflt_」前綴而非「bs_」。若適用SbrDfltHeader(),則SbrHeader()位元欄位應假設相對應SbrDfltHeader()之值,亦即bs_start_freq=dflt_start_freq;bs_stop_freq=dflt_stop_freq;etc.(continue for all elements in SbrHeader(),like:bs_xxx_yyy=dflt_xxx_yyy; Mps212Config()
Mps212Config()類似MPEG環繞的SpatialSpecificConfig()且大部分係從其中推定。但其程度減少成只含USAC脈絡中單聲或立體聲上混的相關資訊。結果,MPS212只組配一個OTT框。 UsacExtElementConfig()
UsacExtElementConfig()乃USAC之擴延元件的組態資料之一般容器。各個USAC擴延具有一個獨一無二型別的識別符亦即usacExtElementType,係定義於第6k圖。針對各個UsacExtElementConfig(),所含擴延組態之長度係在變數usacExtElementConfigLength中傳輸,且許可解碼器安全地跳過其usacExtElementType為未知的擴延元件。
用於典型地具有恆定酬載長度的USAC擴延,UsacExtElementConfig()許可usacExtElementDefaultLength的傳輸。定義組態中的內設酬載長度允許在UsacExtElement()內部usacExtElementPayloadLength的高度有效傳訊,於該處位元耗用須維持為低。
以USAC擴延為例,於該處累積大量資料,非以每個訊框基礎傳輸,反而只以每隔一個訊框或甚至更稀疏地傳輸,此一資料可以展布在若干USAC訊框的片段或節段中傳輸。如此有助於維持位元貯藏處更為相等。此一機制的使用係藉旗標usacExtElementPayloadFrag旗標傳訊。分段機制更進一步解釋於6.2.X中usacExtElement的描述中。 UsacConfigExtension()
UsacConfigExtension()乃UsacConfig()擴延之一般容器。提供修正或擴延在解碼器初始化或配置設定時交換的資訊之方便方式。組態擴延的存在係藉usacConfigExtensionPresent指示。若組態擴延係存在(usacConfigExtensionPresent==1),則在位元欄位numConfigExtensions中接著為此等擴延的確切數目。各個組態擴延具有一個獨一無二型別的識別符usacConfigExtType。針對各個UsacConfigExtension,所含組態擴延之長度係在變數usacConfigExtLength中傳輸,及允許組態位元串流剖析器安全地跳過其usacConfigExtType為未知的組態擴延。 針對音訊物件型別USAC之頂階酬載術語及定義

UsacFrame()之解碼
一個UsacFrame()形成USAC位元串流之一個存取單元。依據從一表所決定的outputFrameLength,各個UsacFrame解碼成768、1024、2048或4096個輸出樣本。
UsacFrame()中的第一位元為usacIndependencyFlag,決定是否可未知曉任何先前訊框而解碼一給定訊框。若usacIndependencyFlag係設定為0,則與前一訊框之相依性可能存在於目前訊框之酬載。
UsacFrame()更係由一或多個語法元件組成,該等語法元件須以其相對應組態元件於UsacDecoderConfig()的相同順序而出現在該位元串流。各個元件在全部元件串列中的位置係藉elemIdx指數索引。針對各個元件,應使用該種情況如在UsacDecoderConfig()中傳輸時的相對應組態亦即具有相同elemIdx。
此等語法元件係屬四個型別中之一者,列舉於表中。此等元件各自之型別係藉usacElementType決定。可能有多個相同型別的元件。出現在不同訊框的相同位置elemIdx之元件應屬相同串流。

若此等位元串流酬載欲透過恆定比率聲道傳輸,則可能包含具有ID_EXT_ELE_FILL之usacExtElementType之一擴延酬載元件來調整瞬時位元率。於此種情況下,編碼立體聲信號之實例為:
UsacSingleChannelElement()之解碼
UsacSingleChannelElement()之簡單結構係由UsacCoreCoderData()之一例所組成,具有nrCoreCoderChannels設定為1。取決於此一元件的sbrRatioIndex,一UsacSbrData()元件接著為nrSbrChannels也設定為1。 UsacExtElement()之解碼
在一位元串流中的UsacExtElement()結構可藉USAC解碼器解碼或跳過。每個擴延係藉在與UsacExtElement()相聯結的UsacExtElementConfig()中傳遞的usacExtElementType識別。針對各個usacExtElementType,可存在有特定解碼器。
若擴延用之解碼器為USAC解碼器所可用,則恰在UsacExtElement()已經藉USAC解碼器剖析後即刻,擴延之酬載前傳至擴延解碼器。
若無任何擴延用之解碼器為USAC解碼器所可用,則在位元串流內部提供最小結構,使得擴延可被USAC解碼器忽略。
擴延元件長度係藉內設長度載明,單位為八重元組,可在相對應UsacExtElementConfig()內部傳訊且可在UsacExtElement()變更;或使用語法元件escapedValue(),藉在UsacExtElement()中明確地提供的長度資訊載明,其為1至3八重元組長。
跨據一或多個UsacFrame()之擴延酬載可被分段,其酬載分散在數個UsacFrame()間。於此種情況下,usacExtElementPayloadFrag旗標係設定為1,解碼器須收集從具有usacExtElementStart設定為1的UsacFrame()直至且含具有usacExtElementStop設定為1的UsacFrame()的全部片段。當usacExtElementStop設定為1時,擴延被視為完整及傳送至擴延解碼器。
注意本說明書不提供分段擴延酬載的完整性保護,須使用其它手段來確保擴延酬載的完整。
注意全部擴延酬載資料係假設為位元組排齊。
各個UsacExtElement()應遵守使用usacIndependencyFlag之要求。更明確言之,若usacIndependencyFlag係經設定(==1),則UsacExtElement()應可未知曉前一訊框(及其中可能含有的擴延酬載)即可解碼。 解碼處理
在UsacChannelPairElementConfig()中發送的stereoConfigIndex決定施加於給定CPE的立體聲編碼之確切型別。取決於此型立體聲編碼,一或二個核心編碼器聲道實際上係在位元串流傳輸,及變數nrCoreCoderChannels須據此而予設定。然後語法元件UsacCoreCoderData()提供一或二個核心編碼器聲道之資料。
同理,取決於立體聲編碼型別及eSBR之使用(亦即若sbrRatioIndex>0),可有資料可供一或二個聲道使用。nrSbrChannels之值須據此設定,及語法元件UsacSbrData()提供一或二個聲道之資料。
最後,Mps212Data()係取決於stereoConfigIndex之值傳輸。 低頻加強式(LFE)聲道元件,UsacLfeElement() 概論
為了維持解碼器的規則結構,UsacLfeElement()係定義為標準fd_channel_stream(0,0,0,0,x)元件,亦即係等於使用頻域編碼器之UsacCoreCoderData()。如此使用解碼UsacCoreCoderData()-元件的標準程序可進行解碼。
但為了配合LFE解碼器之更高位元率及硬體有效體現,對用來編碼此一元件的選項施加若干限制:
●window_sequence欄位經常性地設定為0(ONLY_LONG_SEQUENCE)
●只有任何LFE之最低24頻譜係數可以為非零
●不使用時間性雜訊塑形,亦即tns_data_present係設定為0
●時間包繞未經作動
●未施加雜訊填補 UsacCoreCoderData()
UsacCoreCoderData()含有解碼一或二個核心編碼器聲道的全部資訊。
解碼順序為:
●取得各聲道的core_mode[]
●於兩個核心編碼器聲道(nrChannels==2)之情況下,剖析StereoCoreToolInfo()及決定全部立體聲相關參數
●取決於所傳訊的core_modes,針對各個聲道傳輸lpd_channel_stream()或fd_channel_stream()
從以上列表可知,一個核心編碼器聲道(nrChannels==1)之解碼結果導致獲得core_mode位元,接著為取決於core_mode的一個lpd_channel_stream或fd_channel_stream。
於二個核心編碼器聲道中,可探討聲道間的若干傳訊冗餘,特別若二聲道的core_mode為0時尤為如此。細節請參考6.2.X(StereoCoreToolInfo()之解碼)。 StereoCoreToolInfo()
StereoCoreToolInfo()許可有效地編碼參數,於二聲道係以FD模式編碼(core_mode[0,1]==0)之情況下,其值可橫過CPI的核心編碼器聲道共享。更明確言之,當位元串流中的合宜旗標係設定為1時,共享下列資料元件。

若不設定合宜旗標,則資料元件係針對各個核心編碼器聲道個別地傳輸,或於StereoCoreToolInfo()(max_sfb、max_sfb1)或於UsacCoreCoderData()中接在StereoCoreToolInfo()之後的fd_channlel_stream()。
以common_window==1為例,StereoCoreToolInfo()也含有有關M/S立體聲編碼資訊及MDCT域中的複雜預測資料(參考7.7.2)。
USAC之SBR酬載
於USAC中SBR酬載係在UsacSbrData()中傳輸,此乃各個單一聲道元件或聲道對元件之整合一體部分。UsacSbrData()緊接在UsacCoreCoderData()之後。不含針對LFE聲道的SBR酬載。
numSlots 於一Mps212Data訊框中的時槽數目。
第1圖例示說明用以解碼在輸入10所提供的編碼音訊信號之音訊解碼器。在輸入線10上提供編碼音訊信號,例如為資料串流或甚至更為舉例說明地串列資料串流。編碼音訊信號包括於該資料串流之酬載區段的一第一聲道元件及一第二聲道元件,及在該資料串流之一組態區段中的針對該第一聲道元件之第一解碼器組態資料及針對該第二聲道元件之第二解碼器組態資料。典型地,第一解碼器組態資料將與第二解碼器組態資料相異,原因在於第一聲道元件典型地也將與第二聲道元件相異。
資料串流或編碼音訊信號係輸入資料串流讀取器12用以讀取各個聲道元件之組態資料,及及透過連結線13前傳該組態資料給一組態控制器14。此外,資料串流讀取器係經配置來讀取在該酬載區段中針對各個聲道元件之該酬載資料,及包括第一聲道元件及第二聲道元件之此一酬載資料係透過連結線15提供給可組配解碼器16。可組配解碼器16係經配置來解碼多個聲道元件而如在輸出線18a、18b之指示輸出資料給個別聲道元件。更明確言之,可組配解碼器16係當解碼該第一聲道元件時依據該第一解碼器組態資料組配,及當解碼該第二聲道元件時依據該第二解碼器組態資料組配。此係以連結線17a、17b指示,於該處連結線17a將該第一解碼器組態資料從該組態控制器14轉送至該可組配解碼器,及連結線17b將該第二解碼器組態資料從該組態控制器轉送至該可組配解碼器。組態控制器將以任一方式體現來使得可組配解碼器係依據在相對應解碼器組態資料中或在相對應線17a、17b上傳訊的解碼器組態操作。如此,組態控制器14可體現為從資料串流實際上獲得組態資料之資料串流讀取器12與藉實際上讀取組態資料的可組配解碼器16間之介面。
第2圖例示說明用以編碼提供在輸入20的多聲道輸入音訊信號之相對應音訊編碼器。輸入20係例示說明為包括三條不同線20a、20b、20c,於該處線20a攜載例如中心聲道音訊信號,線20b攜載例如左聲道音訊信號,及線20c攜載例如右聲道音訊信號。全部三個聲道信號係輸入組態處理器22及可組配編碼器24。組態處理器係適用以針對第一聲道元件在線21a上產生第一組態資料及在線21b上產生第二組態資料,例如只包含中心聲道使得第一聲道元件為單一聲道元件;及用於第二聲道元件,例如為攜載左聲道及右聲道之一聲道對元件。可組配編碼器24係適用於編碼多聲道音訊信號20來使用第一組態資料21a及第二組態資料21b而獲得第一聲道元件23a及第二聲道元件23b。音訊編碼器額外地包括資料串流產生器26,其在輸入線25a及25接收第一組態資料及第二組態資料,此外地,其接收第一聲道元件23a及第二聲道元件23b。資料串流產生器26係適用以產生表示編碼音訊信號之資料串流27,該資料串流具有包括第一及第二組態資料之組態區段,及包括第一聲道元件及第二聲道元件之酬載區段。
於本脈絡中,摘述第一組態資料及第二組態資料可與第一解碼器組態資料及第二解碼器組態資料相同或相異。於後述情況下,當該組態資料為編碼器導向資料時,組態控制器14係經組配來例如藉施加獨一無二之函式或詢查表等而變換資料串流中的組態資料成為相對應的解碼器導向資料。但較佳寫成資料串流的組態資料已經是解碼器組態資料,使得可組配編碼器24或組態處理器22例如具有功能例如再度係藉施加獨一無二之函式或詢查表或其它前置知識而用以從所計算的解碼器組態資料推衍出編碼器組態資料,或用以從計算得的編碼器組態資料計算或決定解碼器組態資料。
第5a圖例示說明編碼音訊信號輸入第1圖之資料串流讀取器12或藉第2圖之資料串流產生器26輸出之大致例示說明。資料串流包括一組態區段50及一酬載區段52。第5b圖例示說明之資料串流典型地為串列地攜載逐一位元的串列資料串流,在其第一部分50a包括有關轉送結構之較高層的通用組態資料,諸如MPEG-4檔案格式。另外或此外,可有或可無的組態資料50a包括含括於UsacChannelConfig的額外一般組態資料,例示說明於50b。
概略言之,組態資料50a也可包括第6a圖例示說明之得自UsacConfig之資料,及項目50b包括於第6b圖之UsacChannelConfig體現且例示說明之元件。更明確言之,全部聲道元件之相同組態例如可包括於第3a、3b圖及第4a、4b圖之上下文中顯示的及描述的輸出聲道指示。
然後,位元串流之組態區段50接著為UsacDecoderConfig元件,於本實例中該元件係藉第一組態資料50c、第二組態資料50d、及第三組態資料50e形成。第一組態資料50c係用於第一聲道元件、第二組態資料50d係用於第二聲道元件,及第三組態資料50e係用於第三聲道元件。
更明確言之,如第5b圖摘述,用於聲道元件之各個組態資料包括識別符元件型別指數idx,就其語法用於第6c圖。然後具有二位元的元件型別指數idx接著為描述出現於第6c圖的聲道元件組態資料的位元,針對單聲道元件進一步解說於第6d圖,第6e圖針對聲道對元件,第6f圖針對LFE元件,及第6k圖針對擴延元件,此等元件皆為典型地可含括於USAC位元串流的聲道元件。
第5c圖例示說明包括於第5a圖例示說明的位之酬載區段52中之USAC訊框。當第5b圖之組態區段形成第5a圖之組態區段50時,亦即當酬載區段包括三個聲道元件時,則酬載區段52將體現如第5c圖之摘述,亦即第一聲道元件52a之酬載資料接著為第二聲道元件52b之酬載資料,其又接著為第三聲道元件52c之酬載資料。因此,依據本發明,組態區段及酬載區段係經組織來使得相對於在酬載區段的聲道元件,就聲道元件而言,組態資料係在與酬載資料的相同順序。因此,當UsacDecoderConfig元件中的順序為第一聲道元件之組態資料、第二聲道元件之組態資料、第三聲道元件之組態資料時,則酬載區段中的順序為相同,亦即第一聲道元件之酬載資料接著為第二聲道元件之酬載資料,然後接著為第三聲道元件之酬載資料。
在組態區段及酬載區段中的並列結構為優異,原因在於有關哪個組態資料係屬哪個聲道元件,允許容易組織且有極低額外負擔傳訊。於先前技術中,無需任何排序原因在於不存在有聲的個別組態資料。但依據本發明介紹針對個別聲道元件之個別組態資料來確保可最佳地選擇針對各個聲道元件的最佳組態資料。
典型地一個USAC訊框包括20至40毫秒時間的資料。如第5d圖例示說明,當考慮較長的資料串流時,則有個組態區段60a,接著為酬載區段或訊框62a、62b、62c、...、62e,然後組態區段62d再度含括於位元串流。
如就第5b及5c圖討論,在組態區段中之組態資料順序係與在各個訊框62a至62e的聲道元件酬載資料的順序相同。因此個別聲道元件之酬載資料的順序係恰與各個訊框62a至62e相同。
一般而言,例如當編碼信號為儲存在硬碟上的單一檔案時,單一組態區段50在整個聲軌的起始足夠,諸如10分鐘或20分鐘左右的聲軌。然後單一組態區段接著為大數目的個別訊框,該組態對各訊框為有效,在各訊框中及在組態區段中聲道元件資料(組態或酬載)的順序亦同。
但當編碼音訊信號為資料串流時,需將組態區段導入個別訊框間,來提供存取點,使得即便當較早的組態區段已經被發射但尚未被解碼器接收時解碼器能夠開始解碼,原因在於解碼器尚未被切換成接收實際資料串流。但不同組態區段間的訊框數目n係可任意地選擇,但當期望達成每秒一個存取點時,則兩個組態區段間的訊框數目將為25至50。
接著第7圖例示說明編碼及解碼5.1多聲道信號之直捷實例。
較佳地使用四個聲道元件,於該處第一聲道元件為包括中心聲道的單聲道元件,第二聲道元件為包括左聲道及右聲道的聲道對元件CPE1,及第三聲道元件為包括左環繞聲道及右環繞聲道的第二聲道對元件CPE2。最後,第四聲道元件為LFE聲道元件。舉例言之,於一實施例中,單聲道元件之組態資料使得雜訊填補工具為啟動,例如對包括環繞聲道的第二聲道對元件,雜訊填補工具為關閉,施加參數立體聲編碼程序其品質低,但低位元率立體聲編碼程序導致低位元率,但品質損耗不成問題,原因在於聲道對元件具有環繞聲道。
另一方面,左及右聲道包括顯著量資訊,因此高品質立體聲編碼程序係藉MPS212組態傳訊。M/S立體聲編碼為優異在於其提供高品質,但有問題在於位元率相當高。因此M/S立體聲編碼對CPE1為較佳,但對CPE2並不佳。此外,取決於體現,雜訊填補特徵可被切換成開或關,且較佳地係被切換成開,原因在於高度強調具有左及右聲道的良好高品質表示型態,以及中心聲道的雜訊填補也是開。
但當聲道元件C的核心帶寬例如相當低及在中心聲道的量化至零的連續線數目也低時,關閉中心聲道單聲道元件的雜訊填補也有用,原因在於下述事實,雜訊填補並不提供額外品質增益,有鑑於品質的提升為無或只有極少提升,則也可節省發射用於雜訊填補的側邊資訊所需位元。
一般言之,在聲道元件之組態區段中傳訊的工具為例如於第6d、6e、6f、6g、6h、6i、6j圖提及的工具,及額外地包括第6k、6l及6m圖中用於擴延元件組態之元件。如第6e圖摘述,針對各個聲道元件MPS212組態可以不同。
MPEG環繞使用人類聽覺針對空間感知提示的精簡參數表示型態來允許多聲道信號之位元率有效表示型態。
除了CLD及ICC參數外,可傳送IPD參數。OPD參數係以給定CLD及IPD參數估計來獲得相位資訊之有效表示型態。IPD及OPD參數係用來合成相位差而更進一步改良立體影像。
除了參數模式外,可採用殘差編碼,殘差具有有限的或完整帶寬。於此程序中,使用CLD、ICC及IPD參數藉混合單聲輸入信號及殘差信號而產生二輸出信號。此外,第6j圖述及的全部參數可針對各個聲道元件個別地選擇。個別參數例如在2010年9月24日ISO/IEC CD 23003-3詳細解釋,以引用方式併入此處。
此外,如第6f及6g圖摘述,核心特徵諸如時間包繞特徵及雜訊填補特徵可針對各個聲道元件個別地切換開關。前述參考文件中術語「時間包繞濾波器組及區塊切換」所述的時間包繞工具替代標準濾波器組及區塊切換。除了IMDCT外,工具含有從任意間隔格網至正常線性間隔時間格網的時域至時域對映,及視窗形狀之相對應適應。
此外,如第7圖摘述,雜訊填補工具可針對各個聲道元件個別地切換開關。於低位元率編碼中,雜訊填補可用於兩項目的。於低位元率音訊編碼中,頻譜值的粗量化可能於反量化後導致極為稀疏頻譜,原因在於許多頻譜線已經量化為零。稀疏頻譜將導致解碼後信號聲音尖銳或不穩(唧啾聲)。於解碼器中藉以「小」值置換零線,可能遮掩或減少此等極為明顯的假影而不增加明顯的新雜訊假影。
若在原先頻譜內有雜訊狀信號部分,此等雜訊信號部分之知覺等效表示型態可只基於少數參數資訊例如雜訊信號部分之能而在解碼器中再生。比較傳輸編碼波形所需位元數目,參數資訊可以少數位元傳輸。特別地,傳輸所需的資料元件為雜訊偏移元件,此乃額外偏移值來修正量化至零的頻帶之標度因數,及雜訊位準,該雜訊位準一個整數為表示針對量化為零的每條頻譜線欲增加的量化雜訊。
如第7圖及第6f及6g圖摘述,此項特徵可針對各個聲道元件個別地切換開關。
此外有SBR特徵,現在係針對各個聲道元件個別地傳訊。
如第6h圖摘述,此等SBR元件包括SBR中不同工具的切換開/關。欲針對各個聲道元件個別地切換開關的第一工具為諧波SBR。當諧波SBR被切換成開時執行諧波SBR配置,當諧波SBR被切換成關時使用如從MPEG-4(高效率)為已知的連續線配置。
此外,可施加PVC或稱作「預測向量編碼」解碼法。為了改良eSBR工具的主觀品質,特別針對低位元率的語音內容,採用預測向量編碼(PVC加至eSBR工具)。低頻帶與高頻帶頻譜波封間有相當高的相關性。於PVC方案中,係藉從低頻帶頻譜波封預測高頻帶頻譜波封探討,於該處預測之係數矩陣係利用向量量化編碼。HF波封調整器係經修正來處理由PVC解碼器所產生的波封。
因此PVC工具特別可用於單聲道元件,於該處例如中心聲道有語音;PVC工具於例如CPE2之環繞聲道或CPE1之左及右聲道無用。
此外,時間波封間塑形特徵(inter-Tes)可針對各個聲道元件個別地切換開關。子帶樣本間時間性波封塑形(inter-Tes)在波封調整器之後處理QMF子帶樣本。此一模組以比波封調整器更精細時間性粒度塑形更高頻率帶寬的時間性波封。藉施加增益因數給SBR波封的各個QMF子帶樣本,inter-Tes塑形QMF子帶樣本中的時間性波封。inter-Tes包含三個模組亦即低頻子帶樣本間時間性波封計算器、子帶樣本間時間性波封調整器、及子帶樣本間時間性波封塑形器。由於此工具要求額外位元,將有些聲道元件,於該處就品質增益而言,此種耗用額外位元不值得;及於該處就品質增益而言,此種耗用額外位元為值得。因此依據本發明係採用此一工具逐一聲道元件的作動/解除作動。
此外,第6i圖例示說明SBR內設標頭之語法,第6i圖所述SBR內設標頭的全部SBR參數可針對各個聲道元件差異選擇。此點例如係有關於起始頻率或停止頻率實際上設定交叉頻率,亦即信號重建從模式改變遠離成為參數模式的頻率。其它特徵諸如頻率解析度及雜訊頻帶解析度等也可用於針對各個聲道元件選擇性地設定。
因此如第7圖摘述,較佳係針對立體聲特徵、核心編碼器特徵、及SBR特徵個別地設定組態資料。各元件的個別設定不只係指如第6i圖例示說明的SBR內設標頭中的SBR參數,同時也適用於第6h圖摘述的SbrConfig中的全部參數。
接著,參考第8圖例示說明第1圖之解碼器的體現。
更明確言之,資料串流讀取器12及組態控制器14之功能係類似於第1圖脈絡之討論。但可組配解碼器16現在係對個別解碼器例體現,於該處各個解碼器例具有組態控制器14所提供的針對組態資料C之輸入及針對資料D之輸入用以接收來自資料串流讀取器12的相對應於聲道元件資料。
更明確言之,第8圖之功能為針對各個個別聲道元件提供個別解碼器例。因此,第一解碼器例係藉例如中心聲道的單聲道元件之第一組態資料組配。
此外,第二解碼器例係依據針對聲道對元件之左及右聲道之第二解碼器例組態資料組配。又復,第三解碼器例16c係針對包括左環繞聲道及右環繞聲道的又一聲道對元件組配。最後,第四解碼器例係針對LFE聲道組配。如此,第一解碼器例提供單聲道C作為輸出。但第二及第三解碼器例16b、16c各自提供二輸出聲道,亦即一方面左及右,另一方面左環繞及右環繞。最後,第四解碼器例16d提供LFE聲道作為輸出。多聲道信號之全部此等六聲道係藉解碼器例前傳至輸出介面19,及然後最終送出例如供儲存,或用於例如在5.1揚聲器設施回放。顯然當揚聲器設施為不同揚聲器設施時,要求不同解碼器例及不同解碼器例數目。
第9圖例示說明依據本發明之實施例用以執行解碼一已編碼音訊信號之方法之較佳體現。
於步驟90,資料串流讀取器12開始讀取第5a圖之組態區段50。然後於步驟92,基於在相對應組態資料區塊50c的聲道元件識別ID識別聲道元件。於步驟94,讀取此一經識別的聲道元件之組態資料且用以實際上組配解碼器,或用於儲存而當後來處理聲道元件時用以組配解碼器。此點摘述於步驟94。
於步驟96,使用第5b圖部分50d中第二組態資料之元件型別識別符而識別下一個聲道元件。指示於第9圖步驟96。然後於步驟98,組態資料係經讀取及用來組配實際解碼器或解碼器例,或經讀取來另外地儲存組態資料歷經此一聲道元件之酬載欲被解碼時間。
然後於步驟100,迴圈通過整個組態資料,亦即聲道元件之識別及聲道元件之組態資料之讀取係繼續直到全部組態資料皆被讀取為止。
然後於步驟102、104、106,讀取針對各個聲道元件之酬載資料,最後於步驟108,使用組態資料C解碼,於該處酬載資料係以D指示。步驟108之結果為例如藉區塊16a至16d輸出的資料,然後可直接地送出至揚聲器,或係經同步化、放大、進一步處理、或數位/類比變換來最終地送出至相對應揚聲器。
雖然已經以設備脈絡描述若干構面,但顯然此等構面也表示相對應方法的描述,於該處一方塊或一裝置係相對應於一方法步驟或一方法步驟之特徵。同理,以方法步驟之脈絡描述的構面也表示相對應裝置之相對應方塊或項或特徵結構之描述。
取決於某些體現要求,本發明之實施例可於硬體或於軟體體現。體現可使用數位儲存媒體執行,例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體,具有可電子讀取控制信號儲存於其上,該等信號與可程式規劃電腦系統協作(或可與協作),因而執行個別方法。
依據本發明之若干實施例包含具有可電子式讀取控制信號的非過渡資料載體,該等控制信號可與可程式規劃電腦系統協作,因而執行此處所述方法中之一者。
編碼音訊信號可透過有線或無線傳輸媒體傳輸,或可儲存在機器可讀取載體或非過渡儲存媒體上。
大致言之,本發明之實施例可體現為具有程式代碼的電腦程式產品,該程式代碼係當電腦程式產品在電腦上跑時可執行該等方法中之一者。該程式代碼例如可儲存在機器可讀取載體上。
其它實施例包含儲存在機器可讀取載體上的用以執行此處所述方法中之一者的電腦程式。
換言之,因此,本發明方法之實施例為一種具有一程式代碼之電腦程式,該程式代碼係當該電腦程式於一電腦上跑時用以執行此處所述方法中之一者。
因此,本發明方法之又一實施例為資料載體(或數位儲存媒體或電腦可讀取媒體)包含用以執行此處所述方法中之一者的電腦程式記錄於其上。
因此,本發明方法之又一實施例為表示用以執行此處所述方法中之一者的電腦程式的資料串流或信號序列。資料串流或信號序列例如可經組配來透過資料通訊連結,例如透過網際網路轉移。
又一實施例包含處理構件例如電腦或可程式規劃邏輯裝置,其係經組配來或適用於執行此處所述方法中之一者。
又一實施例包含一電腦,其上安裝有用以執行此處所述方法中之一者的電腦程式。
於若干實施例中,可程式規劃邏輯裝置(例如可現場程式規劃閘陣列)可用來執行此處描述之方法的部分或全部功能。於若干實施例中,可現場程式規劃閘陣列可與微處理器協作來執行此處所述方法中之一者。大致上該等方法較佳係藉任何硬體裝置執行。
前述實施例係僅供舉例說明本發明之原理。須瞭解此處所述配置及細節之修改及變化將為熟諳技藝人士顯然易知。因此,意圖僅受審查中之專利申請範圍所限而非受藉以描述及解說此處實施例所呈示之特定細節所限。
10‧‧‧輸入、輸入線
12‧‧‧資料串流讀取器
13、15、17a-b‧‧‧連結線
14‧‧‧組態控制器
16‧‧‧可組配解碼器
16a-d‧‧‧解碼器例
18a-b‧‧‧輸出線
19‧‧‧輸出介面
20‧‧‧輸入
20a、20b、20c‧‧‧線
21a‧‧‧第一組態資料
21b‧‧‧第二組態資料
22‧‧‧組態處理器
23a‧‧‧第一聲道元件
23b‧‧‧第二聲道元件
24‧‧‧可組配編碼器
26‧‧‧資料串流產生器
27‧‧‧資料串流
50‧‧‧組態區段
50a‧‧‧組態資料
50b‧‧‧UsacChannelConfig
50c‧‧‧第一組態資料
50d‧‧‧第二組態資料
50e‧‧‧第三組態資料
52‧‧‧酬載區段
52a‧‧‧第一聲道元件
52b‧‧‧第二聲道元件
52c‧‧‧第三聲道元件
60a-b‧‧‧組態區段
62a-e‧‧‧酬載區段、訊框
90-108‧‧‧步驟
第1圖為解碼器之方塊圖;第2圖為編碼器之方塊圖;第3a及3b圖表示摘述針對不同揚聲器配置之聲道組態的一表;第4a及4b圖識別且以圖形方式例示說明不同的揚聲器配置;第5a至5d圖例示說明具有一組態區段及該酬載區段之該編碼音訊信號之不同構面;第6a圖顯示該UsacConfig元件之語法;第6b圖顯示該UsacChannelConfig元件之語法;第6c圖顯示該UsacDecoderConfig之語法;第6d圖顯示該UsacSingleChannelElementConfig之語法;第6e圖顯示該UsacChannelPairElementConfig之語法;第6f圖顯示該UsacLfeElementConfig之語法;第6g圖顯示該UsacCoreConfig之語法;第6h圖顯示該SbrConfig之語法;第6i圖顯示該SbrDfltHeader之語法;第6j圖顯示該Mps212Config之語法;第6k圖顯示該UsacExtElementConfig之語法;第6l圖顯示該UsacConfigExtension之語法;第6m圖顯示該escapedValue之語法;第7圖個別地例示說明用以識別及組配用於聲道元件之不同編碼器/解碼器工具之不同的替代方案;第8圖例示說明解碼器體現之一較佳實施例,具有用以產生5.1多聲道音訊信號之並列地操作的解碼器例;第9圖以流程圖形式例示說明第1圖解碼器之一較佳體現;第10a圖顯示USAC編碼器之方塊圖;及第10b圖顯示USAC解碼器之方塊圖。
10‧‧‧輸入、輸入線
12‧‧‧資料串流讀取器
13、15、17a-b‧‧‧連結線
14‧‧‧組態控制器
16‧‧‧可組配解碼器
18a-b‧‧‧輸出線
权利要求:
Claims (18)
[1] 一種用以解碼一編碼音訊信號之音訊解碼器,該編碼音訊信號係包含在一資料串流之一酬載區段中一第一聲道元件及一第二聲道元件,及在該資料串流之一組態區段中針對該第一聲道元件之第一解碼器組態資料及針對該第二聲道元件之第二解碼器組態資料,該音訊解碼器係包含:一資料串流讀取器,用以讀取在該組態區段中針對各個聲道元件之該組態資料,及讀取在該酬載區段中針對各個聲道元件之該酬載資料;一可組配解碼器,用以解碼該等多個聲道元件;及一組態控制器,用以組配該可組配解碼器使得該可組配解碼器係當解碼該第一聲道元件時依據該第一解碼器組態資料組配,及當解碼該第二聲道元件時依據該第二解碼器組態資料組配。
[2] 如申請專利範圍第1項之音訊解碼器,其中該第一聲道元件為包含針對一第一輸出聲道之酬載資料之一單聲道元件,及其中該第二聲道元件為包含針對一第二輸出聲道及該第三輸出聲道之酬載資料之一聲道對元件,其中該可組配解碼器係經配置來當解碼該第一聲道元件時用以產生一單一輸出聲道,及當解碼該第二聲道元件時用以產生二輸出聲道,及其中該音訊解碼器係經組配來用以透過三個不同音訊輸出聲道之一同時輸出而輸出該第一輸出聲道、該第二輸出聲道及該第三輸出聲道。
[3] 如申請專利範圍第1或2項之音訊解碼器,其中該第一聲道為一中心聲道,及其中該第二聲道及該第三聲道為一左聲道及一右聲道或一左環繞聲道及一右環繞聲道。
[4] 如申請專利範圍第1項之音訊解碼器,其中該第一聲道元件為包含針對一第一及該第二輸出聲道之資料之一第一聲道對元件,及其中該第二聲道元件為包含針對一第三輸出聲道及該第四輸出聲道之酬載資料之一第二聲道對元件,其中該可組配解碼器係經組配來當解碼該第一聲道元件時用以產生一第一及該第二輸出聲道,及當解碼該第二聲道元件時用以產生一第三輸出聲道及一第四輸出聲道,及其中該音訊解碼器係經組配來針對不同音訊輸出聲道之一同時輸出接線而輸出該第一輸出聲道、該第二輸出聲道、該第三輸出聲道及該第四輸出聲道。
[5] 如申請專利範圍第4項之音訊解碼器,其中該第一聲道為一左聲道,該第二聲道為一右聲道,該第三聲道為一左環繞聲道及該第四聲道為一右環繞聲道。
[6] 如前述申請專利範圍各項中任一項之音訊解碼器,其中該編碼音訊信號係額外地包含在該資料串流之該組態區段中,一通用組態區段具有針對該第一聲道元件及該第二聲道元件之資訊,及其中該組態控制器係經配置來以得自該通用組態區段之該組態資訊而組配用於該第一及該第二聲道元件之該可組配解碼器。
[7] 如前述申請專利範圍各項中任一項之音訊解碼器,其中該第一組態區段係與該第二組態區段不同,及其中該組態控制器係經配置來與當用以解碼該第一聲道元件之一組態不同地,組配用以解碼該第二聲道元件之該可組配解碼器。
[8] 如前述申請專利範圍各項中任一項之音訊解碼器,其中該第一解碼器組態資料及該第二解碼器組態資料係包含在一立體聲解碼工具、一核心解碼工具或一頻譜帶寬擴延(SBR)解碼工具上之資訊,及其中該可組配解碼器係包含該SBR解碼工具解碼工具、該核心及該立體聲解碼工具。
[9] 如前述申請專利範圍各項中任一項之音訊解碼器,其中該酬載區段係包含一序列之訊框,各個訊框係包含該第一聲道元件及該第二聲道元件,及其中針對該第一聲道元件之該第一解碼器組態資料及針對該第二聲道元件之該第二解碼器組態資料係與該訊框序列相聯結,其中該組態控制器係經組配來針對該訊框序列之該等訊框各自組配該組態控制器,使得於各訊框中之該第一聲道元件係使用該第一解碼器組態資料解碼,及於各訊框中之該第二聲道元件係使用該第二解碼器組態資料解碼。
[10] 如前述申請專利範圍各項中任一項之音訊解碼器,其中該資料串流為一串列資料串流及該組態區段係包含依序地針對多個聲道元件之解碼器組態資料,及其中該酬載區段係包含針對於相同排序之該等多個聲道元件之酬載資料。
[11] 如前述申請專利範圍各項中任一項之音訊解碼器,其中該組態區段係包含一第一聲道元件識別碼接著為該第一解碼器組態資料及一第二聲道元件識別碼接著為該第二解碼器組態資料,其中該資料串流讀取器係經配置來藉循序地傳送該第一聲道元件識別碼及接著讀取該聲道元件之該第一解碼器組態資料,及隨後傳送該第二聲道元件識別碼及接著讀取該第二解碼器組態資料。
[12] 如前述申請專利範圍各項中任一項之音訊解碼器,其中該可組配解碼器係包含多個並列解碼器例,其中該組態控制器係經配置來運用該第一解碼器組態資料而組配一第一解碼器例,及運用該第二解碼器組態資料而組配一第二解碼器例,及其中該資料串流讀取器係經配置來前傳該第一聲道元件之酬載資料給該第一解碼器例,及前傳該第二聲道元件之酬載資料給該第二解碼器例。
[13] 如申請專利範圍第12項之音訊解碼器,其中該酬載區段係包含一序列之酬載訊框,及其中該資料串流讀取器係經組配來前傳來自目前經處理的訊框之各個聲道元件資料只給藉此聲道元件之該組態資料所組配的該相對應解碼器例。
[14] 一種用以解碼一編碼音訊信號之方法,該編碼音訊信號係包含在一資料串流之一酬載區段一第一聲道元件及一第二聲道元件,及在該資料串流之一組態區段針對該第一聲道元件之第一解碼器組態資料及針對該第二聲道元件之第二解碼器組態資料,該方法係包含:讀取在該組態區段中針對各個聲道元件之該組態資料,及讀取在該酬載區段中針對各個聲道元件之該酬載資料;藉一可組配解碼器解碼該等多個聲道元件;及組配該可組配解碼器使得該可組配解碼器係當解碼該第一聲道元件時依據該第一解碼器組態資料組配,及當解碼該第二聲道元件時依據該第二解碼器組態資料組配。
[15] 一種用以編碼一多聲道音訊信號之音訊編碼器,該音訊編碼器係包含:一組態處理器,用以產生針對一第一聲道元件之第一組態資料及針對一第二聲道元件之第二組態資料;一可組配編碼器,用以使用該第一組態資料及該第二組態資料來編碼該多聲道音訊信號而獲得該第一聲道元件及該第二聲道元件;及一資料串流產生器,用以產生表示一編碼音訊信號之一資料串流,該資料串流具有包含該第一組態資料及該第二組態資料之一組態區段,及包含該第一聲道元件及該第二聲道元件之一酬載區段。
[16] 一種用以編碼一多聲道音訊信號之方法,該方法係包含:產生針對一第一聲道元件之第一組態資料及針對一第二聲道元件之第二組態資料;使用該第一組態資料及該第二組態資料來編碼該多聲道音訊信號而獲得該第一聲道元件及該第二聲道元件;及產生表示一編碼音訊信號之一資料串流,該資料串流具有包含該第一組態資料及該第二組態資料之一組態區段,及包含該第一聲道元件及該第二聲道元件之一酬載區段。
[17] 一種電腦程式,當在一電腦上跑時用以執行如申請專利範圍第14或16項之方法。
[18] 一種編碼音訊信號,其係包含:一組態區段,具有針對一第一聲道元件之第一解碼器組態資料及針對一第二聲道元件之第二解碼器組態資料,一聲道元件係為一多聲道音訊信號之一單一聲道或二聲道之一編碼表示型態;及一酬載區段,包含針對該第一聲道元件及該第二聲道元件之酬載資料。
类似技术:
公开号 | 公开日 | 专利标题
TWI571863B|2017-02-21|具有彈性組態功能之音訊編碼器及解碼器
JP6643352B2|2020-02-12|マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
同族专利:
公开号 | 公开日
AR085445A1|2013-10-02|
TWI480860B|2015-04-11|
KR101742135B1|2017-05-31|
TW201243827A|2012-11-01|
CA2830439A1|2012-09-27|
KR20160056953A|2016-05-20|
MX2013010535A|2014-03-12|
KR20140000337A|2014-01-02|
AU2016203419A1|2016-06-16|
KR20140000336A|2014-01-02|
KR20160056952A|2016-05-20|
KR20160056328A|2016-05-19|
KR20160058191A|2016-05-24|
CN103703511B|2017-08-22|
EP2686849A1|2014-01-22|
JP5820487B2|2015-11-24|
JP6007196B2|2016-10-12|
CN107516532B|2020-11-06|
TWI488178B|2015-06-11|
US10290306B2|2019-05-14|
AR085446A1|2013-10-02|
RU2013146528A|2015-04-27|
CN107516532A|2017-12-26|
AU2012230415B2|2015-10-29|
AR088777A1|2014-07-10|
RU2571388C2|2015-12-20|
US20140019146A1|2014-01-16|
WO2012126866A1|2012-09-27|
RU2013146526A|2015-04-27|
US20140016787A1|2014-01-16|
KR101748756B1|2017-06-19|
RU2013146530A|2015-04-27|
KR101712470B1|2017-03-22|
AU2012230415A1|2013-10-31|
SG193525A1|2013-10-30|
US9972331B2|2018-05-15|
US9524722B2|2016-12-20|
CN107342091A|2017-11-10|
HK1245491A1|2018-08-24|
EP2686848A1|2014-01-22|
JP5805796B2|2015-11-10|
JP2014512020A|2014-05-19|
AU2012230440C1|2016-09-08|
CN103703511A|2014-04-02|
US20170270938A1|2017-09-21|
KR20140018929A|2014-02-13|
KR101767175B1|2017-08-10|
SG194199A1|2013-12-30|
CA2830439C|2016-10-04|
AU2016203417B2|2017-04-27|
CN103562994A|2014-02-05|
AU2012230442B2|2016-02-25|
CN103562994B|2016-08-17|
WO2012126891A1|2012-09-27|
MX2013010537A|2014-03-21|
RU2589399C2|2016-07-10|
BR112013023949A2|2020-11-10|
WO2012126893A1|2012-09-27|
CA2830633C|2017-11-07|
CA2830631A1|2012-09-27|
KR101854300B1|2018-05-03|
AU2016203416B2|2017-12-14|
US9779737B2|2017-10-03|
MY163427A|2017-09-15|
AU2012230442A8|2013-11-21|
CN107342091B|2021-06-15|
AU2012230440A1|2013-10-31|
AU2016203416A1|2016-06-23|
JP2014510310A|2014-04-24|
CA2830631C|2016-08-30|
US20140016785A1|2014-01-16|
MX2013010536A|2014-03-21|
KR101748760B1|2017-06-19|
AU2016203419B2|2017-12-14|
CA2830633A1|2012-09-27|
AU2012230440B2|2016-02-25|
MY167957A|2018-10-08|
CN103620679B|2017-07-04|
TWI571863B|2017-02-21|
US20180233155A1|2018-08-16|
AU2012230442A1|2013-10-31|
EP2686847A1|2014-01-22|
US9773503B2|2017-09-26|
AU2016203417A1|2016-06-23|
JP2014509754A|2014-04-21|
CN103620679A|2014-03-05|
KR101742136B1|2017-05-31|
TW201246190A|2012-11-16|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
JPH09146596A|1995-11-21|1997-06-06|Japan Radio Co Ltd|音声信号合成方法|
US6256487B1|1998-09-01|2001-07-03|Telefonaktiebolaget Lm Ericsson |Multiple mode transmitter using multiple speech/channel coding modes wherein the coding mode is conveyed to the receiver with the transmitted signal|
US7266501B2|2000-03-02|2007-09-04|Akiba Electronics Institute Llc|Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process|
FI120125B|2000-08-21|2009-06-30|Nokia Corp|Kuvankoodaus|
EP1430726A2|2001-09-18|2004-06-23|Koninklijke Philips Electronics N.V.|Video coding and decoding method, and corresponding signal|
US7054807B2|2002-11-08|2006-05-30|Motorola, Inc.|Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters|
EP1427252A1|2002-12-02|2004-06-09|Deutsche Thomson-Brandt Gmbh|Method and apparatus for processing audio signals from a bitstream|
EP1576602A4|2002-12-28|2008-05-28|Samsung Electronics Co Ltd|METHOD AND DEVICE FOR MIXING AUDIO SEQUENCE AND INFORMATION RECORDING MEDIUM|
DE10345996A1|2003-10-02|2005-04-28|Fraunhofer Ges Forschung|Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten|
US7447317B2|2003-10-02|2008-11-04|Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V|Compatible multi-channel coding/decoding by weighting the downmix channel|
US7684521B2|2004-02-04|2010-03-23|Broadcom Corporation|Apparatus and method for hybrid decoding|
US7516064B2|2004-02-19|2009-04-07|Dolby Laboratories Licensing Corporation|Adaptive hybrid transform for signal analysis and synthesis|
US7930184B2|2004-08-04|2011-04-19|Dts, Inc.|Multi-channel audio coding/decoding of random access points and transients|
US8131134B2|2004-04-14|2012-03-06|Microsoft Corporation|Digital media universal elementary stream|
MXPA06012617A|2004-05-17|2006-12-15|Nokia Corp|Codificacion de audio con diferentes longitudes de cuadro de codificacion.|
DE102004043521A1|2004-09-08|2006-03-23|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes|
SE0402650D0|2004-11-02|2004-11-02|Coding Tech Ab|Improved parametric stereo compatible coding of spatial audio|
DE102005014477A1|2005-03-30|2006-10-12|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung|
WO2006103584A1|2005-03-30|2006-10-05|Koninklijke Philips Electronics N.V.|Multi-channel audio coding|
JP5461835B2|2005-05-26|2014-04-02|エルジーエレクトロニクスインコーポレイティド|オーディオ信号の符号化/復号化方法及び符号化/復号化装置|
JP4988716B2|2005-05-26|2012-08-01|エルジーエレクトロニクスインコーポレイティド|オーディオ信号のデコーディング方法及び装置|
WO2006126844A2|2005-05-26|2006-11-30|Lg Electronics Inc.|Method and apparatus for decoding an audio signal|
US8180631B2|2005-07-11|2012-05-15|Lg Electronics Inc.|Apparatus and method of processing an audio signal, utilizing a unique offset associated with each coded-coefficient|
RU2380767C2|2005-09-14|2010-01-27|ЭлДжи ЭЛЕКТРОНИКС ИНК.|Способ и устройство для декодирования аудиосигнала|
EP1949369B1|2005-10-12|2012-09-26|Samsung Electronics Co., Ltd.|Method and apparatus for encoding/decoding audio data and extension data|
TWI337341B|2006-02-23|2011-02-11|Lg Electronics Inc|Method and apparatus for processing a audio signal|
CN102768835B|2006-09-29|2014-11-05|韩国电子通信研究院|用于编码和解码具有各种声道的多对象音频信号的设备和方法|
CA2673624C|2006-10-16|2014-08-12|Johannes Hilpert|Apparatus and method for multi-channel parameter transformation|
DE102006049154B4|2006-10-18|2009-07-09|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Kodierung eines Informationssignals|
CN101197703B|2006-12-08|2011-05-04|华为技术有限公司|对Zigbee网络进行管理的方法及系统及设备|
DE102007007830A1|2007-02-16|2008-08-21|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms|
DE102007018484B4|2007-03-20|2009-06-25|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen|
BRPI0809916B1|2007-04-12|2020-09-29|Interdigital Vc Holdings, Inc.|Métodos e aparelhos para informação de utilidade de vídeo para codificação de vídeo escalável e mídia de armazenamento não transitória|
US7778839B2|2007-04-27|2010-08-17|Sony Ericsson Mobile Communications Ab|Method and apparatus for processing encoded audio data|
KR20090004778A|2007-07-05|2009-01-12|엘지전자 주식회사|오디오 신호 처리 방법 및 장치|
EP2242048B1|2008-01-09|2017-06-14|LG Electronics Inc.|Method and apparatus for identifying frame type|
KR101461685B1|2008-03-31|2014-11-19|한국전자통신연구원|다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치|
MY154452A|2008-07-11|2015-06-15|Fraunhofer Ges Forschung|An apparatus and a method for decoding an encoded audio signal|
KR101582057B1|2008-07-11|2015-12-31|프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.|오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램|
CA2871252C|2008-07-11|2015-11-03|Nikolaus Rettelbach|Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program|
PL2352147T3|2008-07-11|2014-02-28|Fraunhofer Ges Forschung|Urządzenie i sposób kodowania sygnału audio|
ES2731424T3|2008-07-11|2019-11-15|Fraunhofer Ges Forschung|Codificador de audio y decodificador de audio|
KR101108060B1|2008-09-25|2012-01-25|엘지전자 주식회사|신호 처리 방법 및 이의 장치|
US8346379B2|2008-09-25|2013-01-01|Lg Electronics Inc.|Method and an apparatus for processing a signal|
EP2169665B1|2008-09-25|2018-05-02|LG Electronics Inc.|A method and an apparatus for processing a signal|
WO2010053287A2|2008-11-04|2010-05-14|Lg Electronics Inc.|An apparatus for processing an audio signal and method thereof|
KR101315617B1|2008-11-26|2013-10-08|광운대학교 산학협력단|모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기|
CN101751925B|2008-12-10|2011-12-21|华为技术有限公司|一种语音解码方法及装置|
KR101622950B1|2009-01-28|2016-05-23|삼성전자주식회사|오디오 신호의 부호화 및 복호화 방법 및 그 장치|
ES2567129T3|2009-01-28|2016-04-20|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Codificador de audio, decodificador de audio, información de audio codificada, métodos para la codificación y decodificación de una señal de audio y programa de ordenador|
WO2010090427A2|2009-02-03|2010-08-12|삼성전자주식회사|오디오 신호의 부호화 및 복호화 방법 및 그 장치|
KR20100090962A|2009-02-09|2010-08-18|주식회사 코아로직|멀티채널 오디오 디코더, 그 디코더를 포함한 송수신 장치 및 멀티채널 오디오 디코딩 방법|
US8411746B2|2009-06-12|2013-04-02|Qualcomm Incorporated|Multiview video coding over MPEG-2 systems|
US8780999B2|2009-06-12|2014-07-15|Qualcomm Incorporated|Assembling multiview video coding sub-BITSTREAMS in MPEG-2 systems|
PL3352168T3|2009-06-23|2021-03-08|Voiceage Corporation|Postępowe tłumienie aliasingu w dziedzinie czasu z zastosowaniem w ważonej albo pierwotnej dziedzinie sygnału|
WO2011010876A2|2009-07-24|2011-01-27|한국전자통신연구원|Mdct 프레임과 이종의 프레임 연결을 위한 윈도우 처리 방법 및 장치, 이를 이용한 부호화/복호화 장치 및 방법|CN100385007C|2006-01-18|2008-04-30|江南大学|一种微生物不对称拆分制备-扁桃酸的方法|
AU2011275731B2|2010-07-08|2015-01-22|Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.|Coder using forward aliasing cancellation|
SG189277A1|2010-10-06|2013-05-31|Fraunhofer Ges Forschung|Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec |
USRE48258E1|2011-11-11|2020-10-13|Dolby International Ab|Upsampling using oversampled SBR|
US9830917B2|2013-02-14|2017-11-28|Dolby Laboratories Licensing Corporation|Methods for audio signal transient detection and decorrelation control|
TWI618050B|2013-02-14|2018-03-11|杜比實驗室特許公司|用於音訊處理系統中之訊號去相關的方法及設備|
TWI618051B|2013-02-14|2018-03-11|杜比實驗室特許公司|用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置|
JP6046274B2|2013-02-14|2016-12-14|ドルビー ラボラトリーズ ライセンシング コーポレイション|上方混合されたオーディオ信号のチャネル間コヒーレンスの制御方法|
EP2959479B1|2013-02-21|2019-07-03|Dolby International AB|Methods for parametric multi-channel encoding|
CN103336747B|2013-07-05|2015-09-09|哈尔滨工业大学|VxWorks操作系统下CPCI总线数字量输入与开关量输出可配置驱动器及驱动方法|
EP2830053A1|2013-07-22|2015-01-28|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal|
EP2830058A1|2013-07-22|2015-01-28|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Frequency-domain audio coding supporting transform length switching|
KR102329309B1|2013-09-12|2021-11-19|돌비 인터네셔널 에이비|Qmf 기반 처리 데이터의 시간 정렬|
TWI713018B|2013-09-12|2020-12-11|瑞典商杜比國際公司|多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統|
EP2928216A1|2014-03-26|2015-10-07|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Apparatus and method for screen related audio object remapping|
US9847804B2|2014-04-30|2017-12-19|Skyworks Solutions, Inc.|Bypass path loss reduction|
JP6699564B2|2015-02-10|2020-05-27|ソニー株式会社|送信装置、送信方法、受信装置および受信方法|
CN107667400B|2015-03-09|2020-12-18|弗劳恩霍夫应用研究促进协会|片段对准的音频编码|
EP3067886A1|2015-03-09|2016-09-14|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal|
TWI693594B|2015-03-13|2020-05-11|瑞典商杜比國際公司|解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流|
TWI732403B|2015-03-13|2021-07-01|瑞典商杜比國際公司|解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流|
EP3291582A4|2015-06-17|2018-05-09|Samsung Electronics Co., Ltd.|Device and method for processing internal channel for low complexity format conversion|
CN107787509B|2015-06-17|2022-02-08|三星电子株式会社|处理低复杂度格式转换的内部声道的方法和设备|
KR20180009337A|2015-06-17|2018-01-26|삼성전자주식회사|저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치|
WO2016204580A1|2015-06-17|2016-12-22|삼성전자 주식회사|저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치|
US10008214B2|2015-09-11|2018-06-26|Electronics And Telecommunications Research Institute|USAC audio signal encoding/decoding apparatus and method for digital radio services|
ES2853936T3|2017-01-10|2021-09-20|Fraunhofer Ges Forschung|Decodificador de audio, codificador de audio, método para proporcionar una señal de audio decodificada, método para proporcionar una señal de audio codificada, flujo de audio, proveedor de flujos de audio y programa informático que utiliza un identificador de flujo|
US10224045B2|2017-05-11|2019-03-05|Qualcomm Incorporated|Stereo parameters for stereo decoding|
CA3071208A1|2017-07-28|2019-01-31|Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.|Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter|
EP3483883A1|2017-11-10|2019-05-15|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Audio coding and decoding with selective postfiltering|
EP3483880A1|2017-11-10|2019-05-15|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Temporal noise shaping|
WO2019091573A1|2017-11-10|2019-05-16|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters|
US11032580B2|2017-12-18|2021-06-08|Dish Network L.L.C.|Systems and methods for facilitating a personalized viewing experience|
US10365885B1|2018-02-21|2019-07-30|Sling Media Pvt. Ltd.|Systems and methods for composition of audio content from multi-object audio|
CN110505425B|2018-05-18|2021-12-24|杭州海康威视数字技术股份有限公司|一种解码方法、解码装置、电子设备和可读存储介质|
US11081116B2|2018-07-03|2021-08-03|Qualcomm Incorporated|Embedding enhanced audio transports in backward compatible audio bitstreams|
CN109448741B|2018-11-22|2021-05-11|广州广晟数码技术有限公司|一种3d音频编码、解码方法及装置|
法律状态:
优先权:
申请号 | 申请日 | 专利标题
US201161454121P| true| 2011-03-18|2011-03-18||
[返回顶部]