专利摘要:
本発明は、低ビットレートで一般的なオーディオ信号と音声信号とを上手くコーディングする新規なオーディオコーディングシステムを教示する。提案のオーディオコーディングシステムは、適応フィルタに基づいて入力信号にフィルタを掛ける線形予測ユニットと;フィルタ掛けされた入力信号のフレームを変換領域に変換する変換ユニットと;変換領域信号を量子化する量子化ユニットと;フィルタ掛けされた入力信号の前回のセグメントの復号に基づいてフィルタ掛けされた入力信号のフレームの推定を決定する長期間予測ユニットと;長期間予測推定と変換された入力信号とを変換領域で組み合わせ、変換領域信号を生成する変換領域信号組み合わせユニットとを備える。
公开号:JP2011510335A
申请号:JP2010541031
申请日:2008-12-30
公开日:2011-03-31
发明作者:ヴィレモス、ラーズ・ファルック;ジェーリング、クリストファー;ビスワズ、アリジット;プルンハーゲン、ハイコ;ヘデリン、ペール・ヘンリック;レッシュ、バーバラ
申请人:ドルビー・インターナショナル・アーベー;
IPC主号:G10L19-02
专利说明:

[0001] 本発明は、オーディオ信号のコーディングに関し、特に、音声、音楽あるいはそれらの組み合わせのいずれにも限定されないオーディオ信号のコーディングに関する。]
背景技術

[0002] 従来技術においては、信号の音源モデル、すなわち人間の発声システムにコーディングを基づかせることにより、特に音声信号をコーディングするようになされた音声コーダーがある。このようなコーダーは、音楽、あるいは他の非音声信号のような任意のオーディオ信号を取り扱うことはできない。さらに、従来技術においては、信号の音源モデルではなく、人間の聴覚システムを前提にしたコーディングに基づく、普通オーディオコーダーと呼ばれる音楽コーダーがある。このようなコーダーは、任意の信号を非常によく取り扱うことができ、しかしながら、音声信号用の低ビットレートにおいては、専用音声コーダーの方が優れたオーディオ品質を有する。それゆえ、低ビットレートで操作されるときには、音声については音声コーダーと同様によく、また、音楽については音楽コーダーと同様によく動作する任意のオーディオ信号のコーディングについての一般的なコーディング構造は今まで存在しなかった。]
[0003] よって、改良されたオーディオ品質および/または低減したビットレートを有する改良オーディオエンコーダおよびデコーダに対する要望がある。]
[0004] 本発明は、特別に特定の信号用に作られたシステムの品質レベルと同等若しくはより優れた品質レベルで任意のオーディオ信号を効率的にコーディングすることに関する。]
[0005] 本発明は、線形予測コーディング(LPC)とLPC処理された信号上で動作する変換コーダー部との両方を含むオーディオコーデックアルゴリズムに向けられる。]
[0006] 本発明は、可変フレームサイズのオーディオエンコーダのビットリザーバを効率的に用いることにさらに関する。]
[0007] 本発明は、可変フレームサイズを有する変換コーダーと一緒の長期間予測の操作にさらに関する。]
[0008] 本発明はさらに、オーディオ信号をエンコードしビットストリームを生成するエンコーダと、そのビットストリームをデコードして入力オーディオ信号と知覚的に区別できない復号オーディオ信号を生成するデコーダとに関する。]
[0009] 本発明はさらに、オーディオ信号をエンコードしビットストリームを生成するエンコーダと、そのビットストリームをデコードして入力オーディオ信号と知覚的に区別できない復号オーディオ信号を生成するデコーダとに関する。]
[0010] 本発明は、変換コーダーに基づき、音声コーダーからの基礎的予測と形成モジュールを含むオーディオコーディングシステムを提供する。発明のシステムは、適応フィルタに基づき入力信号にフィルタを掛ける線形予測ユニットと;フィルタされた入力信号のフレームを変換領域に変換する変換ユニットと;変換領域信号を量子化する量子化ユニットと;フィルタされた入力信号の前回のセグメントの復号に基づきフィルタされた入力信号のフレームを推定する長期間予測ユニットと;変換領域で、長期間予測推定と変換された入力信号を組み合わせて、量子化ユニットに入力される変換領域信号を生成する変換領域信号組み合わせユニットとを備える。]
[0011] オーディオコーディングシステムは、フィルタされた入力信号のフレームの時間領域復号を生成する逆量子化および逆変換ユニットをさらに備えてもよい。さらに、フィルタされた入力信号の前回のセグメントの時間領域復号を保存する長期間予測バッファが提供されてもよい。これらのユニットは、量子化ユニットから長期間予測抽出ユニットへのフィードバックループに配置されてもよく、長期間予測抽出ユニットは、フィルタされた入力信号の現在のフレームに最もよくマッチする復号セグメントを長期間予測バッファで探す。さらに、長期間予測ゲイン推定ユニットが提供され、現在のフレームに最もよくマッチするように長期間予測バッファから選定されたセグメントのゲインを調整してもよい。好適には、長期間予測推定は、変換領域の変換された入力信号から引き取られる。したがって、選定されたセグメントを変換領域に変換する第2の変換ユニットが備えられる。長期間予測ループは、変換領域の長期間予測推定を逆量子化後で時間領域への逆変換前のフィードバック信号に加えることを含む。よって、後退適応長期間予測スキームを用い、前回のフレームに基づいてフィルタされた入力信号の現在のフレームを変換領域で予測する。より効率的にするため、長期間予測スキームは、以下にいくつかの例について説明するように、異なった方法で適応されてもよい。]
[0012] 入力信号にフィルタを掛ける適応フィルタは、白色化入力信号を生成する線形予測コーディング(LPC)フィルタを含むLPC分析に基づくのが好ましい。入力データの現在のフレームのLPCパラメータは、当該分野で周知のアルゴリズムで決定される。LPCパラメータ推定ユニットが、入力データのフレームに対して、多項式、変換関数、反射係数、線スペクトル周波数等の適切なLPCパラメータ表現を計算してもよい。コーディングや他の処理に用いられるLPCパラメータ表現の特定のタイプは、それぞれの要求に基づく。当業者に周知のように、表現によっては、他のものよりある動作により適しており、よってそのような動作を実行するのに好適である。線形予測ユニットは、たとえば20ミリ秒の固定された第1のフレーム長で動作する。線形予測フィルタは、歪んだ周波数軸で動作し、特定の周波数範囲、たとえば低周波数を他の周波数より選択的に強調する。]
[0013] フィルタされた入力信号のフレームに適用される変換は、可変の第2のフレーム長で動作する修正離散コサイン変換(MDCT)であるのが好ましい。オーディオコーディングシステムは、いくつかのフレームを含む入力信号ブロック全体の、コーディングコスト関数、好ましくは単純化知覚エントロピを最小化することにより、入力信号のブロックに対し、オーバーラップするMDCTウィンドウのフレーム長を決定するウィンドウシーケンスコントロールユニットを備える。よって、第2のフレーム長を有するMDCTウィンドウへの入力信号ブロックの最適な分割が導かれる。対照的に、変換領域コーディング構造は、音声コーダー要素を含み、LPCを除くすべての処理で唯一の基本ユニットとして適応長MDCTフレームを有して提案される。MDCTフレーム長は多くの様々な値を取り得るので、小さなウィンドウサイズと大きなウィンドウサイズとだけが適用される先行技術で一般的なように、最適なシーケンスが見つけられ、急激なフレームサイズの変化を避けることができる。さらに、小さなウィンドウサイズと大きなウィンドウサイズの間の遷移に対する従来技術のアプローチで用いられるところの、シャープなエッジを有する遷移変換ウィンドウは必要ではない。]
[0014] 好ましくは、最大で2の係数である連続的なMDCTウィンドウ長の変化および/またはMDCTウィンドウ長は、二項値である。より具体的には、MDCTウィンドウ長は、入力信号ブロックの二項区分である。したがって、MDCTウィンドウのシーケンスは、少ない数のビットでエンコードするのが容易な所定のシーケンスに限られる。さらにウィンドウシーケンスはフレームサイズの滑らかな遷移を有し、よって、急激なフレームサイズの変化を除外する。]
[0015] ウィンドウシーケンスでMDCTウィンドウ長とウィンドウ形状とを一緒にエンコーディングするウィンドウシーケンスエンコーダが備えられる。ジョイントエンコーディングは、冗長性を取り去り、より少ないビットしか必要としない。ウィンドウシーケンスエンコーダは、デコーダで復号される不要な情報(ビット)を省略するように、ウィンドウシーケンスのウィンドウ長とウィンドウ形状をエンコーディングするときにウィンドウサイズの制約を考慮する]
[0016] ウィンドウシーケンスコントロールユニットは、さらに、入力信号ブロックのコーディングコスト関数を最小化するMDCTウィンドウ長のシーケンスを探すときに、ウィンドウ長の候補について、長期間予測ユニットにより生成された長期間予測推定を考慮するようになされている。この実施の形態では、エンコーディングに用いられるMDCTウィンドウの改良したシーケンスとなるMDCTウィンドウ長を決定するときに長期間予測ループは閉じられる。]
[0017] さらに、時間歪みカーブによりフィルタされた入力信号を再度サンプリングすることによりフィルタされた信号のフレームのピッチ成分を一定に揃える時間歪みユニットを備えてもよい。時間歪みカーブは、フレーム中のピッチ成分を一定に揃えるように決定されることが好ましい。よって、変換ユニットおよび/または長期間予測ユニットは、一定のピッチを有する時間的に歪んだ信号で動作し、信号分析の精度を改善する。]
[0018] オーディオコーディングシステムはさらに、線スペクトル周波数または、保存および/またはデコーダに伝達するための線形予測ユニットにより生成された他の適切なLPCパラメータ表現を、可変レートで再帰的にコーディングするためのLPCエンコーダを備えてもよい。実施の形態によれば、線形予測内挿ユニットが提供され、変換領域信号の可変フレーム長に適合するように第1のフレーム長に対応するレートで生成された線形予測パラメータを内挿する。]
[0019] 本発明の態様によれば、オーディオコーディングシステムは、LPCフレーム用に線形予測ユニットで生成されたLPC多項式をチャープおよび/または傾斜させることにより適応フィルタの特性を修正する知覚モデリングユニットを備えてもよい。適応フィルタ特性の修正により受信した知覚モデルは、本システムで多くの目的に用いられる。たとえば、量子化または長期間予測の知覚重み関数として用いられる。]
[0020] 本発明の別の独立した態様は、入力信号の高バンド成分をエンコーディングする別の手段を提供することによりオーディオエンコーダのバンド幅を拡張することに関する。実施の形態によれば、入力信号の高バンド成分をエンコーディングする高バンドエンコーダが備えられる。好適には、高バンドエンコーダは、スペクトルバンド複製(SBR)エンコーダである。高バンドエンコーダでの高バンドの別のコーディングにより、別の量子化ステップを、入力信号の低バンドに属する成分に対するのと比較して高バンドに属する変換領域信号の成分をエンコーディングするのに、変換領域信号を量子化するときに量子化ユニットで用いることができる。より具体的には、量子化器は、ビットレートを低減する高バンドエンコーダによってもエンコーディングされる高バンド信号成分のより粗い量子化を適用する。]
[0021] 別の実施の形態によれば、入力信号を低バンド成分と高バンド成分に分割する周波数分割ユニットが備えられる。それから、高バンド成分は高バンドエンコーダでエンコーディングされ、低バンド成分は線形予測に入力され上記で提案の変換エンコーダでエンコーディングされる。好適には、周波数分割ユニットは、線形予測ユニットに入力される入力信号をダウンサンプルするようになされた直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットを備える。直交ミラーフィルタバンクからの信号は、高バンドエンコーダに直接入力されてもよい。このことは、高バンドエンコーダが直交ミラーフィルタバンク信号により直接供給されるスペクトルバンド複製エンコーダのときに、特に有効である。さらに、直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットの組み合わせは、低バンド成分用の高品質ダウンサンプラとして機能する。]
[0022] 低バンドと高バンドとの境界は変化し、周波数分割ユニットはダイナミックに低バンドと高バンドとのクロスオーバー周波数を決定する。このことにより、たとえば入力信号特性および/またはエンコーダバンド幅要求に基づいて、適応周波数配分が可能となる。]
[0023] 別の態様によれば、オーディオコーディングシステムは、高バンド成分をローパス信号に変化させる第2の直交ミラーフィルタ合成ユニットを備える。それから、この下方調節した高周波数範囲は、好ましくは低分解能の、すなわちよりおおきな量子化ステップの、第2の変換ベースエンコーダによりエンコーディングされる。このことは、高周波数バンドが同様に、たとえばスペクトルバンド複製エンコーダなど、他の手段で更にエンコーディングされるときに、特に有効である。それから、高周波数バンドをエンコーディングする両方法の組み合わせは、より効果的である。]
[0024] 同じ周波数範囲をカバーする異なった信号表現は、必要なビットレートを低減するために信号表現の相関を利用する信号表現組み合わせユニットにより組み合わされる。信号表現組み合わせユニットは、どのように信号表現が組み合わされるかを指示する信号データをさらに生成する。この信号データは、保存され、または、異なった信号表現からエンコーディングされたオーディオ信号を復号するデコーダに伝達される。]
[0025] スペクトルバンド複製ユニットが、エネルギを長期間予測推定の高周波数成分に導く長期間予測ユニットにさらに備えられてもよい。このことは、長期間予測の効率を改善するのに役立つ。]
[0026] 実施の形態によれば、左右の入力チャンネルを有するステレオ信号が、入力信号のモノ表現を含めてステレオ信号のパラメトリックステレオ表現を計算するパラメトリックステレオユニットに入力される。それから、モノ表現はLPC分析ユニットと、その後の変換コーダーに、上記で提案したように、入力される。よって、モノ表現だけが波形コーディングされ、ステレオ効果は低ビットレートのパラメトリックステレオ表現で達成されるときに、ステレオ信号をエンコーディングするための効率的な手段が得られる。]
[0027] コーディングした信号の品質のさらなる向上は、周波数/MDCT領域で高調波信号成分だけを予測する高調波予測分析ユニットの使用に関係する。]
[0028] 本発明のもう一つの独立したエンコーダ特有の態様は、可変のフレームサイズを処理するビットリザーバに関する。可変長のフレームをコーディングできるオーディオコーディングシステムでは、ビットリザーバはフレーム中のビットを分配することによりコントロールされる。個々のフレームや定義されたサイズのビットリザーバの適当な困難さの尺度が与えられると、所望の一定のビットレートからのあるずれはビットリザーバのサイズにより課せられるバッファの要求に反することなく全体的によりよい品質を可能にする。本発明は、ビットリザーバを使用する概念を、可変フレームサイズの汎用オーディオコーデック用ビットリザーバコントロールに拡張する。したがって、オーディオコーディングシステムは、フレーム長とフレームの困難さの尺度に基づいてフィルタされた信号のフレームをエンコードするのに付与されたビットの数を決定するビットリザーバコントロールユニットを備える。好ましくは、ビットリザーバコントロールユニットは、異なったフレーム困難さの尺度および/または異なったフレームサイズ用の別々のコントロール式を有する。異なったフレームサイズに対する異なった尺度は、それらがより簡単に比較できるように正規化される。可変レートのエンコーダ用にビット配分をコントロールするために、ビットリザーバコントロールユニットは、許容最大フレームサイズに対するビットの平均数に対し付与されたビットコントロールアルゴリズムの許容下限界を設定するのが好適である。]
[0029] 本発明は、変換エンコーダのMDCTラインを量子化する態様に更に関する。この態様は、エンコーダがLPC分析あるいは長期間予測を使用するかとは独立して適用できる。提案の量子化方式は、たとえば変換フレームサイズのような入力信号特性が条件とされる。量子化ユニットが、変換ユニットにより適用されるフレームサイズに基づいて、モデルベース量子化器または非モデルベース量子化器で変換領域信号をエンコーディングすることを決めることが推奨される。好適には、量子化ユニットは、モデルベースエントロピ制約量子化により、閾値より小さなフレームサイズのフレームに対し変換領域信号をエンコーディングするようになされる。モデルベース量子化は、様々なパラメータを条件とする。大きなフレームは、例えばAACコーデックで用いられるように、例えばハフマンベースのエントロピコーディング付スカラ量子化器で量子化される。]
[0030] MDCTラインの異なった量子化方法間の切換は、本発明の好適な実施の形態の別の態様である。異なった変換サイズに対して異なった量子化方式を用いることにより、コーデックは、変換領域コーデックと並行または順番に実行される特定の時間領域音声コーダーを有する必要なしに、MDCT領域でのすべての量子化とコーディングを行うことができる。本発明は、LTPゲインがある場合に音声状の信号について、短時間変換とモデルベース量子化器を用いて信号をコーディングするのが好ましいことを教示する。モデルベース量子化器は、特に短時間変換向きで、追って概要を記述するように、MDCT領域で実行されながらも、入力信号が音声信号であるとの要件なしで、時間領域音声専用ベクトル量子化器(VQ)の利益を与える。別の表現では、LTPと組み合わせて短時間変換セグメントにモデルベース量子化器を用いると、専用の時間領域音声コーダーVQの効率は一般性の喪失なしに、MDCT領域から離間することなく維持される。]
[0031] より安定している音楽信号に加えて、オーディオコーデックで普通に用いられているように比較的大きなサイズの変換と、大きな変換により区別されるまばらなスペクトル線を利用する量子化スキームを用いることが好ましい。したがって、本発明は、長い変換にこの種の量子化スキームを用いることを教示する。]
[0032] よって、フレームサイズの関数として量子化方式を切り替えることにより、コーデックは、単に変換サイズを選択するだけで、専用音声コーデックの特性と専用オーディオコーデックの特性を両方とも維持できる。このことにより従来技術のシステムのすべての問題を回避でき、従来技術のシステムは、時間領域のコーディング(音声コーダー)を周波数領域のコーディング(オーディオコーダー)と効率的に組み合わせる問題や困難に必然的に遭遇するので、これらのシステムは音声信号とオーディオ信号とを低速度で上手く取り扱おうと努力している。]
[0033] 本発明の他の態様によると、量子化は適応ステップサイズを用いる。好ましくは、変換領域信号の成分に対する量子化ステップサイズ(単数または複数)は、線形予測および/または長期間予測パラメータに基づいて適応する。量子化ステップサイズはさらに、周波数依存するようになされてもよい。本発明の実施の形態では、量子化ステップサイズは、適応フィルタの多項式、コーディングレートコントロールパラメータ、長期間予測ゲイン値、および、入力信号分散の少なくとも一つに基づいて決定される。]
[0034] 本発明の他の態様は長期間予測(LTP)、特にMDCT領域、MDCTフレーム適応LTPおよびMDCT重み付きLTP探索に関する。これらの態様は、LPC分析が変換コーダーの上流側に存在するか否かに関わらず適用できる。]
[0035] 実施の形態によれば、長期間予測ユニットは、フィルタされた信号の現在のフレームに最も適合するフィルタされた信号の復号セグメントを特定する遅延値を決定する長期間予測エクストラクタを備える。長期間予測ゲインエスティメータは、フィルタされた信号の選定したセグメントの信号に適用するゲイン値を推定する。好ましくは、遅延値とゲイン値は、知覚領域において長期間予測推定の変換された入力信号に体する差に関係する歪みのクライテリアを最小にするように決定される。歪みのクライテリアは、知覚領域における長期間予測推定の変換された入力信号に対する差に関係する。好ましくは、歪みのクライテリアを知覚領域の遅延値トゲイン値を探索することで最小化する。歪みのクライテリアを最小にするとき、修正線形予測多項式をMDCT領域同等化ゲイン曲線として適用することもできる。]
[0036] 長期間予測ユニットは、LTPバッファからのセグメントの復号信号を変換領域に変換する変換ユニットを備えてもよい。MDCT変換の効果的な実行のため、変換は離散コサイン変換タイプIVとするのが好ましい。]
[0037] 遅延値がMDCTフレーム長より小さいときに、仮想ベクトルを用いて復号信号の拡張セグメントを生成してもよい。仮想ベクトルは、復号信号の生成されたセグメントを改良するのに繰り返しフォールドイン・フォールドアウトプロシージャ(iterative fold-in fold-out procedure)により生成されるのが好ましい。よって、復号信号の未だ存在していないセグメントが、長期間予測の遅延探索プロシージャの間に生成される。]
[0038] 変換ユニットが時間歪み信号で動作するとき、時間歪みカーブに基づいて長期間予測バッファの復号信号が再度サンプリングされる。このことにより、時間歪みLPT抽出を時間歪みMDCTに適合させることができる。]
[0039] 実施の形態によれば、長期間予測遅延値およびゲイン値をエンコーディングする可変レートエンコーダが備えられ、低ビットレートを達成する。さらに、長期間予測ユニットはノイズベクトルバッファおよび/またはパルスベクトルバッファを備え、たとえばノイズのある、または、遷移信号の予測精度を向上する。]
[0040] 長期間予測パラメータのようなピッチ関連情報と、調和予測パラメータと時間歪みパラメータを一緒にエンコーディングするジョイントコーディングユニットを備えてもよい。ジョイントコーディングは、これらのパラメータの相関を利用することにより必要なビットレートも低減する。]
[0041] 本発明の別の態様は、上記の実施の形態のエンコーダで生成されたビットストリームをデコーディングするオーディオデコーダに関する。そのオーディオデコーダは、入力ビットストリームのフレームを逆量子化する逆量子化ユニットと;変換領域信号を逆変換する逆変換ユニットと;逆量子化されたフレームの推定を決定する長期間予測ユニットと;変換領域で、長期間予測推定と逆量子化フレームとを組み合わせて変換領域信号を生成する変換領域信号組み合わせユニットと;逆変換された変換領域信号にフィルタを掛ける線形予測ユニットとを備える。]
[0042] さらに、デコーダは、エンコーダに関して上記した態様の多くを備える。いくつかの動作はエンコーダだけで実行されデコーダには対応する要素はないが、一般的にデコーダは、エンコーダの動作に酷似する。よって、エンコーダについて開示されたものは、特に断らない限り、同様にデコーダにも適用できるものと考えられる。]
[0043] 上記の本発明の態様は、デバイス、装置、方法、あるいはプログラム可能なデバイス上で動作するコンピュータプログラムとして実行される。発明の態様は、さらに信号、データ構造、およびビットストリームで具体化される。]
[0044] よって、本出願は、オーディオエンコーディング方法とオーディオデコーディング方法をさらに開示する。例示のオーディオエンコーディング方法は、適応フィルタに基づき入力信号にフィルタを掛ける工程と;フィルタされた入力信号のフレームを変換領域に変換する工程と;変換領域信号を量子化する工程と;フィルタされた入力信号の前回のセグメントの復号に基づきフィルタされた入力信号のフレームを推定する工程と;変換領域で、長期間予測推定と変換された入力信号を組み合わせ変換領域信号を生成する工程とを備える。]
[0045] 例示のオーディオデコーディング方法は、入力ビットストリームのフレームを逆量子化する工程と;変換領域信号を逆変換する工程と;逆量子化されたフレームの推定を決定する工程と;変換領域で、長期間予測推定と逆量子化フレームを組み合わせ変換領域信号を生成する工程と;復号されたオーディオ信号を出力する工程とを備える。]
[0046] 本願にて教示され、また、当業者が例示の実施の形態の以下の説明から導き出せるのは、好適なオーディオエンコーディング/デコーディング方法とコンピュータプログラムのほんの一例である。]
[0047] 本発明をここで、添付図面を参照して例を用いて説明するが、本発明の範囲や思想を限定するものではない。]
図面の簡単な説明

[0048] 図1は、本発明によるエンコーダとデコーダの好適な実施の形態を示す。
図2は、本発明によるエンコーダとデコーダのより詳細な図を示す。
図3は、本発明によるエンコーダの別の実施の形態を示す。
図4は、本発明によるエンコーダの好適な実施の形態を示す。
図5は、本発明によるデコーダの好適な実施の形態を示す。
図6は、本発明によるMDCTラインエンコーディングおよびデコーディングの好適な実施の形態を示す。
図7は、SBRエンコーダと組み合わせた本発明の好適な実施の形態を示す。
図8は、ステレオシステムの好適な実施の形態を示す。
図9は、本発明によるコアコーダーと高周波数復号コーディングのより複雑な統合の好適な実施の形態を示す。
図10は、本発明によるSBRエンコーディングとコアコーダーの組み合わせの好適な実施の形態を示す。
図11は、本発明による、エンコーダとデコーダの好適な実施の形態と、互いに伝達される関連するコントロールデータを示す。
図11aは、本発明の実施の形態による、エンコーダの態様の別の図を示す。
図12は、本発明の実施の形態によるウィンドウシーケンスの例とLPCデータとMDCTデータの関係を示す。
図13は、本発明によるスケールファクタデータとLPCデータの組み合わせを示す。
図14は、本発明によるLPC多項式のMDCTゲインカーブへの変換の好適な実施の形態を示す。
図15は、本発明による、一定更新レートLPCパラメータを適応MDCTウィンドウシーケンスデータにマッピングする好適な実施の形態を示す。
図16は、本発明による、フレームサイズにより量子化器の変換サイズとタイプに基づき知覚重み付けフィルタ計算を適応することの好適な実施の形態を示す。
図17は、本発明による、フレームサイズにより量子化器を適応することの好適な実施の形態を示す。
図18は、本発明による、フレームサイズにより量子化器を適用させることの好適な実施の形態を示す。
図19は、本発明による、LPCおよびLTPデータの関数として量子化ステップサイズを適応させることの好適な実施の形態を示す。
図19aは、差分カーブが差分適応モジュールによりLPCおよびLTPパラメータからどのように導かれるかを示す。
図20は、本発明による、ランダムオフセットを利用するモデルベース量子化器の好適な実施の形態を示す。
図21は、本発明によるモデルベース量子化器の好適な実施の形態を示す。
図21aは、本発明によるモデルベース量子化器の別の好適な実施の形態を示す。
図22は、本発明によるLTPループでSBRモジュールを用いる好適な実施の形態を示す。
図23aは、本発明の実施の形態におけるMDCT変換の隣接ウィンドウを模式的に示す。
図23bは、4つの異なったMDCTウィンドウ形状を用いる本発明の実施の形態を示す。
図23cは、本発明の実施の形態によるウィンドウシーケンスエンコーディング方法の例を示す。
図24は、本発明による、MDCT領域での高調波予測の好適な実施の形態を示す。
図25は、本発明によるLTP抽出改良プロセスを示す。
図25aは、MDCT適応LTP抽出プロセスを示す。
図25bは、初期LTP抽出信号の繰り返し改良を示す。
図25cは、改良ユニットの代替の実行を示す。
図25dは、改良ユニットの別の代替の実行を示す。
図26は、本発明による、高調波予測のためのコントロールデータとLTPと時間歪みを組み合わせる好適な実施の形態を示す。
図27は、本発明による、ノイズとパルスバッファでLTP探索を拡張する好適な実施の形態を示す。
図28aは、ビットリザーバコントロールの基本的な概念を示す。
図28bは、本発明による、可変フレームサイズ用のビットリザーバコントロールの概念を示す。
図29は、本発明による、LTP探索と時間歪みMDCTの状況での適用を示す。
図29aは、時間歪みMDCT分析の効果を示す。
図30は、本発明による、MDCTとQMF領域中の組み合わされたSBRを示す。] 図1 図10 図11 図11a 図12 図13 図14 図15 図16 図17
実施例

[0049] 下記に説明する実施の形態は、オーディオエンコーダとデコーダの本発明の原理を単に説明するためのものである。ここで説明する配置や詳細の修正や改変は当業者にとって明きらかであることが理解される。したがって、添付の特許請求の範囲によってのみ限定され、本書における実施の形態の説明によって示された特定の詳細によっては限定されないことを意図する。実施の形態の類似の要素には類似の参照符号で番号付けされる。]
[0050] 図1にエンコーダ101とデコーダ102を示す。エンコーダ101は時間領域入力信号を取り込み、続いてデコーダ102に送られるビットストリーム103を生成する。デコーダ102は、受信したビットストリーム103に基づいて出力波形を生成する。出力信号は、心理音響的にオリジナルの入力信号に類似する。] 図1
[0051] 図2にエンコーダ200とデコーダ210の好適な実施の形態を示す。エンコーダ200の入力信号は、第1のフレーム長を有するLPCフレーム用の白色化した残留信号と対応する線形予測パラメータとを生成するLPC(Linear Prediction Coding:線形予測コーディング)モジュール201を通過する。さらに、LPCモジュール201にはゲイン正規化が含まれる。LPCからの残留信号は、第2の可変フレーム長で動作するMDCT(Modified Discrete Cosine Transform:修正離散コサイン変換)モジュール202によって周波数領域に変換される。図2に示すエンコーダ200では、LTP(Long Term Prediction:長期間予測)モジュール205が含まれる。LTPは、本発明の他の実施の形態で詳述する。MDCTラインは量子化203され、デコーダ210で使えるようにデコーディングされた出力のコピーをLTPバッファに提供するように逆量子化204もされる。量子化歪みのために、このコピーはそれぞれの入力信号の復号と呼ばれる。図2の下部にデコーダ210を示す。デコーダ210は、量子化されたMDCTラインを受け取り、それらを逆量子化211し、LTPモジュール214からの寄与を付加し、逆MDCT変換212をして、LPC合成フィルタ213が続く。] 図2
[0052] 上記の実施の形態で重要な態様は、LPCがそれ自身の(一実施の形態では一定の)フレームサイズを有しLPCパラメータもコーディングされるものの、MDCTフレームがコーディング用の唯一の基本ユニットであるということである。実施の形態は、変換コーダーから始まり、音声コーダーから基本的予測および成形モジュールを導入する。追って説明するように、MDCTフレームサイズは可変であり、単純化知覚エントロピコスト関数を最小化することによりブロック全体に対する最適MDCTウィンドウシーケンスを決定することにより入力信号のブロックに適応する。このことにより、スケーリングが最適な時間/周波数コントロールを維持できる。さらに、提案の一体化した構造は、異なったコーディングパラダイムの切替えや層をなすことによる組合せを回避する。]
[0053] 図3では、エンコーダ300の部分がより詳細に模式的に説明される。図2のエンコーダのLPCモジュール201からの出力である白色化された信号は、MDCTのフィルタバンク302に入力される。MDCT分析は、オプションとして時間ゆがみMDCT分析でもよく、時間ゆがみMDCT分析は、信号のピッチ(信号がよく確立されたピッチで周期的なら)がMDCT変換ウィンドウで一定であることを確かなものにする。] 図2 図3
[0054] 図3では、LTPモジュール310がより詳細に示される。LTPモジュール310は、前回の出力信号のセグメントの復号された時間領域サンプルを保持するLTPバッファ311を備える。LTPエクストラクタ312は、現在の入力セグメントを与えられてLTPバッファ311中に最も適合するセグメントを見つけ出す。量子化器303に入力されようとしているセグメントから抽出される前に、ゲインユニット313によりこのセグメントに適切なゲイン値が適用される。明らかに、量子化の前に抽出するために、LTPエクストラクタ312はまた選択された信号セグメントをMDCT領域に変換する。LTPエクストラクタ312は、復号された前回の出力信号セグメントを変換されたMDCT領域入力フレームと組み合わせるときに知覚領域の誤差関数を最小化する最適なゲインと遅延値を探す。たとえば、LTPモジュール310からの変換された復号セグメントと変換された入力フレーム(すなわち、抽出後の残留信号)との間の平均二乗誤差(MSE)関数が最適化される。この最適化は、周波数成分(すなわちMDCTライン)が知覚重要性に応じて重み付けされる知覚領域で実行される。LTPモジュール310はMDCTフレームユニットで動作し、エンコーダ300は、たとえば量子化モジュール303における量子化について、一度に一つのMDCTフレーム残留を扱う。遅延とゲイン探索は、知覚領域で実行される。オプションとして、LTPは、周波数選択的、すなわち周波数にわたりゲインおよび/または遅延を適応させてもよい。逆量子化ユニット304と逆MDCTユニット306を説明する。MDCTは、追って説明するように、時間で歪んでいる。] 図3
[0055] 図4にエンコーダ400の別の実施の形態を示す。図3に加え、分かりやすくするためLPC分析401が含まれる。選択された信号セグメントをMDCT領域に変換するのに用いられるDCT−IV変換414が示される。さらに、LTPセグメント選定の最小誤差を計算するいくつかの方法が図示される。図4に示される残留信号の最小化(図4でLTP2とされる)に加え、LTPバッファ411での保管のために復号した時間領域信号に逆変換される前に変換入力信号と逆量子化MDCT領域信号との間の差の最小化が示される(LTP3とされる)。このMSE関数の最小化は、LTPの寄与を変換された入力信号とLTPバッファ411に保管するための復号された入力信号との最適な(可能な限り)類似性に仕向ける。他の代替となる誤差関数(LTP1とされる)は、時間領域でのこれらの信号の差に基づく。この場合に、LPCフィルタを掛けられた入力フレームとLTPバッファ411の対応する時間領域復号とのMSEは最小化される。好都合なことにMSEはMDCTフレームサイズに基づいて計算され、MDCTフレームサイズはLPCフレームサイズと異なっていてもよい。さらに、量子化器ブロックと逆量子化器ブロックは、量子化とは別の追加のモジュールを含むスペクトルエンコーディングブロック403とスペクトルデコーディングブロック404(「Spec enc」と「Spec dec」)で置き換えられ、図6にて追って説明する。また、MDCTと逆MDCTは時間歪みを受ける(WMDCT、IWMDCT)。] 図3 図4 図6
[0056] 図5に、提案するデコーダ500を示す。受信したビットストリームからのスペクトルデータは、逆量子化511され、LTPエクストラクタによりLTPバッファ515から提供されたLTP寄与に加えられる。デコーダ500のLTPエクストラクタ516およびLTPゲインユニット517も示される。合計されたMDCTラインは、MDCT合成モジュールにより時間領域に合成され、時間領域信号は、LPC合成フィルタ513によりスペクトルとして形成される。オプションとして、MDCT合成は時間歪みMDCTでもよく、および/または、LPC合成フィルタは周波数歪みしていてもよい。] 図5
[0057] 周波数歪みLPCは周波数軸の非均一サンプリングに基づき、LPCフィルタパラメータを決めるときにLPC誤差の寄与の周波数選択コントロールを可能にする。LPC多項式がスペクトルのピーク部分で最も精度が高くなるように、標準LPCは線形周波数軸にわたってMSEを最小化することに基づくが、周波数歪みLPCはLPCフィルタパラメータを決めるときに周波数選択焦点を可能にする。たとえば、16または24kHzのサンプリングレートのような高バンド幅で動作するとき、周波数軸を歪めることにより4kHzまでのような低周波数バンドでLPC多項式の精度を合わせることが可能になる。]
[0058] 図6に、図4の「Spec enc」(スペクトルエンコーディング)ブロック403と「Spec dec」(スペクトルデコーディング)ブロック404をより詳細に示す。図の右に示すスペクトルエンコーディングブロック603は、実施の形態では、高調波予測分析モジュール610、TNS(Temporal Noise Shaping:時間ノイズ形成)分析モジュール611、その後にMDCTラインのスケールファクタスケーリングモジュール612、および、最後にエンコーディングラインモジュール613の量子化とエンコーディングとを備える。図で左に示されるデコーダ「Spec dec」(スペクトルデコーディング)ブロック604は、逆プロセスを行い、すなわち、受信したMDCTラインはデコーディングラインモジュール620で逆量子化され、スケーリングはスケールファクタ(SCF)スケーリングモジュール621によってなされてはいない。TNS合成622と高調波予測合成623が、追って説明するように、適用される。] 図4 図6
[0059] 図7に本発明の別の好適な実施の形態の概要を示す。既に説明したLPC701、MDCT量子化704、およびLTP705に加え、SBR(Spectral Band Replication:スペクトルバンド複製)モジュール712と共にQMF分析モジュール710とQMF合成モジュール711が追加される。QMF(Quadrature Mirror Filter:直交ミラーフィルタ)フィルタバンクはある数のサブバンドを有し、この特定の例では64のサブバンドを有する。複雑なQMFフィルタバンクにより、サブバンドの独立した操作と、使用されたプロトタイプフィルタに与えられたエイリアシング拒絶レベルを超えた周波数領域エイリアシングを導入することをしないことが可能になる。ある数の、この特定の例では32の(周波数で)低いサブバンドはそれから時間領域に合成され、よってダウンサンプル信号を、ここでは2の係数で、生ずる。前に説明したように、これはエンコーダモジュールへの入力信号である。リサンプラとしてQMF分析モジュールおよびQMF合成モジュールを用いることは、続く変換コーダがコーディングする低減したバンド幅でのみLPCが動作することを確実にする。高い32のサブバンドがSBRエンコーダモジュール712に送られ、高バンドのオリジナル信号から関連するSBRパラメータを抽出する。あるいは、入力信号をQMF分析モジュールに提供し、QMF分析モジュールは順にSBRエンコーダ、および、ダウンサンプリングモジュールに接続され、ダウンサンプリングモジュールは、前述したように変換エンコーダモジュール用のダウンサンプル信号を生成する。] 図7
[0060] SBR(スペクトルバンド複製)は、スペクトルの高周波数部分をコーディングする効果的な方法を提供する。それは、低周波数と少量の追加コントロール情報からオーディオ信号の高周波数を再生する。SBR方法は、コアコーダーバンド幅の低減を可能にし、SBR技術は周波数範囲をコーディングするのに波形コーダーよりも遥かに低いビットレートを必要とするので、コーディングゲインは、全オーディオバンド幅を維持しつつ波形コアコーダーに割り当てられるビットレートを低減することにより達成できる。このことは、自然と、コアコーダーとSBR部分との間のクロスオーバー周波数を低くすることにより全データレートをほとんど連続的に低減する可能性を与える。]
[0061] 知覚オーディオコーダーは、信号により常にマスキングされるように量子化ノイズを形成することによりビットレートを低減する。このことにより、多少低い信号ノイズ比となるが、量子化ノイズがマスキングカーブの下にあるならばこのことは問題ではない。量子化が表現する歪みが聞こえなくなる。しかし、低ビットレートで動作すると、マスキング閾値は乱され、歪みが聞こえるようになる。知覚オーディオコーダーが用いる一つの方法は、単に信号の全周波数範囲をコーディングするほど十分なビットがないから、信号に、すなわちスペクトルのコーディングする部分にだけ、ローパスフィルタを掛けることである。この状況で、SBRアルゴリズムは、低ビットレートで全オーディオバンド幅を可能にするので、とても有益である。]
[0062] SBRでコーディングの概念は、下記の態様を備える。
・高バンド再生が、常に低周波数を除外して、低バンドからのバンドパス信号をコピーすることにより行われる。
・スペクトル包絡線情報は、復号された高バンドの粗いスペクトル包絡が正しいことを確実にして、エンコーダからデコーダに送られる。
・高周波数復号の欠点を補うようになされた追加の情報がエンコーダからデコーダに伝達される。
・逆フィルタ、ノイズおよび制限は追加などの追加手段が、それらは全て伝達された情報により同様に導かれるが、低バンドと高バンドの間の時々起こる基本的相違点から生ずるバンド幅拡張方法の欠点を補う。]
[0063] 図8では本発明の実施の形態を、左右のチャンネル用の2つのQMF分析フィルタバンク820、821と、パラメトリックステレオ(PS)モジュールと呼ばれる回転モジュール830を追加することによりステレオに拡張し、回転モジュール830は、回転パラメータに対応する、QMF領域の2つの入力信号からの2つの新しい信号に応答する。その2つの新しい信号は、モノダウンミックス(mono downmix)と残留信号を表わす。それらは、左右ステレオ信号のM/S(Mid/Side)変換として目に見えるようなされ、M/Sステレオ空間を、Mid信号(すなわち、ダウンミックス信号)のエネルギを最大化し、Side信号(すなわち、残留信号)のエネルギを最小化するように回転する。特定の例として、左右どちらかへ45度回転したモノ音源が、左右両チャンネルに(異なったレベルで)存在するとする。先行技術の波形オーディオコーダーは、独立して左右のチャンネルを、あるいはM/S表現として、コーディングするかを選択するのが普通である。この特定の例では、回転したモノ音源は表現に無関係に両チャンネルで存在するので、左右表現もM/S表現も有益ではない。しかし、M/S表現が45度回転すると、回転したモノ音源は回転したMidチャンネル(ここでは、ダウンミックスチャンネルと呼ぶ)で完全に終了し、回転したSideチャンネル(ここでは、残留チャンネルと呼ぶ)はゼロとなる。このことにより、通常の左右あるいはM/Sコーディングよりコーディングでの利点を生ずる。] 図8
[0064] この2つの新しい信号は、抽出したパラメータと組み合わせてステレオ信号を表わすが、図7に示すように、例えば次にQMF合成モジュールおよびSBRモジュールに入力される。低ビットレートでは、残留信号はローパスフィルタに掛けれら、完全に除外される。パラメトリックステレオデコーダは、除外された残留信号をダウンミックス信号の相関をなくしたもので置き換える。ステレオ信号のこの提案の処理は、本発明の他の実施の形態とも組み合わされるのは当然である。] 図7
[0065] より詳細には、PSモジュールは、対応する時間/周波数タイルに対し2つの入力信号(左と右)を比較する。タイルの周波数バンドは、セグメント長が両耳で聴くシステムの既知の制限にかなり一致するが、心理音響的に動機付けされた尺度を概算する。基本的に、時間/周波数タイルあたり3つのパラメータが抽出され、知覚的に最も重要な空間特性を表わす。
(i)ミキシングコンソールの「パンポット(pan pot)」に類似したチャンネル間のレベル差を表わす、チャンネル間レベル差(Inter-channel Level Difference、ILD)。
(ii)チャンネル間の位相差を表わす、チャンネル間位相差(Inter-channel Phase Difference、IPD)。周波数領域では、この特徴はチャンネル間時間差(Inter-channel Time Difference、ITD)とほとんど互換性がある。IPDを、左右の位相調整の配分を表わす、追加の全体位相差(Overall Phase Difference、OPD)により増加する。
(iii)チャンネル間のコヒーレンスまたは相互相関を表わす、チャンネル間コヒーレンス(Inter-channel Coherence、IC)。始めの2つのパラメータは音源の方向と結合しているが、3番目のパラメータは音源の空間的核酸により関係する。]
[0066] パラメータ抽出に続いて、入力信号がダウンミックスされ、モノ信号を形成する。ダウンミキシングは、合計処理の普通の手段で行われるが、時間的整合やエネルギ保存技術を組み込んだより進んだ方法を組み込みダウンミキシングで潜在的位相が取り消されることを回避するのが好ましい。デコーダ側では、対応するエンコーダの逆プロセスを備え、PSパラメータに基づきステレオ出力信号を復号するPSデコーディングモジュールを備える。]
[0067] 図9に本発明の別の実施の形態を示す。ここで、入力信号は64サブバンドチャンネルQMFモジュール920により再度分析される。しかし、図7に示すシステムとは逆に、コアコーダーとSBRコーダーによりカバーされる範囲の境界は、可変である。それゆえ、次にLPC、MDCTおよびLTPモジュール901でコーディングされる時間領域信号のバンド幅をカバーするために必要なだけ多くのサブバンドを、システムはモジュール911で合成する。残りの(周波数の高い)サブバンドのサンプルはSBRエンコーダ912に入力される。] 図7 図9
[0068] 先に説明した例に加え、高サブバンドサンプルもQMF合成モジュール920に入力され、QMF合成モジュール920は高周波数範囲をローパス信号に合成し、よって、ダウン変調(down-modulated)された高周波数範囲を含む。この信号は、追加のMDCTベースMDCTベースコーダー930により続いてコーディングされる。追加のMDCTベースMDCTベースコーダー930からの出力は、オプションの組み合わせユニット940でSBRエンコーダの出力と組み合わされる。信号が生成され、どの部分がSBRでコーディングされ、どの部分がMDCTベース波形コーダーでコーディングされるかを示すデコーダに送られる。このことにより、SBRエンコーディングから波形コーディングへのスムースな遷移が可能となる。さらに、別のMDCT変換でコーディングされるので、低周波数と高周波数のMDCTコーディングで用いられる変換サイズに関して選択の自由が与えられる。]
[0069] 図10に別の実施の形態を示す。入力信号はQMF分析モジュール1010に入力される。SBR範囲に対応する出力サブバンドは、SBRエンコーダ1012に入力される。LPC分析とフィルタ掛けは信号の全周波数範囲をカバーすることにより行われ、入力信号を直接、または、QMF合成モジュール1011で生成されたQMFサブバンド信号の合成したもののいずれかを用いて行われる。後者は、図8のステレオ実施と組み合わせるときに有用である。LPCフィルタされた信号はMDCT分析モジュール1002へ入力され、コーディングされるスペクトル線を提供する。本発明のこの実施の形態では、量子化1003は、かなり粗い量子化がSBR領域(すなわちSBRエンコーダでカバーされる周波数領域も)で行われ、よって、最も強いスペクトル線をカバーするだけとなるようになされる。この情報は組み合わせユニット1040に入力され、組み合わせユニット1040は量子化されたスペクトルとSBRエンコーディングされたデータを与えられると、どの信号がSBR範囲で異なった周波数範囲に用いられるか、すなわちSBRデータか波形コーディングされたデータかの信号をデコーダに発する。] 図10 図8
[0070] 図11に、発明性のあるコーディングシステムのとても一般的な図を示す。例示のエンコーダは、入力信号を受け取り、特に次のデータを含む、ビットストリームを生成する。
・量子化されたMDCTライン
・スケールファクタ
・LPC多項式表現
・信号セグメントエネルギ(たとえば、信号分散)
・ウィンドウシーケンス
・LTPデータ] 図11
[0071] 実施の形態によるデコーダは、提供されたビットストリームを読み、オリジナル信号を心理音響的に表すオーディオ出力信号を生成する。]
[0072] 図11aは、本発明の実施の形態によるエンコーダ1100の態様の別の図である。エンコーダ1100は、LPCモジュール1101、MDCTモジュール1102、LTPモジュール1105(簡単化して示すのみ)、量子化モジュール1103、および、復号した信号をLTPモジュール1105に戻す逆量子化モジュール1104を備える。入力信号のピッチを推定するピッチ推定モジュール1150と、入力信号の比較的大きなブロック(たとえば1秒)用に最適なMDCTウィンドウシーケンスを決定するウィンドウシーケンス決定モジュール1151をさらに備える。この実施の形態では、MDCTウィンドウシーケンスは開ループアプローチに基づいて決定され、開ループアプローチでは、たとえば単純化知覚エントロピであるコーディングコスト関数を最小化するMDCTウィンドウサイズ候補のシーケンスが決定される。ウィンドウシーケンス決定モジュール1151で最小化されたコーディングコスト関数に対するLTPモジュール1105の寄与は、最適MDCTウィンドウシーケンスを探すときにオプションとして考慮されてもよい。好ましくは、評価された各ウィンドウサイズ候補について、ウィンドウサイズ候補に対応するMDCTフレームへの最適な長期間予測寄与を決定し、各コーディングコストが推定される。一般的に、短いMDCTフレームサイズは音声入力により適するが、詳細なスペクトル分解能を有する長い変換ウィンドウはオーディオ信号に適する。] 図11a
[0073] 知覚重み付けあるいは知覚重み付け関数は、LPCモジュール1101で計算されたLPCパラメータに基づいて決定され、以下に詳細に説明される。知覚重み付けは、LTPモジュール1105と量子化モジュール1103に提供され、共にMDCT領域で動作し、それぞれの知覚重要性に応じて周波数成分の誤差または歪み寄与を重み付けする。図11aは、どのコーディングパラメータがデコーダに、好ましくは追って説明するような適切なコーディングスキームにより、伝達されるかを示す。] 図11a
[0074] 次に、共に反作用と実際のフィルタの省略のためであるが、LPCおよびMDCTデータの共存とMDCTでのLPCの効果のエミュレーションを説明する。]
[0075] 実施の形態によれば、LPモジュールは、信号のスペクトル形状を除去し、そして、続くLPモジュールの出力がスペクトル的にフラットな信号となるように、入力信号にフィルタを掛ける。このことは、たとえばLTPの動作に利点を有する。しかし、スペクトル的にフラットな信号に動作するコーデックの他の部分は、LPフィルタの前のオリジナル信号のスペクトル形状がどんなものであったのかを知ることにより利益を得る。フィルタの後のエンコーダモジュールはスペクトル的にフラットな信号のMDCT変換に動作するので、必要ならば、本発明はLPフィルタの前のオリジナル信号のスペクトル形状を、ゲインカーブすなわち量子化カーブに使用したLPフィルタの変換関数(すなわち、オリジナル信号のスペクトル包絡線)でマッピングすることによりスペクトル的にフラットな信号のMDCT表現に再度掛け、変換関数はスペクトル的にフラットな信号のMDCT表現の周波数ビンに適用されることを教示する。反対に、LPモジュールは、実際のフィルタを省略し、変換関数を推定するだけでよく、変換関数は次にゲインカーブにマッピングされ、ゲインカーブは信号のMDCT表現に掛けられ、よって入力信号の時間領域フィルタの必要性をなくする。]
[0076] 本発明の実施の形態の一つの顕著な態様は、MDCTベースの変換コーダーが、フレキシブルなウィンドウセグメント分けを用いてLPC白色化信号で動作することである。このことは図12に示され、図12では例示のMDCTウィンドウシーケンスが、LPCのウィンドウ化と一緒に示される。したがって、図から明らかなように、LPCは一定のフレームサイズ(たとえば20ミリ秒)で動作するが、MDCTは可変ウィンドウシーケンス(たとえば、4〜128ミリ秒)で動作する。このことにより、独立してLPCに対する最適なウィンドウ長とMDCTに対する最適なウィンドウシーケンスとが選定できる。] 図12
[0077] 図12は、第1のフレームレートで生成されたLPCデータ、特にLPCパラメータと、第2の可変レートで生成されたMDCTデータ、特にMDCTラインとの関係を更に示す。図中、下向き矢印は、対応するMDCTフレームに適合するようにLPCフレーム(サークル)間に挿入されるLPCデータを表す。たとえば、LPCで生成された知覚重み付け関数は、MDCTウィンドウシーケンスで決められる時間インスタンスに挿入される。上向き矢印は、MDCTラインコーディングに用いられる改良データ(すなわちコントロールデータ)を表す。AACについてこのデータは典型的にスケールファクタであり、ECQフレームについてそのデータは典型的に分散補正データなどである。実線対破線は、ある量子化器に与えられたMDCTラインコーディング用の最も「重要な」データがどちらのデータであるかを表す。二重の下向き矢印は、コーデックスペクトルラインを表す。] 図12
[0078] エンコーダでのLPCとMDCTデータの共存は、たとえば、LPCパラメータから推定した知覚マスキングカーブを考慮することによりMDCTスケールファクタをエンコーディングすることのビット要求を低減するのに利用される。さらに、量子化歪みを決定するのにLPC由来知覚重み付けを用いてもよい。図示され以下に説明されるように、量子化器は2つのモードで作動し、受信したデータのフレームサイズに基づき、すなわちMDCTフレームやウィンドウサイズに対応して、2つのタイプのフレーム(ECQフレームとAACフレーム)を生成する。]
[0079] 図15は一定レートLPCパラメータを適応MDCTウィンドウシーケンスデータにマッピングする好適な実施の形態を示す。LPCマッピングモジュール1500は、LPC更新レートにしたがったLPCパラメータを受信する。さらに、LPCマッピングモジュール1500はMDCTウィンドウシーケンスに関する情報を受信する。そして、たとえば、可変MDCTフレームレートで生成されるそれぞれのMDCTフレームにLPCベースの心理音響データをマッピングするのに、LPC−MDCTマッピングを生成する。たとえば、LPCマッピングモジュールは、たとえばLTPモジュールまたは量子化器の知覚重みのように使うために、LPC多項式あるいはMDCTフレームに対応する時間インスタンスの関連データを内挿する。] 図15
[0080] ここで、図13を参照してLPCベースの知覚モデルの特徴について説明する。LPCモジュール1301を本発明の実施の形態では、たとえば16kHzのサンプリングレート信号用命令16の線形予測を用いて白色化出力信号を生成するように適応する。たとえば、図2のLPCモジュール201からの出力は、LPCパラメータ推定とフィルタ掛けの後に残留物となる。図13の左下に模式的に示される、推定したLPC多項式A(z)は、バンド幅拡張係数によりチャープされ、本発明の実施によっては傾けられ、対応するLPC多項式の第1の反射率を修正する。チャープは、多項式の極を内側にユニットサークルへ移動することによりLPC伝達関数のピークのバンド幅を拡張し、その結果柔らかなピークとする。傾けることにより、低周波数と高周波数の影響をバランスするためにLPC伝達関数をより平らにすることができる。このような修正は、システムのエンコーダとデコーダの両側で利用可能な推定したLPCパラメータから知覚マスキングカーブA’(z)を生成することを目的とする。LPC多項式の操作の詳細は、以下の図16に示す。] 図13 図16 図2
[0081] LPC残留に動作するMDCTコーディングは、本発明の一実施においては、量子化器の分解能あるいは量子化ステップサイズ(および、量子化により導入されるノイズ)をコントロールするスケールファクタを有する。このようなスケールファクタは、オリジナルの入力信号についてスケールファクタ推定モジュール1360により推定される。たとえば、スケールファクタはオリジナル信号から推定された知覚マスキング閾値カーブから導かれる。実施の形態では、分割周波数変換(恐らく異なった周波数分解能を有する)を用いてマスキング閾値カーブを決定してもよいが、このことは常に必要なわけではない。あるいは、マスキング閾値カーブは変換モジュールにより生成されたMDCTラインから推定されてもよい。図13の右下部分は、スケールファクタ推定モジュール1360により生成された、導入される量子化ノイズが不可聴歪みに制限されるように量子化をコントロールするスケールファクタを図示する。] 図13
[0082] LPCフィルタがMDCT変換モジュールの上流に接続されると、白色化信号はMDCT領域に変換される。この信号は白色スペクトルを有するので、知覚マスキングカーブを導くのには適さない。よって、マスキング閾値カーブおよび/またはスケールファクタを推定するには、スペクトルの白色化を相殺するのに生成されたMDCT領域量子化ゲインカーブを用いる。これは、知覚マスキングを正確に推定するためには、スケールファクタは、オリジナル信号の完全なスペクトル特性を有する信号で推定する必要があるからである。LPC多項式からのMDCT領域量子化ゲインカーブの計算は、以下に図14を参照して詳細に説明する。] 図14
[0083] 上記に概略を説明したアプローチを用いると、エンコーダとデコーダ間で伝達されたデータは、モデルベース量子化器を用いると信号モデルと共に関連した知覚情報も導き出されるLP多項式と、変換コーデックで一般的に用いられるスケールファクタとの両方を含む。]
[0084] 更に詳細には、図13に戻って、図中のLPCモジュール1301は入力信号から信号のスペクトル包絡線A(z)を推定し、それから知覚表現A’(z)を導き出す。さらに、変換ベースの知覚オーディオコーデックで通常用いられるスケールファクタが入力信号について推定され、または、スケールファクタ推定でLPフィルタの変換関数が考慮されるならば(以下に図14の関係で説明されるように)、スケールファクタは、LPフィルタで作られた白色化信号について推定される。それからスケールファクタは、以下に簡単に説明するように、スケールファクタを伝達するのに必要なビットレートを低減するために、LP多項式を与えられたスケールファクタ適応モジュール1361で適応される。] 図13 図14
[0085] 通常、スケールファクタはデコーダに伝達され、LP多項式もデコーダに伝達される。ここで、それらはオリジナル入力信号から推定され、共にオリジナル入力信号の絶対スペクトル特性に多少相関を有するとすると、それらが別々に伝達されると生ずる冗長性を除去するために、それら2つの間の差分表現をコーディングすることが提案される。実施の形態によれば、この相関は以下のように利用される。LPC多項式は正しくチャープされ傾けられたときにマスキング閾値カーブを表そうとするので、伝達された変換コーダーのスケールファクタが所望のスケールファクタと変換されたLPC多項式から導かれるものとの間の差を表現するように2つの表現が組み合わされる。したがって、図13に示されるスケールファクタ適応モジュール1361は、オリジナル入力信号から生成された所望のスケールファクタとLPC由来のスケールファクタとの差を計算する。この態様は、LPC構造内で、変換コーダーで一般的に用いられるスケールファクタの概念を有するMDCTベースの量子化器がLPC残留に作用する能力を維持し、さらに線形予測データからのみ量子化ステップサイズを導くモデルベース量子化器に切り替える可能性も有する。] 図13
[0086] 図14は、LPC多項式をMDCTゲインカーブに書き換える好適な実施の形態を示す。図2で概略説明したように、MDCTは、LPCフィルタ1001で白色化された白色化信号について動作する。オリジナル入力信号のスペクトル包絡線を維持するため、MDCTゲインカーブは、MDCTゲインカーブモジュール1470で計算される。MDCT領域等化ゲインカーブは、MDCT変換のビンで表される周波数について、LPCフィルタで説明されたスペクトル包絡線の強度応答を推定することによって得られる。それから、ゲインカーブは、たとえば図3で示した最小平均自乗誤差信号を計算するときに、または、上記の図13を参照して説明したようにスケールファクタ決定のために知覚マスキングカーブを推定するときに、MDCTデータに適用される。] 図13 図14 図2 図3
[0087] 図16は、変換サイズおよび/または量子化器のタイプに基づいて知覚重み付けフィルタ計算を適応する好適な実施の形態を示す。LP多項式A(z)は図16のLPCモジュール1601で推定される。LPCパラメータ修正モジュール1671はLPC多項式A(z)のようなLPCパラメータを受信し、LPCパラメータを修正することにより知覚重み付けフィルタA’(z)を生成する。たとえば、LPC多項式A(z)のバンド幅を拡張し、および/または、多項式を傾斜する。適応チャープ・傾斜モジュール1672への入力パラメータは、デフォルトチャープ値ρおよび傾斜値γである。これらは、用いる変換サイズおよび/または用いる量子化方式Qに基づいて、所定のルールを考えて修正される。修正されたチャープパラメータρ’と傾斜パラメータγ’は、A(z)で表される入力信号スペクトル包絡線をA’(z)で表される知覚マスキングカーブに書き換えるLPCパラメータ修正モジュール1671に入力される。] 図16
[0088] 以下では、フレームサイズに条件のある量子化方式および本発明の実施の形態により様々なパラメータに条件のあるモデルベース量子化を説明する。本発明の一態様は、異なった変換サイズやフレームサイズに対して異なった量子化方式を用いることである。このことは図17に示され、フレームサイズがモデルベース量子化器または非モデルベース量子化器を用いるための選択パラメータとして用いられる。この量子化の態様は、開示されたエンコーダ/デコーダの他の態様とは独立し、別のコーデックにも適用できることは重要である。非モデルベース量子化器の例は、AACオーディオコーディング規格で用いられるハフマン表ベースの量子化器である。モデルベース量子化器は、算術符号化を用いるエントロピ制約量子化器(ECQ)でもよい。しかし、本発明の実施の形態では他の量子化器を同様に用いてもよい。さらに、ここで説明している本発明の実施の形態では、選択した量子化器は、変換サイズによってデコーダに暗に信号を送る。たとえば、特定のフレームサイズに使用された量子化方式で陽にデコーダに情報を送るなどの、信号を送る他の手段も同様に使用できることは明らかであろう。] 図17
[0089] 本発明の独立した態様によれば、特定のフレームサイズを考慮した最適な量子化方式を用いることができるように、フレームサイズの関数として異なった量子化方式間で切り替えることが推奨される。例として、ウィンドウシーケンスは、信号の非常に安定している調性音楽セグメントについて長い変換の使用を決定する。長い変換を用いる、この特定の信号タイプについて、信号スペクトルの「まばらな」特徴(すなわち、よく定義された離散化したトーン)を利用する量子化方式を用いることは大いに有益である。ハフマン表と組み合わせてAACで用いられ、スペクトル線をグルーピングしてAACでまた用いられる量子化方法は、とても利益がある。しかし、反対に、音声セグメントについては、ウィンドウシーケンスは、LTPのコーディングゲインを考慮して、短時間変換の使用を決定する。この信号タイプと変換サイズについて、スペクトルのまばらさを見出したり導入したりしようとせず、代わりに、LTPを考慮してオリジナル入力信号のパルス的な特徴を保持するブロードバンドエネルギを維持する量子化方式を採用することは利益がある。]
[0090] この概念のより一般的な概観は図18に示され、入力信号はMDCT領域に変換され、続いてMDCT変換に用いられる変換サイズまたはフレームサイズによりコントロールされる量子化器で量子化される。] 図18
[0091] 本発明の他の態様によれば、量子化器のステップサイズは、LPCおよび/またはLTPデータの関数として適応される。このことによりフレームの困難さによりステップサイズの決定を行うことができ、フレームのエンコーディングに割り当てられるビット数をコントロールする。図19にモデルベース量子化がLPCおよびLTPデータによりどのようにコントロールされるかが示される。図19の上部にはMDCTラインの模式図が示される。下には、周波数の関数としての量子化ステップサイズ差分Δを表す。この特定の例から、周波数と共に量子化ステップサイズが増加すること、すなわち、大きな量子化歪みが高い周波数で生ずることが明らかである。差分カーブは、図19aに示す差分適応モジュールによってLPCおよびLTPパラメータから導かれる。差分カーブは、図13を参照して説明したように、さらに、チャープおよび/または傾斜により予測多項式A(z)から導かれる。] 図13 図19 図19a
[0092] LPCデータから導かれる好適な知覚重み付け関数は、下記の式で与えられる。



ここで、A(z)はLPC多項式、τは傾斜パラメータ、ρはチャープをコントロールし、γ1はA(z)多項式から計算した第1の反射率である。A(z)多項式は、その多項式から関連情報を抽出するために、異なった表現の類別にまで再計算されることが重要である。スペクトルの傾斜を無効にする「傾斜」を適用するためにスペクトルの傾斜に興味があれば、第1の反射率はスペクトルの傾斜を表すので、反射率までのA(z)多項式の再計算が好ましい。]
[0093] さらに、差分値Δは、入力信号分散σ、LTPゲインg、および、予測多項式から導く第1の反射率γ1の関数として適応できる。たとえば、適応は下記式に基づいてもよい。]
[0094] 以下に、本発明の実施の形態によるモデルベース量子化器の態様を説明する。図20にモデルベース量子化器の態様の一つを図示する。MDCTラインを、均一スカラ量子化器を用いて量子化器に入力する。さらに、ランダムオフセットを量子化器に入力し、量子化区間の境界を変更する量子化区間のオフセット値として用いる。提案の量子化器は、スカラ量子化器の検索能力を維持しつつ、ベクトル量子化の長所を提供する。量子化器は異なったオフセット値のセットについて反復し、それらの量子化誤差を計算する。量子化される特定のMDCTラインの量子化歪みを最小化するオフセット値(またはオフセット値のベクトル)を、量子化に用いる。それからオフセット値は、量子化MDCTラインに沿ってデコーダに伝達される。ランダムオフセットの使用により、逆量子化され、デコーディングされた信号にノイズ充填が行われ、そのようにすることにより、量子化スペクトルのスペクトルホールを回避する。このことは、そうしなければ多くのMDCTラインが復号信号のスペクトルの可聴ホールとなるゼロ値に量子化されてしまう低ビットレートにとっては特に重要である。] 図20
[0095] 図21は、本発明の実施の形態によるモデルベースMDCTライン量子化器(MBMLQ)を模式的に示す。図21の上部は、MBMLQエンコーダ2100を表わす。MBMLQエンコーダ2100は入力としてMDCTフレームのMDCTラインあるいはLTPがシステムに存在するならLTP残留のMDCTラインを受け取る。MBMLQは、MDCTラインの統計モデルを用い、ソースコードをMDCTのフレームごとに基づく信号特性に適応させ、ビットストリームに効率的な圧縮を施す。] 図21
[0096] MDCTラインの局所的ゲインはMDCTラインのRMS値、およびMBMLQエンコーダ2100に入力される前にゲイン正規化モジュール2120で正規化されたMDCTラインとして推定される。局所的ゲインはMDCTラインを正規化し、LPゲイン正規化を補完する。LPゲインはより大きな時間スケールで信号レベルの変化に適応するが、局所的ゲインは、より小さな時間スケールでの変化に適応し、遷移サウンドと音声の出だしの改良した品質を生ずる。局所的ゲインは固定レートあるいは可変レートコーディングでエンコードされ、デコーダに伝達される。]
[0097] レートコントロールモジュール2110を用いてMDCTフレームをエンコードするのに用いるビット数をコントロールしてもよい。レートコントロールインデックスは、使用されるビット数をコントロールする。レートコントロールインデックスは、公称量子化器ステップサイズのリストに書き込まれる。表は、降順にステップサイズで並べ替えられてもよい。]
[0098] MBMLQエンコーダは、異なったレートコントロールインデックスのセットで実行され、レートコントロールインデックスはビットリザーバコントロールにより与えられた許容ビット数より低いビットカウントになり、フレームに使用される。レートコントロールインデックスはゆっくりと変化し、このことは、検索の複雑さを低減し、レートコントロールインデックスを効率的にエンコードするのに利用される。テストされたレートコントロールインデックスのセットは、テストが前回のMDCTフレームのインデックスの周囲で始められるならば、低減できる。同様に、確率がレートコントロールインデックスの前回の値の周囲にピークを有するなら、レートコントロールインデックスの効果的なエントロピコーディングが得られる。たとえば、32ステップサイズのリストについて、レートコントロールインデックスは、平均でMDCTフレーム当たり2ビットを用いてコーディングされる。]
[0099] 図21はさらに、エンコーダ2100で局所的ゲインが推定されるならばMDCTフレームをゲインで再正規化するMBMLQデコーダ2150も模式的に示す。] 図21
[0100] 図21aは、モデルベースエントロピ制約エンコーダ2140を模式的により詳細に示す。入力されたMDCTラインは、それらを知覚マスキング曲線、好ましくはLPC多項式から導かれたもので除すことにより知覚的に重み付けされ、その結果、重み付きMDCTラインベクトルy={y1,・・・、yN}となる。それに続くコーディングの狙いは、知覚領域のMDCTラインに白色の量子化ノイズを導入することである。デコーダでは、知覚重み付けの逆が適用され、その結果、知覚マスキングカーブに従う量子化ノイズとなる。] 図21a
[0101] ランダムオフセットは、粗い量子化によるスペクトルホールを回避する手段として量子化器の説明において既に述べた。スペクトルホールを回避する他の方法としては、図22で示すように、SBRモジュール2212をLTPループに組み込むことがある。] 図22
[0102] 図22では、SBRモジュール2212はMDCT領域で動作し、低周波数から高周波数を再生成する。完全なエンコーダ/デコーダSBRシステムとは反対に、全体の動作がスペクトル的に平坦なMDCT領域で行われるので、LTPループのSBRモジュールは、包絡線調整を必要としない。LTPモジュールに高周波数復号モジュールを設置する利点は、高周波数再生成信号は量子化の前に抽出され、量子化の後に加えられることである。それゆえ、全体の周波数範囲でビットを使えるならば、量子化器は、オリジナルの高周波数が維持されるように信号をエンコーディングし(SBRの寄与は量子化の前に抽出され、量子化の後に加えられるから)、ビット制約が厳しすぎるならば、量子化器は高周波数にエネルギを生成することができず、SBR再生成高周波数は「フォールバック」として出力に加えられ、よって高周波数範囲でのエネルギを確保する。] 図22
[0103] 本発明の一実施の形態においてLTPループのSBRモジュールは単純コピーされた(すなわち、低周波数ラインが高周波数ラインにコピーされた)メカニズムである。別の実施の形態では、高調波高周波数再生成モジュールを用いる。高調波信号について、低バンドスペクトルに調和した関係を有する高周波数スペクトルを生成するSBRモジュールは好ましく、なぜならば、量子化の前に入力信号から抽出された高周波数は、オリジナルの高周波数とよく一致し、よって量子化器に入る信号のエネルギを低減し、ビットレートの要求を考慮して量子化するのを容易にするからである。3番目の実施の形態では、LTPループのSBRモジュールは、変換サイズに依存して高周波数、よって、暗黙的に信号特性を再生成するやり方を適応できる。]
[0104] 本発明は、新しいウィンドウシーケンスコーディングフォーマットをさらに組み込む。本発明の実施の形態によれば、図23a、b、cに図化されるように、MDCT変換に用いられるウィンドウは、ダイアディックサイズであり、ウィンドウ間で係数2の大きさの変化しかしない。ダイアディック変換サイズは、例えば、16kHzのサンプリングレートにおいて4、8、・・・、128ミリ秒に対応して64、128、・・・、2048である。一般的に、最小ウィンドウサイズと最大ウィンドウサイズ間の複数のウィンドウサイズを取ることができる可変サイズウィンドウが提案される。シーケンスにおいて、連続的なウィンドウサイズは係数2でのみ変化し、急激な変化のないウィンドウサイズのスムースなシーケンスが展開する。実施の形態で画定するようなウィンドウシーケンス、すなわちダイアディックサイズに限定され、ウィンドウ間で係数2の大きさで変化することだけが出許される、ウィンドウシーケンスは、多くの利点を有する。先ず第1に、特別な開始あるいは終了ウィンドウ、すなわちシャープなエッジを有するウィンドウが不要である。このことにより、時間/周波数分解能が良好に維持される。第2に、ウィンドウシーケンスはコーディングするのに、すなわちデコーダにどの特定のウィンドウシーケンスが用いられるか信号を送るのに、非常に効率的になる。実施の形態によれば、シーケンスの次のウィンドウが係数2だけ増大するのか2だけ減少するのかの信号を送るのにたった1ビットだけが必要となる。もちろん、上記の制約を考慮してウィンドウサイズのシーケンス全体を効率的にコーディングする他のコーディング方式を使ってもよい。最後に、ウィンドウシーケンスは、いつでもハイパーフレーム構造によく適合する。] 図23a
[0105] ハイパーフレーム構造は、デコーダを始めることを可能にするためにあるデコーダ構造パラメータが伝達されなければならない現実のシステムでコーダーを操作するのに有用である。このデータは、通常コーディングされたオーディオ信号を記述するビットストリームのヘッダーフィールドに保存される。ビットレータを最小化するために、ヘッダーはコーディングされたデータのすべてのフレームで伝達されず、MDCTフレームサイズが極短いものから極長いものまで変化する本発明で提案されるシステムでは特にそうである。したがって、本発明では、ある量のMDCTフレームをハイパーフレームにグループ化し、そこではヘッダーデータがハイパーフレームの最初で伝達されることを提案する。ハイパーフレームは特定の長さの時間で画定されるのが典型的である。したがって、MDCTフレームサイズの変化が一定の長さであらかじめ規定されたハイパーフレーム長に適合するようにする注意が必要である。上記に説明した発明性のあるウィンドウシーケンスは、選定したウィンドウシーケンスがいつでもハイパーフレーム構造に適合することを確実にする。]
[0106] 図23aは、MDCT理論により得られる、MDCT変換の隣接ウィンドウについての好適な適合性要求を示す。左のウィンドウは変換サイズL1に適合し、右のウィンドウは変換サイズL2に適合する。ウィンドウのオーバーラップは直径の時間区間、すなわち期間Dにサポートされる。本発明の実施の形態により教示されるMDCT変換については、変換サイズは、等しい(L1=L2)か、係数2で大きさが異なる(L1=2L2またはL2=2L1)か、どちらでもよい。図では、後者の状態を示す。さらに、他の好適な制約として、変換サイズ区間の位置は、規則正しい等距離のハイパーフレームシーケンスのダイアディック分割により求められなければならない。すなわち、変換区間位置は、ハイパーフレーム区間から始めて、半分で分割される区間の継続から得られる。変換サイズ区間が与えられる場合であっても、オーバーラップ直径Dを選定するのにいくらかの自由度が残されている。本発明の実施の形態によれば、隣接する変換サイズL1、L2より遥かに小さな直径Dは、そのようなシャープなエッジは結果として得られるMDCT変換の周波数解像度を低くするので、回避される。] 図23a
[0107] 図23bは、4つの異なるMDCTウィンドウ形状を用いる本発明の実施の形態を模式的に示す。4つの形状は、以下のように表示される。
LL:長い左と長い右がオーバーラップ
LS:長い左と短い右がオーバーラップ
SL:短い左と長い右がオーバーラップ
SS:短い左と短い右がオーバーラップ] 図23b
[0108] 使用されるMDCTウィンドウは、これら4つのウィンドウのタイプを再スケーリングしたものであり、再スケーリングは指数2に等しい係数による。図23bの時間軸上の目盛は、変換サイズ区間を表わし、図示のように、長いオーバーラップの直径は変換サイズに等しいが、短いオーバーラップの直径はそのサイズの半分である。実際的な実行では、最大変換サイズがあり、それは最小変換サイズの2N倍であり、Nは6より小さな整数に等しいのが典型である。さらに、最小の変換サイズではLLウィンドウだけを考慮してもよい。] 図23b
[0109] 図23cは、例を用いて、本発明の実施の形態によるウィンドウシーケンスエンコーディング方法を説明する。時間軸のスケールは、最小変換サイズの単位に正規化してある。ハイパーフレームサイズは、その単位でH=16であり、ハイパーフレームの左縁は時間スケールの原点t=0を規定する。また、単純化のために、許容される最大変換サイズはN=2として4=22と仮定する。変換サイズ区間は、それぞれ長さ4、2、2、1、1、2、4を有する7つの区間[0,4], [4,6], [6,8], [8,9], [9,10], [10,12], [12,16]からなるハイパーフレーム区間[0,16]のダイアディック部分を形成する。見れば分かるように、これらの長さは、隣同士の間は係数2で最大限変化するサイズの条件に従っている。7つのウィンドウ全てが、図23bの4つの基本形の1つを再スケーリングすることにより得られる。] 図23b 図23c
[0110] 変換サイズが2倍あるいは半分に維持されるので、それらを再帰的にエンコーディングする最初のアプローチは、ウィンドウシーケンスに沿ったこの選択の道筋を三位のシンボルで保つことである。しかし、このことにより、変換サイズの過度なコーディングや、ウィンドウ形状の不明りょうな記述を生じうる。ダイアディック分割を用いる要求のために、前者は、変換サイズを2倍にすることができないことがある。]
[0111] たとえば、区間[4,6]の後、2倍にすると区間[6,10]となり、[0,16]のダイアディックサブ区間ではなくなる。後者のウィンドウ形状の不明りょうな記述は、同じサイズの隣接区間が長いオーバーラップあるいは短いオーバーラップのどちらでも共有できるので、図23bの例で抑えられる。これらのオーバーラップの要求は、MDCT理論から分かり、フィルタバンクのエイリアシングキャンセル特性を与える。] 図23b
[0112] その代わりに、実施の形態によるコーディングの原理は以下の通りである。
各ウィンドウについて最大の2ビットが次のように規定される。
b1 = 1:変換サイズが左のオーバーラップより大きい場合
0:その他の場合
b2 = 1:右のオーバーラップが変換サイズより小さい場合
0:その他の場合]
[0113] 別の言い方をすると、ビットベクトル(b1、b2)から図23bのウィンドウタイプへのマッピングは以下の表で与えられる。] 図23b
[0114] しかし、ビットの1つがダイアディック変換区間の制約あるいは変換サイズの制限から推定されると、そのときにはそれは伝達されない。]
[0115] 図23cの特定の例に戻ると、一番左のオーバーラップのサイズ4単位は、前回のハイパーフレームの最終状態よりあるいは独立したハイパーフレームの場合には絶対的伝達より求められる現在のハイパーフレームの最初の状態である。考慮すべき最初のビットは、一番左のウィンドウのb1である。区間[0,4]の長さは4より大きくないので、このビットの値は0となる。しかし、4はこの例で考えられる最大の変換サイズであるので、この第1のビットは除外される。このことは、最初のウィンドウの上の×印で消された0で表わされる。右のオーバーラップは変換サイズより小さいので、このウィンドウの2番目のビットは上記のようにb2=2で、オーバーラップポイントt=4である。次に、区間[4,6]はt=4の周囲でオーバーラップに等しいサイズを有し、よって2番目のウィンドウの第1のビットはb1=0である。t=6の周囲のオーバーラップは2より小さくないので、次のビットは0となる。3番目のウィンドウの変換サイズビットb1は値0であるが、ここで、より長い変換のオプションはダイアディック構造と一致せず、ビットはその状況から推定され、よって、伝達されず、図では×印で消されている。このプロセスは、短いオーバーラップのビット1を有するt=16にハイパーフレームの終わりが到達するまで続けられる。途中で、[9.10]上の3つのビットが最短の変換サイズのオーバーラップは役に立たないという理由で×印で消されており、拡大すると間違った位置にある。よって、全部の消していないビットシーケンスは、
01000100001011
であるが、エンコーダとデコーダの両方で利用できる情報を用いた後に次のように低減され、
100101011
7つのウィンドウをコーディングするのに9ビットとなる。] 図23c
[0116] ビットレートのさらなる低減が、これらの純粋に記述的なビットのエントロピコーディングにより行えることは、当業者には明らかである。]
[0117] 図24に発明性のあるエンコーダ/デコーダシステムの追加の特徴を示す。入力信号はMDCT分析モジュールに入力され、その信号のMDCT表現が高調波予測モジュール2400に入力される。高調波予測は、パラメトリックフィルタを考慮する、周波数軸に沿ったフィルタ掛けである。ピッチ情報、ゲイン情報および位相情報を考慮して、それから(周波数が)高い方のMDCTラインは、入力信号が一連の高調波を含むなら、低い方のラインから予測される。高調波予測モジュールのコントロールパラメータは、ピッチ情報、ゲインおよび位相情報である。] 図24
[0118] 実施の形態によれば、LTP抽出モジュール2512とLTP改良モジュール2518の2つのモジュールを含んで示す図25で説明するように、MDCT領域における仮想のLTPベクトルを用いる。LTPの考えは、出力信号の前回のセグメントを現在のセグメントあるいはフレームのデコーディングに用いることである。どの前回のセグメントを使うかは、コーディングされた信号の歪みを最小化する繰り返しプロセスを考慮して、LTP抽出モジュール2512で決められる。LTPがMDCT領域で実行されるときに、本発明はMDCTフレームのオーバーラップを考慮する新しい方法を提供し、すなわち、MDCT分析され現在の出力セグメントのデコーディングプロセスで使われる前回の出力信号のセグメントが、オーバーラップのために、未だ生成されてはいない現在の出力信号の部分を含むように、LTP遅延が選定される。] 図25
[0119] この繰り返しプロセスを以下に説明する。
LTPバッファから信号の第1の抽出がLTP抽出モジュール2512により実行される。この第1の抽出の結果は改良モジュール2518により改良されるが、改良モジュール2518の目的は、選定した遅延TがコーディングされるフレームのMDCTウィンドウの機関より小さいときにLTP信号の品質を改良することである。分析されたフレームより小さな時間遅延に対するLTP寄与を改良する繰り返しプロセスを、図25aを参照することでまず簡単に説明する。最初のグラフで、LTPバッファで選定されたセグメントが、MDCT分析ウィンドウを重ね合わせて、示される。オーバーラップウィンドウの右の部分は、利用できるデータを含んでない(時間信号の破線の部分)。繰り返し改良プロセスは、以下の工程を経る。
1)MDCT分析で一般的に行われるように、オーバーラップ部分でフォールドインする(折り畳む);
2)オーバーラップ部分をフォールドアウトする(折り畳んだものを開く)(最初にデータを含んでいない右側の部分は、今はフォールドアウトデータを有することに留意すること);
3)ウィンドウを選定したLTP遅延だけ右に移動する;
4)オーバーラップ部分をフォールドインし、差分を計算する;
5)上のグラフのオリジナルのLTPセグメントと差分を合計する。
この繰り返しプロセスは2から4回行われるのが好ましい。] 図25a
[0120] MDCT適応LTP抽出プロセスを図25bにより詳細に示し、図25bは、LTP抽出モジュールで実行される工程を示す。] 図25b
[0121] a)様式を合わせた入力信号x(t)を表わす。入力信号x(t)は、有限の時間区間においてのみ、LTPバッファの範囲もしくは現在のMDCTフレームウィンドウの範囲で、または、システムの制限により与えられる他の区間で既知である。しかし、操作の定義用には、入力信号は全ての時間で既知であると仮定する。このことは、既知である区間の外側では入力信号をゼロに設定することによりなされる。]
[0122] b)入力信号に実行される最初の操作は、LTP遅延Tだけ移動することである。すなわち、
x1(t)=x(t−T)]
[0123] c)次の工程は、MDCTウィンドウw(t)を適用することである。そのようなウィンドウは、期間の上昇部分2r1、期間の下降部分2r2、および、恐らくその間の一定部分からなる。例示のウィンドウは破線のグラフで示される。ウィンドウの上昇部分及び下降部分のサポートは、それぞれミラーポイントt1、t2の周囲に集中する。信号x1(t)は、ウィンドウでポイントごとに乗算され、次式が得られる。
x2(t)=w(t)・x1(t)
再度、既知の範囲[t1−r1,t2+r2]の外側ではウィンドウw(t)はゼロと仮定される。]
[0124] x(t)からx2(t)への操作に関する別の、しかし同等な見方は、次の工程を実行することであり、



ここで、工程(i)は(t1−r1−T,t2+r2−T)でサポートされるウィンドウでウィンドウ操作することになり、工程(ii)はその結果をLTP遅延Tだけ移動する。]
[0125] d)ここでウィンドウ信号x2(t)は、次式により規定される[t1,t2]でサポートされる信号にフォールドインされる。
x2(t)+ε1x1(2t1−t) t1≦t≦t1+r1の場合
x3(t)=x2(t) t1+r1<t<t2−r2の場合
x2(t)+ε2x2(2t2−t) t2−r2≦t≦t2の場合]
[0126] 説明した例では、信号の値は、MDCT変換の所与の遂行に対応して(ε1,ε2)=(−1,1)であり、他の可能性としては(1,−1)、(1,1)あるいは(−1,−1)である。]
[0127] フォールドインされた信号x3(t)は、続いて区間[t1−r1,t2+r2]でサポートされた信号にフォールドアウトされ、次式で与えられる。
ε1x3(2t1−t) t1−r1≦t≦t1の場合
x4(t)=x3(t) t1<t<t2の場合
ε2x3(2t2−t) t2≦t≦t2+r2の場合]
[0128] x2(t)からx4(t)への操作はまた、区間[t1−r1,t1+r1]と[t2−r2,t2+r2]の信号部分のミラーイメージを加え、あるいは減じる1つの操作に組み合わせることができる。]
[0129] f)最後に、信号x4(t)にMDCTウィンドウでウィンドウ掛けして、LTP抽出操作の結果を作り出す。
y(t)=w(t)・x4(t)]
[0130] x1(t)からy(t)への組み合わせ操作は、MDCT合成が後に続くMDCT分析と等価であり、このことは現在のMDCTフレームサブスペースの直交射影を実現することは、当業者にとっては明らかである。]
[0131] オーバーラップがない場合、すなわちr1=r2=0の場合に、d)からf)の操作によってはx2(t)には何も起こらないということは重要である。すると、ウィンドウ操作は、区間[t1,t2]における信号x1(t)の単なる抽出からなる。この場合、LTP抽出モジュール2512はまさに、先行技術のLTPエクストラクタが行うことを実行する。]
[0132] 図25cは、最初のLTP抽出信号y1(t)の繰り返し改良を説明する。それは、LTP抽出操作N−1回を適用することと、その結果を最初の信号に加えることからなる。SがLTP抽出操作を表わすならば、繰り返しは次式で定義される。
Δ0=y1
Δk=S(Δk−1)、k=1,・・・,N−1
yk=yk+1,k=2,・・・,n−2] 図25c
[0133] LTP遅延T>max(2r1,2r2)であれば、ΔN=0であるようなNがあることが、図25bから分かる。T>r1+r2+t2−t1であれば、既にΔ1=0であり、改良は割愛される。] 図25b
[0134] オーバーラップがない場合は、すなわちr1=r2=0の場合に、本方法は、従来技術の方法の仮想ベクトル生成と一致する。]
[0135] 図25dは、改良ユニットの別の遂行を示し、改良ユニットは下記の繰り返しを実行する。
yk=y1+S(yk−1),k=2,・・・,N] 図25d
[0136] 双方の遂行において、繰り返しからの最終的出力は、次式のように記載され、



ここで、xはLTPバッファ信号である。]
[0137] 本発明の実施の形態によれば、LTP遅延とLTPゲインは可変レートの様式でコーディングされる。このことは、変化しない周期的信号に対するLTPの有効性のために、LTP遅延はある程度長いセグメントで同じである傾向があるので、有利である。それゆえ、このことは算術コーディングにより用いられ、結果として可変レートLTP遅延およびLTPゲインコーディングとなる。]
[0138] 同様に、本発明の実施の形態は、LTPパラメータのコーディングについてビットリザーバと可変レートコーディングの利益を享受する。さらに、帰納的LPコーディングが本発明により教示される。]
[0139] 前述したように、高調波信号のコーディングを改良するようになされた技術を利用してもよい。そのような技術は、たとえば、高調波予測、LTPあよび時間歪みである。前記のツールは全て陰にあるいは陽にある種のピッチあるいはピッチに関連する情報に依存する。本発明の実施の形態では、別の技術で必要となるこの別の情報は、依存性あるいは相関性があることを考慮して効率的にコーディングされる。このことは図26に示され、図26は、LTP遅延や時間歪みからの差分などのピッチ関連データおよびピッチを組み合わせる組み合わせユニット2600を示し、組み合わせユニット2600は組み合わされたピッチ信号を生成する。] 図26
[0140] 上記に説明したように、実施の形態によるコーデックは、MDCT領域でLTPを利用してもよい。MDCT領域でLTPのパフォーマンスを改善するために、2つの追加のLTPバッファ2512、2513を導入してもよい。図27に示すように、LTPエクストラクタがLTPバッファ2511に最適な遅延を探索するとき、ノイズベクトルとパルスベクトルとも探索に含まれる。ノイズとパルスは、たとえばLTPバッファに保管された前回のセグメントの信号が適切でない遷移などにおいて、予測信号として用いられる。よって、パルスおよびノイズコードブックのエントリを伴う改良されたLTPが提供される。] 図27
[0141] 本発明の他の態様は、エンコーダの可変のフレームサイズ用のビットリザーバの取扱いである。ビットリザーバコントロールユニットを教示する。入力として与えられる困難さの尺度に加え、ビットリザーバコントロールユニットは、現在のフレームのフレーム長の情報も受信する。ビットリザーバコントロールユニットで用いられる困難さの尺度の例は、知覚エントロピ、すなわちパワースペクトルの対数である。ビットリザーバコントロールは、一組の異なったフレーム長についてフレーム長が変化するシステムにおいて重要である。ここで提案するビットリザーバコントロールユニット1800は、以下に説明するように、コーディングされるフレームに許容されたビットの数を計算するときにフレーム長を考慮する。]
[0142] ここでは、ビットリザーバは、バッファ中のある固定量のビットとして定義され、所与のビットレートで使用が認められたフレームの平均ビット数より大きくなければならない。同じサイズであると、フレームについてのビット数の変化ができなくなる。ビットリザーバコントロールは、実行中のフレームに認められたビット数としてエンコーディングアルゴリズムに認められるビットを取り出す前に、ビットリザーバのレベルを常に見ている。よって、満杯のビットリザーバとは、ビットリザーバ中で用いられるビット数がビットリザーバサイズに等しいことをいう。フレームをエンコーディングした後、使用されたビットの数はバッファから減じられ、一定のビットレートを表わすビット数を加算されることによりビットリザーバはアップデートされる。したがって、フレームをコーディングする前のビットリザーバのビット数がフレーム当たりの平均ビット数に等しいならば、ビットリザーバは空である。]
[0143] 図28aにビットリザーバコントロールの基本概念を示す。エンコーダは、前回のフレームと比較して実行中のフレームをエンコードすることがいかに困難かを計算する手段を提供する。平均の困難さを1.0として、認められたビット数はビットリザーバで使用可能なビット数に依存する。与えられたコントロールのラインによれば、ビットリザーバが本当に満杯であると、平均ビットレートに対応するより多くのビットがビットリザーバから取り出される。空のビットリザーバの場合には、平均ビットに比べて少ないビットがフレームをエンコーディングするのに用いられる。この行動は、平均の困難さを有するフレームの長いシーケンスについては平均ビットリザーバレベルとなる。高い困難さのフレームについては、コントロールのラインは上方にシフトされ、フレームをエンコーディングする困難さは同じビットサーバレベルでより多くのビットを使うことが許されるという効果を有する。したがって、フレームを容易にエンコーディングするため、フレームに認められたビット数は、図28aのコントロールラインを平均困難さの場合から容易な困難さの場合にシフトダウンすることだけで低減される。コントロールラインを単純にシフトする以外の修正も可能である。たとえば、図28aに示すように、コントロールカーブの傾きをフレームの困難さに応じて変えてもよい。] 図28a
[0144] 認められたビット数を計算するときに、許可された以上にバッファからビットを取り出さないようにビットリザーバの下限界には従う必要がある。図28aに示すようにコントロールラインにより認められたビットを計算することを含むビットリザーバコントロールスキームは、可能なビットリザーバレベルと認められたビットの関係の困難さの尺度の一例に過ぎない。また、他のコントロールアルゴリズムも一般的にビットリザーバレベルの下限に厳しい限界を有し、その限界はビットリザーバが空のビットリザーバの制限を破ることを防止し、エンコーダにより過小なビット数しか消費されないときにエンコーダがビットを満たすように強制される上限の限界でも同様である。] 図28a
[0145] 可変フレームサイズのセットを取り扱うことができるコントロールメカニズムなどでは、この単純なコントロールアルゴリズムを適応すべきである。使用される困難さの尺度は、異なったフレームサイズの困難さの値が比較できるように正規化される。すべてのフレームサイズについて、認められたビットについての異なった許容範囲があり、フレーム当たりの平均ビット数が変化するフレームサイズに対し異なるので、結果としてそれぞれのフレームサイズは、それ自身の限界のあるそれ自身のコントロール式を有する。一例を図28bに示す。固定フレームサイズの場合への重要な修正は、コントロールアルゴリズムの低い許容境界である。固定ビットレートの場合に対応する実行中のフレームサイズの平均ビット数の代わりに、ここでは最大許容フレームサイズに対する平均ビット数が、実行中のフレームについてビットを取り出す前のビットリザーバレベルに対する最低許容値となる。このことは、固定フレームサイズのビットリザーバコントロールに対する主な差異の一つである。この制限は、続いての最大可能フレームサイズのフレームが少なくともこのフレームサイズの平均ビット数を用いることを約束する。] 図28b
[0146] 困難さの尺度は、たとえば、AACで行われるように心理音響モデルのマスキング閾値から導かれる知覚エントロピ(PE)計算、または代替として、本発明の実施の形態によるエンコーダのECQ部で行われるように固定ステップサイズの量子化のビットカウントに基づく。これらの値は、可変フレームサイズに関して正規化され、それはフレーム長で単に除すことによりなされ、その結果はPEであり、それぞれサンプル当たりのビットカウントである。別の正規化のステップは、平均困難さに関して行われる。この目的のために、過去のフレームに対して移動平均が用いられ、結果は、困難なフレームに対しては1.0より大きな、容易なフレームに対しては1.0未満の困難値となる。2パスエンコーダまたは大きな先取りの場合、将来フレームの困難値もこの困難さの尺度の正規化に考慮される。]
[0147] 図29は、提案のエンコーダおよびデコーダの実施の形態で用いられる歪んだMDCT領域を示す。図示されるように、時間歪みは時間スケールを再サンプリングして一定ピッチとすることを意味する。図のx軸は変化するピッチでの入力信号を示し。図のy軸は再サンプリングされた一定ピッチの信号を示す。時間歪みカーブは現在のセグメントについてピッチ検出アルゴリズムを用い、セグメント中のピッチの展開を推定することにより、決定される。するとピッチの展開情報を用いて、セグメント中の信号を再サンプリングし、よって、歪みカーブを生成する。ピッチの展開を決定するのにピッチの差だけが必要で、完全なピッチ情報は不要なので、歪みカーブを作成するアルゴリズムはピッチ検出誤差に影響されにくい。] 図29
[0148] 本発明の態様によれば、時間歪みMDCTをLTPと組み合わせて用いる。この場合、LTP探索は、エンコーダで一定ピッチセグメント領域で行われる。このことは、ピッチの変化のためにMDCTフレームで等距離に配置されていない多くのピッチパルスを備える長いMDCTフレームについて、特に有用である。よって、LTPバッファからの一定ピッチセグメントは複数のピッチパルスに適切には適合しないであろう。実施の形態によれば、LTPバッファの全セグメントが、現在のMDCTフレームの歪みカーブに基づいて再サンプリングされる。デコーダにおいても、LTPバッファで選定されたセグメントは、歪みデータ情報を考慮して、現在フレームの歪みデータに再サンプリングされる。歪みデータは、ビットストリームの一部としてデコーダに伝達される。]
[0149] 図29の上部に、ウィンドウ、すなわちLTPバッファにおけるセグメントが、現在の、破線のフレームのウィンドウと共に示される。図29aには、歪みMDCT分析の効果が示される。左側には歪んでいない分析の周波数のプロットが示される。ウィンドウに関するピッチ変化のために、周波数がより高い高調波は、適切には分解されてはいない。図の右側部分には、時間歪みMDCT分析で分析された、同じ信号の周波数プロットが示される。ここでは分析ウィンドウでピッチが一定なので、高い高調波はよりよく分解される。] 図29 図29a
[0150] 本発明の実施の形態による別の層状SBR復号アプローチが図30に示される。図7によれば、エンコーダとデコーダは二重レートシステムとして遂行され、コアコーダーはサンプリングレートの半分のレートでサンプリングされ、高周波数復号モジュールは、オリジナルのサンプリングレートでサンプリングされて、高周波数を取り扱う。32kHzのオリジナルサンプリングレートを仮定すると、LPCフィルタは16kHzで作動し、8kHzの白色化信号を提供する。しかし、以下のコアコーダーは、課せられたビットレート制約を考慮して8kHzのバンド幅をコーディングすることはできないかもしれない。本発明は、このことを取り扱う多くの手段を提供する。本発明の実施の形態は、LPCの下で(すなわち、LPCフィルタを掛けられた信号に基づいて)MDCT領域で高周波数復号を適用して8kHzのバンド幅を提供する。このことは図30に示され、LPCがゼロから8kHzの周波数範囲をカバーし、0〜5kHzの範囲はMDCT波形量子化器により処理される。5〜8kHzの周波数範囲は、MDCT・SBRアルゴリズムで処理され、最後に8〜16kHzの範囲はQMF・SBRアルゴリズムで処理される。MDCT・SBRは、上述したようにQMFベースのSBRで用いられるのと類似したコピーアップ(copy-up)メカニズムに基づく。しかし、変換サイズの関数としてのMDCT・SBR方法の適応などの、他の方法もまた有利なことに用いることができる。] 図30 図7
[0151] 本発明の別の実施の形態では、LPスペクトルの上方の周波数範囲は、フレームサイズと信号特性に基づいて量子化されコーディングされる。あるフレームサイズと信号では、その周波数範囲は上記に従ってコーディングされ、他のフレームサイズでは、粗い量子化とノイズ充填技法が使われる。]
[0152] これまでは本発明の特定の実施の形態を参照して開示してきたが、本発明の概念は説明した実施の形態に限定されることはないことは理解されるはずである。反対に、本出願で提供された開示により当業者は本発明を理解し実施することができる。当業者が、添付の特許請求の範囲だけで提示された本発明の思想と範囲から逸脱することなく、多くの改変を行えることは明らかである。]
权利要求:

請求項1
適応フィルタに基づいて入力信号にフィルタを掛ける線形予測ユニットと;前記フィルタ掛けされた入力信号のフレームを変換領域に変換する変換ユニットと;変換領域信号を量子化する量子化ユニットと;前記フィルタ掛けされた入力信号の前回のセグメントの復号に基づいて、前記フィルタ掛けされた入力信号の前記フレームの推定を決定する長期間予測ユニットと;前記変換領域で、長期間予測推定と前記変換された入力信号を組み合わせて変換領域信号を生成する変換領域信号組み合わせユニットとを備える;オーディオコーディングシステム。
請求項2
前記フィルタ掛けされた入力信号の前記フレームの時間領域復号を生成する逆量子化逆変換ユニットと;前記フィルタ掛けされた入力信号の前回のフレームの時間領域復号を保管する長期間予測バッファとを備える;請求項1のオーディオコーディングシステム。
請求項3
前記入力信号にフィルタ掛けする適応フィルタは、第1のフレーム長で動作し白色化入力信号を生成する線形予測コーディング(LPC)分析に基づき、前記フィルタ掛けされた入力信号の前記フレームに適用される変換は、可変の第2のフレーム長で動作する修正離散化コサイン変換(MDCT)である;請求項1または2のオーディオコーディングシステム。
請求項4
前記入力信号のブロックに対して、入力信号のコーディングコスト関数、好ましくは単純化知覚エントロピを最小化することにより、オーバーラップするMDCTウィンドウの第2のフレーム長を決定するウィンドウシーケンスコントロールユニットを備える;請求項3のオーディオコーディングシステム。
請求項5
連続したMDCTウィンドウ長は最大で係数2だけ変化する;請求項4のオーディオコーディングシステム。
請求項6
前記MDCTウィンドウ長は、前記入力信号のダイアディック分割である;請求項4または5のオーディオコーディングシステム。
請求項7
前記ウィンドウシーケンスコントロールユニットは、前記入力信号ブロックの前記コーディングコスト関数を最小にするMDCTウィンドウ長のシーケンスを探索するときに、ウィンドウ長の候補について長期間予測ユニットにより生成された長期間予測推定を考慮するようになされる;請求項4ないし6のいずれか1項のオーディオコーディングシステム。
請求項8
一連のMDCTウィンドウ長とウィンドウ形状とを一緒にエンコーディングするウィンドウシーケンスエンコーダを備える;請求項4ないし7のいずれか1項のオーディオコーディングシステム。
請求項9
前記ウィンドウシーケンスエンコーダは、前記一連のウィンドウ長と形状をエンコーディングするときにウィンドウサイズ制約を考慮する;請求項8のオーディオコーディングシステム。
請求項10
前記線形予測ユニットで生成された線スペクトル周波数を可変レートで再帰的にコーディングするLPCエンコーダを備える;請求項1ないし9のいずれか1項のオーディオコーディングシステム。
請求項11
前記第2のフレーム長に対応するレートで生成された変換領域信号のフレームに適合するように、前記第1のフレーム長に対応するレートで生成された線形予測パラメータを内挿する線形予測内挿ユニットを備える;請求項1ないし10のいずれか1項のオーディオコーディングシステム。
請求項12
LPCフレームについて前記線形予測ユニットで生成されたLPC多項式をチャープしおよび/または傾けることにより適応フィルタの特性を調整する知覚モデリングユニットを備える; 請求項1ないし11のいずれか1項のオーディオコーディングシステム。
請求項13
前記フィルタ掛けされた入力信号を時間歪みカーブにより再サンプリングすることにより前記フィルタ掛けされた信号の前記フレームでピッチ成分を均一に揃える時間歪みユニットを備え;前記変換ユニットと前記長期間予測ユニットは時間歪み信号で動作する;請求項1ないし12のいずれか1項のオーディオコーディングシステム。
請求項14
前記線形予測フィルタは、歪んだ周波数軸で動作する;請求項1ないし13のいずれか1項のオーディオコーディングシステム。
請求項15
前記入力信号の高バンド成分をエンコーディングする高バンドエンコーダを備え;前記変換領域信号を量子化するときに前記量子化で用いられる量子化ステップは、前記入力信号の低バンドに属する成分に対してと、前記高バンドに属する前記変換領域信号の成分をエンコーディングするのとで異なる;請求項1ないし14のいずれか1項のオーディオコーディングシステム。
請求項16
前記入力信号を低バンド成分と高バンド成分に分割する周波数分割ユニットと;前記高バンド成分をエンコーディングする高バンドエンコーダとを備え;前記低バンド成分は前記線形予測ユニットに入力される;請求項1ないし14のいずれか1項のオーディオコーディングシステム。
請求項17
前記周波数分割ユニットは、前記入力信号をダウンサンプルするようになされた直交ミラーフィルタバンクと直交ミラーフィルタ合成ユニットとを備える;請求項16のオーディオコーディングシステム。
請求項18
前記低バンドと前記高バンドの境界は可変であり、前記周波数分割ユニットは、入力信号特性および/またはエンコーダバンド幅要求に基づいてクロスオーバー周波数を決定する;請求項16または17のオーディオコーディングシステム。
請求項19
前記高バンド成分をローパス信号に変換する第2の直交ミラーフィルタ合成ユニットと;前記ローパス信号をエンコーディングする第2の変換ベースエンコーダとを備える;請求項16ないし18のいずれか1項のオーディオコーディングシステム。
請求項20
同じ周波数範囲をカバーする異なった信号表現を組み合わせ、前記信号表現をどのように組み合わせるかを示す信号データを生成する信号表現組み合わせユニットを備える;請求項16ないし19のいずれか1項のオーディオコーディングシステム。
請求項21
前記高バンドエンコーダは、スペクトルバンド複製エンコーダである;請求項15ないし20のいずれか1項のオーディオコーディングシステム。
請求項22
前記長期間予測ユニットは、エネルギを長期間予測推定の高周波数成分に導入するスペクトルバンド複製ユニットを備える;請求項1ないし21のいずれか1項のオーディオコーディングシステム。
請求項23
左右の入力チャンネルのパラメトリックステレオ表現を計算するパラメトリックステレオユニットを備える;請求項1ないし22のいずれか1項のオーディオコーディングシステム。
請求項24
低周波数ラインから高周波数MDCTラインを予測する高調波予測分析ユニットを備える;請求項1ないし23のいずれか1項のオーディオコーディングシステム。
請求項25
前記量子化ユニットは、入力信号特徴に基づいて、モデルベース量子化器で変換領域信号をエンコードするか、あるいは非モデルベース量子化器で変換領域信号をエンコードするかを決める;請求項1ないし24のいずれか1項のオーディオコーディングシステム。
請求項26
前記変換領域信号の成分の量子化ステップサイズを線形予測および長期間予測パラメータに基づいて決定する量子化ステップサイズコントロールユニットを備える;請求項1ないし25のいずれか1項のオーディオコーディングシステム。
請求項27
前記長期間予測ユニットは、遅延値を決定して、前記フィルタ掛けされた信号の現在のフレームに最も適合する前記フィルタ掛けされた信号の復号セグメントを特定する長期間予測エクストラクタと、前記フィルタされた信号の選定されたセグメントの信号に適用されるゲイン値を推定する長期間予測ゲイン推定器とを備え、前記遅延値と前記ゲイン値は歪みのクライテリアを最小化するように決定される;請求項1ないし26のいずれか1項のオーディオコーディングシステム。
請求項28
前記歪みのクライテリアは、知覚領域における前記長期間予測推定の前記変換入力信号に対する差に関連し、前記歪みのクライテリアは前記知覚領域における前記遅延値と前記ゲイン値を探索することにより最小化される;請求項27のオーディオコーディングシステム。
請求項29
前記知覚モデリングユニットにより生成された修正線形予測多項式は、歪みのクライテリアを最小化するときにMDCT領域量子化ゲインカーブとして適用される;請求項27または28のオーディオコーディングシステム。
請求項30
前記長期間予測ユニットは、前記選定されたセグメントの復号信号を前記変換領域に変換する変換ユニットを備え、前記変換は好ましくは離散コサイン変換タイプIVである;請求項27ないし29のいずれか1項のオーディオコーディングシステム。
請求項31
前記長期間予測ユニットは、仮想ベクトル生成器を備え、前記遅延値が前記MDCTフレーム長より小さいとき前記復号信号の拡張セグメントを生成する;請求項27ないし30のいずれか1項のオーディオコーディングシステム。
請求項32
前記仮想ベクトル生成器は、前記復号信号の前記生成されたセグメントを改良するのに繰り返しフォールドインフォールドアウトプロシージャを適用する;請求項31のオーディオコーディングシステム。
請求項33
前記長期間予測ユニットは、前記変換ユニットが時間歪み信号で動作するときに前記時間歪みユニットから受信した時間歪みカーブに基づいて前記復号されたフィルタ掛けされた入力信号を再サンプリングする;請求項27ないし32のいずれか1項のオーディオコーディングシステム。
請求項34
前記長期間予測ユニットは、長期間予測遅延およびゲイン値をエンコーディングする可変レートエンコーダを備える;請求項1ないし33のいずれか1項のオーディオコーディングシステム。
請求項35
前記長期間予測ユニットは、ノイズベクトルバッファおよび/またはパルスベクトルバッファを備える;請求項1ないし34のいずれか1項のオーディオコーディングシステム。
請求項36
長期間予測パラメータ、高調波予測パラメータあるいは時間歪みパラメータなどのピッチ関連情報を一緒にエンコーディングするジョイントコーディングユニットを備える;請求項1ないし35のいずれか1項のオーディオコーディングシステム。
請求項37
入力されたビットストリームのフレームを逆量子化する逆量子化ユニットと;変換領域信号を逆に変換する逆変換ユニットと;前記逆量子化されたフレームの推定を決定する長期間予測ユニットと;変換領域で、長期間予測推定と前記逆量子化フレームを組み合わせて、変換領域信号を生成する変換領域信号組み合わせユニットと;前記逆荷変換された変換領域信号にフィルタを掛ける線形予測ユニットとを備える;オーディオデコーダ。
請求項38
適応フィルタに基づいて入力信号にフィルタを掛けるステップと;前記フィルタ掛けされた入力信号のフレームを変換領域に変換するステップと;変換領域信号を量子化するステップと;前記フィルタ掛けされた入力信号の前回のセグメントの復号に基づいて前記フィルタ掛けされた入力信号を推定するステップと;長期間予測推定と前記変換された入力信号を前記変換領域で組み合わせ、前記変換領域信号を生成するステップとを備える;オーディオエンコーディング方法。
請求項39
入力ビットストリームのフレームを逆量子化するステップと;変換領域信号を逆変換するステップと;前記逆量子化されたフレームの推定を決定するステップと;長期間予測推定と前記逆量子化されたフレームを変換領域で組み合わせ、前記変換領域信号を生成するステップと;前記逆変換された変換領域信号にフィルタを掛けるステップと;復号オーディオ信号を出力するステップとを備える;オーディオデコーディング方法。
請求項40
プログラムデバイスに請求項38または39によるオーディオコーディング方法を実行させる;コンピュータプログラム。
类似技术:
公开号 | 公开日 | 专利标题
US10796703B2|2020-10-06|Audio encoder with selectable L/R or M/S coding
US10515652B2|2019-12-24|Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9715883B2|2017-07-25|Multi-mode audio codec and CELP coding adapted therefore
JP6184519B2|2017-08-23|音声信号復号化または符号化の時間領域レベル調整
JP5571235B2|2014-08-13|ピッチ調整コーディング及び非ピッチ調整コーディングを使用する信号符号化
RU2641224C2|2018-01-16|Адаптивное расширение полосы пропускания и устройство для этого
US8275626B2|2012-09-25|Apparatus and a method for decoding an encoded audio signal
JP6407928B2|2018-10-17|オーディオ処理システム
JP5085543B2|2012-11-28|Selective use of multiple entropy models in adaptive coding and decoding
CA2827305C|2018-02-06|Noise generation in audio codecs
JP5437067B2|2014-03-12|音声信号に関連するパケットに識別子を含めるためのシステムおよび方法
KR20140120286A|2014-10-13|고주파수 신호 복호화 방법 및 장치
US8374853B2|2013-02-12|Hierarchical encoding/decoding device
US6427135B1|2002-07-30|Method for encoding speech wherein pitch periods are changed based upon input speech signal
KR101685860B1|2016-12-12|공간 오디오 객체 코딩에 있어서 신호 종속적인 줌 변환을 위한 인코더, 디코더 및 방법들
KR100415356B1|2004-01-16|다중 채널 신호 인코딩 및 디코딩 방법 및 장치
JP4909272B2|2012-04-04|空間オーディオコーディングにおける複数チャンネルデコリレーション
ES2266003T3|2007-03-01|Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha.
US8364495B2|2013-01-29|Voice encoding device, voice decoding device, and methods therefor
EP1489599B1|2016-05-11|Coding device and decoding device
RU2456682C2|2012-07-20|Аудиокодер и декодер
KR101445296B1|2014-09-29|샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램
KR101356972B1|2014-02-05|위상값 평활화를 이용하여 다운믹스 오디오 신호를 업믹스하는 장치, 방법 및 컴퓨터 프로그램
CN1957398B|2011-09-21|在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
EP1846920B1|2017-04-19|Method for generating concealment frames in communication system
同族专利:
公开号 | 公开日
RU2015118725A3|2019-02-07|
RU2015118725A|2016-12-10|
KR101202163B1|2012-11-15|
US8494863B2|2013-07-23|
BRPI0822236A2|2015-06-30|
CN101925950B|2013-10-02|
US8924201B2|2014-12-30|
EP2235719A1|2010-10-06|
US8484019B2|2013-07-09|
CA2709974A1|2009-07-16|
JP2011509426A|2011-03-24|
US8938387B2|2015-01-20|
KR20100106564A|2010-10-01|
KR101196620B1|2012-11-02|
US20130282382A1|2013-10-24|
AT500588T|2011-03-15|
AU2008346515A1|2009-07-16|
CA2960862A1|2009-07-16|
DE602008005250D1|2011-04-14|
AU2008346515B2|2012-04-12|
CN101925950A|2010-12-22|
RU2012120850A|2013-12-10|
JP2014016625A|2014-01-30|
MX2010007326A|2010-08-13|
US20130282383A1|2013-10-24|
CA2960862C|2020-05-05|
WO2009086919A1|2009-07-16|
EP2077551A1|2009-07-08|
CN103065637B|2015-02-04|
EP2077550B8|2012-03-14|
RU2696292C2|2019-08-01|
CA2709974C|2017-04-11|
CN101939781B|2013-01-23|
JP5350393B2|2013-11-27|
EP2077551B1|2011-03-02|
EP2573765A2|2013-03-27|
JP5624192B2|2014-11-12|
CN101939781A|2011-01-05|
EP2573765A3|2017-05-31|
CN103065637A|2013-04-24|
EP2235719B1|2018-05-30|
ES2677900T3|2018-08-07|
JP5356406B2|2013-12-04|
US20100286991A1|2010-11-11|
AT518224T|2011-08-15|
BRPI0822236B1|2020-02-04|
RU2562375C2|2015-09-10|
RU2456682C2|2012-07-20|
EP2077550A1|2009-07-08|
US20100286990A1|2010-11-11|
CA3076068A1|2009-07-16|
WO2009086918A1|2009-07-16|
KR20100105745A|2010-09-29|
RU2010132643A|2012-02-10|
EP2077550B1|2011-07-27|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
JPH09127998A|1995-10-26|1997-05-16|Sony Corp|信号量子化方法及び信号符号化装置|
JP2007286200A|2006-04-13|2007-11-01|Nippon Telegr & Teleph Corp <Ntt>|適応ブロック長符号化装置、その方法、プログラム及び記録媒体|JP2014500521A|2010-10-25|2014-01-09|ヴォイスエイジ・コーポレーション|低ビットレート低遅延の一般オーディオ信号の符号化|
JP2015525374A|2012-06-04|2015-09-03|サムスン エレクトロニクス カンパニー リミテッド|オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器|
US9257129B2|2013-03-28|2016-02-09|Fujitsu Limited|Orthogonal transform apparatus, orthogonal transform method, orthogonal transform computer program, and audio decoding apparatus|
JPWO2014068817A1|2012-10-31|2016-09-08|株式会社ソシオネクスト|オーディオ信号符号化装置及びオーディオ信号復号装置|
JP6073456B2|2013-02-22|2017-02-01|三菱電機株式会社|音声強調装置|JPS5936280B2|1982-11-22|1984-09-03|Nippon Telegraph & Telephone||
JP2523286B2|1986-08-01|1996-08-07|日本電信電話株式会社|音声符号化及び復号化方法|
SE469764B|1992-01-27|1993-09-06|Ericsson Telefon Ab L M|SET TO CODE A COMPLETE SPEED SIGNAL VECTOR|
BE1007617A3|1993-10-11|1995-08-22|Philips Electronics Nv|Transmissiesysteem met gebruik van verschillende codeerprincipes.|
US5684920A|1994-03-17|1997-11-04|Nippon Telegraph And Telephone|Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein|
CA2121667A1|1994-04-19|1995-10-20|Jean-Pierre Adoul|Differential-transform-coded excitation for speech and audio coding|
FR2729245B1|1995-01-06|1997-04-11|Lamblin Claude|Procede de codage de parole a prediction lineaire et excitation par codes algebriques|
US5754733A|1995-08-01|1998-05-19|Qualcomm Incorporated|Method and apparatus for generating and encoding line spectral square roots|
DE69620967T2|1995-09-19|2002-11-07|At & T Corp|Synthese von Sprachsignalen in Abwesenheit kodierter Parameter|
US5790759A|1995-09-19|1998-08-04|Lucent Technologies Inc.|Perceptual noise masking measure based on synthesis filter frequency response|
TW321810B|1995-10-26|1997-12-01|Sony Co Ltd||
JP3707153B2|1996-09-24|2005-10-19|ソニー株式会社|ベクトル量子化方法、音声符号化方法及び装置|
FI114248B|1997-03-14|2004-09-15|Nokia Corp|Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen|
JP3684751B2|1997-03-28|2005-08-17|ソニー株式会社|信号符号化方法及び装置|
IL120788A|1997-05-06|2000-07-16|Audiocodes Ltd|Systems and methods for encoding and decoding speech for lossy transmission networks|
SE512719C2|1997-06-10|2000-05-02|Lars Gustaf Liljeryd|A method and apparatus for reducing data flow based on harmonic bandwidth expansion|
JP3263347B2|1997-09-20|2002-03-04|松下電送システム株式会社|音声符号化装置及び音声符号化におけるピッチ予測方法|
US6012025A|1998-01-28|2000-01-04|Nokia Mobile Phones Limited|Audio coding method and apparatus using backward adaptive prediction|
US6353808B1|1998-10-22|2002-03-05|Sony Corporation|Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal|
JP4281131B2|1998-10-22|2009-06-17|ソニー株式会社|信号符号化装置及び方法、並びに信号復号装置及び方法|
SE9903553D0|1999-01-27|1999-10-01|Lars Liljeryd|Enhancing conceptual performance of SBR and related coding methods by adaptive noise addition and noise substitution limiting |
FI116992B|1999-07-05|2006-04-28|Nokia Corp|Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi|
JP2001142499A|1999-11-10|2001-05-25|Nec Corp|音声符号化装置ならびに音声復号化装置|
US7058570B1|2000-02-10|2006-06-06|Matsushita Electric Industrial Co., Ltd.|Computer-implemented method and apparatus for audio data hiding|
TW496010B|2000-03-23|2002-07-21|Sanyo Electric Co|Solid high molcular type fuel battery|
US20020040299A1|2000-07-31|2002-04-04|Kenichi Makino|Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data|
SE0004163D0|2000-11-14|2000-11-14|Coding Technologies Sweden Ab|Enhancing perceptual performance or high frequency reconstruction coding methods by adaptive filtering|
SE0004187D0|2000-11-15|2000-11-15|Coding Technologies Sweden Ab|Enhancing the performance of coding systems that use high frequency reconstruction methods|
KR100378796B1|2001-04-03|2003-04-03|엘지전자 주식회사|디지탈 오디오 부호화기 및 복호화 방법|
US6658383B2|2001-06-26|2003-12-02|Microsoft Corporation|Method for coding speech and music signals|
US6879955B2|2001-06-29|2005-04-12|Microsoft Corporation|Signal modification based on continuous time warping for low bit rate CELP coding|
AT288617T|2001-11-29|2005-02-15|Coding Tech Ab|Wiederherstellung von hochfrequenzkomponenten|
US7460993B2|2001-12-14|2008-12-02|Microsoft Corporation|Adaptive window-size selection in transform coding|
US20030215013A1|2002-04-10|2003-11-20|Budnikov Dmitry N.|Audio encoder with adaptive short window grouping|
KR101001170B1|2002-07-16|2010-12-15|코닌클리케 필립스 일렉트로닉스 엔.브이.|오디오 코딩|
US7536305B2|2002-09-04|2009-05-19|Microsoft Corporation|Mixed lossless audio compression|
JP4191503B2|2003-02-13|2008-12-03|日本電信電話株式会社|音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム|
CN1458646A|2003-04-21|2003-11-26|北京阜国数字技术有限公司|一种滤波参数矢量量化和结合量化模型预测的音频编码方法|
EP1496500B1|2003-07-09|2007-02-28|Samsung Electronics Co., Ltd.|Bitrate scalable speech coding and decoding apparatus and method|
WO2005043511A1|2003-10-30|2005-05-12|Koninklijke Philips Electronics N.V.|Audio signal encoding or decoding|
DE102004009955B3|2004-03-01|2005-08-11|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite|
CN1677491A|2004-04-01|2005-10-05|北京宫羽数字技术有限责任公司|一种增强音频编解码装置及方法|
CN1954364B|2004-05-17|2011-06-01|诺基亚公司|带有不同编码帧长度的音频编码|
WO2006008817A1|2004-07-22|2006-01-26|Fujitsu Limited|オーディオ符号化装置及びオーディオ符号化方法|
DE102005032724B4|2005-07-13|2009-10-08|Siemens Ag|Method and device for artificially expanding the bandwidth of speech signals|
US7720677B2|2005-11-03|2010-05-18|Coding Technologies Ab|Time warped modified transform coding of audio signals|
CN101297356B|2005-11-04|2011-11-09|诺基亚公司|用于音频压缩的方法和设备|
KR100647336B1|2005-11-08|2006-11-23|삼성전자주식회사|적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법|
US7610195B2|2006-06-01|2009-10-27|Nokia Corporation|Decoding of predictively coded data using buffer adaptation|
KR20070115637A|2006-06-03|2007-12-06|삼성전자주식회사|대역폭 확장 부호화 및 복호화 방법 및 장치|
JP4936569B2|2006-10-25|2012-05-23|フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン|オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法|
KR101565919B1|2006-11-17|2015-11-05|삼성전자주식회사|고주파수 신호 부호화 및 복호화 방법 및 장치|
BRPI0718738A8|2006-12-12|2018-10-16|Fraunhofer Ges Zur Foerderung Der Angewadten Forschung E V|"encoder, decoder and methods for encoding and decoding data segments representing a time domain data stream"|
US8630863B2|2007-04-24|2014-01-14|Samsung Electronics Co., Ltd.|Method and apparatus for encoding and decoding audio/speech signal|
KR101411901B1|2007-06-12|2014-06-26|삼성전자주식회사|오디오 신호의 부호화/복호화 방법 및 장치|
DE602008005250D1|2008-01-04|2011-04-14|Dolby Sweden Ab|Audio encoder and decoder|
WO2010003254A1|2008-07-10|2010-01-14|Voiceage Corporation|Multi-reference lpc filter quantization and inverse quantization device and method|
MX2011000370A|2008-07-11|2011-03-15|Fraunhofer Ges Forschung|AN APPLIANCE AND A METHOD FOR DECODING A CODED AUDIO SIGNAL.|
EP2146344B1|2008-07-17|2016-07-06|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Audio encoding/decoding scheme having a switchable bypass|US6934677B2|2001-12-14|2005-08-23|Microsoft Corporation|Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands|
US8326614B2|2005-09-02|2012-12-04|Qnx Software Systems Limited|Speech enhancement system|
US7720677B2|2005-11-03|2010-05-18|Coding Technologies Ab|Time warped modified transform coding of audio signals|
FR2912249A1|2007-02-02|2008-08-08|France Telecom|Codage/decodage perfectionnes de signaux audionumeriques.|
DE602008005250D1|2008-01-04|2011-04-14|Dolby Sweden Ab|Audio encoder and decoder|
US8380523B2|2008-07-07|2013-02-19|Lg Electronics Inc.|Method and an apparatus for processing an audio signal|
WO2010003254A1|2008-07-10|2010-01-14|Voiceage Corporation|Multi-reference lpc filter quantization and inverse quantization device and method|
MY155538A|2008-07-11|2015-10-30|Fraunhofer Ges Forschung|An apparatus and a method for generating bandwidth extension output data|
MX2011000370A|2008-07-11|2011-03-15|Fraunhofer Ges Forschung|AN APPLIANCE AND A METHOD FOR DECODING A CODED AUDIO SIGNAL.|
FR2938688A1|2008-11-18|2010-05-21|France Telecom|Codage avec mise en forme du bruit dans un codeur hierarchique|
CN105225667B|2009-03-17|2019-04-05|杜比国际公司|编码器系统、解码器系统、编码方法和解码方法|
EP2394268B1|2009-04-08|2014-01-08|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing|
CO6440537A2|2009-04-09|2012-05-15|Fraunhofer Ges Forschung|Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio|
KR20100115215A|2009-04-17|2010-10-27|삼성전자주식회사|가변 비트율 오디오 부호화 및 복호화 장치 및 방법|
US8700410B2|2009-06-18|2014-04-15|Texas Instruments Incorporated|Method and system for lossless value-location encoding|
JP5365363B2|2009-06-23|2013-12-11|ソニー株式会社|音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム|
KR20110001130A|2009-06-29|2011-01-06|삼성전자주식회사|가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법|
JP5754899B2|2009-10-07|2015-07-29|ソニー株式会社|復号装置および方法、並びにプログラム|
WO2011042464A1|2009-10-08|2011-04-14|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping|
EP2315358A1|2009-10-09|2011-04-27|Thomson Licensing|Method and device for arithmetic encoding or arithmetic decoding|
CN102667922B|2009-10-20|2014-09-10|弗兰霍菲尔运输应用研究公司|音频编码器、音频解码器、用以将音频信息编码的方法、用以将音频信息解码的方法|
US9117458B2|2009-11-12|2015-08-25|Lg Electronics Inc.|Apparatus for processing an audio signal and method thereof|
CN102081622B|2009-11-30|2013-01-02|中国移动通信集团贵州有限公司|评估系统健康度的方法及系统健康度评估装置|
AU2010332925B2|2009-12-16|2013-07-11|Dolby International Ab|SBR bitstream parameter downmix|
MX2012008075A|2010-01-12|2013-12-16|Fraunhofer Ges Forschung|AUDIO ENCODER, AUDIO DECODER, METHOD FOR CODING AND AUDIO INFORMATION, METHOD FOR DECODING AN AUDIO INFORMATION AND COMPUTER PROGRAM USING A MODIFICATION OF A REPRESENTATION OF A NUMBER OF A PREVIOUS NUMBER CONTEXT VALUE.|
JP5609737B2|2010-04-13|2014-10-22|ソニー株式会社|Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program|
JP5850216B2|2010-04-13|2016-02-03|ソニー株式会社|信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム|
US8886523B2|2010-04-14|2014-11-11|Huawei Technologies Co., Ltd.|Audio decoding based on audio class with control code for post-processing modes|
EP2562750B1|2010-04-19|2020-06-10|Panasonic Intellectual Property Corporation of America|Encoding device, decoding device, encoding method and decoding method|
PL2596497T3|2010-07-19|2014-10-31|Dolby Int Ab|Processing of audio signals during high frequency reconstruction|
US9047875B2|2010-07-19|2015-06-02|Futurewei Technologies, Inc.|Spectrum flatness control for bandwidth extension|
EP2596494B1|2010-07-20|2020-08-05|Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V.|Audio decoder, audio decoding method and computer program|
JP6075743B2|2010-08-03|2017-02-08|ソニー株式会社|Signal processing apparatus and method, and program|
US8762158B2|2010-08-06|2014-06-24|Samsung Electronics Co., Ltd.|Decoding method and decoding apparatus therefor|
ES2526320T3|2010-08-24|2015-01-09|Dolby International Ab|Hiding intermittent mono reception of FM stereo radio receivers|
US9008811B2|2010-09-17|2015-04-14|Xiph.org Foundation|Methods and systems for adaptive time-frequency resolution in digital data coding|
JP5707842B2|2010-10-15|2015-04-30|ソニー株式会社|符号化装置および方法、復号装置および方法、並びにプログラム|
CN102479514B|2010-11-29|2014-02-19|华为终端有限公司|一种编码方法、解码方法、装置和系统|
US8325073B2|2010-11-30|2012-12-04|Qualcomm Incorporated|Performing enhanced sigma-delta modulation|
FR2969804A1|2010-12-23|2012-06-29|France Telecom|Filtrage perfectionne dans le domaine transforme.|
US8849053B2|2011-01-14|2014-09-30|Sony Corporation|Parametric loop filter|
CN103380455B|2011-02-09|2015-06-10|瑞典爱立信有限公司|对音频信号的高效编码/解码|
US9009036B2|2011-03-07|2015-04-14|Xiph.org Foundation|Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding|
WO2012122303A1|2011-03-07|2012-09-13|Xiph. Org|Method and system for two-step spreading for tonal artifact avoidance in audio coding|
US9015042B2|2011-03-07|2015-04-21|Xiph.org Foundation|Methods and systems for avoiding partial collapse in multi-block audio coding|
WO2012144128A1|2011-04-20|2012-10-26|パナソニック株式会社|音声音響符号化装置、音声音響復号装置、およびこれらの方法|
CN102186083A|2011-05-12|2011-09-14|北京数码视讯科技股份有限公司|量化处理方法及装置|
EP3385949A1|2011-05-13|2018-10-10|Samsung Electronics Co., Ltd.|Bit allocating method for encoding an audio signal spectrum|
CN103548077B|2011-05-19|2016-02-10|杜比实验室特许公司|参数化音频编译码方案的取证检测|
RU2464649C1|2011-06-01|2012-10-20|Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд."|Способ обработки звукового сигнала|
AP201609618A0|2011-06-16|2016-12-31|Ge Video Compression Llc|Entropy coding of motion vector differences|
EP2727105B1|2011-06-30|2015-08-12|Telefonaktiebolaget LM Ericsson |Transform audio codec and methods for encoding and decoding a time segment of an audio signal|
CN102436819B|2011-10-25|2013-02-13|杭州微纳科技有限公司|无线音频压缩、解压缩方法及音频编码器和音频解码器|
KR101311527B1|2012-02-28|2013-09-25|전자부품연구원|영상처리장치 및 영상처리방법|
JP5714172B2|2012-02-28|2015-05-07|日本電信電話株式会社|符号化装置、この方法、プログラムおよび記録媒体|
WO2013129439A1|2012-02-28|2013-09-06|日本電信電話株式会社|符号化装置、この方法、プログラム及び記録媒体|
WO2013142650A1|2012-03-23|2013-09-26|Dolby International Ab|Enabling sampling rate diversity in a voice communication system|
EP2665208A1|2012-05-14|2013-11-20|Thomson Licensing|Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation|
WO2013179084A1|2012-05-29|2013-12-05|Nokia Corporation|Stereo audio signal encoder|
JP6113278B2|2012-06-28|2017-04-12|フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.|改良された確率分布推定を使用する線形予測に基づくオーディオ符号化|
JPWO2014007097A1|2012-07-02|2016-06-02|ソニー株式会社|復号装置および方法、符号化装置および方法、並びにプログラム|
CN103748628B|2012-07-02|2017-12-22|索尼公司|解码装置和方法以及编码装置和方法|
RU2628900C2|2012-08-10|2017-08-22|Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.|Кодер, декодер, система и способ, использующие концепцию остатка для параметрического кодирования аудиобъектов|
US9830920B2|2012-08-19|2017-11-28|The Regents Of The University Of California|Method and apparatus for polyphonic audio signal prediction in coding and networking systems|
US9406307B2|2012-08-19|2016-08-02|The Regents Of The University Of California|Method and apparatus for polyphonic audio signal prediction in coding and networking systems|
RU2636093C2|2013-01-08|2017-11-20|Долби Интернешнл Аб|Предсказание на основе модели в наборе фильтров с критической дискретизацией|
US9336791B2|2013-01-24|2016-05-10|Google Inc.|Rearrangement and rate allocation for compressing multichannel audio|
JP6158352B2|2013-01-29|2017-07-05|フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ|知覚的な変換オーディオ符号化におけるノイズフィリング|
CN105103226B|2013-01-29|2019-04-16|弗劳恩霍夫应用研究促进协会|低复杂度音调自适应音频信号量化|
MX346927B|2013-01-29|2017-04-05|Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E V|LOW FREQUENCY EMPHASIS FOR LPC-BASED CODINGIN THE FREQUENCY DOMAIN.|
US9842598B2|2013-02-21|2017-12-12|Qualcomm Incorporated|Systems and methods for mitigating potential frame instability|
JP6158421B2|2013-04-05|2017-07-05|ドルビー・インターナショナル・アーベー|Advanced quantizer|
RU2625444C2|2013-04-05|2017-07-13|Долби Интернэшнл Аб|Система обработки аудио|
US9570083B2|2013-04-05|2017-02-14|Dolby International Ab|Stereo audio encoder and decoder|
CA3029033A1|2013-04-05|2014-10-09|Dolby International Ab|Audio encoder and decoder|
CN104103276B|2013-04-12|2017-04-12|北京天籁传音数字技术有限公司|一种声音编解码装置及其方法|
US20140328406A1|2013-05-01|2014-11-06|Raymond John Westwater|Method and Apparatus to Perform Optimal Visually-Weighed Quantization of Time-Varying Visual Sequences in Transform Space|
EP2830056A1|2013-07-22|2015-01-28|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain|
RU2639952C2|2013-08-28|2017-12-25|Долби Лабораторис Лайсэнзин Корпорейшн|Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием|
WO2015034115A1|2013-09-05|2015-03-12|삼성전자 주식회사|오디오 신호의 부호화, 복호화 방법 및 장치|
TWI579831B|2013-09-12|2017-04-21|杜比國際公司|用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統|
WO2015041070A1|2013-09-19|2015-03-26|ソニー株式会社|符号化装置および方法、復号化装置および方法、並びにプログラム|
FR3011408A1|2013-09-30|2015-04-03|Orange|RE-SAMPLING AN AUDIO SIGNAL FOR LOW DELAY CODING / DECODING|
EP3226242B1|2013-10-18|2018-12-19|Telefonaktiebolaget LM Ericsson |Coding of spectral peak positions|
FR3013496A1|2013-11-15|2015-05-22|Orange|TRANSITION FROM TRANSFORMED CODING / DECODING TO PREDICTIVE CODING / DECODING|
KR20150069919A|2013-12-16|2015-06-24|삼성전자주식회사|오디오 신호의 부호화, 복호화 방법 및 장치|
KR20160102403A|2013-12-27|2016-08-30|소니 주식회사|복호화 장치 및 방법, 및 프로그램|
CN103761969B|2014-02-20|2016-09-14|武汉大学|基于高斯混合模型的感知域音频编码方法及系统|
JP6289936B2|2014-02-26|2018-03-07|株式会社東芝|音源方向推定装置、音源方向推定方法およびプログラム|
EP2916319A1|2014-03-07|2015-09-09|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Concept for encoding of information|
EP3648103A1|2014-04-24|2020-05-06|Nippon Telegraph And Telephone Corporation|Frequency domain parameter sequence generating method, decoding method, frequency domain parameter sequence generating apparatus, decoding apparatus, program, and recording medium|
GB2526128A|2014-05-15|2015-11-18|Nokia Technologies Oy|Audio codec mode selector|
CN105225671B|2014-06-26|2016-10-26|华为技术有限公司|编解码方法、装置及系统|
CN104077505A|2014-07-16|2014-10-01|苏州博联科技有限公司|一种提高16Kbps码率音频数据压缩编码音质方法|
RU2669706C2|2014-07-25|2018-10-15|Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.|Устройство кодирования аудиосигнала, устройство декодирования аудиосигнала, способ кодирования аудиосигнала и способ декодирования аудиосигнала|
EP2980801A1|2014-07-28|2016-02-03|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals|
EP2980799A1|2014-07-28|2016-02-03|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Apparatus and method for processing an audio signal using a harmonic post-filter|
CN104269173B|2014-09-30|2018-03-13|武汉大学深圳研究院|切换模式的音频带宽扩展装置与方法|
US10010290B2|2014-11-24|2018-07-03|Samsung Electronics Co., Ltd.|Signal processing apparatus, signal recovery apparatus, signal processing method, and signal recovery method|
US9659578B2|2014-11-27|2017-05-23|Tata Consultancy Services Ltd.|Computer implemented system and method for identifying significant speech frames within speech signals|
EP3067886A1|2015-03-09|2016-09-14|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal|
US10553228B2|2015-04-07|2020-02-04|Dolby International Ab|Audio coding with range extension|
WO2016167215A1|2015-04-13|2016-10-20|日本電信電話株式会社|線形予測符号化装置、線形予測復号装置、これらの方法、プログラム及び記録媒体|
EP3107096A1|2015-06-16|2016-12-21|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Downscaled decoding|
US10134412B2|2015-09-03|2018-11-20|Shure Acquisition Holdings, Inc.|Multiresolution coding and modulation system|
US10573324B2|2016-02-24|2020-02-25|Dolby International Ab|Method and system for bit reservoir control in case of varying metadata|
JPWO2017169890A1|2016-03-31|2019-02-14|ソニー株式会社|情報処理装置および方法|
CN110291583A|2016-09-09|2019-09-27|Dts公司|用于音频编解码器中的长期预测的系统和方法|
US10217468B2|2017-01-19|2019-02-26|Qualcomm Incorporated|Coding of multiple audio signals|
US10573326B2|2017-04-05|2020-02-25|Qualcomm Incorporated|Inter-channel bandwidth extension|
US10734001B2|2017-10-05|2020-08-04|Qualcomm Incorporated|Encoding or decoding of audio signals|
US10565973B2|2018-06-06|2020-02-18|Home Box Office, Inc.|Audio waveform display using mapping function|
CN109215670A|2018-09-21|2019-01-15|西安蜂语信息科技有限公司|音频数据的传输方法、装置、计算机设备和存储介质|
US10645386B1|2019-01-03|2020-05-05|Sony Corporation|Embedded codec circuitry for multiple reconstruction points based quantization|
WO2020171049A1|2019-02-19|2020-08-27|公立大学法人秋田県立大学|音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置|
法律状态:
2011-10-19| RD03| Notification of appointment of power of attorney|Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111018 |
2012-05-09| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
2012-08-07| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120806 |
2012-08-14| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120813 |
2012-09-06| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120905 |
2012-09-13| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120912 |
2012-10-02| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121001 |
2013-03-06| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130305 |
2013-06-05| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130604 |
2013-06-12| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130611 |
2013-07-05| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130704 |
2013-07-24| TRDD| Decision of grant or rejection written|
2013-07-31| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 |
2013-08-29| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130821 |
2013-08-30| R150| Certificate of patent or registration of utility model|Ref document number: 5350393 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
2016-08-16| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2017-08-15| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2018-08-14| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2019-08-13| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2020-08-05| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2021-08-02| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]