专利摘要:
利用可能なネットワークデータの帯域幅をより効率的に使用する。近年、多くのプロセッサのアーキテクチャは、パイプラインリングバスで接続され、異なる帯域幅要件を持つプロセシングユニットを有している。提案する発明は、低い帯域幅要件のプロセシングユニットを1つのデータ転送用にグループ化し、共通制御することにより、利用可能なバスの帯域幅を最適に使用できるようにするケースに対して、データ転送を最適化することができる。
公开号:JP2011514016A
申请号:JP2010534705
申请日:2008-03-03
公开日:2011-04-28
发明作者:ハンノ リースケ;昭倫 京
申请人:日本電気株式会社;
IPC主号:H04L12-42
专利说明:

[0001] 本発明は、プロセシングユニット間の高速なデータ交換能力を達成するために、各々が基本帯域幅BBのx∈IN>0倍の帯域幅で、プロセシングユニットにグループ化されて接続でき、プロセシングユニットは、順次、パイプラインリングバスに配置されるプロセシングエレメントを持つアーキテクチャにおける制御装置に関する。]
背景技術

[0002] 今まで、単一命令、多重データ(SIMD)(特許文献1)や、複数命令、多重データ(MIMD)(特許文献2)の形式で動作する多くのプロセッサが提案されてきた。H.264のような多くの最新のアルゴリズムは、部分的にSIMD、部分的にMIMDの制御形式に従う多くのサブアルゴリズムから構成されている。従って、多くの異なるデュアルモードのSIMD/MIMDアーキテクチャが開発されてきた(特許文献3〜8、非特許文献1)。しかしながら、全てのこれらのアーキテクチャは、通常、多くの配線面積を必要とする複雑なデータ転送ネットワークを含んでいる。別の方法として、Cellプロセッサ内部で使用されているものがある。それは、データネットワークとして、パイプラインリングバスを使用しているプロセッサで(非特許文献2)、データ転送ネットワークに必要な配線面積を減らすことができている。]
[0003] 上述の全てのデザインは、一般的には、プロセシングユニット(PU)が、データ転送ネットワークに対して同じ帯域幅で接続されるようになっている。しかしながら、例えば、H.264のような近年の複雑なアルゴリズムを見てみると、アルゴリズムのある部分は、他の部分よりも高いデータ帯域幅を必要としていることがわかる。また、非特許文献3で説明されている例のような新しく出現したアーキテクチャを見てみると、SIMDモードで動作するプロセシングエレメント(PE)と、MIMDモードで動作する4つのPEから構成された自律的に動作するプロセシングユニット(APU)とでは、異なるデータ帯域幅で、データ転送ネットワークと接続がされているのを見ることができる。]
[0004] 引用文献を以下に示す。]
[0005] 米国特許第3537074号明細書
米国特許第4837676号明細書
米国特許第5212777号明細書
米国特許第5239654号明細書
米国特許第5522083号明細書
米国特許第5903771号明細書
米国特許第5355508号明細書
米国特許第6487651号明細書]
先行技術

[0006] E. Weingold, "Baring it all to software: The Raw Machine",MIT/LCS Technical Report TR-709, March 1997
J. A. Kahle, "Introduction to the Cell multiprocessor", IBM Journal of Research and Development Volume 49, Number 4/5, July/September 2005, p.589
S. Kyo, "A Low Cost Mixed-mode Parallel Processor Architecture for Embedded Systems", ICS, June 2007]
発明が解決しようとする課題

[0007] 以下の分析は、本発明により与えられる。上述の先行技術文献による全ての開示は、引用により本明細書に組み込まれる。]
[0008] 全てのこれらの方法は、転送ネットワークに対して、同じ帯域幅で接続されているか、違う帯域幅で接続されているかにかかわらず、一般的には、1つのソース制御ユニットと、1つのデスティネーション制御ユニットを用いて、各々のデータ転送を、別々に制御する。あるいは、同じデータをブロードキャストする時には、1つのソース制御ユニットと、幾つかのデスティネーション制御ユニットを用いて、各々のデータ転送を別々に制御する。]
[0009] 本発明の目的は、利用可能なネットワークデータの帯域幅をより効率的に使用することである。他の目的は、全開示を通じて、明らかになるであろう。]
課題を解決するための手段

[0010] 低帯域幅接続BLiの独立に制御されるi番目のプロセシングユニットを面積効率よく共通制御することにより、パイプラインリングバス上で、このプロセシングユニットの集合と、より高帯域幅接続BHの1つのプロセシングユニットの間で、以下の条件になるようにデータ転送を行う場合に、最適化がなされる。]
[0011] (set=集合)]
[0012] より具体的には、本発明の第1の視点において、基本帯域幅BBのアーキテクチャを持つプロセシングシステムが提供される。そのプロセシングシステムは、基本帯域幅BBの倍数の帯域幅BBUS(但し、(BBUS/BB)∈IN>1)で、リングに形成され、基本帯域幅BBを持った多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続を有している。ここで、”/”は、整数の除算を表し、IN>1は1より大きな自然数を表す。より厳密には、帯域幅BBUSは、(BBUS%BB)==0で定義される。ここで、”%”は、剰余演算(modulo operation)を表しており、BBUSが、BBの整数倍(multiple)に確実になるようにするためである。]
[0013] 当該システムは、パイプラインリングネットワークと異なる帯域幅接続(xPE*BB)(但し、xPE∈IN>0、IN>0は自然数を表す。)が可能なプロセシングエレメントと、1つ又は複数(one or several)のプロセシングエレメントから形成され、グループ化されて共通制御され、パイプラインリングネットワークと異なる帯域幅接続(xPU*BB)(但し、xPU∈IN>0)するプロセシングユニットと、をさらに有している。システムは、パイプラインリングネットワーク上で等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットで高速データ転送モードを制御する制御装置を有している。]
[0014] 本発明の第2の視点において、基本帯域幅BBを持つアークテクチャを用いた処理方法が提供される。該方法は、基本帯域幅BBの倍数の帯域幅BBUSで、(BBUS/BB)∈IN>1 (但し、”/”は、整数除算を表し、IN>1は1より大きな自然数を表す)で、リングに形成され、基本帯域幅BBを持つ多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続を用意することを含んでいる。該方法は、異なる帯域接続(xPE*BB)(但し、xPE∈IN>0で、IN>0は、自然数を表す)が可能なプロセシングエレメントをパイプラインリングネットワークに接続すること、グループ化されて共通制御される1つ又は複数のプロセシングエレメントから形成されるプロセシングユニットを、パイプラインリングネットワークに異なる帯域幅接続(xPU*BB)(但し、xPU∈IN>0)で、接続すること、をさらに含んでいる。高速データ転送モードは、パイプラインネットワーク上で等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットにより制御される。]
発明の効果

[0015] 本発明の顕著な効果を以下に纏める。]
[0016] 本発明によれば、異なる帯域幅接続の要件を満たし、独立に制御されるプロセシングユニットがパイプラインリングバスに接続されるシステムにおいて、ネットワーク帯域幅は、より効率的に利用できるという積極的効果がある。]
[0017] 本発明のさらに有効な特徴は、従属請求項において記載されている。
プロセシングユニットのうちの任意の1つは、単一命令多重データ(SIMD)形式で動作させることができる。]
[0018] プロセシングシステムは、データフロー制御シーケンス(複数)を実行することにより、複数のプロセシングユニットから来る複数のデータ転送要求を制御し、調停するアクセス制御線を持ったグローバル制御ユニットを、さらに含むことができる。]
[0019] コントローラは、データが1つのプロセシングユニットから多くのプロセシングユニットに対し、送信側と受信側が共に等しい帯域幅B(但し、下記の条件とする)で、高速データ転送モードで転送されるデータフロー制御シーケンスを実行することができる。
ここで、
a.)(B%BB)==0、かつ、
b.)(B/BB)∈IN>1、かつ、
c.)(B<=BBUS)]
[0020] コントローラは、また、データが多くのプロセシングユニットから1つのプロセシングユニットに対し、送信側と受信側が等しい帯域幅B(但し、下記の条件とする)で、高速データ転送モードで転送されるデータフロー制御シーケンスを実行することができる。ここで、
a.)(B%BB)==0、かつ、
b.)(B/BB)∈IN>1、かつ、
c.)(B<=BBUS)]
[0021] プロセシングエレメントの1つ又は複数のグループを、実行時(run time)に、複数のプロセシングユニットに割り当てるようにすることができる。プロセシングエレメント(複数)は、実行時に、SIMDまたは非SIMDに構成可能である。]
[0022] 1つのプロセシングユニットで生成されたデータは、小さい部分に分割され、これらの部分は同時に多数のプロセシングユニットに転送することができる。多数のプロセシングユニットで生成されたデータは、同時に1つのプロセシングユニットに転送され、そこで更なる処理をするために集めることができる。データ及び関連した制御データは、1つのプロセシングユニットで生成された後、分割され、更なる処理が必要とされる異なるプロセシングユニットに、同時に転送することができる。]
図面の簡単な説明

[0023] 図1は、GCU、パイプラインリングバス、グループ化されて大きなPUとなる16個のPEから構成されるアーキテクチャの一例を示す略図である。
図2は、そのアーキテクチャの一例に関し、データ及びデータフロー制御信号をより詳細に示した図である。
図3は、サポートされている従来の転送モードでのGCUの概略図である。
図4は、サポートされている従来の転送モード及び新しく提案された転送モードでのGCUの概略図である。
図5は、従来の転送モードでのデータの配信転送に関する(比較例における)タイミングチャートである。
図6は、新しく提案された転送モードでのデータの配信転送に関するタイミングチャートの一例である。
図7は、従来の転送モードでのデータ集信転送の(比較例における)タイミングチャートである。
図8は、新しく提案された転送モードでのデータ集信転送のタイミングチャートの一例である。
図9は、従来の転送モードでのデータ転送及び関連した制御信号の(比較例における)タイミングチャートである。
図10は、新しく提案された転送モードでのデータの転送及び関連した制御信号のタイミングチャートの一例である。] 図1 図10 図2 図3 図4 図5 図6 図7 図8 図9
[0024] 図1は、グローバル制御ユニット(GCU)(101)、16個のプロセシングエレメント(PE)(102)のアレイ、レジスタR(104)を持つリング(103)に形成された一方向のパイプラインバスシステムを持ったアーキテクチャ実装の一例である。このアーキテクチャ例は、実行時に設定が変更可能(configurable)で、ここに示したのは1つの可能な設定例であり、下部の8個のPEが、1つのプロセシングユニット(PU)にグループ化されていて、GCU(106)によって制御される単一命令多重データ(SIMD)形式で動作する。上部の8個のPEは、また、より大きなユニットで自律的に動作する複数のプロセシングユニット(APU)(105)にグループ化される。この例では、2個のPEの2セットによりAPU(APU0とAPU1)が構成され、4個のPEの1セットによりAPU2が構成される。基本帯域幅BBは、1個のPEがバスシステムBB=BPEに接続されるときの帯域幅と等しい。これにより、APU0、APU1に対しては、BAPU0=BAPU1=2*BBの帯域幅となり、APU2に対しては、BAPU2=4*BBの帯域幅となる。このアーキテクチャ例では、全データ帯域を持つAPU2を提供するために、パイプラインリングバスは、また、GCUと同様に、BBUS=BGCU=4*BBの帯域を持っている。] 図1
[0025] 図2は、各々のPUとパイプラインリングバスを帯域幅BBUS=4*BB(201)で接続するアーキテクチャ例を、より詳細に示している。リングバスと同じ帯域を持っている複数のモジュールは、固定的に接続される(202)が、他の全てのユニットは、マルチプレクサ(データ送信の場合)や、デマルチプレクサ(データ受信の場合)(203)を介してリングバスと接続される。ここで、リングバスは、全リングバス帯域幅でのアクセスを可能にするため、データフロー制御ユニット(DFCTRL)から制御される。この種のアーキテクチャによる従来のデータ転送は、以下の条件を満たす。
a.)データ転送の帯域幅は、転送に関わる全てのユニット(送信側のPU、ネットワーク、受信側のPU)でサポートされる最小の帯域幅に設定される。
b.)データは、1つの送信側のPUから送信される。
c.)データワードは、1つの受信側PUで受信されるか、あるいは、ブロードキャストモードの場合には、同じデータワードが、多くの受信側PUで受信される。] 図2
[0026] さらに、複数の制御線(204)が、GCUとプロセシングユニット(PU)の間に示されている。1つのAPUに対し、これらの制御線を介して、2種類の信号が送信される。1つ目は、APUDFCTRLからGCUに転送されるリクエストパラメータである。2つ目は、GCUからAPU DFCTRLに転送されるマルチプレクサの設定を含むアクノリッジパラメータである。SIMD PU内のPEアレイに対しては、その制御は、GCU内部のSIMD DFCTRLでなされ、マルチプレクサの設定のみが、GCUからPEアレイ(すなわち、PEの各々)に送信される。]
[0027] 図3は、サポートされている従来の転送モードでのGCUの概略図である。GCUは2つのユニットを含んでおり、その1つは、SIMDDFCTRLユニット(302)で、グローバル制御されるPEアレイから出入りするデータの流れを制御する役目を担っており、2つ目は、MAIN DFCTRLユニット(301)であり、全てのDFCTRLからのデータ転送リクエスト信号を受信し、ある正しい時刻に、リクエストしているDFCTRLに、アクノリッジパラメータを送信することにより、データ転送の仕方(ないし方法 way)を指示する。サポートされている従来の2つの転送モードは、「1対1」(303)と、「1対n bc」(304)の転送モードである。「1対1」転送モードでは、データは1つの送信側DFCTRLと1つの受信側DFCTRLにより制御されて送信がなされるのに対し、「1対n bc」転送モードでは、同じデータが、1つの送信側DFCTRLと多くの受信側DFCTRLにより制御されてブロードキャストモードで送信がなされる。] 図3
[0028] 図4は、サポートされている従来の転送モード及び新しく提案された転送モードを有するGCUの概略図である。従来の2つの転送モード「1対1」、「1対n bc」に加えて、さらに、2つの新しい転送モード「1対n」(401)、「n対1」(402)がサポートされる。「1対n」転送モードでは、同じ時刻に異なるデータが、1つの送信側DFCTRLと多くの受信側DFCTRLにより制御されて転送される。一方、「n対1」転送モードでは、同じ時刻に異なるデータが、多くの送信側DFCTRLと、1つの受信側DFCTRLにより制御されて転送される。] 図4
[0029] これらの新しい転送モードが効果的に使用される典型的な種類のアルゴリズム(複数)は、データが1つのPUで生成された後、その出力データが、小さな部分(parts)に分割されて、他のPUに送信される場合(データ配信data spreading)、あるいは、多数のPUがデータを生成した後、更なる処理のために、当該データが、それらのPUから1つのPUに転送される場合(データ集信data collection)である。我々のアーキテクチャによるデータ配信転送の例では、APU2が、出力データとして、ビット帯域BBの16データワードを生成している。この出力データは、各々、8データワードを必要とするAPU0とAPU1の入力データとして要求される。]
[0030] 従来のアーキテクチャの場合、図5に示すように、その転送は、各々のクロックサイクルで、2つのデータワードを転送することにより、リングバス帯域の半分のみを使用する。ここで、両方の転送は、最初のAPU2からAPU0への8データワードの転送と、その後のAPU2からAPU1への8データワードの転送を、交互に実行する。その転送における転送先ユニットは、アドレス信号の上位ビットで指定される。GCU = 0x0、APU0=0x1、APU1=0x2、APU2=0x4、PEアレイ=0x8。信号間のエッジの関係については、図5〜10で示した矢印を参照されたい。] 図10 図5 図6 図7 図8 図9
[0031] 図5の503で表しているように、0x1000と0x2000は、アドレス信号と制御信号が結合した信号である。最後の12bitは、アドレスで、最初のほうのビットは、転送先ユニットを指定する制御信号である。ここで、0x1000は、APU0のアドレス0を意味し、0x2000はAPU1のアドレス0を意味している。まず、リクエストが転送先アドレスを持ったAPU2からMAINDFCTRLに送信される。このタイミングで、MAIN DFCTRLは、アクノリッジ信号を送信し、リクエストは除去される。さらに、2つの制御信号が、”1”に設定される。信号STAPU2は、APU2がデータをリングバスに置くようにし、信号BUS_SFTは、データをリングバス上にシフトさせる。STAPU2は1に設定されるので、APU2DATAは、APU2からリングバスに置かれる。そのデータが、パイプラインレジスタを通って、APU2ADRで定義される転送先ユニットに到達したとき、信号LDAPU0、LDAPU1は各々、1に設定されて、データはバスから読み出される。APU2からAPU0/APU1までの途中にある4つのパイプラインレジスタR2、R3、R4、R0で、合計16クロックサイクルがかかる。] 図5
[0032] 図6を参照すると、新しく提案した転送シーケンス「1対n」(図4の401)を用いた場合、リングバスの全帯域を用いて、クロックサイクル毎に4データワードを転送することにより、データをAPU2からAPU0とAPU1に、同時に送信することができる。同時送信は、アドレス信号APU2ADRの上位4ビットにおいて、両方の転送ビットを同時に選択することにより、APU2から起動される。図6におけるAPU2ADRの「0x3000」は、アドレス信号と制御信号が結合されたもので、APU0とAPU1のアドレス0を意味する。これにより、クロックサイクル数は、10まで減少する。] 図4 図6
[0033] 図7を参照すると、従来のアーキテクチャにおいて、APU0とAPU1の並列データ処理の最後にAPU2へデータ集信転送をする場合、データは、APU2に対して順番に転送されなければならない。ここでは、まず、APU0からのデータが、次に、APU1からのデータが転送され、それらは、13クロックサイクルになる。まず、APU0とAPU1は、信号APU0REQとAPU1REQを”1”に設定し、転送先アドレスAPU0ADR、APU1ADRの上位4ビットを4(APU2)に設定することにより、APU2へのデータ転送を要求する。各々のユニットは、リングバス上でデータ転送をスタートさせるMAINDFCTRLユニットからのアクノリッジ信号を待っている。従来のアーキテクチャでは、これらのアクノリッジ信号は、交互にやって来る。それにより、この例で示したように、最初にAPU0、次にAPU1が、データをAPU2に転送することができる。] 図7
[0034] 図8を参照すると、新しく提案した転送シーケンス「n対1」を用いた場合、この転送を並列に行うことができる。これは、パイプラインリングバスに必要なクロックサイクル数を7まで減少させる。このアーキテクチャは、多重ソースの転送制御をサポートしているため、この並列転送が、可能なのである。] 図8
[0035] 新しく提案された転送モード「1対n」が効果的に使用されるもう一つの典型的な種類のアルゴリズムは、データとそれに関連した制御信号が1つのPUで生成され、その後、その出力データが、異なるPUで更に処理されなければならないデータと制御信号に分割される場合である。
例えば、APU2は、16ワードの出力データを生成し、それらは、表1で示すように使用される。]
[0036] ]
[0037] 図9を参照すると、従来のアーキテクチャの場合、転送は、各クロックサイクルで2データワードを転送することで、リングバス帯域の半分だけを使用しているだけであり、ここで、2つの転送は、まず、APU2からSIMDPEアレイに8データワードを転送し、その後、APU2からAPU0に8ワードを転送することにより、交互に実行される。プロセシングユニット間のパイプラインレジスタで、これは、全部で16クロックサイクルかかる。] 図9
実施例

[0038] 図10を参照すると、新しく提案された転送シーケンスを用いた場合、リングバスの全帯域を使用して、データをクロックサイクルごとに、4データワード転送することによって、APU2からSIMDPEアレイとAPU0に、同時に送信することができる。これは、必要なクロックサイクル数を10まで、減少する。] 図10
[0039] 本発明は、組み込みシステムにおいて、低コストで高パフォーマンスのプロセッサデザインを実現するのに利用することができる。
本発明のその他の目的、特徴、および視点は、全開示(請求の範囲を含む)に表されていることに留意されたい。また、開示した本発明及び添付した請求の範囲に記載された主旨及び範囲に捉われることなく、変更・調整が可能である。
また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。]
[0040] 101:グローバル制御ユニット(GCU)
102:プロセシングエレメントPE
103:パイプラインリングバス
104:リングバスレジスタ
105:複数のPEで構成される自律動作を行うプロセシングユニット(APU)
106:PEアレイで形成され、GCUで制御され、SIMD形式で動作するプロセシングユニット
201:帯域がBBUS=4*BBであるパイプラインリングバス
202:PUとパイプラインリングバス間の帯域BBUS=4*BBでの固定化接続。
203:PUとパイプラインリングバス間のデータ帯域x*BBの多重化接続、ここで、x∈IN>0
204:データフロー制御信号(線)
205:APUデータフロー制御ユニットAPUDFCTRL
301:メインデータフロー制御ユニットMAIN DFCTRL
302:SIMDデータフロー制御ユニットSIMD DFCTRL
303:メインDFCTRLがサポートしている「1対1」シーケンス。ここに、データは、1つの送信かつ1つの受信DFCTRL制御により送信される。
304:メインDFCTRLがサポートしている「1対n bc」シーケンス。ここに、同じデータが1つの送信かつ多くの受信DFCTRLの制御により、ブロードキャストモードで送信される。
401:メインDFCTRLがサポートしている「1対n」シーケンス。ここに、異なるデータが、1つの送信かつ多くの受信DFCTRLの制御で同時に送信される。
402:メインDFCTRLがサポートしている「n対1」シーケンス。
501:APUから送信されるデータ転送の要求信号
502:MAIN DFCTRLから送信されるデータ転送アクノリッジ信号
503:転送先ユニットを指定するアドレス信号の上位ビット:GCU = 0x0、APU0=0x1、APU1=0x2、APU2=0x4、SIMD PEアレイ=0x8
504:MAIN DFCTRLから送信されるバスシフト信号
505:インデックスされたDFCTRLから送信されるロードマルチプレクサ制御信号
506:インデックスされたDFCTRLから送信されるストアマルチプレクサ制御信号]
权利要求:

請求項1
基本帯域幅BBの倍数の帯域幅BBUSで、(BBUS/BB)∈IN>1(但し、”/”は整数除算を表し、IN>1は、1より大きな自然数を表す)で、リングに形成され、基本帯域幅BBを持つ多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続と、前記パイプラインリングネットワークに異なる帯域幅接続(xPE*BB)(但し、xPE∈IN>0で、IN>0は自然数を表す)が可能なプロセシングエレメントと、グループ化されて共通制御される1つ又は複数のプロセシングエレメントから形成され、前記パイプラインネットワークと異なる帯域幅接続(xPU*BB)(但し、xPU∈IN>0)されるプロセシングユニットと、前記パイプラインリングネットワーク上で等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットで高速データ転送モードを制御する制御装置と、を有することを特徴とする基本帯域幅BBのアーキテクチャを有するプロセシングシステム。
請求項2
前記プロセシングユニットは、単一命令多重データ(SIMD)形式で動作することが可能なことを特徴とする請求項1に記載のプロセシングシステム。
請求項3
アクセス制御線を持ち、データフロー制御シーケンスを実行することにより、前記プロセシングユニットから来るデータ転送要求の制御及び調停を行うグローバル制御ユニットをさらに含むことを特徴とする請求項1または2に記載のプロセシングシステム。
請求項4
前記制御ユニットは、データフローシーケンスの実行を含み、データが高速転送モードで、1つの前記プロセシングユニットから、多くの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Bで、a.)(B%BB)==0、かつ、b.)(B/BB)∈IN>1、かつ、c.)(B<=BBUS)で、転送されることを特徴とする請求項3に記載のプロセシングシステム。
請求項5
前記制御ユニットは、データフローシーケンスの実行を含み、データが高速転送モードで、多くの前記プロセシングユニットから、1つの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Bで、a.)(B%BB)==0、かつ、b.)(B/BB)∈IN>1、かつ、c.)(B<=BBUS)で、転送されることを特徴とする請求項3に記載のプロセシングシステム。
請求項6
プロセシングエレメントの複数のグループが、実行時に、プロセシングユニットに割り当てられることが可能であることを特徴とする請求項4または5に記載のプロセシングシステム。
請求項7
複数のプロセシングエレメントは、実行時に、前記SIMDまたは非SIMD形式に構成可能であることを特徴とする請求項6に記載のプロセシングシステム。
請求項8
基本帯域幅BBのアーキテクチャを用いた処理方法であって、基本帯域幅BBの倍数の帯域幅BBUSで、(BBUS/BB)∈IN>1(但し、”/”は、整数除算を表し、IN>1は、1より大きな自然数を表す)で、リングに形成され、基本帯域幅BBを持つ多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続を用意すること、異なる帯域幅接続(xPE*BB)(但し、xPE∈IN>0で、IN>0は自然数を表す)が可能なプロセシングエレメントを前記パイプラインリングネットワークに接続すること、グループ化されて共通制御される1つ又は複数のプロセシングエレメントから形成されるプロセシングユニットを、前記パイプラインリングネットワーク及び制御装置に異なる帯域幅接続(xPU*BB)(但し、xPU∈IN>0)で接続すること、前記制御装置は、前記パイプラインリングネットワーク上の等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットで、高速データ転送モードを制御すること、を特徴とする処理方法。
請求項9
前記プロセシングユニットは、単一命令多重データ(SIMD)形式で動作することが可能であることを特徴とする請求項8に記載の処理方法。
請求項10
データフロー制御シーケンスを実行することにより、前記複数のプロセシングユニットから来るデータ転送要求を制御し、調停することを、さらに含むことを特徴とする請求項8または9に記載の処理方法。
請求項11
前記制御は、データフローシーケンスの実行を含み、データが高速転送モードで、1つの前記プロセシングユニットから、多くの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Bで、a.)(B%BB)==0、かつ、b.)(B/BB)∈IN>1、かつ、c.)(B<=BBUS)で、転送されることを特徴とする請求項10に記載の処理方法。
請求項12
前記制御は、データフローシーケンスの実行を含み、データが高速転送モードで、多くの前記プロセシングユニットから、1つの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Bで、a.)(B%BB)==0、かつ、b.)(B/BB)∈IN>1、かつ、c.)(B<=BBUS)で、転送されることを特徴とする請求項10に記載の処理方法。
請求項13
プロセシングエレメントのグループは、実行時に、複数のプロセシングユニットに割り当てられることが可能であることを特徴とする請求項11または12に記載の処理方法。
請求項14
複数のプロセシングエレメントは、実行時に、前記SIMDまたは非SIMD形式に構成可能であることを特徴とする請求項13に記載の処理方法。
請求項15
1つのプロセシングユニットで生成されたデータが、多数のプロセシングユニットに同時に転送される小さな部分に分割されることを特徴とする請求項8乃至14のいずれか1項に記載の処理方法。
請求項16
多数のプロセシングユニットで生成されたデータが、1つのプロセシングユニットに、同時に転送され、更なる処理のために集められることを特徴とする請求項8乃至14のいずれか1項に記載の処理方法。
請求項17
データ及び関連する制御データが、1つのプロセシングユニットで生成された後に分割され、更なる処理のために必要とされる異なるプロセシングユニットに、同時に転送されることを特徴とする請求項8乃至14のいずれか1項に記載の処理方法。
类似技术:
公开号 | 公开日 | 专利标题
US8677081B1|2014-03-18|Transferring and storing data in multicore and multiprocessor architectures
US9100349B2|2015-08-04|User selectable multiple protocol network interface device
DE112006000282B4|2013-06-27|Abgleich von Datenpaketen für Mehrpunktverbindungen in einem mehrstufigen Schaltsystem
US5502719A|1996-03-26|Path allocation system and method having double link list queues implemented with a digital signal processor | for a high performance fiber optic switch
US8588228B1|2013-11-19|Nonvolatile memory controller with host controller interface for retrieving and dispatching nonvolatile memory commands in a distributed manner
KR0142186B1|1998-08-17|Atm 시스템용 스위칭네트워크 및 스위칭네트워크 모듈
US8725915B2|2014-05-13|Virtual buffer interface methods and apparatuses for use in wireless devices
KR100840140B1|2008-06-23|메모리 허브 메모리 모듈들을 사용하여 데이터 전송들을조직화하는 시스템 및 방법
US7072996B2|2006-07-04|System and method of transferring data between a processing engine and a plurality of bus types using an arbiter
US8010751B2|2011-08-30|Data forwarding engine
US5559969A|1996-09-24|Method and apparatus for efficiently interfacing variable width data streams to a fixed width memory
US7231469B2|2007-06-12|Disk controller
US6795886B1|2004-09-21|Interconnect switch method and apparatus
US6052738A|2000-04-18|Method and apparatus in a packet routing switch for controlling access at different data rates to a shared memory
US6501761B1|2002-12-31|Modular network switch with peer-to-peer address mapping communication
KR101665035B1|2016-10-24|서버 노드 상호 연결 디바이스 및 방법
CN1279469C|2006-10-11|一种处理器中处理数据的方法和处理数据的系统
CN100549992C|2009-10-14|可减少延迟的数据传送与接收方法与系统
JP2004005382A|2004-01-08|データ転送装置および方法
US5675736A|1997-10-07|Multi-node network with internode switching performed within processor nodes, each node separately processing data and control messages
US8352628B2|2013-01-08|Method for transferring data from a source target to a destination target, and corresponding network interface
US20140095748A1|2014-04-03|Reconfigurable hardware structures for functional pipelining of on-chip special purpose functions
CN101540727B|2012-05-09|一种ip报文的硬件分流方法
KR100611860B1|2006-08-11|기능 파이프라인 시스템, 데이터 전송 방법 및 컴퓨터 판독 가능한 매체
WO2011126190A1|2011-10-13|네트워크 효율성을 고려한 SoC 기반 시스템 네트워크 프로토콜
同族专利:
公开号 | 公开日
EP2266046A1|2010-12-29|
US8683106B2|2014-03-25|
JP5402938B2|2014-01-29|
AT535870T|2011-12-15|
EP2266046B1|2011-11-30|
WO2009110100A1|2009-09-11|
US20110010526A1|2011-01-13|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
2012-11-14| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
2013-01-16| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
2013-07-10| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130709 |
2013-09-10| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130909 |
2013-10-02| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
2013-11-07| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131014 |
2016-11-08| LAPS| Cancellation because of no payment of annual fees|
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]