日本专利JP2011514016A パイプラインリングバスに接続された異なる帯域幅のプロセシングユニットを有するプロセッサのアーキテクチャにおけるプロセシングユニット間の高速なデータ交換のための制御装置

专利PDF首页>>日本专利

专利附录

专利说明

权利要求

类似技术

同族专利

引用文献

法律状态

优先权

专利摘要:
利用可能なネットワークデータの帯域幅をより効率的に使用する。近年、多くのプロセッサのアーキテクチャは、パイプラインリングバスで接続され、異なる帯域幅要件を持つプロセシングユニットを有している。提案する発明は、低い帯域幅要件のプロセシングユニットを１つのデータ転送用にグループ化し、共通制御することにより、利用可能なバスの帯域幅を最適に使用できるようにするケースに対して、データ転送を最適化することができる。
公开号:JP2011514016A
申请号:JP2010534705
申请日:2008-03-03
公开日:2011-04-28
发明作者:ハンノリースケ；昭倫京
申请人:日本電気株式会社；
IPC主号:H04L12-42

专利说明:

[0001] 本発明は、プロセシングユニット間の高速なデータ交換能力を達成するために、各々が基本帯域幅ＢＢのｘ∈ＩＮ＞０倍の帯域幅で、プロセシングユニットにグループ化されて接続でき、プロセシングユニットは、順次、パイプラインリングバスに配置されるプロセシングエレメントを持つアーキテクチャにおける制御装置に関する。]
背景技術

[0002] 今まで、単一命令、多重データ（ＳＩＭＤ）（特許文献１）や、複数命令、多重データ（ＭＩＭＤ）（特許文献２）の形式で動作する多くのプロセッサが提案されてきた。Ｈ．２６４のような多くの最新のアルゴリズムは、部分的にＳＩＭＤ、部分的にＭＩＭＤの制御形式に従う多くのサブアルゴリズムから構成されている。従って、多くの異なるデュアルモードのＳＩＭＤ／ＭＩＭＤアーキテクチャが開発されてきた（特許文献３〜８、非特許文献１）。しかしながら、全てのこれらのアーキテクチャは、通常、多くの配線面積を必要とする複雑なデータ転送ネットワークを含んでいる。別の方法として、Ｃｅｌｌプロセッサ内部で使用されているものがある。それは、データネットワークとして、パイプラインリングバスを使用しているプロセッサで（非特許文献２）、データ転送ネットワークに必要な配線面積を減らすことができている。]
[0003] 上述の全てのデザインは、一般的には、プロセシングユニット（ＰＵ）が、データ転送ネットワークに対して同じ帯域幅で接続されるようになっている。しかしながら、例えば、Ｈ．２６４のような近年の複雑なアルゴリズムを見てみると、アルゴリズムのある部分は、他の部分よりも高いデータ帯域幅を必要としていることがわかる。また、非特許文献３で説明されている例のような新しく出現したアーキテクチャを見てみると、ＳＩＭＤモードで動作するプロセシングエレメント（ＰＥ）と、ＭＩＭＤモードで動作する４つのＰＥから構成された自律的に動作するプロセシングユニット（ＡＰＵ）とでは、異なるデータ帯域幅で、データ転送ネットワークと接続がされているのを見ることができる。]
[0004] 引用文献を以下に示す。]
[0005] 米国特許第３５３７０７４号明細書
米国特許第４８３７６７６号明細書
米国特許第５２１２７７７号明細書
米国特許第５２３９６５４号明細書
米国特許第５５２２０８３号明細書
米国特許第５９０３７７１号明細書
米国特許第５３５５５０８号明細書
米国特許第６４８７６５１号明細書]
先行技術

[0006] E. Weingold, "Baring it all to software: The Raw Machine",MIT/LCS Technical Report TR-709, March 1997
J. A. Kahle, "Introduction to the Cell multiprocessor", IBM Journal of Research and Development Volume 49, Number 4/5, July/September 2005, p.589
S. Kyo, "A Low Cost Mixed-mode Parallel Processor Architecture for Embedded Systems", ICS, June 2007]
発明が解決しようとする課題

[0007] 以下の分析は、本発明により与えられる。上述の先行技術文献による全ての開示は、引用により本明細書に組み込まれる。]
[0008] 全てのこれらの方法は、転送ネットワークに対して、同じ帯域幅で接続されているか、違う帯域幅で接続されているかにかかわらず、一般的には、１つのソース制御ユニットと、１つのデスティネーション制御ユニットを用いて、各々のデータ転送を、別々に制御する。あるいは、同じデータをブロードキャストする時には、１つのソース制御ユニットと、幾つかのデスティネーション制御ユニットを用いて、各々のデータ転送を別々に制御する。]
[0009] 本発明の目的は、利用可能なネットワークデータの帯域幅をより効率的に使用することである。他の目的は、全開示を通じて、明らかになるであろう。]
課題を解決するための手段

[0010] 低帯域幅接続ＢＬｉの独立に制御されるｉ番目のプロセシングユニットを面積効率よく共通制御することにより、パイプラインリングバス上で、このプロセシングユニットの集合と、より高帯域幅接続ＢＨの１つのプロセシングユニットの間で、以下の条件になるようにデータ転送を行う場合に、最適化がなされる。]
[0011] （ｓｅｔ＝集合）]
[0012] より具体的には、本発明の第１の視点において、基本帯域幅ＢＢのアーキテクチャを持つプロセシングシステムが提供される。そのプロセシングシステムは、基本帯域幅ＢＢの倍数の帯域幅ＢＢＵＳ（但し、（ＢＢＵＳ／ＢＢ）∈ＩＮ＞１）で、リングに形成され、基本帯域幅ＢＢを持った多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続を有している。ここで、”／”は、整数の除算を表し、ＩＮ＞１は１より大きな自然数を表す。より厳密には、帯域幅ＢＢＵＳは、（ＢＢＵＳ％ＢＢ）＝＝０で定義される。ここで、”％”は、剰余演算（modulo operation）を表しており、ＢＢＵＳが、ＢＢの整数倍（multiple）に確実になるようにするためである。]
[0013] 当該システムは、パイプラインリングネットワークと異なる帯域幅接続（ｘＰＥ＊ＢＢ）（但し、ｘＰＥ∈ＩＮ＞０、ＩＮ＞０は自然数を表す。）が可能なプロセシングエレメントと、１つ又は複数（one or several）のプロセシングエレメントから形成され、グループ化されて共通制御され、パイプラインリングネットワークと異なる帯域幅接続（ｘＰＵ＊ＢＢ）（但し、ｘＰＵ∈ＩＮ＞０）するプロセシングユニットと、をさらに有している。システムは、パイプラインリングネットワーク上で等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットで高速データ転送モードを制御する制御装置を有している。]
[0014] 本発明の第２の視点において、基本帯域幅ＢＢを持つアークテクチャを用いた処理方法が提供される。該方法は、基本帯域幅ＢＢの倍数の帯域幅ＢＢＵＳで、（ＢＢＵＳ／ＢＢ）∈ＩＮ＞１（但し、”／”は、整数除算を表し、ＩＮ＞１は１より大きな自然数を表す）で、リングに形成され、基本帯域幅ＢＢを持つ多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続を用意することを含んでいる。該方法は、異なる帯域接続（ｘＰＥ＊ＢＢ）（但し、ｘＰＥ∈ＩＮ＞０で、ＩＮ＞０は、自然数を表す）が可能なプロセシングエレメントをパイプラインリングネットワークに接続すること、グループ化されて共通制御される１つ又は複数のプロセシングエレメントから形成されるプロセシングユニットを、パイプラインリングネットワークに異なる帯域幅接続（ｘＰＵ＊ＢＢ）（但し、ｘＰＵ∈ＩＮ＞０）で、接続すること、をさらに含んでいる。高速データ転送モードは、パイプラインネットワーク上で等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットにより制御される。]
発明の効果

[0015] 本発明の顕著な効果を以下に纏める。]
[0016] 本発明によれば、異なる帯域幅接続の要件を満たし、独立に制御されるプロセシングユニットがパイプラインリングバスに接続されるシステムにおいて、ネットワーク帯域幅は、より効率的に利用できるという積極的効果がある。]
[0017] 本発明のさらに有効な特徴は、従属請求項において記載されている。
プロセシングユニットのうちの任意の１つは、単一命令多重データ（ＳＩＭＤ）形式で動作させることができる。]
[0018] プロセシングシステムは、データフロー制御シーケンス（複数）を実行することにより、複数のプロセシングユニットから来る複数のデータ転送要求を制御し、調停するアクセス制御線を持ったグローバル制御ユニットを、さらに含むことができる。]
[0019] コントローラは、データが１つのプロセシングユニットから多くのプロセシングユニットに対し、送信側と受信側が共に等しい帯域幅Ｂ（但し、下記の条件とする）で、高速データ転送モードで転送されるデータフロー制御シーケンスを実行することができる。
ここで、
ａ．）（Ｂ％ＢＢ）＝＝０、かつ、
ｂ．）（Ｂ／ＢＢ）∈ＩＮ＞１、かつ、
ｃ．）（Ｂ＜＝ＢＢＵＳ）]
[0020] コントローラは、また、データが多くのプロセシングユニットから１つのプロセシングユニットに対し、送信側と受信側が等しい帯域幅Ｂ（但し、下記の条件とする）で、高速データ転送モードで転送されるデータフロー制御シーケンスを実行することができる。ここで、
ａ．）（Ｂ％ＢＢ）＝＝０、かつ、
ｂ．）（Ｂ／ＢＢ）∈ＩＮ＞１、かつ、
ｃ．）（Ｂ＜＝ＢＢＵＳ）]
[0021] プロセシングエレメントの１つ又は複数のグループを、実行時（run time）に、複数のプロセシングユニットに割り当てるようにすることができる。プロセシングエレメント（複数）は、実行時に、ＳＩＭＤまたは非ＳＩＭＤに構成可能である。]
[0022] １つのプロセシングユニットで生成されたデータは、小さい部分に分割され、これらの部分は同時に多数のプロセシングユニットに転送することができる。多数のプロセシングユニットで生成されたデータは、同時に１つのプロセシングユニットに転送され、そこで更なる処理をするために集めることができる。データ及び関連した制御データは、１つのプロセシングユニットで生成された後、分割され、更なる処理が必要とされる異なるプロセシングユニットに、同時に転送することができる。]
図面の簡単な説明

[0023] 図１は、ＧＣＵ、パイプラインリングバス、グループ化されて大きなＰＵとなる１６個のＰＥから構成されるアーキテクチャの一例を示す略図である。
図２は、そのアーキテクチャの一例に関し、データ及びデータフロー制御信号をより詳細に示した図である。
図３は、サポートされている従来の転送モードでのＧＣＵの概略図である。
図４は、サポートされている従来の転送モード及び新しく提案された転送モードでのＧＣＵの概略図である。
図５は、従来の転送モードでのデータの配信転送に関する（比較例における）タイミングチャートである。
図６は、新しく提案された転送モードでのデータの配信転送に関するタイミングチャートの一例である。
図７は、従来の転送モードでのデータ集信転送の（比較例における）タイミングチャートである。
図８は、新しく提案された転送モードでのデータ集信転送のタイミングチャートの一例である。
図９は、従来の転送モードでのデータ転送及び関連した制御信号の（比較例における）タイミングチャートである。
図１０は、新しく提案された転送モードでのデータの転送及び関連した制御信号のタイミングチャートの一例である。] 図１図１０図２図３図４図５図６図７図８図９
[0024] 図１は、グローバル制御ユニット（ＧＣＵ）（１０１）、１６個のプロセシングエレメント（ＰＥ）（１０２）のアレイ、レジスタＲ（１０４）を持つリング（１０３）に形成された一方向のパイプラインバスシステムを持ったアーキテクチャ実装の一例である。このアーキテクチャ例は、実行時に設定が変更可能（configurable）で、ここに示したのは１つの可能な設定例であり、下部の８個のＰＥが、１つのプロセシングユニット（ＰＵ）にグループ化されていて、ＧＣＵ（１０６）によって制御される単一命令多重データ（ＳＩＭＤ）形式で動作する。上部の８個のＰＥは、また、より大きなユニットで自律的に動作する複数のプロセシングユニット（ＡＰＵ）（１０５）にグループ化される。この例では、２個のＰＥの２セットによりＡＰＵ（ＡＰＵ０とＡＰＵ１）が構成され、４個のＰＥの１セットによりＡＰＵ２が構成される。基本帯域幅ＢＢは、１個のＰＥがバスシステムＢＢ＝ＢＰＥに接続されるときの帯域幅と等しい。これにより、ＡＰＵ０、ＡＰＵ１に対しては、ＢＡＰＵ０＝ＢＡＰＵ１＝２＊ＢＢの帯域幅となり、ＡＰＵ２に対しては、ＢＡＰＵ２＝４＊ＢＢの帯域幅となる。このアーキテクチャ例では、全データ帯域を持つＡＰＵ２を提供するために、パイプラインリングバスは、また、ＧＣＵと同様に、ＢＢＵＳ＝ＢＧＣＵ＝４＊ＢＢの帯域を持っている。] 図１
[0025] 図２は、各々のＰＵとパイプラインリングバスを帯域幅ＢＢＵＳ＝４＊ＢＢ（２０１）で接続するアーキテクチャ例を、より詳細に示している。リングバスと同じ帯域を持っている複数のモジュールは、固定的に接続される（２０２）が、他の全てのユニットは、マルチプレクサ（データ送信の場合）や、デマルチプレクサ（データ受信の場合）（２０３）を介してリングバスと接続される。ここで、リングバスは、全リングバス帯域幅でのアクセスを可能にするため、データフロー制御ユニット（ＤＦＣＴＲＬ）から制御される。この種のアーキテクチャによる従来のデータ転送は、以下の条件を満たす。
ａ．）データ転送の帯域幅は、転送に関わる全てのユニット（送信側のＰＵ、ネットワーク、受信側のＰＵ）でサポートされる最小の帯域幅に設定される。
ｂ．）データは、１つの送信側のＰＵから送信される。
ｃ．）データワードは、１つの受信側ＰＵで受信されるか、あるいは、ブロードキャストモードの場合には、同じデータワードが、多くの受信側ＰＵで受信される。] 図２
[0026] さらに、複数の制御線（２０４）が、ＧＣＵとプロセシングユニット（ＰＵ）の間に示されている。１つのＡＰＵに対し、これらの制御線を介して、２種類の信号が送信される。１つ目は、ＡＰＵＤＦＣＴＲＬからＧＣＵに転送されるリクエストパラメータである。２つ目は、ＧＣＵからＡＰＵＤＦＣＴＲＬに転送されるマルチプレクサの設定を含むアクノリッジパラメータである。ＳＩＭＤＰＵ内のＰＥアレイに対しては、その制御は、ＧＣＵ内部のＳＩＭＤＤＦＣＴＲＬでなされ、マルチプレクサの設定のみが、ＧＣＵからＰＥアレイ（すなわち、ＰＥの各々）に送信される。]
[0027] 図３は、サポートされている従来の転送モードでのＧＣＵの概略図である。ＧＣＵは２つのユニットを含んでおり、その１つは、ＳＩＭＤＤＦＣＴＲＬユニット（３０２）で、グローバル制御されるＰＥアレイから出入りするデータの流れを制御する役目を担っており、２つ目は、ＭＡＩＮＤＦＣＴＲＬユニット（３０１）であり、全てのＤＦＣＴＲＬからのデータ転送リクエスト信号を受信し、ある正しい時刻に、リクエストしているＤＦＣＴＲＬに、アクノリッジパラメータを送信することにより、データ転送の仕方（ないし方法 way）を指示する。サポートされている従来の２つの転送モードは、「１対１」（３０３）と、「１対ｎｂｃ」（３０４）の転送モードである。「１対１」転送モードでは、データは１つの送信側ＤＦＣＴＲＬと１つの受信側ＤＦＣＴＲＬにより制御されて送信がなされるのに対し、「１対ｎｂｃ」転送モードでは、同じデータが、１つの送信側ＤＦＣＴＲＬと多くの受信側ＤＦＣＴＲＬにより制御されてブロードキャストモードで送信がなされる。] 図３
[0028] 図４は、サポートされている従来の転送モード及び新しく提案された転送モードを有するＧＣＵの概略図である。従来の２つの転送モード「１対１」、「１対ｎｂｃ」に加えて、さらに、２つの新しい転送モード「１対ｎ」（４０１）、「ｎ対１」（４０２）がサポートされる。「１対ｎ」転送モードでは、同じ時刻に異なるデータが、１つの送信側ＤＦＣＴＲＬと多くの受信側ＤＦＣＴＲＬにより制御されて転送される。一方、「ｎ対１」転送モードでは、同じ時刻に異なるデータが、多くの送信側ＤＦＣＴＲＬと、１つの受信側ＤＦＣＴＲＬにより制御されて転送される。] 図４
[0029] これらの新しい転送モードが効果的に使用される典型的な種類のアルゴリズム（複数）は、データが１つのＰＵで生成された後、その出力データが、小さな部分（parts）に分割されて、他のＰＵに送信される場合（データ配信data spreading）、あるいは、多数のＰＵがデータを生成した後、更なる処理のために、当該データが、それらのＰＵから１つのＰＵに転送される場合（データ集信data collection）である。我々のアーキテクチャによるデータ配信転送の例では、ＡＰＵ２が、出力データとして、ビット帯域ＢＢの１６データワードを生成している。この出力データは、各々、８データワードを必要とするＡＰＵ０とＡＰＵ１の入力データとして要求される。]
[0030] 従来のアーキテクチャの場合、図５に示すように、その転送は、各々のクロックサイクルで、２つのデータワードを転送することにより、リングバス帯域の半分のみを使用する。ここで、両方の転送は、最初のＡＰＵ２からＡＰＵ０への８データワードの転送と、その後のＡＰＵ２からＡＰＵ１への８データワードの転送を、交互に実行する。その転送における転送先ユニットは、アドレス信号の上位ビットで指定される。ＧＣＵ＝０ｘ０、ＡＰＵ０＝０ｘ１、ＡＰＵ１＝０ｘ２、ＡＰＵ２＝０ｘ４、ＰＥアレイ＝０ｘ８。信号間のエッジの関係については、図５〜１０で示した矢印を参照されたい。] 図１０図５図６図７図８図９
[0031] 図５の５０３で表しているように、０ｘ１０００と０ｘ２０００は、アドレス信号と制御信号が結合した信号である。最後の１２ｂｉｔは、アドレスで、最初のほうのビットは、転送先ユニットを指定する制御信号である。ここで、０ｘ１０００は、ＡＰＵ０のアドレス０を意味し、０ｘ２０００はＡＰＵ１のアドレス０を意味している。まず、リクエストが転送先アドレスを持ったＡＰＵ２からＭＡＩＮＤＦＣＴＲＬに送信される。このタイミングで、ＭＡＩＮＤＦＣＴＲＬは、アクノリッジ信号を送信し、リクエストは除去される。さらに、２つの制御信号が、”１”に設定される。信号ＳＴＡＰＵ２は、ＡＰＵ２がデータをリングバスに置くようにし、信号ＢＵＳ＿ＳＦＴは、データをリングバス上にシフトさせる。ＳＴＡＰＵ２は１に設定されるので、ＡＰＵ２ＤＡＴＡは、ＡＰＵ２からリングバスに置かれる。そのデータが、パイプラインレジスタを通って、ＡＰＵ２ＡＤＲで定義される転送先ユニットに到達したとき、信号ＬＤＡＰＵ０、ＬＤＡＰＵ１は各々、１に設定されて、データはバスから読み出される。ＡＰＵ２からＡＰＵ０／ＡＰＵ１までの途中にある４つのパイプラインレジスタＲ２、Ｒ３、Ｒ４、Ｒ０で、合計１６クロックサイクルがかかる。] 図５
[0032] 図６を参照すると、新しく提案した転送シーケンス「１対ｎ」（図４の４０１）を用いた場合、リングバスの全帯域を用いて、クロックサイクル毎に４データワードを転送することにより、データをＡＰＵ２からＡＰＵ０とＡＰＵ１に、同時に送信することができる。同時送信は、アドレス信号ＡＰＵ２ＡＤＲの上位４ビットにおいて、両方の転送ビットを同時に選択することにより、ＡＰＵ２から起動される。図６におけるＡＰＵ２ＡＤＲの「０ｘ３０００」は、アドレス信号と制御信号が結合されたもので、ＡＰＵ０とＡＰＵ１のアドレス０を意味する。これにより、クロックサイクル数は、１０まで減少する。] 図４図６
[0033] 図７を参照すると、従来のアーキテクチャにおいて、ＡＰＵ０とＡＰＵ１の並列データ処理の最後にＡＰＵ２へデータ集信転送をする場合、データは、ＡＰＵ２に対して順番に転送されなければならない。ここでは、まず、ＡＰＵ０からのデータが、次に、ＡＰＵ１からのデータが転送され、それらは、１３クロックサイクルになる。まず、ＡＰＵ０とＡＰＵ１は、信号ＡＰＵ０ＲＥＱとＡＰＵ１ＲＥＱを”１”に設定し、転送先アドレスＡＰＵ０ＡＤＲ、ＡＰＵ１ＡＤＲの上位４ビットを４（ＡＰＵ２）に設定することにより、ＡＰＵ２へのデータ転送を要求する。各々のユニットは、リングバス上でデータ転送をスタートさせるＭＡＩＮＤＦＣＴＲＬユニットからのアクノリッジ信号を待っている。従来のアーキテクチャでは、これらのアクノリッジ信号は、交互にやって来る。それにより、この例で示したように、最初にＡＰＵ０、次にＡＰＵ１が、データをＡＰＵ２に転送することができる。] 図７
[0034] 図８を参照すると、新しく提案した転送シーケンス「ｎ対１」を用いた場合、この転送を並列に行うことができる。これは、パイプラインリングバスに必要なクロックサイクル数を７まで減少させる。このアーキテクチャは、多重ソースの転送制御をサポートしているため、この並列転送が、可能なのである。] 図８
[0035] 新しく提案された転送モード「１対ｎ」が効果的に使用されるもう一つの典型的な種類のアルゴリズムは、データとそれに関連した制御信号が１つのＰＵで生成され、その後、その出力データが、異なるＰＵで更に処理されなければならないデータと制御信号に分割される場合である。
例えば、ＡＰＵ２は、１６ワードの出力データを生成し、それらは、表１で示すように使用される。]
[0036] ]
[0037] 図９を参照すると、従来のアーキテクチャの場合、転送は、各クロックサイクルで２データワードを転送することで、リングバス帯域の半分だけを使用しているだけであり、ここで、２つの転送は、まず、ＡＰＵ２からＳＩＭＤＰＥアレイに８データワードを転送し、その後、ＡＰＵ２からＡＰＵ０に８ワードを転送することにより、交互に実行される。プロセシングユニット間のパイプラインレジスタで、これは、全部で１６クロックサイクルかかる。] 図９
実施例

[0038] 図１０を参照すると、新しく提案された転送シーケンスを用いた場合、リングバスの全帯域を使用して、データをクロックサイクルごとに、４データワード転送することによって、ＡＰＵ２からＳＩＭＤＰＥアレイとＡＰＵ０に、同時に送信することができる。これは、必要なクロックサイクル数を１０まで、減少する。] 図１０
[0039] 本発明は、組み込みシステムにおいて、低コストで高パフォーマンスのプロセッサデザインを実現するのに利用することができる。
本発明のその他の目的、特徴、および視点は、全開示（請求の範囲を含む）に表されていることに留意されたい。また、開示した本発明及び添付した請求の範囲に記載された主旨及び範囲に捉われることなく、変更・調整が可能である。
また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。]
[0040] １０１：グローバル制御ユニット（ＧＣＵ）
１０２：プロセシングエレメントＰＥ
１０３：パイプラインリングバス
１０４：リングバスレジスタ
１０５：複数のＰＥで構成される自律動作を行うプロセシングユニット（ＡＰＵ）
１０６：ＰＥアレイで形成され、ＧＣＵで制御され、ＳＩＭＤ形式で動作するプロセシングユニット
２０１：帯域がＢＢＵＳ＝４＊ＢＢであるパイプラインリングバス
２０２：ＰＵとパイプラインリングバス間の帯域ＢＢＵＳ＝４＊ＢＢでの固定化接続。
２０３：ＰＵとパイプラインリングバス間のデータ帯域ｘ＊ＢＢの多重化接続、ここで、ｘ∈ＩＮ＞０
２０４：データフロー制御信号（線）
２０５：ＡＰＵデータフロー制御ユニットＡＰＵＤＦＣＴＲＬ
３０１：メインデータフロー制御ユニットＭＡＩＮＤＦＣＴＲＬ
３０２：ＳＩＭＤデータフロー制御ユニットＳＩＭＤＤＦＣＴＲＬ
３０３：メインＤＦＣＴＲＬがサポートしている「１対１」シーケンス。ここに、データは、１つの送信かつ１つの受信ＤＦＣＴＲＬ制御により送信される。
３０４：メインＤＦＣＴＲＬがサポートしている「１対ｎｂｃ」シーケンス。ここに、同じデータが１つの送信かつ多くの受信ＤＦＣＴＲＬの制御により、ブロードキャストモードで送信される。
４０１：メインＤＦＣＴＲＬがサポートしている「１対ｎ」シーケンス。ここに、異なるデータが、１つの送信かつ多くの受信ＤＦＣＴＲＬの制御で同時に送信される。
４０２：メインＤＦＣＴＲＬがサポートしている「ｎ対１」シーケンス。
５０１：ＡＰＵから送信されるデータ転送の要求信号
５０２：ＭＡＩＮＤＦＣＴＲＬから送信されるデータ転送アクノリッジ信号
５０３：転送先ユニットを指定するアドレス信号の上位ビット：ＧＣＵ＝０ｘ０、ＡＰＵ０＝０ｘ１、ＡＰＵ１＝０ｘ２、ＡＰＵ２＝０ｘ４、ＳＩＭＤＰＥアレイ＝０ｘ８
５０４：ＭＡＩＮＤＦＣＴＲＬから送信されるバスシフト信号
５０５：インデックスされたＤＦＣＴＲＬから送信されるロードマルチプレクサ制御信号
５０６：インデックスされたＤＦＣＴＲＬから送信されるストアマルチプレクサ制御信号]

权利要求:

請求項1
基本帯域幅ＢＢの倍数の帯域幅ＢＢＵＳで、（ＢＢＵＳ／ＢＢ）∈ＩＮ＞１(但し、”／”は整数除算を表し、ＩＮ＞１は、１より大きな自然数を表す)で、リングに形成され、基本帯域幅ＢＢを持つ多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続と、前記パイプラインリングネットワークに異なる帯域幅接続（ｘＰＥ＊ＢＢ）（但し、ｘＰＥ∈ＩＮ＞０で、ＩＮ＞０は自然数を表す）が可能なプロセシングエレメントと、グループ化されて共通制御される１つ又は複数のプロセシングエレメントから形成され、前記パイプラインネットワークと異なる帯域幅接続（ｘＰＵ＊ＢＢ）（但し、ｘＰＵ∈ＩＮ＞０）されるプロセシングユニットと、前記パイプラインリングネットワーク上で等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットで高速データ転送モードを制御する制御装置と、を有することを特徴とする基本帯域幅ＢＢのアーキテクチャを有するプロセシングシステム。
請求項2
前記プロセシングユニットは、単一命令多重データ（ＳＩＭＤ）形式で動作することが可能なことを特徴とする請求項１に記載のプロセシングシステム。
請求項3
アクセス制御線を持ち、データフロー制御シーケンスを実行することにより、前記プロセシングユニットから来るデータ転送要求の制御及び調停を行うグローバル制御ユニットをさらに含むことを特徴とする請求項１または２に記載のプロセシングシステム。
請求項4
前記制御ユニットは、データフローシーケンスの実行を含み、データが高速転送モードで、１つの前記プロセシングユニットから、多くの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Ｂで、ａ．）（Ｂ％ＢＢ）＝＝０、かつ、ｂ．）（Ｂ／ＢＢ）∈ＩＮ＞１、かつ、ｃ．）（Ｂ＜＝ＢＢＵＳ）で、転送されることを特徴とする請求項３に記載のプロセシングシステム。
請求項5
前記制御ユニットは、データフローシーケンスの実行を含み、データが高速転送モードで、多くの前記プロセシングユニットから、１つの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Ｂで、ａ．）（Ｂ％ＢＢ）＝＝０、かつ、ｂ．）（Ｂ／ＢＢ）∈ＩＮ＞１、かつ、ｃ．）（Ｂ＜＝ＢＢＵＳ）で、転送されることを特徴とする請求項３に記載のプロセシングシステム。
請求項6
プロセシングエレメントの複数のグループが、実行時に、プロセシングユニットに割り当てられることが可能であることを特徴とする請求項４または５に記載のプロセシングシステム。
請求項7
複数のプロセシングエレメントは、実行時に、前記ＳＩＭＤまたは非ＳＩＭＤ形式に構成可能であることを特徴とする請求項６に記載のプロセシングシステム。
請求項8
基本帯域幅ＢＢのアーキテクチャを用いた処理方法であって、基本帯域幅ＢＢの倍数の帯域幅ＢＢＵＳで、（ＢＢＵＳ／ＢＢ）∈ＩＮ＞１（但し、”／”は、整数除算を表し、ＩＮ＞１は、１より大きな自然数を表す）で、リングに形成され、基本帯域幅ＢＢを持つ多重データセットを同時に転送する可能性を実現するためのパイプラインネットワーク接続を用意すること、異なる帯域幅接続（ｘＰＥ＊ＢＢ）（但し、ｘＰＥ∈ＩＮ＞０で、ＩＮ＞０は自然数を表す）が可能なプロセシングエレメントを前記パイプラインリングネットワークに接続すること、グループ化されて共通制御される１つ又は複数のプロセシングエレメントから形成されるプロセシングユニットを、前記パイプラインリングネットワーク及び制御装置に異なる帯域幅接続（ｘＰＵ＊ＢＢ）（但し、ｘＰＵ∈ＩＮ＞０）で接続すること、前記制御装置は、前記パイプラインリングネットワーク上の等しいか等しくない数の送信プロセシングユニットと受信プロセシングユニットで、高速データ転送モードを制御すること、を特徴とする処理方法。
請求項9
前記プロセシングユニットは、単一命令多重データ（ＳＩＭＤ）形式で動作することが可能であることを特徴とする請求項８に記載の処理方法。
請求項10
データフロー制御シーケンスを実行することにより、前記複数のプロセシングユニットから来るデータ転送要求を制御し、調停することを、さらに含むことを特徴とする請求項８または９に記載の処理方法。
請求項11
前記制御は、データフローシーケンスの実行を含み、データが高速転送モードで、１つの前記プロセシングユニットから、多くの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Ｂで、ａ．）（Ｂ％ＢＢ）＝＝０、かつ、ｂ．）（Ｂ／ＢＢ）∈ＩＮ＞１、かつ、ｃ．）（Ｂ＜＝ＢＢＵＳ）で、転送されることを特徴とする請求項１０に記載の処理方法。
請求項12
前記制御は、データフローシーケンスの実行を含み、データが高速転送モードで、多くの前記プロセシングユニットから、１つの前記プロセシングユニットに、送信側と受信側で等しい帯域幅Ｂで、ａ．）（Ｂ％ＢＢ）＝＝０、かつ、ｂ．）（Ｂ／ＢＢ）∈ＩＮ＞１、かつ、ｃ．）（Ｂ＜＝ＢＢＵＳ）で、転送されることを特徴とする請求項１０に記載の処理方法。
請求項13
プロセシングエレメントのグループは、実行時に、複数のプロセシングユニットに割り当てられることが可能であることを特徴とする請求項１１または１２に記載の処理方法。
請求項14
複数のプロセシングエレメントは、実行時に、前記ＳＩＭＤまたは非ＳＩＭＤ形式に構成可能であることを特徴とする請求項１３に記載の処理方法。
請求項15
１つのプロセシングユニットで生成されたデータが、多数のプロセシングユニットに同時に転送される小さな部分に分割されることを特徴とする請求項８乃至１４のいずれか１項に記載の処理方法。
請求項16
多数のプロセシングユニットで生成されたデータが、１つのプロセシングユニットに、同時に転送され、更なる処理のために集められることを特徴とする請求項８乃至１４のいずれか１項に記載の処理方法。
請求項17
データ及び関連する制御データが、１つのプロセシングユニットで生成された後に分割され、更なる処理のために必要とされる異なるプロセシングユニットに、同時に転送されることを特徴とする請求項８乃至１４のいずれか１項に記載の処理方法。

类似技术:
公开号 | 公开日 | 专利标题
US8677081B1|2014-03-18|Transferring and storing data in multicore and multiprocessor architectures
US9100349B2|2015-08-04|User selectable multiple protocol network interface device
DE112006000282B4|2013-06-27|Abgleich von Datenpaketen für Mehrpunktverbindungen in einem mehrstufigen Schaltsystem
US5502719A|1996-03-26|Path allocation system and method having double link list queues implemented with a digital signal processor | for a high performance fiber optic switch
US8588228B1|2013-11-19|Nonvolatile memory controller with host controller interface for retrieving and dispatching nonvolatile memory commands in a distributed manner
KR0142186B1|1998-08-17|Atm 시스템용 스위칭네트워크 및 스위칭네트워크 모듈
US8725915B2|2014-05-13|Virtual buffer interface methods and apparatuses for use in wireless devices
KR100840140B1|2008-06-23|메모리 허브 메모리 모듈들을 사용하여 데이터 전송들을조직화하는 시스템 및 방법
US7072996B2|2006-07-04|System and method of transferring data between a processing engine and a plurality of bus types using an arbiter
US8010751B2|2011-08-30|Data forwarding engine
US5559969A|1996-09-24|Method and apparatus for efficiently interfacing variable width data streams to a fixed width memory
US7231469B2|2007-06-12|Disk controller
US6795886B1|2004-09-21|Interconnect switch method and apparatus
US6052738A|2000-04-18|Method and apparatus in a packet routing switch for controlling access at different data rates to a shared memory
US6501761B1|2002-12-31|Modular network switch with peer-to-peer address mapping communication
KR101665035B1|2016-10-24|서버 노드 상호 연결 디바이스 및 방법
CN1279469C|2006-10-11|一种处理器中处理数据的方法和处理数据的系统
CN100549992C|2009-10-14|可减少延迟的数据传送与接收方法与系统
JP2004005382A|2004-01-08|データ転送装置および方法
US5675736A|1997-10-07|Multi-node network with internode switching performed within processor nodes, each node separately processing data and control messages
US8352628B2|2013-01-08|Method for transferring data from a source target to a destination target, and corresponding network interface
US20140095748A1|2014-04-03|Reconfigurable hardware structures for functional pipelining of on-chip special purpose functions
CN101540727B|2012-05-09|一种ip报文的硬件分流方法
KR100611860B1|2006-08-11|기능 파이프라인 시스템, 데이터 전송 방법 및 컴퓨터 판독 가능한 매체
WO2011126190A1|2011-10-13|네트워크 효율성을 고려한 ＳｏＣ 기반 시스템 네트워크 프로토콜

同族专利:
公开号 | 公开日
EP2266046A1|2010-12-29|
US8683106B2|2014-03-25|
JP5402938B2|2014-01-29|
AT535870T|2011-12-15|
EP2266046B1|2011-11-30|
WO2009110100A1|2009-09-11|
US20110010526A1|2011-01-13|

引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题

法律状态:
2012-11-14| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
2013-01-16| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
2013-07-10| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130709 |
2013-09-10| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130909 |
2013-10-02| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
2013-11-07| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131014 |
2016-11-08| LAPS| Cancellation because of no payment of annual fees|

优先权:
申请号 | 申请日 | 专利标题

[返回顶部]

相关专利
Sulfonates, polymers, resist compositions and patterning process Washing machine Washing machine Device for fixture finishing and tension adjusting of membrane Structure for Equipping Band in a Plane Cathode Ray Tube Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an

国家/地区