B.43. ベクトルデータ読み出し・変換関数

戻る		次へ

B.43.1. ベクトルload関数

表B.118 表：ロードと保存

関数	解説
gentypen vloadn( size_t offset, const global gentype p) gentypen vloadn( size_t offset, const local gentype p) gentypen vloadn( size_t offset, const constant gentype p) gentypen vloadn( size_t offset, const private gentype p)	`sizeof(gentypen)` バイトのデータ `（p + (offset * n)` のアドレスで読み込み）を返します。 gentypeがcharまたは ucharのときは、 `(p + (offset * n))` として計算されるアドレスは8-bitとして揃う(アラインメントをとる)必要があります。 gentypeがshortまたは ushortのときは、 16-bit長で揃えます。 int、uint、floatのときは、32-bit長で揃えます。long、ulong、 doubleのときは、64-bit 長で揃えます。 vloadnはアラインメントのとれてないベクトルのロードに使います。
void vstoren( gentypen data, size_t offset, global gentype p) void vstoren( gentypen data, size_t offset, local gentype p) void vstoren( gentypen data, size_t offset, private gentype *p)	sizeof(gentypen) のデータを `(p + (offset * n))` のアドレスに書き込みます。 gentypeがcharまたは ucharのときは、 `(p + (offset * n))` として計算されるアドレスは8-bitとして揃う(アラインメントをとる)必要があります。 gentypeがshortまたは ushortのときは、 16-bit長で揃えます。 int、uint、floatのときは、32-bit長で揃えます。 long、ulong、double のときは、64-bit長で揃えます。 vstorenはアラインメントのとれてないベクトルの書き込みに使います。
floatn vload_halfn( size_t offset, const global half p) floatn vload_halfn( size_t offset, const local half p) floatn vload_halfn(size_t offset, const constant half p) floatn vload_halfn(size_t offset, const private half p)	sizeof(halfn)バイトのデータ`（p + (offset * n)` のアドレスで読み込み）を返します。読み込んだデータはhalfn として解釈されます。そしてhalfnの値はfloatnに変換され、floatnの値が返されます。 `（p + (offset * n)` のアドレスは、16-bit長で揃える必要があります。 vload_halfnはアラインメントのとれてないベクトルのロードをし、floatのベクトルを返します。
void vstore_half( float data, size_t offset, global half p) void vstore_half_rte( float data, size_t offset, global half p) void vstore_half_rtz( float data, size_t offset, global half p) void vstore_half_rtp( float data, size_t offset, global half p) void vstore_half_rtn( float data, size_t offset, global half p) void vstore_half( float data, size_t offset, local half p) void vstore_half_rte( float data, size_t offset, local half p) void vstore_half_rtz( float data, size_t offset, local half p) void vstore_half_rtp( float data, size_t offset, local half p) void vstore_half_rtn( float data, size_t offset, local half p) void vstore_half( float data, size_t offset, private half p) void vstore_half_rte( float data, size_t offset, private half p) void vstore_half_rtz( float data, size_t offset, private half p) void vstore_half_rtp( float data, size_t offset, private half p) void vstore_half_rtn( float data, size_t offset, private half *p)	適当な丸めモードを使い dataはhalfに変換されます。 half値は`(p + offset)` のメモリーアドレスに書き込まれます。 `(p + offset)`は16-bit 長にそろえる必要があります。 vstore_halfの既定の丸めモードは、最近接偶数への丸め (round to the nearest even、接尾が_rte) です。
void vstore_halfn( floatn data, size_t offset, global half p) void vstore_halfn_rte( floatn data, size_t offset, global half p) void vstore_halfn_rtz( floatn data, size_t offset, global half p) void vstore_halfn_rtp( floatn data, size_t offset, global half p) void vstore_halfn_rtn( floatn data, size_t offset, global half p) void vstore_halfn( floatn data, size_t offset, local half p) void vstore_halfn_rte( floatn data, size_t offset, local half p) void vstore_halfn_rtz( floatn data, size_t offset, local half p) void vstore_halfn_rtp( floatn data, size_t offset, local half p) void vstore_halfn_rtn( floatn data, size_t offset, local half p) void vstore_halfn( floatn data, size_t offset, private half p) void vstore_halfn_rte( floatn data, size_t offset, private half p) void vstore_halfn_rtz( floatn data, size_t offset, private half p) void vstore_halfn_rtp( floatn data, size_t offset, private half p) void vstore_halfn_rtn( floatn data, size_t offset, private half *p)	適当な丸めモードを使い floatn型のdataはhalfn に変換されます。halfnの値は`(p + (offset * n))` のメモリーアドレスに書き込まれます。 `（p + (offset * n)`のアドレスは、16-bit長で揃える必要があります。 vstore_halfnの既定の丸めモードは、最近接偶数への丸め (round to the nearest even、接尾が_rte) です。
floatn vloada_halfn( size_t offset, const global half p) floatn vloada_halfn( size_t offset, const local half p) floatn vloada_halfn( size_t offset, const constant half p) floatn vloada_halfn( size_t offset, const private half p)	`n = 1,2,4,8,16`のとき、 `(p + (offset * n))` のアドレスのデータを `sizeof(halfn)`バイト読み込みます。アドレスは `sizeof(halfn)`をアラインメントをとる必要があります。 `n = 3`のときは、 `(p + (offset * 4))`のアドレスからhalf3のデータを読み込みます。アドレスは `sizeof(half) * 4`とアラインメントをとる必要があります。読み込まれたデータはhalfn の値として解釈され、halfn の値はfloatnに変換され、返されます。 vloada_halfnはアライメントがとれたベクトルのロードをし、floatのベクトルを返します。
void vstorea_halfn( floatn data, size_t offset, global half p) void vstorea_halfn_rte( floatn data, size_t offset, global half p) void vstorea_halfn_rtz( floatn data, size_t offset, global half p) void vstorea_halfn_rtp( floatn data, size_t offset, global half p) void vstorea_halfn_rtn( floatn data, size_t offset, global half p) void vstorea_halfn( floatn data, size_t offset, local half p) void vstorea_halfn_rte( floatn data, size_t offset, local half p) void vstorea_halfn_rtz( floatn data, size_t offset, local half p) void vstorea_halfn_rtp( floatn data, size_t offset, local half p) void vstorea_halfn_rtn( floatn data, size_t offset, local half p) void vstorea_halfn( floatn data, size_t offset, private half p) void vstorea_halfn_rte( floatn data, size_t offset, private half p) void vstorea_halfn_rtz( floatn data, size_t offset, private half p) void vstorea_halfn_rtp( floatn data, size_t offset, private half p) void vstorea_halfn_rtn( floatn data, size_t offset, private half *p)	適当な丸めモードでfloatn のデータがhalfnに変換されます。 `n = 1,2,4,8,16`のとき、 halfnの値が `(p + (offset * n))` のアドレスに書き込まれます。アドレスは`sizeof(halfn)` をアラインメントをとる必要があります。 `n = 3`のときは、halfn の値を`(p + (offset * 4))` のアドレスに書き込みます。アドレスは `sizeof(half) * 4`バイトとアラインメントをとる必要があります。 vstorea_halfnの既定の丸めモードは、最近接偶数への丸め (round to the nearest even、接尾が_rte) です。
void vstore_half( double data, size_t offset, global half p) void vstore_half_rte( double data, size_t offset, global half p) void vstore_half_rtz( double data, size_t offset, global half p) void vstore_half_rtp( double data, size_t offset, global half p) void vstore_half_rtn( double data, size_t offset, global half p) void vstore_half( double data, size_t offset, local half p) void vstore_half_rte( double data, size_t offset, local half p) void vstore_half_rtz( double data, size_t offset, local half p) void vstore_half_rtp( double data, size_t offset, local half p) void vstore_half_rtn( double data, size_t offset, local half p) void vstore_half( double data, size_t offset, private half p) void vstore_half_rte( double data, size_t offset, private half p) void vstore_half_rtz( double data, size_t offset, private half p) void vstore_half_rtp( double data, size_t offset, private half p) void vstore_half_rtn( double data, size_t offset, private half *p)	適当な丸めモードを使い double型のdataはhalfに変換されます。halfの値は `(p + offset)`のメモリーアドレスに書き込まれます。 `（p + offset)`のアドレスは、16-bit長で揃える必要があります。 vstore_halfの既定の丸めモードは、最近接偶数への丸め (round to the nearest even、接尾が _rte) です。
void vstore_halfn( doublen data, size_t offset, global half p) void vstore_halfn_rte( doublen data, size_t offset, global half p) void vstore_halfn_rtz( doublen data, size_t offset, global half p) void vstore_halfn_rtp( doublen data, size_t offset, global half p) void vstore_halfn_rtn( doublen data, size_t offset, global half p) void vstore_halfn( doublen data, size_t offset, local half p) void vstore_halfn_rte( doublen data, size_t offset, local half p) void vstore_halfn_rtz( doublen data, size_t offset, local half p) void vstore_halfn_rtp( doublen data, size_t offset, local half p) void vstore_halfn_rtn( doublen data, size_t offset, local half p) void vstore_halfn( doublen data, size_t offset, private half p) void vstore_halfn_rte( doublen data, size_t offset, private half p) void vstore_halfn_rtz( doublen data, size_t offset, private half p) void vstore_halfn_rtp( doublen data, size_t offset, private half p) void vstore_halfn_rtn( doublen data, size_t offset, private half *p)	適当な丸めモードを使い doublen型のdataはhalfn に変換されます。halfn の値は `(p + (offset * n))` のメモリーアドレスに書き込まれます。 `（p + (offset * n)` のアドレスは、16-bit長で揃える必要があります。 vstore_halfnの既定の丸めモードは、最近接偶数への丸め (round to the nearest even、接尾が_rte) です。
void vstorea_halfn( doublen data, size_t offset, global half p) void vstorea_halfn_rte( doublen data, size_t offset, global half p) void vstorea_halfn_rtz( doublen data, size_t offset, global half p) void vstorea_halfn_rtp( doublen data, size_t offset, global half p) void vstorea_halfn_rtn( doublen data, size_t offset, global half p) void vstorea_halfn( doublen data, size_t offset, local half p) void vstorea_halfn_rte( doublen data, size_t offset, local half p) void vstorea_halfn_rtz( doublen data, size_t offset, local half p) void vstorea_halfn_rtp( doublen data, size_t offset, local half p) void vstorea_halfn_rtn( doublen data, size_t offset, local half p) void vstorea_halfn( doublen data, size_t offset, private half p) void vstorea_halfn_rte( doublen data, size_t offset, private half p) void vstorea_halfn_rtz( doublen data, size_t offset, private half p) void vstorea_halfn_rtp( doublen data, size_t offset, private half p) void vstorea_halfn_rtn( doublen data, size_t offset, private half *p)	適当な丸めモードで doublenのdataは halfnに変換されます。 `n = 1,2,4,8,16`のとき、halfnの値が `(p + (offset * n))` のアドレスに書き込まれます。アドレスは sizeof(halfn)をアラインメントをとる必要があります。 `n = 3`のときは、halfn の値を `(p + (offset * 4))` のアドレスに書き込みます。アドレスは `sizeof(half) * 4` バイトとアラインメントをとる必要があります。 vstorea_halfnの既定の丸めモードは、最近接偶数への丸め (round to the nearest even、接尾が_rte) です。

B.43.2. 同期関数

表B.119 表：同期関数

関数	詳細
void barrier ( cl_mem_fence_flags flags)	カーネルを実行するワークグループ内のワークアイテムは、その他の全てのワークアイテムがバリアーを超えた処理（バリアー関数の後に記述された処理）に進むために、この関数を実行する必要があります。この関数はカーネルを実行する全てのワークアイテムによって呼び出されます。バリアーが条件文の中にあるときは、全てのワークアイテムは条件文を通過する必要があります。バリアーがループ内にあるときは、バリアーを超えて次の反復処理に遷移するまえに全てのワークアイテムは前の反復処理を終了する必要があります。バリアー関数はメモリフェンス（Memory Fence）をキューにいれて、ローカルメモリーまたはグローバルメモリー領域においてメモリ操作の順序性を確保します。 flags引数はメモリーアドレス領域を指定します。 flagsには以下２つのリテラルを設定できます。 CLK_LOCAL_MEM_FENCE：関数はローカルメモリーの変数をフラッシュするか、メモリーフェンスをキューにいれて、ローカルメモリー領域においてメモリ操作の順序性を確保します。 CLK_GLOBAL_MEM_FENCE：メモリーフェンスをキューにいれて、グローバルメモリー領域においてメモリ操作の順序性を確保します。例えばワークアイテムがバッファーやイメージに書き込みして、更新したデータを読み込む際に使うことができます。

関数

詳細

void barrier (
    cl_mem_fence_flags flags)

カーネルを実行する
ワークグループ内のワーク
アイテムは、その他の
全てのワークアイテムが
バリアーを超えた処理
（バリアー関数の後に
記述された処理）に進む
ために、この関数を実行
する必要があります。この
関数はカーネルを実行する
全てのワークアイテムに
よって呼び出されます。

バリアーが条件文の中に
あるときは、全てのワーク
アイテムは条件文を通過
する必要があります。

バリアーがループ内にある
ときは、バリアーを超え
て次の反復処理に遷移する
まえに全てのワークアイ
テムは前の反復処理を終了
する必要があります。

バリアー関数はメモリフェ
ンス（Memory Fence）を
キューにいれて、ローカル
メモリーまたはグローバ
ルメモリー領域においてメ
モリ操作の順序性を確保
します。

flags引数はメモリーアド
レス領域を指定します。
flagsには以下２つのリ
テラルを設定できます。

CLK_LOCAL_MEM_FENCE：
関数はローカルメモリー
の変数をフラッシュする
か、メモリーフェンスを
キューにいれて、ローカ
ルメモリー領域において
メモリ操作の順序性を
確保します。

CLK_GLOBAL_MEM_FENCE：
メモリーフェンスをキュー
にいれて、グローバルメ
モリー領域においてメモ
リ操作の順序性を確保し
ます。例えばワークアイ
テムがバッファーやイメ
ージに書き込みして、
更新したデータを読み込
む際に使うことができま
す。

B.43.3. 明示的メモリフェンス関数

表B.120 表：メモリフェンス関数

関数	詳細
void mem_fence ( cl_mem_fence_flags flags)	カーネルを実行するワークアイテムのロードや保存の前後の順序を整列させます。これはメモリーフェンスの後に記述されたロードや保存が行われる前に、ロードや保存はメモリーにコミットされることを意味します。 flags引数はメモリーアドレス領域を指定し、以下の２つのリテラル値を適用することができます。 CLK_LOCAL_MEM_FENCE CLK_GLOBAL_MEM_FENCE
void read_mem_fence ( cl_mem_fence_flags flags)	ロード（読み込み）のみを整列します。 flags引数はメモリーアドレス領域を指定し、以下の２つのリテラル値を適用することができます。 CLK_LOCAL_ MEM_FENCE CLK_GLOBAL_ MEM_FENCE
void write_mem_fence ( cl_mem_fence_flags flags)	保存（書き込み）のみを整列します。 CLK_LOCAL_ MEM_FENCE CLK_GLOBAL_ MEM_FENCE

関数

詳細

void mem_fence (
    cl_mem_fence_flags flags)

カーネルを実行する
ワークアイテムのロー
ドや保存の前後の順序を
整列させます。これは
メモリーフェンスの後
に記述されたロードや保
存が行われる前に、ロード
や保存はメモリーに
コミットされることを意
味します。

flags引数はメモリー
アドレス領域を指定し、
以下の２つのリテラル
値を適用することが
できます。

CLK_LOCAL_MEM_FENCE
CLK_GLOBAL_MEM_FENCE

void read_mem_fence (
    cl_mem_fence_flags flags)

ロード（読み込み）
のみを整列します。

flags引数はメモリー
アドレス領域を指定し、
以下の２つのリテラル
値を適用することが
できます。

CLK_LOCAL_
MEM_FENCE

CLK_GLOBAL_
MEM_FENCE

void write_mem_fence (
    cl_mem_fence_flags flags)

保存（書き込み）
のみを整列します。

CLK_LOCAL_
MEM_FENCE
CLK_GLOBAL_
MEM_FENCE

B.43.4. 非同期複製・先読み関数

表B.121 表：非同期ワークグループ関数

関数	詳細
event_t async_work_group_copy ( __local gentype dst, const __global gentype src, size_t num_gentypes, event_t event) event_t async_work_group_copy ( __global gentype dst, const __local gentype src, size_t num_gentypes, event_t event)	num_gentypes数の gentype要素を、srcから dstに非同期コピーします。非同期コピーはワークグループ内の全てのワークアイテムによって行われます。非同期コピーの終了を待機するwait_group_events で使うイベントオブジェクト (event_t)を返します。 event引数を指定すると、それ以前に使ったasync_ work_group_copyと関連づけることができますが、関連させない場合はeventは0とします。 event引数が0でない場合は、event引数にいれたイベントオブジェクトが返されます。この関数はコピーをする前にbarrierを使うときとは異なり、非明示的なソースデータの同期はおこないません。
event_t async_work_group_strided_copy ( __local gentype dst, const __global gentype src, size_t num_gentypes, size_t src_stride, event_t event) event_t async_work_group_strided_copy ( __global gentype dst, const __local gentype src, size_t num_gentypes, size_t dst_stride, event_t event)	num_gentypes数の gentype要素を、srcからdstに非同期採集（gather）します。src_strideは、 srcから読み込んだ gentype型の要素内のストライドを指します。 dst_strideはdstに書き込まれるgentype型の要素内のストライドを指します。非同期コピーの終了を待機する wait_group_eventsで使うイベントオブジェクト (event_t)を返します。 event引数を指定すると、それ以前に使ったasync_ work_group_copyと関連づけることができますが、関連させない場合はevent は0とします。 event引数が0でない場合は、 event引数にいれたイベントオブジェクトが返されます。この関数はコピーをする前にbarrierを使うときとは異なり、非明示的なソースデータの同期はおこないません。 src_strideまたは dst_strideが0に指定されたときの戻り値は未定義です。 src_strideまたは dst_strideが、src またはdstポインタのコピー時のアドレス領域の上限を超えるときも未定義となります。
void wait_group_events ( int num_events, event_t *event_list)	async_work_group_ copyが処理を完了することを照合するイベントの待機をします。 event_list引数で指定したイベントオブジェクトは待機後に解放されます。
void prefetch ( const __global gentype *p, size_t num_gentypes)	num_gentypes * sizeof(gentype) バイトをグローバルキャッシュにプリフェッチ（先取り）します。

B.43.5. アトミック関数

表B.122 表：アトミック関数

関数	詳細
int atomic_add ( volatile __global int p, int val) unsigned int atomic_add ( volatile __global unsigned int p, unsigned int val) int atomic_add ( volatile __local int p, int val) unsigned int atomic_add ( volatile __local unsigned int p, unsigned int val)	ポインタpが指すアドレスで32-bitの値（oldと呼称）を読みこみ、次に`(old + val)`を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。
int atomic_sub ( volatile __global int p, int val) unsigned int atomic_sub ( volatile __global unsigned int p, unsigned int val) int atomic_sub (volatile __local int p, int val) unsigned int atomic_sub ( volatile __local unsigned int p, unsigned int val)	ポインタpが指すアドレスで32-bitの値（oldと呼称）を読みこみ、次に`(old - val)` を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。
int atomic_xchg ( volatile __global int p, int val) unsigned int atomic_xchg ( volatile __global unsigned int p, unsigned int val) float atomic_xchg ( volatile __global float p, float val) int atomic_xchg ( volatile __local int p, int val) unsigned int atomic_xchg ( volatile __local unsigned int p, unsigned int val) float atomic_xchg ( volatile __local float p, float val)	アドレスpに保存された古い値を、引数で指定した値valとスワップします。古い値を返します。
int atomic_inc ( volatile __global int p) unsigned int atomic_inc ( volatile __global unsigned int p) int atomic_inc ( volatile __local int p) unsigned int atomic_inc ( volatile __local unsigned int p)	ポインタpが指すアドレスで32-bitの値（oldと呼称）を読みこみ、次に`(old + 1)`を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。
int atomic_dec ( volatile __global int p) unsigned int atomic_dec ( volatile __global unsigned int p) int atomic_dec (volatile __local int p) unsigned int atomic_dec ( volatile __local unsigned int p)	ポインタpが指すアドレスで32-bitの値（old と呼称）を読みこみ、次に (old - 1)を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。
int atomic_cmpxchg ( volatile __global int p, int cmp, int val) unsigned int atomic_cmpxchg ( volatile __global unsigned int p, unsigned int cmp, unsigned int val) int atomic_cmpxchg ( volatile __local int p, int cmp, int val) unsigned int atomic_cmpxchg ( volatile __local unsigned int p, unsigned int cmp, unsigned int val)	ポインタpが指すアドレスで32-bitの値（oldと呼称）を読みこみ、次に `(old == cmp) ? val : old` を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。
int atomic_min ( volatile __global int p, int val) unsigned int atomic_min ( volatile __global unsigned int p, unsigned int val) int atomic_min ( volatile __local int p, int val) unsigned int atomic_min ( volatile __local unsigned int p, unsigned int val)	ポインタpが指すアドレスで32-bitの値（oldと呼称）を読みこみ、次に `min(old, val)`を計算し、結果をpが指すアドレスに書き込みます。関数は oldを返します。
int atomic_max ( volatile __global int p, int val) unsigned int atomic_max ( volatile __global unsigned int p, unsigned int val) int atomic_max ( volatile __local int p, int val) unsigned int atomic_max ( volatile __local unsigned int p, unsigned int val)	ポインタpが指すアドレスで32-bitの値（oldと呼称）を読みこみ、次に `max(old, val)`を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。
int atomic_and ( volatile __global int p, int val) unsigned int atomic_and ( volatile __global unsigned int p, unsigned int val) int atomic_and ( volatile __local int p, int val) unsigned int atomic_and ( volatile __local unsigned int p, unsigned int val)	ポインタpが指すアドレスで32-bitの値（oldと呼称）を読みこみ、次に (old & val)を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。
int atomic_or ( volatile __global int p, int val) unsigned int atomic_or ( volatile __global unsigned int p, unsigned int val) int atomic_or ( volatile __local int p, int val) unsigned int atomic_or ( volatile __local unsigned int p, unsigned int val)	ポインタpが指すアドレスで 32-bitの値（oldと呼称）を読みこみ、次に`(old
val)` を計算し、結果をpが指すアドレスに書き込みます。関数はoldを返します。	int atomic_xor ( volatile global int p, int val) unsigned int atomic_xor ( volatile* global unsigned int p, unsigned int val) int atomic_xor ( volatile local int p, int val) unsigned int atomic_xor ( volatile local unsigned int *p, unsigned int val)

B.43.6. shuffle

表B.123 表：シャッフル関数

関数	詳細
int vec_step (gentypen a) int vec_step (char3 a) int vec_step (uchar3 a) int vec_step (short3 a) int vec_step (ushort3 a) int vec_step (half3 a) int vec_step (int3 a) int vec_step (uint3 a) int vec_step (long3 a) int vec_step (ulong3 a) int vec_step (float3 a) int vec_step(double3 a) int vec_step(type)	引数で指定したスカラとベクトルの要素数を整数値として返します。全てのスカラ型に対しては1を返します。要素数3のベクトルについて4を返します。引数を型名にもできます。例: vec_step(float2)
gentypen shuffle ( gentypem x, ugentypen mask) gentypen shuffle2 ( gentypem x, gentypem y, ugentypen mask)	一つまたは２つの入力ベクトルに対してマスクを適用し、要素間の順序変更をします。 shuffleではマスク要素はilogb(2m-1)数の最下位ビットのみを使います。 shuffle2ではマスク要素はilogb(2m-1)+1のみを使います。その他のマスクビットは使われることはありません。入力ベクトルは左から右に数えます。このためにベクトルの要素数の数はvec_ step(gentypem)を使います。マスクの各要素は結果ベクトルがどの要素を代入されるか指定します。これは入力ベクトルが２つの場合は、線に要素を並べて左から要素番号を与えるように作用します。

関数

詳細

int vec_step (gentypen a)
int vec_step (char3 a)
int vec_step (uchar3 a)
int vec_step (short3 a)
int vec_step (ushort3 a)
int vec_step (half3 a)
int vec_step (int3 a)
int vec_step (uint3 a)
int vec_step (long3 a)
int vec_step (ulong3 a)
int vec_step (float3 a)
int vec_step(double3 a)
int vec_step(type)

引数で指定したスカラと
ベクトルの要素数を整数値
として返します。

全てのスカラ型に対して
は1を返します。

要素数3のベクトルについ
て4を返します。

引数を型名にもできます。

例: vec_step(float2)

gentypen shuffle (
    gentypem x,
    ugentypen mask)
gentypen shuffle2 (
    gentypem x,
    gentypem y,
    ugentypen mask)

一つまたは２つの入力ベ
クトルに対してマスクを
適用し、要素間の順序変
更をします。

shuffleではマスク要素
はilogb(2m-1)数の最下
位ビットのみを使います。

shuffle2ではマスク要素
はilogb(2m-1)+1のみを
使います。

その他のマスクビットは使
われることはありません。

入力ベクトルは左から右に
数えます。このためにベク
トルの要素数の数はvec_
step(gentypem)を使います。
マスクの各要素は結果ベクト
ルがどの要素を代入されるか
指定します。これは入力ベク
トルが２つの場合は、線に要
素を並べて左から要素番号を
与えるように作用します。