Реализация на cuda базовых операций над массивами.

Редукция, сканирование, сортировка.

Преимущества от использования cuda сильно зависят от используемых алгоритмов.

Редукция.

Пусть задан массив a0,a1,…,an-1. требуется выполнить некоторую бинарную ассоциативную операцию над ними. Редукцией данного массива относительно заданной операции будет следующая величина: A=(((a0+a1)+a2)+…+an-1).

Для редукции применим стандартный прием, при котором исходный массив делится на части, которым ставится в соответствие один блок сетки. Он будет считать сумму элементов данной части массива. Таким образом задача разбивается на набор независимых подзадач, а именно нахождение отдельных сумм массива. Далее разобьем соответствующий блок элементов массива на пары. Каждая пара параллельно складывается. В результате получается вдвое больше элементов, подлежащих суммированию. Для данной задачи главным фактором, ограничивающим быстродействие, является доступ к памяти. Поэтому удобно, чтобы каждый блок сразу скопировал элементы в разделяемую память и суммировал их уже в разделяемой памяти.

#define block_size 256

__global__ void reduce (int *inData, int *outData)

{ __shared__ int data[block_size];

int tid = threadIdx.x;

int i = blockIdx.x*blockDim.x+threadIdx.x;

data[tid] = indata[i];

__syncthreads ( );

for (int s=1; s<blockDim.x; s/=2)

{ if (tid%(2*s)==0)

data[tid]+=data[tid+s];

__syncthreads ( );

}

if (tid==0) outData[blockIdx.x]=data[0];

}

(U_i_-1,_j – 2*U_i_,_j + U_i_+1,_j)/h^2+( U_i_,_j-1 – 2*U_i_,_j + U_i_,_j+1)/h^2 = 0

U^s+1_i,j = ¼*( U^s+1_i-1,j + U^s_i+1,j+ U^s+1_i,j-1+ U^s_i,j+1) – метод Либнана.

Есть еще метод верхней релаксации. U_i_,_j = Θ/4*( U_i_-1,_j + U_i_+1,_j+ U_i_,_j-1+ U_i_,_j+1)+U_i_,_j*(1-Θ), Θ= 1,87.

Это первый этап расчета поля потенциалов.

Второй этап. I = -γ*gradU. Ix = -γ*dU/dx, Iy = -γ*dU/dy.

Ix_i,j = -γ_i,j*(U_i+1,j-U_i-1,j)/(2*h), Iy_i,j = -γ_i,j*(U_i,j+1-U_i,j-1)/(2*h).

Третий этап.

dT/dt = A*(d²T/dx²+d²T/dy²)+B*r*(Ix^2+Iy^2)

(T^k+1_i,j – T^k_i,j)/t = A*((T^k_i-1,j – 2*T^k_i,j+T^k_i+1,j)/h^2+(T^k_i,j-1 – 2*T^k_i,j + T^k_i,j+1)/h^2)+B*r_i,j*(Ix_i,j^2+Iy_i,j^2).

dN_B/dt = D_B*(d²N_B/dx²+d²N_B/dy²) – M*T^B_y*N_B.

(N^k+1_B - N^k_B)/r = D_B*((N^k_Bi-1,j – 2*N^k_Bi,j+N^k_Bi+1,j)/h^2+(N^k_Bij-1 – 2*N^k_Bi,j + N^k_Bi,j+1)/h^2) – M*(T^k_i,j)^B*N^k_B.

Граничные условия.

Г1: dU/dy = 0, (U_i_,_ny – U_i_,_ny-1)/h = 0, U_i_,_ny = U_i_,_ny-1.

Г2: dU/dx = 0, (U_nx_,_j – U_nx_-1,_j)/h = 0, U_nx_,_j= U_nx_-1,_j.

Г3: U_i_,1 = 0, i = nx2,…, nx.

Г4: U_i,1 = U_i,2, i=nx1+1,…,nx2-1.

Г5: U_i,1 = 40, i=1,…,nx1.

Г6: U_1,j= U_2,j.

Для температуры.

α*(T* - T) = λ*dT/dx, α – коэффициент теплопередачи, λ – коэффициент теплопроводности.

α*(T* - T_1,_j) = λ*(T_1,_j – T_2,_j)/h = Q

T_1,_j*(1- α*h/ λ) = T_2,_j + α*h/ λ*T*

T_1,_j = (T_2,_j + α*h/ λ*T*)/(1+ α*h/ λ)

T_nx_,_j = (T_nx_-1,_j + α*h/ λ*T*)/(1+ α*h/ λ)

T_i,1 = (T_i,2 + α*h/ λ*T*)/(1+ α*h/ λ)

T_i,ny = (T_i,ny-1 + α*h/ λ*T*)/(1+ α*h/ λ)

Для влажности.

α*(N* - N_1,_j) = λ*(N_1,_j – N_2,_j)/h

b = 878, T* = 283K, M = 75*10^(-6), B = 1,9, λ = 0,2, c = 1000, α = 4, D_B = 10^(-9), ρ = 2450.

ПО, а именно качество, является сдерживающим фактором для развития параллельных систем. Основной характеристикой, определяющей стиль программирования, является наличие общей или распределенной памяти. Отличительной чертой этих систем является единая подсистема ввода-вывода, единая ОС, единая ОП. Обычно работа происходит с использованием Unix подобной ОС. Она функционирует в виде множества процессов. Каждая пользовательская программа также запускается как отдельный процесс. Механизм порождения процесса является главным принципом распараллеливания. Также его называют механизмом порождения нитей. Нить в данном контексте – это легковесный процесс, для которого не порождается отдельного адресного пространства.

В языке Си возможно прямое использование механизма порождения нитей для распараллеливания программы посредством вызова системных функций: Все производители SMP-систем включают в свое ПО распараллеливающие компиляторы. Наиболее часто поставщики SMP-систем предусматривают в компиляторах директивы для распараллеливания цикла. Довольно часто эти наборы директив не совместимы между собой, поэтому приходится распараллеливать программу отдельно для каждой платформы.

Open MP – система, являющаяся расширением и обобщением этого набора директив. Интерфейс этой системы задуман как стандарт для программирования в модели общей памяти. Он реализует идею инкрементального распараллеливания, позаимствованную из языка HPF. Согласно этой системе разработчик не создает новую параллельную программу, а добавляет в текст последовательной программы Open MP директивы. Вся программа делится на последовательные и параллельные области. Все последовательные области выполняет главная нить, порождаемая при запуске. При входе в параллельную часть главная нить порождает дополнительные нити. Наличие общей памяти не препятствует использованию технологий, разработанных для систем с распределенной памятью. Многие производители SMP предоставляют такие технологии, как MPI. В случае таких систем при использовании данной технологии в качестве коммуникационной среды выступает разделяемая память.