dmitry — OpenMP.ru

Особенности языка Фортран, взгляд со стороны С

dmitry — Wed, 05 Apr 2017 14:52:09 +0000

Обратный порядок записи массивов.
a[i,j] в С будет эквивалентен a(j,i) в Фортране, в обоих случаях j будет бежать по строке, i по столбцу при обычной вложенности циклов сначала по i потом по j.

Аллоцирование массивов в памяти
Неважно какой, статический или динамический массив в Фортране, по умолчанию он будет аллоцирован на стеке. Отсюда наиболее распространненая ошибка, связанная с нехваткой стека при запуске скомпилированных на Фортране программ. Для С программ нужно намного меньше стека и стандартыне linux дистрибутивы настроенны для них. ulimit -s unlimited первое что нужно проверить если программа падает. Для Intel Fortran есть ключ компиляции -heap-arrays , где параметр минимальный размер с которого массивы будут размещаться в куче.

Разнообразие вариантов определения массива
В Фортране есть минимум 4 варианта определения массива.
1. Статический integer :: a(10)
2. Изменяемый integer :: a(n) ,где n определено в этом контексте — аргумент функции или параметризованная переменная.
3. Автоматический размер integer :: a(*) ,применяется при передаче параметров — т.е. будет иметь такой же размер как и передаваемый в ф-цию. Может определять размер одной размерности: b(n, *)
4. Заданной формы integer ::a(:) , размер явно не задан, но задана форма массива, в данном случае одномерный. Или b(:,:) — двумерный, c(:,:,:) -трехмерный и тд.
Разнообразие видов массива часто запутывает gdb при отладке, массивы при этом выводятся некорректно.

Мета-информация для массива
Вместе с самим массивом фортран создает его дескриптор в котором храниться его размерность и размер. В случае передачи в другую функцию это дескриптор может не передаваться (как в случае с заданной формой) и это иногда используется для преобразования размерности массива (передаем 1d, принимаем в ф-ции как 2d). Есть функции которые могут получить метаинформацию по имени массива: SIZE, SHAPE.

Передача аргументов в Фортране
Всё передаётся по ссылке. Так «call foo(a, 1 ,array)» в случае С будет выглядеть как передача указателей: foo(int *a, int* ptr_to_1, int* array).

Автоматическое создание переменных
Legacy-поведение, когда по первой букве неопределенной переменной создается ее описание и таким то типом. Выключается implicit none в каждом исходнике.

Модули фортрана как черный ящик
Фортрановый модуль это фактически аналог С-шного заголовочного файла, но в предкомпилированном бинарном формате. Описание этого формата я не встречал, более того — оно специфично для разных компиляторов и совместимость их не заявлена. Т.е. в любом проекте где используются сторонние модули нужно применять их перекомпиляцию перед использованием. Бывает даже при компиляции приложения фортраном версии X случаются ошибки, если модуль собран компилятором версии X-1.

Свободный формат
В старом формате поле исходника имеет свои поля заданного размера. 4 первых символа строки для меток перехода, 40 символов для кода. Чтобы не забивать себе мозг подобной ерундой — используйе ключ -ffree который включает свободный формат, в котором нет полей.

Эффективная параллелизация с учетом NUMA

dmitry — Sun, 23 Aug 2015 16:14:24 +0000

Корректная параллелизация только вычислительных участков программы недостаточна при масштабировании ПО на более чем один процессор (сокет). Это связано с NUMA policy, точнее ее значением по умолчанию. Для многопроцесорных систем следует учитывать наличие на узле ближней (на этом же сокете) и дальней (на чужом сокете) памяти относительно вычислительного потока.

В обычном сценарии до инициализации данных (чтение из файлов, распределение по узлам, создание структур данных) руки не доходят. Обычная политика NUMA, касающаяся выделения памяти на NUMA-узлах работает по алгоритму ‘first touch’ — кто первый запросил и инициализировал память, на сокете того процесса и будет выделена память. Подразумевается что тот процесс, который память инициализирует и будет с ней работать. Однако в случае «точечного» распараллеливания на OpenMP поток-мастер проводит всю инициализацию, а в вычислительной и распараллеленой части потоки вне сокета мастер-потока будут передавать данные через QPI — межпроцессорную шину, которая довольно быстрая, но всё равно медленнее локальной памяти.

Чтобы избежать такого эффекта следует распараллеливать код инициализации таким же образом как и вычислительную часть. К примеру, если внутри вычислительного участка есть тройной цикл с обращением к двум массивам, то и в иницилизации этих массивов должен быть тройной цикл записи начальных значений. Настройки OpenMP планировщика так же должны быть идентичны. В этом случае массив расположится по NUMA-узлам так же как и в вычислительном коде, минимизируя количество доступа в дальнюю память.

Следует обратить внимание что присваивание страниц памяти NUMA-узлу происходит не в момент выделения (malloc) а только в момент инициализации, т.е. первой записи.

Для изменения политики NUMA существует утилита numactl и две ее опции: —membind (задают на каких узлах выделять память) и —interleave, на котором остановимся чуть подробнее. Второй флаг задает режим «размазывания» памяти по NUMA-узлам, и полезен для случая когда несколько вычислительных участков в одной программе имеют различный шаблон доступак памяти. В этом случае невозможно получить идентичную инициализацию, но можно уменьшить частоту доступа в дальнюю память «в среднем» работая в режиме —interleave=all.

Shared или private, три простых правила

dmitry — Sun, 16 Nov 2014 10:35:06 +0000

В Openmp параллелизация подкупает своей простотой. Добавил прагму к циклу и хоп — я знаю кунг-фу. Тем не менее такое отношение частенько приводит к разнообразным ошибкам обращения к одной и той же переменной.
В OpenMP есть два основных класса переменных — shared и private. Shared переменная общая между потоками, хранится в обычной памяти процесса (стек или хип) и ничего не стоит. Private переменная для каждого OpenMP потока своя и хранится в TLS — специальном месте, уникальном для каждого потока (thread), есть дополнительные расходы на копирование.
Как их отличать между собой.
1. По умолчанию все переменные внутри parallel секции считаются shared за исключением п.2.
2. Все локальные переменные (объявленные внутри parallel секции) и итераторы будут private.
3. Все нелокальные переменные (объявленные ранее parallel) в которые что-то пишется (lvalue) должны быть явно указаны как private.

Собственно все. Теперь примеры.
Пример 1.

double* a;
double* b;
double z = 1.0;
...
#pragma omp parallel for
for(int i=0; i<len; i++){
a[i] = b[i]*z;
}

Тут все хорошо — внутри цикла копирование. Доступ массива у каждого потока свой — итератор разный, он private. Константа общая, но в нее не пишут.
Теперь типичный «проблемный» пример, когда вводятся временные переменные.
Пример 2.

double* a;
double* b;
double z = 1.0;
double tmp;
...
#pragma omp parallel for private(tmp)
for(int i=0; i<len; i++){
tmp = b[i]*z;
a[i] = tmp;
}

Когда shared переменная внезапно становится private

dmitry — Wed, 25 Dec 2013 06:36:30 +0000

Был замечен сайд-эффект от типов хранилища переменных.

По умолчанию считается что все переменные в OpenMP секции являются shared. Допустим мы явно объявляем какой то int как shared:

int a;

#pragma omp parallel shared(a)
...

В процессе оптимизации приложения обнаруживается, что наш int весьма активно переиспользуется и вообще неплохо бы держать его в регистре. Ок, нет проблем:

register int a;

#pragma omp parallel shared(a)
...

Проблемы есть. Дело в том как только вы объявили int как register (и компилятор действительно держит его в регистре), эта переменная перестала быть shared.
Понятно что и по умолчанию register переменные будут только private!
Никаких уведомлений о том что невозможно сделать переменную shared я не заметил.
Обратный подвох тоже есть, так переменная в Thread Local Storage (TLS) никогда не станет shared, но тут нужно постараться так промазать.

Вопросы миграции процессов

dmitry — Thu, 27 Sep 2012 11:30:25 +0000

С точки зрения производительности параллельной программы пиннинг (привязка процесса к ядру процесса) очень важен.

Во первых не прикрепленный (pinned) процесс постоянно вынужден мигрировать по ядрам и даже сокетам, что приводит к частой инвалидации содержимого кэша и как следствие — увеличение количества кэшмиссов. В Numa системах это плохо еще и тем что можно «потерять» свою память.

Как правило Linux имеет некую стандартную политику распределения процессов по ядрам. Обычно она выглядит так: есть несколько процессов. Мы начинаем раскладывать с 0-го ядра в системе (см /proc/cpuinfo — нумерация ядер в системе будет аналогична), следующий процесс будет занимать другой пакет и другой сокет. Т.е. происходит неявное чередование (очевидно для размазывания загрузки по разным _физически_ процессорам).

Непосредственно для привязки процессов к CPU мы можем использовать:

1) Стандартную утилиту из поставки Linux taskset;

2) Если присутствует фреймворк OpenMP, то переменную окружения OpenMP: GOMP_CPU_AFFINITY, KMP_AFFINITY;

3) Для MPI программы привязку делает библиотека: Mvapich VIADEV_USE_AFFINITY, Intel MPI I_MPI_PIN_MODE.

Зачем может понадобиться явное указание привязки ? Чаще всего это нужно для гибридных запусков (MPI+OpenMP например). Когда MPI не подозревает о следующем уровне параллелизма (OpenMP). Для обычного mpich’a и его производных лучше просто отключить пиннинг на уровне MPI и работать через выставление KMP_AFFINITY, причем для разных ранков маска будет разной. Для Intel MPI есть более простой вариант: I_MPI_PIN_MODE=omp, а библиотека сама пересчитает сколько у вас mpi процессов и OpenMP потоков.

Кроме того, внутри одного пакета процессорные ядра имеют общий кэш. И при использовании OpenMP на этом можо сыграть. Если алгоритм написан так, что соседние потоки могут переиспользовать кэш, то лучше делать пиннинг COMPACT чем SCATTER по умолчанию. Это имеет смысл для таких алгоритмов как DGEMM, который очень локален.

Развитие стандарта MPI

dmitry — Wed, 09 Sep 2009 16:04:45 +0000

Не так давно (4 сентября 2009г) была принята новая версия стандарта MPI-2.2. В основном содержащий косметические изменения по сравнению с предыдущим вариантом (уточнения различных моментов, введение новых типов данных).

Полный вариант стандарта (и всех предыдущих) в формате pdf можно скачать тут:
http://www.mpi-forum.org/docs/docs.html

Но более интересным представляется MPI-3, предложения, обсуждаемые комитетом, можно увидеть здесь: http://meetings.mpi-forum.org/MPI_3.0_main_page.php

Для меня наиболее интересным расширением оказались так называемые Persistent Operations, позволяющие закэшировать соединения для коллективной операции и исключить оверхед при повторном использовании.

Проверка кластерной сети

dmitry — Mon, 13 Apr 2009 21:21:36 +0000

Одна из основных проблем крупных кластеров — это поддержка работоспособного состояния сетевой системы. Кроме терминального состояния «коннект отпал» возможны так же промежуточные варианты — падения скорости или возникновение задержек. Ситуация усугубляется тем что сложная фабрика может реагировать на битый кабель неочевидно — скорость может упасть в каком-то сегменте, при определенной передаче между определенными нодами. Поэтому иногда стоит устраивать прогоны-тесты сетевой подсистемы с нагрузкой Point-To-Point перебирая все возможные варианты. Это долго, и объемно по анализу, но спокойствие пользователей кластера того стоит.

Хочу поделится с обществом найденной интересной программой.
Скачать ее можно с Sourceforge: http://sourceforge.net/projects/mpigraph. Программа прогоняет пинг-понг тест между всеми ранками по принципу каждый-с-каждым, распараллеливая значительную часть работы. В результате работы получается сводная таблица с намерянными скоростями между ранками.
Кроме того в пакете идет перловый скрипт, который позволяет сделать из текстовой таблички, совершенно не читаемой при количестве обмерянных нод >10, картинку в градациях серого. Каждый пиксель на которой представляет ту же таблицу, чем ярче цвет тем больше скорость, черный цвет — обрыв линка. Получаем примерно такую картинку на больном кластере:

Визуально получается интересно, а чтобы выяснить где именно проседает Bandwidth скрипт генерирует еще и html файл со скриптами. При наведении мышкой на картинку выскакивает всплывающая подсказка с объяснением на какой именно пиксель вы «наехали» — с какого ранка была передача и на какой. Вообщем это уже можно использовать для диагонстики неполадок сети.
Попутно у меня возникла идея о снятии серии таких картинок, и дальнейшего микширования в короткий ролик. Тогда на ролике случайные провисания линков будут видны как шум, а имеющие место проблемы — постоянными пятнами. Пока что я попробую снять 250 кадров-замеров для 10-секундного ролика. На 64-х нодах это потребует примерно 10*250 примерно 2500 секунд

Вышел обновленный FFTW-3.2alpha

dmitry — Sat, 17 Jan 2009 21:17:15 +0000

Наконец-то дождались. Судя по сайту fftw.org казалось автор совершенно забросил свое творение, и тут новая версия. В нем анонсирована поддержка MPI FFT преобразования. Теперь можно потихоньку начинать переезжать с 2.1.5. Поскольку это еще альфа, документации пока нет. Но вообщем то по примерам и хидерам можно понять что к чему. Вместо fftw_mpi_create_plan(…) стало fftw_plan(…), вместо fftw_one(…) стало fftw_exec(…). Немного поменялись параметры функций, внимание: требуется инициализация FFTW после MPI_Init() и финализация в конце программы.

В общем работает быстрее 2.1.5 где-то на 20-30%, точные цифры опубликовать к сожалению не могу.

Архитектура современных суперкомпьютеров

dmitry — Fri, 12 Sep 2008 20:24:07 +0000

Эта обзорная статья, в которой я постараюсь избегать подробностей и ненужных деталей, предназначена она в основном для новичков.

Есть два подхода при построении современных суперкомпьютеров — системы с общей памятью и так называемые кластеры. Каждый подход не исключает другого, у каждого подхода есть свои достоиинства и недостатки. Плюс систем с общей памятью — универсальность модели параллельного ПО, не требующей какого либо дополнительного кода, или не требующей значительных изменений кода. Плюс кластерных систем — отказоустойчивость и более лучшая масштабируемость. Системы с общей памятью плохо масштабируются при росте числа вычислительных процессоров, кластеры же масштабируются плохо из-за возрастающей сложности сети при добавлении узлов, но это происходит значительно позднее, когда число процессоров измеряется сотнями и даже тысячами. Рассмотрим подробнее оба этих подхода

Система с общей памятью, или многопоцессорная система. Возможны два варианта построения такой системы:

а) Все процессоры имеют равноправный доступ к памяти. Память равноудалена от всех процессоров. Это так называемые SMP (Symmetric Multi-Processing), симметричные процессорные системы.

Как видно из иллюстрации все процессоры связаны с общей памяти через FSB (Front Side Bus). Эта же шина и является узким местом такой архитектуры, поскольку ее пропускная способность должна удовлетворять запросы каждого процессора, даже если они поступают одновременно.

б) Каждый процессор имеет свою локальную память и более затратный доступ к памяти других процессоров. Это NUMA системы, или системы с неодинаковым доступом к памяти.
В NUMA cистемах каждый процессор имеет локальную память и при правильной привязке процессов к процессорам всегда используется «ближняя» память. Доступ же в дальную память, с соответствующим пенальти происходит только при коммуникации процессов. Если привязки процессов нет, то в результате так называемой «миграции», процесс может быть запущен на другом процессоре и работать со своими данными из дальней памяти.
Общая проблема NUMA систем — большое количество линков, возрастающее при увеличении числа процессоров. Для двухпроцессорной NUMA cистемы достаточно одного линка между процессорами:

При добавлении процессоров получается более сложная организация:

Можете представить, что будет для системы с восемью процессорами. Это будет похоже на паутину С давних времен сложилось так что Intel продвигает SMP системы на рынке, а AMD — NUMA. В случае Intel-a связь между процессорами сделана на основе QPI, соответственно для AMD это HyperTransport. Фактически при использовании SMP систем каких-то дополнительных сложностей нет. Все процессоры равны и даже миграция (теряется кэш) не сильно влияет на производительность. В случае NUMA уже порой приходится задумываться о привязке процессов/потоков к определенному процессору (или к любому но намертво).

Следущий шаг усложнения кластеры. Кластер — это набор узлов, обединенных сетью. Узлы могут быть одинаковые (гомогенные кластеры) или разные (гетерогенные кластеры). Обычно кластер имеет как минимум одну головную ноду (head node) и отдельные узлы для файловой системы. Собственно каждый узел (computation node, нода) внутри может быть небольшой SMP или NUMA системой. В этом нет ничего страшного, практически так стоятся все современные суперкомпьютеры, и есть тенденция к увеличению количества процессоров в одной ноде. Между собой ноды связаны сетью, применяется как Gigabit Ethernet (GigE) или более быстрые сети Infiniband (Mellanox, QLogic), Myrinet или другие пропиетарные интерконнекты и сети. Основные два условия к ПО кластера — обеспечить общий диск между узлами (shared space) и службу удаленного запуска приложений (это может быть telnet, ssh, rshell и т.п). От размера кластера главным образом зависит то, каким будет топология его сети. Небольшие по размеру кластера могут строиться на одном-двух свичах, а для связывания больших кластеров свичи объединяются в несколько уровней. Например, простой вариант, когда количество узловменьше или равно количеству портов у свича:

Так строится одна стойка кластера. На рисунке показана только вычислительная сеть. В случае объединения двух стоек, можно воспользоваться одним из портов свича для создания связи свич-свич.

При таком варианте обмен между стойками проходит через одину пару портов, что может приводить к замедлению коммуникаций, особенно коллективных.
Дальнейший рост сложности сети приводит к многоуровневым схемам построения свичей:

Обычно для крупных систем хватает два уровня. Свичи делятся на Leaf и Spine. Узлы подключаются только к Leaf. Все Leaf связаны между собой через Spine. Вот пример топологии 256-нодового кластера с Infiniband свичем CISCO:

Квадратами обозначаются ноды (по 12 шт в одном квадрате). Эти 12 шт подключены к одному листу (Leaf-у), который в свою очередь соединяется с 12-ю Spine. Такой кластер обеспечивает запуск задачи одновременно на 2048 ядрах или 256 нодах при довольно интенсивном межузловом обмене.

Теперь немного о том, как это выглядит. Типичная конструкция, кластер размещается в трех стойках:

Свич установлен в дальней стойке сверху. Сверху вниз стойка заполнена нодами. Внизу каждой стойки установлен источник бесперебойного питания. В центральной части установлена login-node и скорее всего синего цвета ноды файловой системы.
Так выглядит серверная комната в яндексе:

Это скорее всего кластер кластеров установленный в одном помещении.

Обзор способов параллельного программирования

dmitry — Sun, 09 Mar 2008 21:27:59 +0000

В этой статье подробно рассматриваются различные подходы к параллельному программированию.
Наиболее широкоизвестные способы параллельного программирования

Threads / Processes
OpenMP
MPI

Исторически сложилось так, что наиболее часто применяемый способ — это Threads в их различных реинкарнациях. Способ хорош тем что не требует дополнительных библиотек. Чтобы использовать этот вариант, достаточно имеющихся возможностей OC. Обычно используется для скрытия от пользователя различных продолжительных операций, чтобы не терять возможность отрисовки GUI в момент ожидания операции. Основное достоинство — потоки разделяют адресное пространства и принадлежат одному процессу. Поэтому все передачи данных между потоками выполняются максимально быстро. Чаще всего достаточно передать указатель. Синхронизация потоков не затратна и не требует системных вызовов (Syscall) — долгих операций с переключением контекста. Сюда же можно отнести и многопроцессные программы в самом простейшем виде — использующие fork() или что-то подобное из системных функций для порождения нового процесса, но применяющее для синхронизации и обмена данными системное API.
Для более простого распараллеливания уже существующего кода был придуман OpenMP. Больщинство работы по распараллеливанию и синхронизации здесь переложена на компилятор и его библиотеки. Для распараллеливания достаточно разместить определенные прагмы (#pragma …) в коде программы. Набор этих прагм описан в стандарте. Плюс такого подхода — легкость обретения параллелизма программой. Недостатки — требуется специальный компилятор, низкий уровень параллельности, необходимость следования навязываемой парадигме.

MPI (Message Passing Interface). Эта библиотека, как следует из названия не предназначена для какого либо распараллеливания, однако ее чаще всего применяют для написания параллельных программ на больших кластерах. Именно для написания, так как для применения MPI плохо подходит вариант «напишем последовательный код, а потом распараллелим». В варианте с MPI программа сразу представляет собой N процессов. Это N фиксировано и задается параметром при запуске приложения. Т.е. это полный параллелизм, а библиотека предоставляет примитивы для синхронизации и обмена данными. К плюсам применения MPI относят высокую масштабируемость решения, высокий уровень параллельности и отличная портабельность кода. Основные минусы — сложности при программировании, относительно высокие затраты на синхронизацию и обмен данными.

Кроме основных трех способов существуют еще и другие малоизвестные, малоприменимые и/или устаревшие. Такие как GlobalArrays — распределенные структуры данных со скрытым доступом к элементам, PVM — прародитель MPI… Может еще чего есть — напишите мне, если знаете

Как это выглядит

Здесь я минимально приведу код, чтобы его можно было охватить глазами. Объяснять как это работает здесь смысла нет, для этого будут отдельные темы.

1. Создание двух процессов вызовом fork():

int main(){
...
pid = fork();
if (pid == 0) {
// код потомка
else{
// код родителя}
...}

2. Использование прагм openmp()

 int main(){
...
#pragma parallel for
for (int i=0; i
3. Использование MPI
int main(int* argc, char ** argv){//код идет параллельно начиная с ф-ции main()
//Обязательный пролог - инициализация MPI
MPI_Init(int* argc, char ** argv);
MPI_Comm_size(&np);
MPI_Comm_rank(&myrank);
printf("I'm process %i, from %i total", myrank, np);
//обязательный эпилог
MPI_Finalize();
}