суббота, 4 апреля 2009 г.

Еще немного рейтингов

- в середине года в Юлихе планируется завершить монтаж самого мощного в Европе суперкомпьютера производительностью 1 петафлопс. На настоящий момент в мире только 2 вычислительных центра обладают большей мощностью
- рыбинский суперкомпьютер занимает 11 строчку в Top-50 суперкомпьютеров СНГ и уже не попадает в мировой Top-500
- самый "слабый" расположенный в России суперкомпьютер, входящий в Top-500, находится в Красноярске. В списке по СНГ он опережает рыбинский на 2 позиции
- замыкает Топ-50 по СНГ машинка из Иркутска. Наша не дотягивает до нее всего-то примерно 100 гигафлопсов. Надо будет померять получше, вот что.

О пользе кэш-памяти

Часто, прежде чем параллелить задачу, полезно выяснить, насколько хорошо она работает хотя бы в однопроцессорной системе.
Вот по этой ссылке можно посмотреть на детальное сравнение затрат времени на выполнение "наивного" алгоритма перемножения матриц и алгоритмов из мат.пакетов и специализированных библиотек.
Я и сам несколько дней назад провел эксперимент на ту же тему, после чего, собственно, и начал искать, кто что по этому поводу думает. Тогда я выяснил, что при размерности матриц, равной 2000, "наивный" алгоритм на Си уступает по скорости процедуре cblas_dgemm (я пользовался CBLAS-ом из ATLAS-a, он проводит некоторую оптимизацию констант библиотеки под параметры конкретного компьютера) в 50 раз.
Это как раз примерное соотношение между скоростями работы основной оперативной памяти и кэш-памяти процессора.

Начинаем

Этот блог задуман в качестве одного из средств обмена информацией между сотрудниками отдела ЯрГУ, занимающегося параллельными вычислениями. Похвастаться успехами (и пожаловаться на трудности) тоже можно будет тут.

Немного стартовой технической информации:
в настоящий момент в нашем распоряжении имеется blade-система из десяти двухпроцессорных узлов, итого 80 ядер на частоте 3 гигагерца. В ходе теста производительности, взятого вот по этой ссылке, была посчитана примерная вычислительная мощность системы, она составила почти 800 гигафлопсов. Разумеется, даже в сравнении с замыкающими Топ-500 кластерами это выглядит не слишком серьезно, но для знакомства с вычислениями на системах с распределенной памятью и для реализации не слишком объемных вычислений этого более чем достаточно.

Системы с разделяемой памятью также не уйдут от нашего внимания, тем более что, к примеру, nVidia уже выпускает основанные на графических процессорах продукты с заявленной производительностью 1 терафлопс и выше. Да и самые обычные многоядерные центральные процессоры все еще ждут должного с ними обращения.

Буду рад любым предложениям, если кто захочет сам добавлять новости-задачи, регистрируйтесь.

Успехов,
Дмитрий Глызин.

Да, несколько ссылок, чтобы не потерять:
http://www.ddj.com/go-parallel/
http://www.nvidia.ru/object/cuda_learn_products_ru.html