간단한 예로 살펴본, OpenMP

필자가 OpenMP이라는 단어를 처음 들었을때는, 보다 안정적인 멀티 스레드 프로그래밍에 대한 갈증이 한창일 때였습니다. XGE 개발 초기에 데이터 요청과 데이터 가시화를 별도의 스레드로 두고, 다시 데이터 요청을 레이어 단위로 나누어 다시 레이어를 별도의 스레드로 분리시켜야할 필요성에서였는데요. 그러다가 찾은 것이 OpenMP 이였습니다. 처음 접하는 기술인지라… 실제 프로젝트에 적용하지 않고 일단 머리속에 북마크만 해 두었지요.

최근에 다시 모 잡지에서 OpenMP라는 단어를 접하게 되었는데, 요즘 CPU가 죄다 듀얼코어니, 쿼드코어니… 얼마후에는 옥타코어와 같이 하나의 CPU가 2개, 4개, 8개의 CPU의 성능을 낼 수 있는 컴퓨팅 환경이고, 이런 컴퓨팅 리소스를 100% 활용하기 위해 병렬 프로세싱, 다중 스레드, 다중 프로세싱 개발 기법을 속속들이 적용하고 있고, 이 기법이라는게 역사라 불리는 시간에서 지금에 이르기까지 존재하는 스레드를 이용한 방법입니다. 여기에 간단히 스레드를 직접 사용하지 않고 간단/명료한, 하지만 아직은 섬세하지는 않는 멀티 프로세싱 방법인 OpenMP라는 기술이 수년전에 나타났는데, 이 글은 간단한 예로 OpenMP를 접해 보도록 하겠습니다.

먼저 고객으로부터 받은 하나의 요청을 예로 OpenMP의 기능을 느껴보는 것이 가장 좋은 접근법 같습니다. 요청은 테일러급수를 이용해 자연로그에서의 e와 파이(3.1415~)를 구하고 이 둘의 값을 합해 보는 것입니다. 왜 이런것이 필요한지는 생각하지 말고 말입니다. ^^; 이 예는 http://www.kallipolis.com/openmp/1.html 의 OpenMP의 Tutorial에서 가져왔음을 명확히 합니다. 위의 문제를 해결하기 위해서는 먼저 e를 구하고 다음으로 phi를 구한후에 마지막으로 e와 phi를 합하면 끝납니다. 모두 3단계로 나눠지는데, 바로 아래와 같이 말입니다.

  1. e를 구한다.
  2. phi를 구한다.
  3. e와 phi를 합한다.

위의 3 단계를 자세히 살펴보면, 3단계는 1단계와 2단계가 반드시 이뤄져야 하지만, 1단계와 2단계는 완전히 서로 독립적이라는 점입니다. 바로 여기서 1단계와 2단계를 2개의 스레드로 분리해 성능을 높일 수 있다는 것일 알 수 있습니다. 2개의 스레드로 분리하는 방법은 직접 개발자가 스레드 API를 사용해서 분리시킬 수 있는 방법과 OpenMP를 사용해서 그 분리 작업을 맡기는 방법이 있습니다. 여기서는 물론~ OpenMP를 사용해 두개의 스레드로 분리해 보겠습니다.

#include "stdafx.h"
#include  
#include  
 
#define num_steps 20000000 

int main(int argc, char *argv[])
{
    double start, stop;
    double e, pi, factorial, product;
    int i;

    start = clock();

    #pragma omp parallel sections num_threads(2)
    {
        #pragma omp section
        {

            printf("e started\n"); // 1. 단계: e구하기
            e = 1;
            factorial = 1;

            for (i = 1; i<num_steps; i++) {
                factorial *= i;
                e += 1.0/factorial;
            }

            printf("e(%lf) done\n", e);
        }

        #pragma omp section
        {
            printf("pi started\n"); // 2. 단계: phi 구하기

            pi = 0;
            for (i = 0; i < num_steps*10; i++) {
                pi += 1.0/(i*4.0 + 1.0);
                pi -= 1.0/(i*4.0 + 3.0);
            }

            pi = pi * 4.0;
            printf("pi(%lf) done\n", pi);
        }
    }
    product = e + pi; // 3. 단계: e와 phi 합하기

    stop = clock();

    printf("Reached result %f in %.3f seconds\n", 
        product, (stop-start)/1000);

    return 0;
}

먼저 살펴 볼 것이 #pragma omp parallel sections num_threads(2)인데, 이 #pragma는 2개의 스레드(num_threads(2))로 실행 구역(section)을 나누겠다는 의미입니다. 그 실행 구역이라는 것이 다름 아닌 e와 phi를 구하는 것인데, 이 실행 구역, 즉 section을 정하는 코드가 바로 다음 코드에 2번 나오는 #pragma section 블럭입니다. 이 블럭은 정확히 e와 phi를 구하는 코드입니다.

여기서 중요한 것은 동기화인데, e와 phi를 계산해서 합하는 것이 최종적인 목표이므로 e의 계산과 phi의 계산이 완전이 완료되어야만 e와 phi를 합할 수가 있다. OpenMP는 #pragma omp parallel sections num_threads를 통해 이 전처리가 규정한 블럭의 코드를 자동으로 동기화 시켜줍니다!! ^^ 와우~

여기서 눈치가 빠른 사람이라면, 위의 코드에서 OpenMP와 관련된 코드를 제거해도 동일한 결과를 낸다는 것입니다. 물론, 싱글 스레드로 돌아가므로  수행 속도는 저하되겠지만 말입니다. 즉, 이를 다시 역으로 생각해보면, 기존에 전혀 멀티 프로세싱을 고려하지 않고 개발된 코드에 대해서 OpenMP를 적절하게 적용하면 큰 코드의 변경 없이도 멀티 프로세싱의 잇점을 추가할 수 있다는 점이겠지요. 필자의 추측으로 OpenMP라는 기술은 아마도… 기존의 싱글 스레드로 작동하는 소프트웨어에 대해서, 멀티코어 CPU의 등장으로 그 하드웨어의 성능을 최대한 끌어내기 위해 등장한 기술로 보입니다.

간단하게 예를 들어 OpenMP를 살펴보았습니다. 이글은 OpenMP의 많은 기능 중에 매우 간단하고 기본적인 예를 든 것입니다. 추후 기회가 된다면 더 많은 OpenMP의 정보를 제공할 수 있도록 하겠습니다. 그때까지 참지 못하겠다면, http://www.kallipolis.com/openmp/index.html 를 참고하길 바랍니다.

Booch and Rumbaugh’s Unified Notation 0.8

UML 탄생 이전에 존재했다고 판단되는, 부치의 Diagram이라고 생각됩니다. 간단하고 명확하며, 특히 개발자에게는 꼭 필요한 내용을 전달하는 좋은 다이어그램 같습니다.


별다른 설명이 없이도 명확합니다. 비록 클래스 관계만을 제시하지만, UML에서 개발자에게 클래스 관계도가 가장 최고의 설계문서 아니겠습니까?

정리하는 차원에서 살펴보면… Base Class를 기준으로하여 .. “Base Class”가(주어) “Used”를 사용하며.. “Had by Reference”와 “Had By Value”를 맴버 변수로 가지고 있는데, 각각 참조(C++에서는 포인터*나 참조형&)으로 가지고 있다는 의미이고 “Derived 1″과 “Derived 2″에 대한 부모 클래스라는 것입니다. 지금의 클래스 관계도(UML에서)를 처음 접하는 초보 사용자에게 있어서 Composition이냐? Aggregation이냐? 라는 애매모한 정의가 없다는 점이 매우 매력적입니다.

한번쯤 숙지해 놓고, 사용해 볼만한 다이어그램이라고 생각됩니다.

사용하기 간단한 Memory Pool 클래스

프로젝트 진행 중에, 다중 스레드에서 사용할 Memory Pool 클래스를 인터넷을 통해 검색해보다가 마땅히 사용만하다 판단되는 것이 없어 직접 만들어 사용하고 있는 클래스입니다. 물론 기존에 공개된 Memory Pool 클래스의 기능이 좋지 않다는 것이 아니라, 제 기준, 수준에 너무 사용하기가 어렵고 복잡하다는 생각에서입니다. 물론 그 기능과 성능은 뛰어나겠지만 말입니다. 이에.. 사용하기 쉽고, 매우 간단하게 적용할 수 있는 메모리풀 클래스를 공개해 봅니다.

먼저 사용 방법은 아래와 같습니다. 전역변수로 CMemoryPool을 생성해 놔야 합니다. 싱글리톤 패턴을 적용해야할테지만.. .일단 적용하지 않았습니다. 다른 분께서 적용해 보시고 공개해주시면 매우 영광이겠습니다.

#include "MemoryPool.h"

CMemoryPool MP(10, 1024*1024);

생성자 중 첫번째 인자는 메모리풀에 생성할 메모리 덩어리의 개수이고 두번째 인자는 메모리 덩어리의 크기입니다. 즉, 여러개의 스레드에서 동시에 10개의 메모리 덩어리를 얻어 사용할 수 있으며, 한 덩어리의 크기가 1메가라는 의미입니다.

메모리 덩어리를 얻어 사용하는 방법은 다음과 같습니다.

CMemoryPool::MEMORY_DESC *pMD = MP.Take();

BYTE *pBuffer = pMD->pBuffer; 

// .
// .
// use memory ..
// .
// .

MP.Release(pMD);

다 사용했으면 최종적으로 Release를 호출해줘서 메모리 풀에 반환해줘야 함을 잊어서는 않됩니다. 아무쪼록…. 저처럼 쉽게 사용할만한 메모리풀 소스 코드를 찾지 못하신 분들에게 도움이 되시길 바랍니다.

공간검색 알고리즘 문서

예전에 찾아서 한번(?) 읽어본 공간검색에 관련된 알고리즘 문서입니다. 깨끗하게 출판된 알고리즘 서적에 나와 있는 것보다 훨씬 더 나은, 더 정확한 정보를 얻을 수 있을 겁니다.

알고리즘은 다음과 같습니다.

  • R*-Tree
  • R-Tree
  • X-Tree

필요하신분은 한번 꼭 살펴보시길 바랍니다. 대부분… 이 알고리즘을 그대로 사용하지 않고 나름대로 약간 변형/응용하여 활용합니다. 참고로 살펴보시고 힌트로써 활용하여 자기 나름대로 적용을 하시길 바랍니다.

Patterns in “PATTERN-ORIENTED SOFTWARE ARCHITECTURE”

Layer A.P. 어플케이션을 구조화하기 위해 서브 태스크(Subtask)들을 그룹으로 묶기 위해 분해한다. 공통된 추상 레벨에 있는 서브 태스크들끼리 묶어서 그룹으로 분류한다.

Pipes and Filters A.P. 데이터 스트림을 처리하는 시스템 구조를 제공한다. 각 프로세싱 단계는 필터 컴포넌트로 추상화한다. 데이터는 파이프를 통해 연관된 필터들에게 전달된다. 필터들을 다양하게 재조합하여 시스템을 재구축할 수 있다.

Blackboard A.P. 정의되지 않은 도메인에서의 문제를 해결할때 유용하다. 솔루션에 대한 부분적이거나 대략적인 해법을 수립하기 위해 몇가지 특수한 서브시스템들의 지식을 조합한다.

Broker A.P. 분산 소프트웨어 시스템을 구조화할때 유용하다. 분산 소프트웨어 시스템은 분리된 컴포넌트들이 서로 유기적으로 조합되어 운영되는 시스템으로, 이러한 컴포넌트들 간의 통신을 관장하는 역활을 하는 것이 Broker이다.

Model-View-Controller A.P. 모델은 핵심기능과 데이터를 의미하고 뷰는 기능에 의한 데이터의 표현이며 컨트롤은 사용자의 입력에 대한 처리이다. 뷰와 컨트롤러는 사용자의 인터페이스를 구성하며 사용자 인터페이스와 모델간의 일관성 및 정합성을 보장한다.

Presentation-Abstraction-Control A.P. 계층구조를 이루는 에이전트들이 상호작용하는 소프트웨어 시스템에 대한 패턴. 각각의 에이전트는 하나의 어플리케이션의 특정 부분을 전담하며 에이전트는 프리젠테이션/추상/컨트롤로 구성된다.

Microkernel A.P. 변화하는 시스템에 대한 요구사항을 수용할 수 있도록 하는 패턴. 시스템에서 가장 최하단에 위치하는 핵심 기능을 추출해 내며, 추가된 요구사항에 대해 확장기능으로 정의하여 시스템에 손쉽게 추가할 수 있도록 한다.

Reflection A.P. 소프트웨어 시스템의 구조와 동작을 동적으로 변경할 수 있는 메커니즘을 제공.

Whole-Part D.P. 전체(Whole) 객체를 구성하는 컴포넌트(Part)를 정의한다. Whole 객체를 통해 Part 컴포넌트들의 관계를 맺으며, 이 Whole 객체를 통해서만 Part 컴포넌트와 통신할 수 있다.

Master-Slave D.P. 마스터 컴포넌트는 슬레이브 컴포넌트에게 작업을 분산시켜서 최종적으로 슬레이브로부터 그 결과를 취합한다.

Proxy D.P. 실제 컴포넌트가 아닌 대리자를 앞단에 두어 이 대리자를 통해 실제 컴포넌트와 통신을 한다. 실제 컴포넌트의 위치 추상화, 실제 컴포넌트를 사용하기 위한 인증 등과 같은 전처리는 물론 후처리에 대한 기능 추가가 용이하다.

Command Processor D.P. 사용자의 요청을 하나의 객체로 정의하여 관리하며 Undo/Redo와 같은 처리가 가능하다.

View Handler D.P. 시스템의 모든 뷰를 관리하는 책임을 분리하여 뷰들 간의 관계성과 연관된 작업을 쉽게 처리할 수 있도록 한다.

Forwarder-Receiver D.P. 투명한 IPC를 제공하고 Peer를 분리하기 위해 Forwarder와 Receiver를 분리한다.

Client-Dispatcher-Server D.P. 클라이언트와 서버 사이에 디스패처 레이어를 도입한다. 위치 투명성을 제공하고 클라이언트와 서버간의 통신에 대한 세부적인 구현을 캡출화한다.

Publisher-Subscriber D.P. 서로 긴밀하게 관계를 맺고 있는 컴포넌트들 간의 상태에 대해 정합성을 유지하는데 용이하다. Publisher가 책임을 지고 하나의 변경에 대해 다수의 Subscriber에게 변경을 통지한다.