FAQ-CUDA
홈 > CUDA > FAQ-CUDA

Fermi C2050 성능비교

미루웨어

2010-05-07

6330

안녕하세요. Fermi의 성능에 대해서 궁금해 하실 것으로 생각됩니다.  

 

엔비디아 유현곤 과장님의 도움으로 Fermi C2050 샘플의 성능 테스트를 수행하였습니다. Fermi C2050의 성능은 약간더 올라갈 것이라고 합니다. (현재 테스트한 샘플은 파워가 225W정도 사용하는데, 실제 양산제품은 파워가 249W로 결정되었다고 합니다.)

 

 

각각 시스템이 모두 동일하지 않습니다(메인보드 등등)

Quadro FX5800 : Tesla C1060과 동일한 스펙   :  Win7 + Quadro driver

GTX 470 : Tesla C2050과 유사(^^)한 스펙       : Win7 64bit + WHQL driver

Telsa C2050 A03 sample : 최종 스펙은 아닙니다. (old bios) : Win HPC 2008 + TCC driver

 

Bandwidth Test

bandwidth Test paged (HtD, DtH, DtD)

Quadro FX5800   : 3474  3133  73343

Geforce GTX470 : 2067 2018 91688

Tesla C2050       :  2205 2238 82241

 

Quadro FX5800을 네할렘 기반에서 테스트하였고, Fermi 기반 테스트는 메인보드 및 데모장비 수급 문제로 인하여 Xeon 기반에서 테스트하였습니다. 이로 인하여 paged 메모리의 성능차이가 나타나고 있습니다. Tesla 시스템을 구매시 메인보드의 성능도 중요한 역할을 합니다.  DDR5를 사용하게 됨으로 발생하는  DtD 속도 향상을 확인하실 수 있습니다.  HtD, DtH의 성능은 추후 네할렘 보드에서 다시한번 테스트할 예정입니다.

 

bandwidth test pinned (HtD, DtH, DtD)

Quadro FX5800   : 5046 3949 73389

Geforce GTX470 : 5754 6266 91765

Tesla C2050       :  5845 6210 82219

 

Pinned 메모리를 테스트 하는 경우에는 메인보드의 특성을 타지 않는 것을 확인할 수 있습니다. Fermi기반 아키텍쳐에서 네할렘 대비 제온의 핸디캡에도 불구하고 DtH 속도의 향상을 확인할 수 있습니다.

 

 

nbody simulation

single precision with n=10000

Quadro FX5800   :  293.993 Gflops

Geforce GTX470 :  425.729 Gflops 

Tesla C2050       :  402.125 Gflops

 

Fermi 기반 single precision에서 약 1.5배정도의 속도 향상이 있는 것을 확인할 수 있습니다. 특히, Geforce GTX470의 경우 메모리 및 GPU의 오버클러킹으로 인하여 퍼포먼스 체크 성능이 Tesla보다 약간더 높아졌습니다. 

 

double precision with n=10000

Quadro FX5800   :    32.948 Gflops

Geforce GTX470 :    89.053 Gflops

Tesla C2050       :  211.715 Gflops

 

double precision 성능은 Fermi기반 Tesla인 C2050이 제일 빠른 것을 확인하실 수 있습니다. Quadro FX5800대비 약 8배, Geforce GTX470대비도 2배 이상 성능차이가 나는 것을 확인할 수 있습니다.

Tesla K20X / K20 FAQ

CUDA 최적화를 위한 Operation 비교자료.
목록보기