Grid-Computing

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten (Unterschied zur vorletzten Version).

Die Artikel Grid-Computing und Verteiltes Rechnen überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Die Diskussion über diese Überschneidungen findet hier statt. Bitte äußere dich dort, bevor du den Baustein entfernst. Gratisaktie 12:28, 25. Sep 2006 (CEST)

Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf bitte mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Der Begriff Grid-Computing [ˈgɹɪd kəmˈpjuːtɪŋ] stammt von der englischen Bezeichnung für das Stromnetz, dem Power Grid. Die Idee des Grid Computings ist dabei, die Rechenleistung - ähnlich wie elektrischen Strom - "aus der Steckdose" vom Grid beziehen zu können. Der User übergibt seinen Auftrag über genormte Schnittstellen ans Grid, woraufhin die Ressourcen allokation automatisch erfolgt.

Das Grid-Computing umfasst alle Methoden, die Rechenleistung vieler Computer innerhalb eines Netzwerks so zusammenzufassen, dass über den reinen Datenaustausch hinaus die (zeitlich parallele) Lösung von rechenintensiven Problemen ermöglicht wird (verteiltes Rechnen). Dies beinhaltet auch die Themen Sicherheit (Authentifizierung und Datenverschlüsselung), Zusammenarbeit in virtuellen Organisationen sowie Softwareverteilmechanismen.

Damit kann, zu deutlich geringeren Kosten, sowohl die Kapazität als auch die Rechenleistung heutiger Supercomputer übertroffen werden. Grid-Systeme skalieren sehr gut: durch Hinzufügen von Rechnern zum Netz (oder hierarchisches Zusammenfassen von Grids) erhöht sich die Rechenleistung in entsprechendem Maße, jedoch nicht linear.

[Bearbeiten] Details

Zur Architektur eines Grid gibt es mehrere Konzepte. Jedem bekannten Konzept ist eigentümlich, dass es außer der nachfragenden Instanz und der von dort gestellten tatsächlichen Leistungsanforderung eine koordinierende Instanz für die Agglomeration von Rechenleistung und für die Zusammenführung der Teilleistungen geben muss. Außerdem ist eine strenge Hierarchie erforderlich, welche die Agglomeration von Rechenleistung nach objektiven Kriterien zulässt oder ausschließt. Jeder Computer in dem "Gitter" ist eine den anderen Computern zunächst hierarchisch gleichgestellte Einheit (Peer-2-Peer).

Die typischen Aufgaben, bei denen sich Grid-Computing als Strategie anbietet, sind solche, die die Leistung einzelner Computer überfordern. Dazu gehören beispielsweise die Integration, Auswertung und Darstellung von sehr großen Datenmengen aus der naturwissenschaftlichen und medizinischen Forschung. In der Routine werden die Techniken auch angewandt in der Meteorologie und rechenintensiven Simulationen in der Industrie. Insbesondere die Teilchenphysik mit Großexperimenten (z.B. der Large Hadron Collider) als naturwissenschaftliche Anwendung ist ein Vorreiter in der Weiterentwicklung und Etablierung von Grid-Technologien.

Die typischen Probleme, die Grid-Computing mit sich bringt, sind der steigende Aufwand als Teil der verfügbaren Leistung für die Koordination. Daher steigt die Rechenleistung wegen des Koordinationsaufwandes nie linear mit der Zahl der beteiligten Rechner. Dieser Aspekt tritt bei komplexen numerischen Aufgaben in den Hintergrund.

[Bearbeiten] Geschichte

Die Anfänge des Grid-Computings liegen im Bereich des High-Performance-Computing (HPC): dem parallelen Rechnen (parallel processing) in den 1960ern und dem Clustering in den 1970ern. Auch Aspekte des peer-to-peer (p2p) computing sind dem Grid sehr nahe. Die Idee eines Rechengrids stammt ursprüngilch von Ian Foster und Karl Kesselman.

[Bearbeiten] Gridarchitektur

[Bearbeiten] Virtuelle Organisationen

Ein zentrales und hardwareunabhängiges Konzept hinter der Grid-Philosophie ist das der virtuellen Organisationen (VO, siehe dort). Dabei werden Ressourcen (bzw. Services) dynamisch virtuellen Organisationen zugewiesen. Dies erfordert eine Infrastruktur, die Datensicherheit und Datenschutz wie auch Anonymität garantiert.

[Bearbeiten] Klassifikation

Grob gesprochen lassen sich Grid-Computings unterteilen in Klassen, wie

Rechengrids (Computing Grids): Zugriff auf verteilte Rechenressourcen
Datengrids (Data Grids): Zugriff auf verteilte Datenbanken
Ressource Grids
Service Grids
Knowledge Grids

Die Klasse des Computing grid ist vergleichbar mit dem Power grid, also dem Stromnetz: Dazu stellt der Verbraucher von Rechenleistung eine Verbindung zum Rechennetz her, ähnlich wie der Stromverbraucher zum Stromversorgungsnetz. Dort ist alles, was hinter der Steckdose passiert, für den Konsumenten verborgen, er nutzt einfach die angebotene Leistung.

In der Klasse des Data grid kooperieren nicht nur die (Hochleistungs-)Computersysteme der Beteiligten, um Rechenleistung zur Verfügung zu stellen, sondern auch Datenbestände werden verknüpft. Zugang zu solchen Grids bietet meist ein Grid-Portal.

Daneben wird auch die Bereitstellung von Netzwerkressourcen "gridifiziert", d.h. eine automatische Auswahl aus einem Pool von Ressourcen aufgrund bestimmter QoS-Parameter getroffen. Idealerweise sollte die Wahl der Ressourcen applikationsgetrieben, also abhängig von der Anwendung im Computing Grid oder Data Grid sein.

[Bearbeiten] Softwarearchitektur

Eine mögliche Softwarearchitektur für Grids ist die von Ian Foster mitentwickelten Open Grid Service Architecture (OGSA). Diese basiert auf Ansätzen aus der Open Grid Services Infrastructure (OGSI). Deren Grundidee ist die Darstellung von beteiligten Komponenten (Rechner, Speicherplatz, Mikroskope,...) als Grid-Services in einer offenen Komponentenarchitektur. Mit der Erfindung der Web-Services durch das W3C, wurde das Wort Grid-Services zum Synonym für Web-Services welche Grid-Funktionalitäten möglich machen. OGSA schlägt in diesem Zusammenhang den Einsatz von WS-RF (dem Web Services Resource Framework) als grundlegenden Baustein für Service-Grids vor. So bekommen die Webservices, deren Einsatz einheitliche Zugriffsverfahren auf die einzelnen Dienste eines Grids ermöglicht, zusätzlich noch einen Zustand (sie werden stateful). Dies ermöglicht es erst, Funktionalitäten auszuführen, die sich über mehrere Transaktionen erstrecken.

[Bearbeiten] Hardware

Praktisch gesehen benötigt man an Hardware nichts weiter als einen Computer mit einer Netzwerkverbindung. Auf diesen Grid-Computern übernimmt eine Software das Lösen einer Teilaufgabe, die ein - in der Regel zentraler - Server zur Verfügung stellt. Dieser Server benutzt Software, die eine große Aufgabe in eine Anzahl von Teilaufgaben für alle Knoten im Grid aufspalten kann und die Teilergebnisse wieder zusammenfasst.

[Bearbeiten] Grid-Projekte

[Bearbeiten] Enabling Grids for E-sciencE

Das im März 2006 zuendegegangene EGEE Projekt (Enabling Grids for E-sciencE, früher Enabling Grids for E-science in Europe) ist das größte Grid-Projekt der Europäischen Union, mittlerweile mit weltweitem Einsatzbereich. Unter dem Namen EGEE2 wird es seit April 2006 fortgesetzt. Das Projekt wurde in der ersten Projektphase von der EU mit 32 Millionen Euro gefördert und stellt die weltweit größte Grid-Infrastruktur dar.

Beteiligt sind unter anderen CERN (Schweiz), Forschungszentrum Karlsruhe (FZK, Deutschland), Rutherford Appleton Laboratory (RAL, Vereinigtes Königreich), Istituto Nazionale di Fisica Nucleare (INFN, Italien) und Academica Sinica (ASCC, Taiwan). Siehe auch: Enabling Grids for E-sciencE.

[Bearbeiten] XtreemOS

Building and Promoting a Linux-Based Operating System to Support Virtual Organizations for Next Generation Grids ist ein Projekt, welches im 6. Rahmenprogramm von der Europäischen Union gefördert wird. Neben 17 europäischen Projektpartnern sind auch zwei aus China an XtreemOS beteiligt. Es ist im Juli 2006 gestartet und soll vier Jahre lang laufen.

[Bearbeiten] Deutsche Grid-Initiative

siehe D-Grid

[Bearbeiten] Krebsforschungsprojekt

Ein bekanntes Beispiel ist das Krebsforschungsprojekt auf der Grid.org-Plattform, welches in Zusammenarbeit mit dem Centre for Computational Drug Discovery der Oxford University sowie der National Foundation for Cancer Research (NFCR) entstand, und bei dem nahezu drei Millionen PCs an der Sichtung von erfolgversprechenden Molekülen für Krebstherapeutika mitwirkten. Das laufende Projekt hatte bis März 2006 mehr als 460.500 CPU-Jahre (Statistik) gerechnet. Das Programm, das dabei auf dem Heimcomputer läuft, bedient sich dabei nur der nicht benötigten Rechenleistung des Prozessors; es entstehen also keine Performanceverluste.

[Bearbeiten] BOINC

Die Berkeley Open Infrastructure for Network Computing ist die Weiterentwicklung des bekannten SETI@home-Projekts. Es ist eine Implementation des verteilten Rechnens (Distributed Desktop Computing) und kann als einfaches Beispiel für das Grid-Computing dienen, welches auf dem Prinzip der Rechenzeitspende fußt (vgl. Public Resource Computing). Neben SETI@home sind mittlerweile eine Vielzahl anderer Applikationen für das BOINC-Framework entwickelt worden. Die verschiedenen BOINC-Projekte erbringen zusammen eine Rechenleistung von ca. 450 TFlop/s (Stand November 2006, vgl. [1]).

[Bearbeiten] Firmen

Auch namhafte Unternehmen im Computersektor sind mit eigenen Projekten an der Erforschung und (kommerziellen) Nutzung von Grids beteiligt:

(die deutsch- und englisch-sprachigen Projekte sind entsprechend markiert)

Apple – Xgrid (e)
BaseN
Fujitsu Siemens Computers – openSEAS (d)
Datasynapse - Grid Computing im Bankwesen (e, d)
Hewlett-Packard – Grid computing (e)
IBM – Grid computing (e)
Intel – LESC (e)
Oracle – Grid computing (e)
Sun Microsystems – N1 Grid Engine 6 (e)
ZeroC - IceGird (e)

[Bearbeiten] Literatur

Ian Foster: What is the Grid? A Three Point Checklist, Juli 2002, PDF-Download auf Fosters Homepage
Ian Foster, Carl Kesselman: The Grid: Blueprint for a New Computing Infrastructure. 2. Auflage. Elsevier, o.O. 2004, ISBN 1-55860-933-4 (1. Auflage 1999 ISBN 1-55860-475-8)
Anthony Hey, Geoffrey Fox, Fran Berman: Grid Computing: Making The Global Infrastructure a Reality. 1. Auflage. John Wiley & Sons, o.O. 2003, ISBN 0470853190
Ahmar Abbas: Grid Computing: A Practical Guide to Technology and Applications 1. Auflage. Charles River Media, o.O. 2003, ISBN 1584502762
Jochen Fingberg, Marit Hansen et al.: Integrating Data Custodians in eHealth Grids – Security and Privacy Aspects, NEC Lab Report, 2006