Ein Wolkenbruch der Rechenleistung

KREDIT: NICSKraken / Vertrieb unter einer CC-BY 2.0-Lizenz.

Wenn datengesteuerte Erkennung zur Norm wird, müssen mehr Wissenschaftler ein Upgrade von ihren Desktop-Computern auf leistungsfähigere, skalierbare Computersysteme durchführen. Als Direktor für Forschung und physikalische Wissenschaften am eScience-Institut der University of Washington (UW) hat Jeffrey Gardner die Aufgabe, Forschern bei dieser Migration zu helfen.

Gardner ist nicht nur ein Vermittler der Computerarbeit, sondern auch ein Computerastrophysiker. Er hat Code ausgeführt, der alle über 100.000 CPU-Kerne und über 10.000 Festplatten des Supercomputers Kraken im National Supercomputing Center der Universität von Tennessee Knoxville verwendet. Er arbeitet nebenbei bei Google als Gastwissenschaftler. Bevor er zu UW kam, war er leitender wissenschaftlicher Spezialist am Pittsburgh Supercomputing Center. Er kennt also Ressourcen für wissenschaftliches Rechnen.

"Selbst für führende Labors ist es schwierig, tausend oder mehr Kerne für mehrere Monate für ein einzelnes Projekt in ihrer eigenen Einrichtung zu sichern." - Kai Kohlhoff
Jeffrey Gardner

Jeffrey Gardner

KREDIT: Alan Freed

KREDIT: Alan befreit Jeffrey Gardner

Es ist nicht so, dass es schwierig ist, an Rechenressourcen zu kommen. Sie sind aus verschiedenen Quellen erhältlich. Zusätzlich zu seinen anderen Aufgaben ist Gardner UWs Campus-Botschafter für das XSEDE-Programm (Extreme Science and Engineering Discovery Environment) der National Science Foundation, mit dem seit 25 Jahren Rechen- und Speicherplattformen für Akademiker kostenlos zur Verfügung gestellt werden Forscher in den USA, die Hochleistungsrechnen (HPC) benötigen. "Ich rufe seit ungefähr 5 Jahren KOSTENLOSE RECHNUNGSZEIT von den Dächern", schreibt er per E-Mail. "Durch die Finanzierung von rund einem Dutzend Standorten im ganzen Land hat NSF sichergestellt, dass jeder Forscher unabhängig von seinem Standort den gleichen Zugang zu den Ressourcen hat."

Das Energieministerium und die NASA betreiben auch Hochleistungsrechnereinrichtungen, die Forschern zur Verfügung stehen, deren Projekte von diesen Agenturen finanziert werden. Und an den meisten Spitzenuniversitäten und Forschungsinstituten können Wissenschaftler auf dem Campus gegen eine Gebühr auf Hochleistungs-Computing-Cluster zugreifen.

Heute gibt es einen weiteren neuen Player in der Scalable-Computing-Szene: die Cloud. In weit entfernten Rechenzentren können "elastische" Cluster mit Rechenkapazität nach Bedarf zusammengestellt werden. Dies ist möglich, weil Unternehmen kommerzielle Cloud-Plattformen - Amazon Web Services, Windows Azure, Google Compute Engine usw. - Wissenschaftlern zur Verfügung gestellt haben. Die Hauptattraktivität dieses Ansatzes liegt in den relativ geringen Kosten, die dadurch ermöglicht werden, dass die Cluster aus Standardhardware und -software - leicht verfügbaren Computerkomponenten - bestehen, sagt Joseph Hellerstein, Manager für Computational Discovery for Science bei Google.

Es gibt aber auch andere praktische Vorteile. Wie die anderen Computerressourcen, die Wissenschaftlern zur Verfügung stehen, hat auch das wissenschaftliche Cloud-Computing eine Nische.

<p> Joseph Hellerstein </ p>

Joseph Hellerstein

KREDIT: Joe Hellerstein / Google

KREDIT: Joseph Hellerstein / Google

Joseph Hellerstein

Ruotti rennt

Um Wissenschaftlern die Forschungsmöglichkeiten von kommerziellen Clustern zu demonstrieren, kündigte Cycle Computing Ende 2011 die BigScience Challenge an, einen Wettbewerb, bei dem "die Runts, die Außenseiter, die verrückten Ideen gesucht werden, die normalerweise zu groß oder zu teuer sind, um gefragt zu werden". aber könnte, könnte nur der Menschheit helfen ", heißt es auf der Website des Unternehmens. Laut Jason Stowe, dem CEO des Unternehmens, besteht das Ziel des Wettbewerbs darin, Wissenschaftlern die Möglichkeit zu geben, sich Gedanken zu machen, wenn es darum geht, Forschungsfragen zu formulieren, unabhängig von der Verfügbarkeit von Rechenressourcen.

Victor Ruotti, der 2011 Computational Biologist am Morgridge Institute for Research an der Universität von Wisconsin-Madison war, wollte die Genexpressionsprofile von Gewebeproben untersuchen, um die Gene zu finden, die an der Differenzierung menschlicher embryonaler Stammzellen beteiligt sind. Die Ergebnisse könnten klinischen Forschern helfen, Behandlungen für bestimmte Krankheiten aufzudecken. Es würde jedoch 115 Jahre dauern, um ein solches Projekt auf einem einzigen Rechnerkern durchzuführen.

Ruottis Lauf verwendete einen virtuellen Cluster von durchschnittlich 5000 Kernen, 8000 zu Spitzenzeiten. Der Zugriff auf 78 Terabyte Genomdaten dauerte eine Woche. Als Gewinner der Big Science Challenge hat Ruotti nichts bezahlt, aber wenn er seinen Weg bezahlt hätte, hätte dieser Traumlauf fast 20.000 US-Dollar gekostet.

Ruotti hätte das aus fast 10.000 Kernen bestehende Datenverarbeitungsnetz seiner Universität im Center for High Throughput Computing nutzen können. "Aber um dieselbe Arbeit in einer Woche zu erledigen, hätte die Arbeit anderer Benutzer ganz aufhören müssen, was nicht praktikabel war", sagt Stowe. Cycle Computing stellte einen sicheren On-Demand-Cluster bei Amazon Web Services exklusiv für Ruotti bereit und koordinierte die Planung, Datenverschlüsselung und technischen Details. Der Forscher brauchte nur die Software zur Analyse von Genomdaten und die Daten mitzubringen.

Jason Stowe

Jason Stowe

Mit freundlicher Genehmigung von Cycle Computing

Mit freundlicher Genehmigung von Cycle Computing Jason Stowe

Cycle Computing ist nicht der einzige Player in der Szene. Im letzten Jahr vergab Google im Rahmen seines Exacycle-Projekts mehr als 100 Millionen kostenlose Kernstunden an sechs große wissenschaftliche Projekte. Die Exacycle-Planungsinfrastruktur lokalisiert in Google-Rechenzentren inaktive CPU-Kerne und verwendet sie zum Ausführen von wissenschaftlichem Code. Gardner ist einer der führenden Wissenschaftler in einem dieser Projekte, dem einzigen Nicht-Life-Science-Projekt unter den sechs ausgewählten.

Ein weiterer Exacycle-Nutzer ist Kai Kohlhoff, ein Forscher bei Google. In Kohlhoffs Exacycle-Projekt werden dynamische Simulationen einer Klasse von Wirkstoffen durchgeführt, die für Arzneimitteltherapien von entscheidender Bedeutung sind. "Simulationen derartiger größerer molekularer Systeme werden normalerweise auf einem Supercomputer wie Anton, einem Distributed-Computing-Projekt oder einer freiwilligen" Cloud "wie ", sagt er. "Selbst für führende Labors ist es schwierig, tausend oder mehr Kerne für mehrere Monate für ein einzelnes Projekt in ihrer eigenen Einrichtung zu sichern", sagt er. Mit hätten sie einen viel kleineren Datensatz generiert, der viel weniger Einblicke ermöglichte.

Wirtschaftlichkeit versus Benutzerfreundlichkeit

Cloud Computing ist in der Regel nicht kostenlos - und damit teurer als das kostenlose XSEDE-Programm von NSF. Laut Gardner bietet der Cloud-Ansatz den Forschern jedoch Dinge, die sie zu schätzen wissen. Um Zeit auf den Computern einzuräumen, benötigt NSF einen langwierigen Vorschlag von etwa 10 Seiten, der von einer Expertengruppe geprüft wird. Das Verfassen eines guten Vorschlags dauert Monate. "Für die Cloud hingegen brauchen Sie nur eine Kreditkarte, und schon kann es losgehen", sagt Gardner, der den Forschern von UW beim Verfassen von Vorschlägen hilft.

Es könnte andere Gründe geben, die teurere Option zu wählen, betont Gardner. Hochleistungsrechnersysteme können ziemlich einfach sein. Kommerzielle Clouds bieten möglicherweise bessere Schnittstellen auf oberster Ebene. Möglicherweise benötigt der Forscher grundlegende Funktionen, die in der Cloud einfacher zu erwerben sind, z. B. den Zugriff auf ein Datenbanksystem. In nationalen Einrichtungen müssen Forscher ihre Jobs in einer Stapelwarteschlange ablegen und darauf warten, dass Ressourcen verfügbar werden. Mit Cloud-Plattformen können Forscher viel schneller Ergebnisse erzielen.

Hochschul-HPC-Zentren wie Hyak an der UW sind ebenfalls nicht kostenlos, aber sie sind ebenfalls wichtige Bestandteile des Puzzles für wissenschaftliches Rechnen. "Nehmen wir an, Sie möchten einen kurzen 15-minütigen Test durchführen, um festzustellen, ob Sie einen Fehler beseitigt haben. Es ist zum Kotzen, Ihren Job in die Warteschlange zu stellen und beispielsweise 24 Stunden zu warten, bis er ausgeführt wird", sagt Gardner. Oder ein Forscher benötigt möglicherweise nur wenige Knoten in einem Cluster - nicht genug, um die Verwendung eines Kraken oder eines Anton zu rechtfertigen. In diesem Fall kann das lokale HPC-Zentrum genau das Richtige sein.

Obwohl sich immer größere Cluster relativ einfach in der Cloud zusammenstellen lassen, sind Cloud-Plattformen für einige wissenschaftliche Probleme nicht geeignet. Laut Hellerstein von Google können die Probleme, die in der Cloud gut funktionieren, mit einem hohen Grad an Parallelität ausgeführt werden, ohne dass eine schnelle Kommunikation zwischen den Komponenten des Clusters erforderlich ist. Da es an Hochgeschwindigkeitsverbindungen mangelt, sind Cluster nicht ideal, um beispielsweise das menschliche Gehirn zu simulieren, in dem Neuronen ständig miteinander kommunizieren. Aber Workarounds könnten möglich sein, fügt er hinzu, und vielleicht laufen diese auch eines Tages auf Clustern.

Daten in der Cloud

Je einfacher die Datenerfassung wird, desto dringlicher werden Fragen zur Datenspeicherung. Während Computerspeicher billig ist, machen Sicherheits- und Archivierungsprobleme die Auswahl eines Speichermediums wichtig. Auch wenn Cloud-Plattformen nur vorübergehend zu sein scheinen, bieten sie Funktionen zur langfristigen Datenspeicherung. Warum sollten Sie die Cloud dennoch verwenden, wenn Sie die Daten in Ihrem eigenen Labor speichern und sichern können?

Cloud-Plattformen bieten das Versprechen eines universellen, offenen Zugangs für andere Forscher. Laut Hellerstein hat Shared Code ähnliche Vorteile, sodass Wissenschaftler schneller auf den Ergebnissen von Kollegen aufbauen können. Er verweist auf das Beispiel der gemeinnützigen Sage Bionetworks, deren Mission es ist, die biomedizinische Forschung zu eröffnen, indem Forscher davon überzeugt werden, genomische und biomedizinische Daten in einer riesigen, gut kuratierten Datenbank in der Cloud zu bündeln. Ein weiteres Beispiel ist das Online-Repository für Genomdaten der National Institutes of Health, GenBank. In einigen wissenschaftlichen Disziplinen wie der Teilchenphysik und der Astrophysik ist die Praxis des Austauschs experimenteller Daten weiter verbreitet als in anderen Bereichen.

"Die wichtige Herausforderung besteht darin, nicht nur die Daten zu speichern", sagt John Quackenbush, Professor für Computerbiologie und Bioinformatik am Dana-Farber Cancer Institute der Harvard University. Er baut integrierte Datenbanken auf, die unterschiedliche, aber komplementäre Arten von Daten zusammenführen, die für die Behandlung von Krebs relevant sind. "Wir müssen Tools und Protokolle entwickeln, um die Daten für die Beantwortung relevanter biologischer Fragen zugänglich, verwendbar und nützlich zu machen."

Auf lange Sicht könnte dies der größte Reiz sein, Wissenschaft in der Cloud zu betreiben, spekuliert Hellerstein: die Beschleunigung der wissenschaftlichen Entdeckung durch Förderung des Datenaustauschs und der Zusammenarbeit.