Perkenalan
Pegasus
Proyek
Pegasus mencakup seperangkat teknologi yang membantu alur kerja berbasis
aplikasi mengeksekusi di sejumlah lingkungan yang berbeda termasuk desktop,
cluster kampus, grid, dan awan. Pegasus menjembatani domain ilmiah dan
lingkungan eksekusi secara otomatis memetakan tingkat tinggi deskripsi alur
kerja ke sumber daya didistribusikan. Secara otomatis menempatkan data masukan
yang diperlukan dan sumber daya komputasi yang diperlukan untuk alur kerja
eksekusi.Pegasus memungkinkan para ilmuwan untuk membangun alur kerja secara
abstrak tanpa khawatir tentang rincian dari lingkungan eksekusi yang mendasari
atau keterangan dari tingkat rendah spesifikasi yang disyaratkan oleh
middleware (Condor, Globus, atau Amazon EC2). Pegasus juga menjembatani
cyberinfrastructure saat ini dengan efektif mengkoordinasikan beberapa sumber
daya yang didistribusikan.
Komponen
pegasus
Mapper
(Pegasus Mapper): Menghasilkan alur kerja dieksekusi
berdasarkan alur kerja abstrak yang diberikan oleh pengguna atau sistem
komposisi alur kerja. Ia menemukan perangkat lunak yang sesuai, data, dan
sumber daya komputasi yang dibutuhkan untuk eksekusi alur kerja. Mapper juga
dapat merestrukturisasi alur kerja untuk mengoptimalkan kinerja dan menambahkan
transformasi untuk pengelolaan data dan informasi provenance generasi.
Eksekusi
Engine (DAGMan): Menjalankan tugas-tugas yang
didefinisikan oleh alur kerja dalam urutan dependensi mereka. DAGMan bergantung
pada sumber daya (menghitung, penyimpanan dan jaringan) didefinisikan dalam
alur kerja dieksekusi untuk melakukan tindakan yang diperlukan.
Task
manager (Schedd Condor): mengelola tugas alur kerja
individu: mengawasi eksekusi mereka pada sumber daya lokal dan remote
pemantauan
Komponen (Pegasus Monitord): Memantau alur kerja
berjalan, mengurai alur kerja dan log pekerjaan dan populasikan mereka ke
database alur kerja yang digunakan untuk menyimpan informasi runtime asalnya.
Hal ini juga mengirimkan pemberitahuan kembali ke pengguna memberitahu mereka
tentang acara seperti kegagalan, keberhasilan dan penyelesaian alur kerja dan
pekerjaan.
Para
pemakai pegasus
Pegasus telah digunakan
dalam sejumlah domain ilmiah termasuk astronomi,
bio-informatika, ilmu gempa, ilmu fisika, ilmu laut, limnologi, ilmu Botani,
ilmu Kimia, ilmu tentang Iklim, Ilmu Komputer, ilmu Genome Analisis, ilmu
Helioseismology, ilmu Neuroscience.
Bidang
Astronomi
Galactic
Plane : Sebuah kolaborasi dengan NASA / IPAC Infrared Ilmu
Arsip (http://irsa.ipac.caltech.edu). Kemampuan imaging dari Spitzer Space
Telescope telah diaktifkan untuk pertama kalinya survei dari bidang galaksi
kita di seluruh spektrum inframerah.
Montage
: Astronom
Caltech menggunakan Pegasus untuk menghasilkan ilmu-kelas mosaik langit
(Montage http://montage.ipac.caltech.edu/ proyek). Montage memberikan
ilmu-kelas mosaik langit. Teknologi kami yang digunakan untuk mengubah kode
tunggal-prosesor Montage menjadi alur kerja yang kompleks dan perhitungan
parallelized untuk memproses lebih besar-skala gambar.
Bidang
Bio-informatika
Association
Mapping and Population Genetics in Vervets : Sebagai OWM
kedua (monyet dunia lama) sequencing (yang pertama adalah Rhesus macaque),
vervet, tidak seperti kera besar yang sebagian besar di dekat-punah status,
tersedia secara luas untuk penelitian biomedis. (Rhesus banyak tersedia di
India, tetapi pembatasan ekspor yang diberlakukan oleh pemerintah India
membuatnya kurang ideal untuk penelitian biomedis).
Association
Test : Aplikasi ini menggunakan Cochran-Mantel-Haenszel
(CMH) statistik asosiasi untuk melakukan tes asosiasi tergantung pada
pencocokan dilakukan pada langkah stratifikasi populasi. Clustering menggunakan
Warisan-by-Struktur Plink ini (IBS) clustering.
Brain
Span : Proyek Span Otak berusaha untuk menemukan kapan dan
di mana di otak gen diekspresikan. Informasi ini memegang petunjuk penyebab
potensial dari penyakit. Sebuah penelitian baru menemukan bahwa bentuk gen yang
terkait dengan skizofrenia lebih dari-disajikan dalam otak janin. Untuk membuat
penemuan tersebut tentang apa yang normal, para ilmuwan harus terlebih dahulu
tahu apa pola normal ekspresi gen yang selama pengembangan.
Combined
CNV Detection : Alur kerja ini menggabungkan hasil dari
CNV gnosis (Copy Variasi Nomor) algoritma deteksi dan PennCNV algoritma deteksi
(termasuk X-Kromosom deteksi) untuk menghasilkan file yang berisi CNV Digabung.
Hal ini kemudian memproses lebih lanjut untuk membandingkan hasilnya dengan
daftar CNV umum, dan menilai tumpang tindih induk dan CNV anak. Akhirnya
menambahkan catatan hasil.
DNA
sequencing : The USC epigenome Pusat saat menggunakan
Genetic Illumina Analyzer (GA) sistem untuk menghasilkan data throughput tinggi
urutan DNA (hingga 8 miliar nukleotida per minggu) untuk memetakan keadaan
epigenetik dari sel manusia pada skala genome. Epigenomic Workflow (pekerjaan
komputasi akan ditampilkan sebagai lingkaran, data pekerjaan transfer
rhomboids).
Epigenomics
: This
application splits sequence files into multiple parts and converts them to the
appropriate file format. Then it filters out noisy and contaminating sequences
to maps them to their genomic locations. From the individual mapping steps, it
merges them into a single global map and uses sequence maps to calculate the
sequence density at each position in the genome. This application has a
footprint of 6GB of data.
Genomic
Studies of Mental Disorders : Portal komputasi yang
dikembangkan untuk Pusat Studi Genomic Gangguan Mental menggunakan Pegasus
untuk mengelola alur kerja untuk studi populasi genetika. Portal ini
menggunakan sayap (url) alur kerja sistem dan komposisi Pegasus untuk
memungkinkan para ilmuwan untuk memulai analisis berdasarkan template alur
kerja yang tersedia. Di bawah ini adalah screenshot dari Galeri Workflow
portal.
Proteomics
: Para
ilmuwan di OSU menggunakan Pegasus untuk massa-spektrometri berbasis proteomik.
Proteomik alur kerja telah dilaksanakan pada cluster lokal dan sumber daya
awan. Contoh proteomika alur kerja: a) Pegasus alur kerja template. Kotak
persegi dengan garis ganda merupakan koleksi file dan elips dengan batas ganda
merupakan pekerjaan paralel. b) Pelaksanaan alur kerja untuk clustering dari
lima set data senapan proteomika. c) analisis cluster hirarkis data senapan
proteomika.
Quality
Control of Population Studies : Alur kerja ini
bertujuan untuk menunjukkan perbedaan dalam data yang berasal dari kelompok
yang berbeda dan pemeriksaan kesesuaian pada panggilan genotipe terhadap
genotipe HapMap. Awalnya, itu adalah script R besar yang dihitung semua langkah
sekaligus, secara berurutan. Kami telah membagi kode ke langkah-langkah yang
berbeda / tugas untuk mewakili mereka sebagai alur kerja. Sebagai hasilnya,
kami berhasil mengeksekusi seluruh alur kerja dalam waktu 30 menit pada
sekelompok kecil dibandingkan dengan 4 jam dari versi awal berurutan.
SeqWare
: SeqWare
(http://sourceforge.net/projects/seqware/) merupakan perangkat lunak sumber
terbuka yang dikembangkan di UCLA. Hal ini digunakan untuk mendukung teknologi
sequencing massal paralel dan menyediakan sejumlah fungsi yang berbeda termasuk
LIMS, pipa komputasi (didukung oleh Pegasus), dan komponen metadata. Perangkat
lunak ini baru-baru ini digunakan untuk urutan garis sel kanker U87MG
SIPHT
: Aplikasi
ini adalah melakukan pencarian luas untuk RNA diterjemahkan kecil (sRNAs) yang
mengatur beberapa proses seperti sekresi atau virulensi pada bakteri. Prediksi
kerajaan-lebar dan penjelasan dari gen pengkodean sRNA melibatkan berbagai
program individu yang dilaksanakan dalam urutan yang tepat dengan menggunakan
PEGASUS.
Bidang
Botani
Plant
Development : Tanaman ilmuwan di University of
Wisconsin Madison menggunakan Pegasus untuk menghasilkan film pertumbuhan akar
tanaman dan menganalisis gambar dikumpulkan melalui time-lapse fotografi.
Sampel proyek lain lokasi hutan untuk mencirikan vegetasi understory untuk
menentukan bagaimana spesies tanaman yang berbeda didistribusikan di hutan.
Vegetation
and Landscape Ecology : Don Waller, seorang Profesor Studi
Botani dan Lingkungan di UW Madison, dan mahasiswa pascasarjana nya Erika
Mudrak menyelidiki pola spasial dalam perubahan vegetasi dan pelacakan dalam
ekologi lanskap di skala spasial dan temporal.
Bidang
Kimia
Biochemistry
: George
Phillips dari Departemen Biokimia di UW Madison memiliki kepentingan dalam
struktur dan dinamika dari protein serta dalam biologi komputasi.
Bidang
Pemodelan Iklim
Climate
Ensemble : Sebuah aplikasi pemodelan iklim telah
menggunakan alat kami untuk mengurangi jumlah waktu perhitungan ambil. Simulasi
yang digunakan untuk mengambil 2,5 bulan untuk dijalankan secara manual, hanya
membutuhkan waktu 2,5 hari untuk menjalankan menggunakan alat kami.
Bidang
Ilmu Komputer
Computer
Vision : Li Zhang adalah fakultas di UW Madison Departemen
Ilmu Komputer, dan memiliki kepentingan dalam visi komputer dan grafis. Proyek
mahasiswa pascasarjana Alok Deshpande adalah penelitian interdisipliner yang
berupaya untuk mewujudkan bio-terinspirasi cerdas sistem mikro pencitraan
optik.
Bidang
Gempa
Southern
California Earthquake Center - CyberShake and Broadband : Southern
California Earthquake Center (SCEC) adalah sebuah komunitas lebih dari 600
ilmuwan, mahasiswa, dan lain-lain di lebih dari 60 lembaga di seluruh dunia,
yang berkantor pusat di University of Southern California. SCEC didanai oleh
National Science Foundation dan US Geological Survey untuk mengembangkan
pemahaman yang komprehensif tentang gempa bumi di Southern California dan di
tempat lain, dan untuk mengkomunikasikan pengetahuan yang berguna untuk
mengurangi resiko gempa.
Bidang
Genome Analisis
GADU
: Gadu
- Analisis Genome dan sistem database Update, telah menggunakan Pegasus selama
2 tahun terakhir untuk melakukan high-seluruh analisis dan penjelasan dari
informasi genomik yang teratur sekering dari berbagai sumber informasi publik,
memberikan fasilitas terintegrasi yang mendukung program-program penelitian
dalam DOE serta pengunjung umum ke portal web.
Bidang
Helioseismology
Solar
Dynamics Observatory (SDO) : The Solar Dynamics
Observatory (SDO) yang paling penting fisika NASA Misi surya ini dekade
mendatang. Akan diluncurkan menjelang akhir tahun 2008, tiga instrumen utama di
papan SDO adalah Helioseismic dan Magnetic Imager (HMI), yang Atmospheric
Imaging Assembly (AIA) dan Variabilitas Percobaan ultraviolet ekstrim (EVE).
Data akan terutama digunakan untuk mempelajari aktivitas magnetik matahari dan
untuk menyelidiki struktur internal dan dinamika Matahari dengan
helioseismology.
Bidang
Limnologi
Ecosystem
Modeling : Profesor Paul Hanson di Pusat Limnologi
di UW Madison melakukan penelitian dalam siklus karbon, variabilitas ekosistem,
mikroba, alga, dan bahkan ikan.
Bidang
Neuroscience
Telescience
Project : Pegasus juga digunakan dalam proyek Telescience dan
portal untuk mendukung rekonstruksi 3D gambar tomografi elektron. Para ilmuwan
UCSD berencana untuk terus bergantung pada teknologi alur kerja kami untuk
memperluas set aplikasi Grid mereka mendukung dalam lingkungan portal mereka
dan untuk mengembangkan teknik-teknik baru yang dapat memberikan real-time
umpan balik dari rekonstruksi 3D untuk para ilmuwan memanipulasi instrumen.
Bidang
Kelautan
Ocean
Forecast : Para peneliti di Jet Propulsion
Laboratory mengeksplorasi Pegasus WMS untuk menjalankan ansambel perkiraan laut
dari wilayah pesisir California. Model ini menghasilkan sejumlah perkiraan
harian untuk suhu air, salinitas, dan langkah-langkah lainnya. Alur kerja
perkiraan utama (ditunjukkan di bawah) mengkonsumsi sekitar 1.8GB data dan
menghasilkan output dari sekitar 8,7 MB.
Bidang
Fisika
Laser
Interferometer Gravitational Wave Observatory (LIGO) : Laser
Interferometer gravitasi Wave Observatory (LIGO) adalah jaringan
gravitasi-gelombang detektor, dengan observatorium di Livingston, LA dan
Hanford, WA. Misi observatorium adalah untuk mendeteksi dan mengukur gelombang
gravitasi diprediksi oleh teori relativitas umum Einstein ─ ─ gravitasi di mana
gravitasi digambarkan sebagai akibat kelengkungan struktur waktu dan spa.
Molecular
Thermodynamics : Juan de Pablo dan Termodinamika
Molekuler dan Statistik Mekanika Kelompok Penelitian di University of Wisconsin
menggunakan sumber daya komputasi yang disediakan oleh CHTC
(http://chtc.cs.wisc.edu/) dan Pegasus WMS untuk memprediksi gerakan benda
makroskopik melalui simulasi dari apa partikel mikroskopis mereka lakukan.
Untuk informasi lebih lanjut, kunjungi website kelompok penelitian.
Fitur
yang menjadikan sebuah kelebihan Pegasus
Portabilitas
/ Reuse - Pengguna workflow dibuat dengan mudah dapat
dijalankan dalam lingkungan yang berbeda tanpa perubahan. Pegasus saat
menjalankan alur kerja di atas Condor, Grid infrastrucutures seperti Grid Open
Science dan TeraGrid, Amazon EC2, Nimbus, dan cluster kampus banyak. Alur kerja
yang sama dapat dijalankan pada sistem tunggal atau di satu set heterogen
sumber daya.
Kinerja
- The mapper Pegasus dapat menyusun ulang, kelompok, dan memprioritaskan
tugas-tugas dalam rangka meningkatkan kinerja alur kerja secara keseluruhan.
Skalabilitas
- Pegasus dengan mudah dapat skala baik ukuran alur kerja, dan sumber daya yang
alur kerja didistribusikan melalui. Pegasus menjalankan alur kerja mulai dari
hanya tugas komputasi beberapa sampai 1 juta. Jumlah sumber daya yang terlibat
dalam melaksanakan alur kerja dapat skala yang diperlukan tanpa halangan
terhadap kinerja.
Provenance
- Secara default, semua pekerjaan di Pegasus yang diluncurkan melalui proses
kickstart yang menangkap asal runtime dari pekerjaan dan membantu dalam
debugging. Data asalnya dikumpulkan dalam database, dan data dapat ringkasan
dengan alat seperti pegasus-statistik, pegasus-plot, atau langsung dengan query
SQL.
Manajemen
Data
- Pegasus menangani replika seleksi, transfer data dan registrasi output dalam
katalog data. Tugas ini ditambahkan ke alur kerja sebagai pekerjaan auxilliary
oleh perencana Pegasus.
Keandalan
- Jobs dan transfer data secara otomatis retried dalam kasus kegagalan.
Debugging alat seperti pegasus-analyzer membantu pengguna untuk men-debug alur kerja
dalam kasus non-dipulihkan kegagalan.
Pemulihan
Kesalahan - Ketika terjadi kesalahan, Pegasus mencoba untuk
memulihkan bila mungkin dengan tugas mencoba kembali, dengan mencoba kembali
seluruh alur kerja, dengan menyediakan alur kerja tingkat checkpointing, dengan
re-mapping bagian dari alur kerja, dengan mencoba alternatif sumber data untuk
pementasan data, dan, ketika semuanya gagal, dengan menyediakan alur kerja
penyelamatan yang berisi deskripsi hanya pekerjaan yang masih harus dilakukan.
Ini membersihkan penyimpanan sebagai alur kerja dijalankan sehingga
data-intensif workflow memiliki cukup ruang untuk mengeksekusi pada penyimpanan
terbatas sumber daya. Pegasus melacak apa yang.
Cara
kerja Pegasus
Tidak ada komentar:
Posting Komentar