Jumat, 19 Oktober 2012

Sistem PEGASUS dalam Kercerdasan Buatan

Perkenalan Pegasus
Proyek Pegasus mencakup seperangkat teknologi yang membantu alur kerja berbasis aplikasi mengeksekusi di sejumlah lingkungan yang berbeda termasuk desktop, cluster kampus, grid, dan awan. Pegasus menjembatani domain ilmiah dan lingkungan eksekusi secara otomatis memetakan tingkat tinggi deskripsi alur kerja ke sumber daya didistribusikan. Secara otomatis menempatkan data masukan yang diperlukan dan sumber daya komputasi yang diperlukan untuk alur kerja eksekusi.Pegasus memungkinkan para ilmuwan untuk membangun alur kerja secara abstrak tanpa khawatir tentang rincian dari lingkungan eksekusi yang mendasari atau keterangan dari tingkat rendah spesifikasi yang disyaratkan oleh middleware (Condor, Globus, atau Amazon EC2). Pegasus juga menjembatani cyberinfrastructure saat ini dengan efektif mengkoordinasikan beberapa sumber daya yang didistribusikan.


Komponen pegasus
Mapper (Pegasus Mapper): Menghasilkan alur kerja dieksekusi berdasarkan alur kerja abstrak yang diberikan oleh pengguna atau sistem komposisi alur kerja. Ia menemukan perangkat lunak yang sesuai, data, dan sumber daya komputasi yang dibutuhkan untuk eksekusi alur kerja. Mapper juga dapat merestrukturisasi alur kerja untuk mengoptimalkan kinerja dan menambahkan transformasi untuk pengelolaan data dan informasi provenance generasi.
Eksekusi Engine (DAGMan): Menjalankan tugas-tugas yang didefinisikan oleh alur kerja dalam urutan dependensi mereka. DAGMan bergantung pada sumber daya (menghitung, penyimpanan dan jaringan) didefinisikan dalam alur kerja dieksekusi untuk melakukan tindakan yang diperlukan.
Task manager (Schedd Condor): mengelola tugas alur kerja individu: mengawasi eksekusi mereka pada sumber daya lokal dan remote
pemantauan Komponen (Pegasus Monitord): Memantau alur kerja berjalan, mengurai alur kerja dan log pekerjaan dan populasikan mereka ke database alur kerja yang digunakan untuk menyimpan informasi runtime asalnya. Hal ini juga mengirimkan pemberitahuan kembali ke pengguna memberitahu mereka tentang acara seperti kegagalan, keberhasilan dan penyelesaian alur kerja dan pekerjaan.
Para pemakai pegasus
Pegasus telah digunakan dalam sejumlah domain ilmiah termasuk astronomi, bio-informatika, ilmu gempa, ilmu fisika, ilmu laut, limnologi, ilmu Botani, ilmu Kimia, ilmu tentang Iklim, Ilmu Komputer, ilmu Genome Analisis, ilmu Helioseismology, ilmu Neuroscience.
Bidang Astronomi
Galactic Plane : Sebuah kolaborasi dengan NASA / IPAC Infrared Ilmu Arsip (http://irsa.ipac.caltech.edu). Kemampuan imaging dari Spitzer Space Telescope telah diaktifkan untuk pertama kalinya survei dari bidang galaksi kita di seluruh spektrum inframerah.
Montage : Astronom Caltech menggunakan Pegasus untuk menghasilkan ilmu-kelas mosaik langit (Montage http://montage.ipac.caltech.edu/ proyek). Montage memberikan ilmu-kelas mosaik langit. Teknologi kami yang digunakan untuk mengubah kode tunggal-prosesor Montage menjadi alur kerja yang kompleks dan perhitungan parallelized untuk memproses lebih besar-skala gambar.
Bidang Bio-informatika
Association Mapping and Population Genetics in Vervets : Sebagai OWM kedua (monyet dunia lama) sequencing (yang pertama adalah Rhesus macaque), vervet, tidak seperti kera besar yang sebagian besar di dekat-punah status, tersedia secara luas untuk penelitian biomedis. (Rhesus banyak tersedia di India, tetapi pembatasan ekspor yang diberlakukan oleh pemerintah India membuatnya kurang ideal untuk penelitian biomedis).
Association Test : Aplikasi ini menggunakan Cochran-Mantel-Haenszel (CMH) statistik asosiasi untuk melakukan tes asosiasi tergantung pada pencocokan dilakukan pada langkah stratifikasi populasi. Clustering menggunakan Warisan-by-Struktur Plink ini (IBS) clustering.
Brain Span : Proyek Span Otak berusaha untuk menemukan kapan dan di mana di otak gen diekspresikan. Informasi ini memegang petunjuk penyebab potensial dari penyakit. Sebuah penelitian baru menemukan bahwa bentuk gen yang terkait dengan skizofrenia lebih dari-disajikan dalam otak janin. Untuk membuat penemuan tersebut tentang apa yang normal, para ilmuwan harus terlebih dahulu tahu apa pola normal ekspresi gen yang selama pengembangan.
Combined CNV Detection : Alur kerja ini menggabungkan hasil dari CNV gnosis (Copy Variasi Nomor) algoritma deteksi dan PennCNV algoritma deteksi (termasuk X-Kromosom deteksi) untuk menghasilkan file yang berisi CNV Digabung. Hal ini kemudian memproses lebih lanjut untuk membandingkan hasilnya dengan daftar CNV umum, dan menilai tumpang tindih induk dan CNV anak. Akhirnya menambahkan catatan hasil.
DNA sequencing : The USC epigenome Pusat saat menggunakan Genetic Illumina Analyzer (GA) sistem untuk menghasilkan data throughput tinggi urutan DNA (hingga 8 miliar nukleotida per minggu) untuk memetakan keadaan epigenetik dari sel manusia pada skala genome. Epigenomic Workflow (pekerjaan komputasi akan ditampilkan sebagai lingkaran, data pekerjaan transfer rhomboids).
Epigenomics : This application splits sequence files into multiple parts and converts them to the appropriate file format. Then it filters out noisy and contaminating sequences to maps them to their genomic locations. From the individual mapping steps, it merges them into a single global map and uses sequence maps to calculate the sequence density at each position in the genome. This application has a footprint of 6GB of data.
Genomic Studies of Mental Disorders : Portal komputasi yang dikembangkan untuk Pusat Studi Genomic Gangguan Mental menggunakan Pegasus untuk mengelola alur kerja untuk studi populasi genetika. Portal ini menggunakan sayap (url) alur kerja sistem dan komposisi Pegasus untuk memungkinkan para ilmuwan untuk memulai analisis berdasarkan template alur kerja yang tersedia. Di bawah ini adalah screenshot dari Galeri Workflow portal.
Proteomics : Para ilmuwan di OSU menggunakan Pegasus untuk massa-spektrometri berbasis proteomik. Proteomik alur kerja telah dilaksanakan pada cluster lokal dan sumber daya awan. Contoh proteomika alur kerja: a) Pegasus alur kerja template. Kotak persegi dengan garis ganda merupakan koleksi file dan elips dengan batas ganda merupakan pekerjaan paralel. b) Pelaksanaan alur kerja untuk clustering dari lima set data senapan proteomika. c) analisis cluster hirarkis data senapan proteomika.
Quality Control of Population Studies : Alur kerja ini bertujuan untuk menunjukkan perbedaan dalam data yang berasal dari kelompok yang berbeda dan pemeriksaan kesesuaian pada panggilan genotipe terhadap genotipe HapMap. Awalnya, itu adalah script R besar yang dihitung semua langkah sekaligus, secara berurutan. Kami telah membagi kode ke langkah-langkah yang berbeda / tugas untuk mewakili mereka sebagai alur kerja. Sebagai hasilnya, kami berhasil mengeksekusi seluruh alur kerja dalam waktu 30 menit pada sekelompok kecil dibandingkan dengan 4 jam dari versi awal berurutan.
SeqWare : SeqWare (http://sourceforge.net/projects/seqware/) merupakan perangkat lunak sumber terbuka yang dikembangkan di UCLA. Hal ini digunakan untuk mendukung teknologi sequencing massal paralel dan menyediakan sejumlah fungsi yang berbeda termasuk LIMS, pipa komputasi (didukung oleh Pegasus), dan komponen metadata. Perangkat lunak ini baru-baru ini digunakan untuk urutan garis sel kanker U87MG
SIPHT : Aplikasi ini adalah melakukan pencarian luas untuk RNA diterjemahkan kecil (sRNAs) yang mengatur beberapa proses seperti sekresi atau virulensi pada bakteri. Prediksi kerajaan-lebar dan penjelasan dari gen pengkodean sRNA melibatkan berbagai program individu yang dilaksanakan dalam urutan yang tepat dengan menggunakan PEGASUS.
Bidang Botani
Plant Development : Tanaman ilmuwan di University of Wisconsin Madison menggunakan Pegasus untuk menghasilkan film pertumbuhan akar tanaman dan menganalisis gambar dikumpulkan melalui time-lapse fotografi. Sampel proyek lain lokasi hutan untuk mencirikan vegetasi understory untuk menentukan bagaimana spesies tanaman yang berbeda didistribusikan di hutan.
Vegetation and Landscape Ecology : Don Waller, seorang Profesor Studi Botani dan Lingkungan di UW Madison, dan mahasiswa pascasarjana nya Erika Mudrak menyelidiki pola spasial dalam perubahan vegetasi dan pelacakan dalam ekologi lanskap di skala spasial dan temporal.
Bidang Kimia
Biochemistry : George Phillips dari Departemen Biokimia di UW Madison memiliki kepentingan dalam struktur dan dinamika dari protein serta dalam biologi komputasi.

Bidang Pemodelan Iklim
Climate Ensemble : Sebuah aplikasi pemodelan iklim telah menggunakan alat kami untuk mengurangi jumlah waktu perhitungan ambil. Simulasi yang digunakan untuk mengambil 2,5 bulan untuk dijalankan secara manual, hanya membutuhkan waktu 2,5 hari untuk menjalankan menggunakan alat kami.
Bidang Ilmu Komputer
Computer Vision : Li Zhang adalah fakultas di UW Madison Departemen Ilmu Komputer, dan memiliki kepentingan dalam visi komputer dan grafis. Proyek mahasiswa pascasarjana Alok Deshpande adalah penelitian interdisipliner yang berupaya untuk mewujudkan bio-terinspirasi cerdas sistem mikro pencitraan optik.
Bidang Gempa
Southern California Earthquake Center - CyberShake and Broadband : Southern California Earthquake Center (SCEC) adalah sebuah komunitas lebih dari 600 ilmuwan, mahasiswa, dan lain-lain di lebih dari 60 lembaga di seluruh dunia, yang berkantor pusat di University of Southern California. SCEC didanai oleh National Science Foundation dan US Geological Survey untuk mengembangkan pemahaman yang komprehensif tentang gempa bumi di Southern California dan di tempat lain, dan untuk mengkomunikasikan pengetahuan yang berguna untuk mengurangi resiko gempa.
Bidang Genome Analisis
GADU : Gadu - Analisis Genome dan sistem database Update, telah menggunakan Pegasus selama 2 tahun terakhir untuk melakukan high-seluruh analisis dan penjelasan dari informasi genomik yang teratur sekering dari berbagai sumber informasi publik, memberikan fasilitas terintegrasi yang mendukung program-program penelitian dalam DOE serta pengunjung umum ke portal web.
Bidang Helioseismology
Solar Dynamics Observatory (SDO) : The Solar Dynamics Observatory (SDO) yang paling penting fisika NASA Misi surya ini dekade mendatang. Akan diluncurkan menjelang akhir tahun 2008, tiga instrumen utama di papan SDO adalah Helioseismic dan Magnetic Imager (HMI), yang Atmospheric Imaging Assembly (AIA) dan Variabilitas Percobaan ultraviolet ekstrim (EVE). Data akan terutama digunakan untuk mempelajari aktivitas magnetik matahari dan untuk menyelidiki struktur internal dan dinamika Matahari dengan helioseismology.
Bidang Limnologi
Ecosystem Modeling : Profesor Paul Hanson di Pusat Limnologi di UW Madison melakukan penelitian dalam siklus karbon, variabilitas ekosistem, mikroba, alga, dan bahkan ikan.
Bidang Neuroscience
Telescience Project : Pegasus juga digunakan dalam proyek Telescience dan portal untuk mendukung rekonstruksi 3D gambar tomografi elektron. Para ilmuwan UCSD berencana untuk terus bergantung pada teknologi alur kerja kami untuk memperluas set aplikasi Grid mereka mendukung dalam lingkungan portal mereka dan untuk mengembangkan teknik-teknik baru yang dapat memberikan real-time umpan balik dari rekonstruksi 3D untuk para ilmuwan memanipulasi instrumen.
Bidang Kelautan
Ocean Forecast : Para peneliti di Jet Propulsion Laboratory mengeksplorasi Pegasus WMS untuk menjalankan ansambel perkiraan laut dari wilayah pesisir California. Model ini menghasilkan sejumlah perkiraan harian untuk suhu air, salinitas, dan langkah-langkah lainnya. Alur kerja perkiraan utama (ditunjukkan di bawah) mengkonsumsi sekitar 1.8GB data dan menghasilkan output dari sekitar 8,7 MB.
Bidang Fisika
Laser Interferometer Gravitational Wave Observatory (LIGO) : Laser Interferometer gravitasi Wave Observatory (LIGO) adalah jaringan gravitasi-gelombang detektor, dengan observatorium di Livingston, LA dan Hanford, WA. Misi observatorium adalah untuk mendeteksi dan mengukur gelombang gravitasi diprediksi oleh teori relativitas umum Einstein ─ ─ gravitasi di mana gravitasi digambarkan sebagai akibat kelengkungan struktur waktu dan spa.
Molecular Thermodynamics : Juan de Pablo dan Termodinamika Molekuler dan Statistik Mekanika Kelompok Penelitian di University of Wisconsin menggunakan sumber daya komputasi yang disediakan oleh CHTC (http://chtc.cs.wisc.edu/) dan Pegasus WMS untuk memprediksi gerakan benda makroskopik melalui simulasi dari apa partikel mikroskopis mereka lakukan. Untuk informasi lebih lanjut, kunjungi website kelompok penelitian.

Fitur yang menjadikan sebuah kelebihan Pegasus
Portabilitas / Reuse - Pengguna workflow dibuat dengan mudah dapat dijalankan dalam lingkungan yang berbeda tanpa perubahan. Pegasus saat menjalankan alur kerja di atas Condor, Grid infrastrucutures seperti Grid Open Science dan TeraGrid, Amazon EC2, Nimbus, dan cluster kampus banyak. Alur kerja yang sama dapat dijalankan pada sistem tunggal atau di satu set heterogen sumber daya.
Kinerja - The mapper Pegasus dapat menyusun ulang, kelompok, dan memprioritaskan tugas-tugas dalam rangka meningkatkan kinerja alur kerja secara keseluruhan.
Skalabilitas - Pegasus dengan mudah dapat skala baik ukuran alur kerja, dan sumber daya yang alur kerja didistribusikan melalui. Pegasus menjalankan alur kerja mulai dari hanya tugas komputasi beberapa sampai 1 juta. Jumlah sumber daya yang terlibat dalam melaksanakan alur kerja dapat skala yang diperlukan tanpa halangan terhadap kinerja.
Provenance - Secara default, semua pekerjaan di Pegasus yang diluncurkan melalui proses kickstart yang menangkap asal runtime dari pekerjaan dan membantu dalam debugging. Data asalnya dikumpulkan dalam database, dan data dapat ringkasan dengan alat seperti pegasus-statistik, pegasus-plot, atau langsung dengan query SQL.
Manajemen Data - Pegasus menangani replika seleksi, transfer data dan registrasi output dalam katalog data. Tugas ini ditambahkan ke alur kerja sebagai pekerjaan auxilliary oleh perencana Pegasus.
Keandalan - Jobs dan transfer data secara otomatis retried dalam kasus kegagalan. Debugging alat seperti pegasus-analyzer membantu pengguna untuk men-debug alur kerja dalam kasus non-dipulihkan kegagalan.
Pemulihan Kesalahan - Ketika terjadi kesalahan, Pegasus mencoba untuk memulihkan bila mungkin dengan tugas mencoba kembali, dengan mencoba kembali seluruh alur kerja, dengan menyediakan alur kerja tingkat checkpointing, dengan re-mapping bagian dari alur kerja, dengan mencoba alternatif sumber data untuk pementasan data, dan, ketika semuanya gagal, dengan menyediakan alur kerja penyelamatan yang berisi deskripsi hanya pekerjaan yang masih harus dilakukan. Ini membersihkan penyimpanan sebagai alur kerja dijalankan sehingga data-intensif workflow memiliki cukup ruang untuk mengeksekusi pada penyimpanan terbatas sumber daya. Pegasus melacak apa yang.

Cara kerja Pegasus



  Sumber:

Tidak ada komentar:

Posting Komentar