Book Description
Karena penyebaran COVID-19, pengembangan vaksin dituntut sesegera mungkin. Terlepas dari pentingnya analisis data dalam pengembangan vaksin, tidak banyak dataset sederhana yang dapat ditangani oleh pada analis data menggunakan data science. Kumpulan data dan kode sampel telah dikumpulkan untuk prediksi epitop Bcell, salah satu topik penelitian utama dalam pengembangan vaksin, tersedia secara gratis. Dataset ini dikembangkan selama proses penelitian dan data yang terkandung di dalamnya diperoleh dari IEDB dan UniProt. Sel B yang menginduksi respon imun spesifik antigen in vivo menghasilkan sejumlah besar antibodi spesifik antigen dengan mengenali subregion (wilayah epitop) protein antigen. Sel B ini dapat menghambat fungsinya dengan mengikat antibodi ke protein antigen. Memprediksi daerah epitop bermanfaat untuk desain dan pengembangan vaksin yang bertujuan untuk menginduksi produksi antibodi spesifik antigen. Sel B inilah menjadi dataset utama yang dipakai pada proyek ini. Dataset ini memuat kolom: parent_protein_id, protein_seq, start_position, end_position, peptide_seq, chou_fasman, emini, kolaskar_tongaonkar, parker, hydrophobicity, isoelectric_point, aromacity, stability, dan target. Selanjutnya, Anda akan belajar menggunakan Scikit-Learn, Keras, TensorFlow, NumPy, Pandas, Seaborn, dan sejumlah Pustaka lain untuk memprediksi COVID-19 Epitope menggunakan dataset COVID-19/SARS B-cell Epitope Prediction yang disediakan di Kaggle. Model-model machine learning yang digunakan adalah K-Nearest Neighbor, Random Forest, Naive Bayes, Logistic Regression, Decision Tree, Support Vector Machine, Adaboost, Gradient Boosting, XGB classifier, dan MLP classifier. Kemudian, Anda akan mempelajari cara menerapkan model deep learning, CNN sekuensial dan VGG16, untuk mendeteksi dan memprediksi Covid-19 X-RAY menggunakan COVID-19 Xray Dataset (Train & Test Sets) yang disediakan di Kaggle. Folder itu sendiri terdiri dari dua subfolder: test dan train. Terakhir, Anda akan mengembangkan GUI menggunakan PyQt5 untuk menampilkan batas-batas keputusan tiap model, ROC, distribusi fitur, keutamaan fitur, skor validasi silang, nilai-nilai prediksi versus nilai-nilai sebenarnya, matriks confusion, rugi pelatihan, dan rugi akurasi.