SUBMISSIONS

SUBMISSION DETAIL

Burcu ÇARKLI YAVUZ, Nilüfer YURTAY, Özhan ÖZKAN
 


Keywords:



ÇOK KATMANLI ÝLERÝ BESLEMELÝ YAPAY SÝNÝR AÐLARI ÝLE HEMOGLOBÝN PROTEÝNÝNÝN ÝKÝNCÝL YAPISININ TAHMÝNÝ
 
Giriþ: Proteinler bütün canlý sistemlerde bulunur ve canlý organizmadaki her türlü biyolojik iþlemin yerine getirilmesinde görev alýrlar. Bu nedenle organizma için hayati öneme sahiptirler. Proteinler hiyerarþik olarak birincil (primer), ikincil (sekonder), üçüncül (tersiyer) ve dördüncül (kuaterner) yapýlarda bulunabilirler. Aminoasitler peptid baðlarýyla bir araya gelerek bir proteinin birincil yapýsýný oluþtururlar. Hidrojen baðlarýnýn neden olduðu katlanmalar ikincil yapýyý oluþturur. Ýkincil yapýdaki en yaygýn yapýsal motifler sarmal (α-helices), tabaka (β-sheets) ve iplik (coils) yapýlardýr. Üçüncül yapý, polipeptid zincirinin bütünsel konformasyonuna yani tüm aminoasitlerin üç boyutlu düzenlenmesine denir. Fonksiyonel bir protein dördüncül yapýyý oluþturan bir ya da daha fazla polipeptitten oluþmaktadýr. Proteinin üç boyutlu yapýsýnýn biliniyor olmasý proteinin iþlevini anlamakta çok önemlidir. Yapýlan çalýþmalar proteinlerin düzgün olarak katlanabilmeleri için gerekli bilginin, birincil yapýlarýnda saklý olduðunu göstermiþtir. Protein dizisi üç boyutlu yapýyý, üç boyutlu yapý ise proteinin iþlevini belirler. Ýþlevi bozulmuþ proteinler yýkýcý sonuçlar doðurabilir. Yaþlandýkça mutasyonlar ve bazý dýþ faktörler proteinlerin yanlýþ katlanmasýna neden olur. Günümüzde özellikle ileri yaþtaki insanlarda sýklýkla karþýlaþtýðýmýz Alzheimer, Parkinson ve Tip 2 diyabet hastalýklarýnýn nedeni hatalý katlanan proteinlerdir. Hatalý katlanan proteinlerin tespiti birçok genetik bozukluk ve hastalýk ile mücadelede önemli avantajlar saðlayacaktýr. Genetik bozukluklara ve hastalýklara müdahale edebilmek ve yeni tedaviler geliþtirebilmek için proteinlerin 3 boyutlu yapýlarýnýn bilinmesi çok önemlidir. Laboratuvar ortamýnda proteinlerin üç boyutlu yapýlarýnýn belirlenmesi çok masraflý ve zorlu bir süreç olduðu için biyoinformatik alanýnda çalýþan araþtýrmacýlar bilgisayarlý hesaplama yöntemlerinden yararlanarak bu soruna yeni çözümler bulmayý amaçlamaktadýrlar. Amaç: Bu çalýþmada, proteinlerin birincil yapýlarýndan yararlanarak, üç boyutlu yapýnýn belirlenmesinde önemli bir adým olan, ikincil yapýlarýnýn belirlenmesi amaçlanmaktadýr. Kapsam: Çalýþmada 22 farklý hemoglobin proteininden oluþan 3336 aminoasit uzunluðunda veri seti kullanýlmýþtýr. Veriler Protein Data Bank (PDB) tan temin edilmiþtir. Sýnýrlýklar: Çalýþma Hemoglobin proteini ve çok katmanlý ileri beslemeli yapay sinir aðý (Multilayer Perceptron- MLP) yöntemi ile sýnýrlandýrýlmýþtýr. Yöntem: Proteinlerin ikincil yapýlarýnýn tayin edilmesinde Dictionary of Protein Secondary Structure (DSSP) kullanýlmýþtýr. DSSP, hidrojen bað örüntülerini dikkate alarak 8 farklý ikincil yapý tanýmlar. Bu yapýlar H, G, I, E, B, T, S ve C ile temsil edilirler. 8 yapýnýn tahmin edilmesi zor olduðu için indirgeme yöntemleri ile bu 8 yapý 3 yapýya indirgenebilir. Bu çalýþmada {H, G}  {H} (helix), {E, B}  {E} (tabaka), diðerleri {C} (coil) yöntemi ile indirgeme yapýlmýþtýr. Sýnýflandýrma yapabilmek için, aminoasit dizilimi þeklinde olan proteinler, kayan pencere yöntemi (sliding window) ile taranarak satýr-sütun formatýna dönüþtürülmelidir. 11,13,15,17,19,21 pencere boyutlarý ile çalýþmalar yapýlmýþ ve 15 pencere boyutunun bu problemin çözümü için uygun bir yaklaþým olduðuna karar verilmiþtir. MLP ile sýnýflandýrma aþamasý Rapidminer Studio Educational 8.1 ortamýnda çalýþýlmýþtýr. Rapidminer, derin öðrenme algoritmalarýný açýk kaynaklý H2O platformunu kullanarak yürütür. MLP için tanh, rectifier ve maxout aktivasyon fonksiyonlarý uygulanmýþtýr. Her gizli katmandaki nöronlarýn %50 si göz ardý edilerek aþýrý uyumun (overfitting) önlenmesi amaçlanmýþtýr. Ayrýca 10 fold Cross validation uygulanmýþtýr. Bulgular: Yapýlan çalýþmada gizli katman sayýsý 1’den 6’ya kadar, her gizli katmandaki nöron sayýsý 1’den 200’e kadar deðiþtirilerek, 1-300 arasý epoch için elde edilen sonuçlar incelenmiþtir. Aktivasyon fonksiyonu olarak rectifier seçildiðinde en yüksek baþarý %84,58 olarak hesaplanmýþtýr. Aktivasyon fonksiyonu olarak tanh ya da maxout seçildiðinde ise baþarý oraný %83’lerde kalmýþtýr. Ayný veri kNN (k en yakýn komþu) algoritmasý ile sýnýflandýrýldýðýnda ise %82,99 baþarý elde edilmiþtir. Sonuç: Yapýlan çalýþma Hemoglobin protein veri seti için özelleþtirilmiþtir. Daha büyük ve genel protein veri setleri için çalýþmalar devam etmektedir. MLP ile sýnýflandýrma sonuçlarý kNN ile kýyaslandýðýnda, MLP ile daha baþarýlý sýnýflandýrma yapýlabildiði ve önerilen yöntemin, protein ikincil yapý tahmini için uygun olduðu gözlemlenmiþtir. Bu çalýþma Sakarya Üniversitesi Bilimsel Araþtýrma Projeleri Komisyonu Tarafýndan Desteklenmiþtir. Proje Numarasý: 2013-50-02-029. Anahtar Kelimeler: Çok Katmanlý Ýleri Beslemeli Yapay Sinir Aðlarý, Derin Öðrenme, Hemoglobin Proteini, Protein Ýkincil Yapý Tahmini

Anahtar Kelimeler: Çok Katmanlý Ýleri Beslemeli Yapay Sinir Aðlarý, Derin Öðrenme, Hemoglobin Proteini, Protein Ýkincil Yapý Tahmini