Giriş: Proteinler bütün canlı sistemlerde bulunur ve canlı organizmadaki her türlü biyolojik işlemin yerine getirilmesinde görev alırlar. Bu nedenle organizma için hayati öneme sahiptirler. Proteinler hiyerarşik olarak birincil (primer), ikincil (sekonder), üçüncül (tersiyer) ve dördüncül (kuaterner) yapılarda bulunabilirler. Aminoasitler peptid bağlarıyla bir araya gelerek bir proteinin birincil yapısını oluştururlar. Hidrojen bağlarının neden olduğu katlanmalar ikincil yapıyı oluşturur. İkincil yapıdaki en yaygın yapısal motifler sarmal (α-helices), tabaka (β-sheets) ve iplik (coils) yapılardır. Üçüncül yapı, polipeptid zincirinin bütünsel konformasyonuna yani tüm aminoasitlerin üç boyutlu düzenlenmesine denir. Fonksiyonel bir protein dördüncül yapıyı oluşturan bir ya da daha fazla polipeptitten oluşmaktadır. Proteinin üç boyutlu yapısının biliniyor olması proteinin işlevini anlamakta çok önemlidir. Yapılan çalışmalar proteinlerin düzgün olarak katlanabilmeleri için gerekli bilginin, birincil yapılarında saklı olduğunu göstermiştir. Protein dizisi üç boyutlu yapıyı, üç boyutlu yapı ise proteinin işlevini belirler. İşlevi bozulmuş proteinler yıkıcı sonuçlar doğurabilir. Yaşlandıkça mutasyonlar ve bazı dış faktörler proteinlerin yanlış katlanmasına neden olur. Günümüzde özellikle ileri yaştaki insanlarda sıklıkla karşılaştığımız Alzheimer, Parkinson ve Tip 2 diyabet hastalıklarının nedeni hatalı katlanan proteinlerdir. Hatalı katlanan proteinlerin tespiti birçok genetik bozukluk ve hastalık ile mücadelede önemli avantajlar sağlayacaktır. Genetik bozukluklara ve hastalıklara müdahale edebilmek ve yeni tedaviler geliştirebilmek için proteinlerin 3 boyutlu yapılarının bilinmesi çok önemlidir. Laboratuvar ortamında proteinlerin üç boyutlu yapılarının belirlenmesi çok masraflı ve zorlu bir süreç olduğu için biyoinformatik alanında çalışan araştırmacılar bilgisayarlı hesaplama yöntemlerinden yararlanarak bu soruna yeni çözümler bulmayı amaçlamaktadırlar. Amaç: Bu çalışmada, proteinlerin birincil yapılarından yararlanarak, üç boyutlu yapının belirlenmesinde önemli bir adım olan, ikincil yapılarının belirlenmesi amaçlanmaktadır. Kapsam: Çalışmada 22 farklı hemoglobin proteininden oluşan 3336 aminoasit uzunluğunda veri seti kullanılmıştır. Veriler Protein Data Bank (PDB) tan temin edilmiştir. Sınırlıklar: Çalışma Hemoglobin proteini ve çok katmanlı ileri beslemeli yapay sinir ağı (Multilayer Perceptron- MLP) yöntemi ile sınırlandırılmıştır. Yöntem: Proteinlerin ikincil yapılarının tayin edilmesinde Dictionary of Protein Secondary Structure (DSSP) kullanılmıştır. DSSP, hidrojen bağ örüntülerini dikkate alarak 8 farklı ikincil yapı tanımlar. Bu yapılar H, G, I, E, B, T, S ve C ile temsil edilirler. 8 yapının tahmin edilmesi zor olduğu için indirgeme yöntemleri ile bu 8 yapı 3 yapıya indirgenebilir. Bu çalışmada {H, G} {H} (helix), {E, B} {E} (tabaka), diğerleri {C} (coil) yöntemi ile indirgeme yapılmıştır. Sınıflandırma yapabilmek için, aminoasit dizilimi şeklinde olan proteinler, kayan pencere yöntemi (sliding window) ile taranarak satır-sütun formatına dönüştürülmelidir. 11,13,15,17,19,21 pencere boyutları ile çalışmalar yapılmış ve 15 pencere boyutunun bu problemin çözümü için uygun bir yaklaşım olduğuna karar verilmiştir. MLP ile sınıflandırma aşaması Rapidminer Studio Educational 8.1 ortamında çalışılmıştır. Rapidminer, derin öğrenme algoritmalarını açık kaynaklı H2O platformunu kullanarak yürütür. MLP için tanh, rectifier ve maxout aktivasyon fonksiyonları uygulanmıştır. Her gizli katmandaki nöronların %50 si göz ardı edilerek aşırı uyumun (overfitting) önlenmesi amaçlanmıştır. Ayrıca 10 fold Cross validation uygulanmıştır. Bulgular: Yapılan çalışmada gizli katman sayısı 1’den 6’ya kadar, her gizli katmandaki nöron sayısı 1’den 200’e kadar değiştirilerek, 1-300 arası epoch için elde edilen sonuçlar incelenmiştir. Aktivasyon fonksiyonu olarak rectifier seçildiğinde en yüksek başarı %84,58 olarak hesaplanmıştır. Aktivasyon fonksiyonu olarak tanh ya da maxout seçildiğinde ise başarı oranı %83’lerde kalmıştır. Aynı veri kNN (k en yakın komşu) algoritması ile sınıflandırıldığında ise %82,99 başarı elde edilmiştir. Sonuç: Yapılan çalışma Hemoglobin protein veri seti için özelleştirilmiştir. Daha büyük ve genel protein veri setleri için çalışmalar devam etmektedir. MLP ile sınıflandırma sonuçları kNN ile kıyaslandığında, MLP ile daha başarılı sınıflandırma yapılabildiği ve önerilen yöntemin, protein ikincil yapı tahmini için uygun olduğu gözlemlenmiştir. Bu çalışma Sakarya Üniversitesi Bilimsel Araştırma Projeleri Komisyonu Tarafından Desteklenmiştir. Proje Numarası: 2013-50-02-029.
Anahtar Kelimeler: Çok Katmanlı İleri Beslemeli Yapay Sinir Ağları, Derin Öğrenme, Hemoglobin Proteini, Protein İkincil Yapı Tahmini
Anahtar Kelimeler: Çok Katmanlı İleri Beslemeli Yapay Sinir Ağları, Derin Öğrenme, Hemoglobin Proteini, Protein İkincil Yapı Tahmini
|