GÜVENLİ PROVENANS YÖNETİMİ SORUNUNUN TANIMLANMASI

Özet

Veri (ya da bilgi) kaynağının birçok önemli uygulama alanı vardır. Ancak veri kaynağı yönetimi üzerine daha önce yapılmış çalışmaların neredeyse tamamı provenans verinin toplanması, sunulması, sorgulanması ve saklanması üzerine yoğunlaşmıştı. Provenans yönetiminin güvenlik yönüyse ya anlaşılmamış, ya da yeterince önemsenmemişti. Doğal olarak akla şu soru geliyor: Güvenli bir kaynak provenans sistemi -belki de güvenli veri yönetimi sistemlerinin benzeri bir şekilde- nasıl bir şeydir? Bu yazıda, güvenlik gereksinimleri üzerinde durarak güvenli provenans yönetimi sistemlerinin sorununu işleyecek ve arzu edilen çözümleri tanımlayacağız.

I - GİRİŞ

Provenans nedir? Merriam-Webster İnternet Sözlüğü, provenans kelimesini şöyle tanımlıyor: (1) Köken, başlangıç. (2) Kıymetli bir obje, sanat ya da edebiyat eserinin mülkiyet geçmişi. Oxford İngilizce Sözlüğü ise provenans kelimesini şöyle tanımlıyor: (1) Belli bir menşe ya da kökenden gelme, türeme durumu (2) Bir sanat eseri ya da antikanın, gerçeklik ya da kalitesini saptamakta rehberlik eden mülkiyet geçmişi; bunun yazılı bir belgesi. Bu kavramlar, farklı provenans türlerinin türemesine neden olmuştur.

·        Neden- provenans: Bu bilgi neden vardır? [7,15]

·        Menşe- provenans: Bu bilginin menşei nedir? [7,15]

·        Nasıl- provenans: Bu bilgi bize nasıl ulaşmış? [8]

Provenans neden önemlidir? Veri ya da bilgi kaynağının birçok uygulama alanı vardır, mesela bilimsel veri ve deneylerin doğrulanması [3] [26] [12] [24] [23] [6], veri paylaşımını desteklemek / kolaylaştırmak [25] [14] [18] [13], telif hakkının belli olması [21], veri içeren yasal süreçler [17], bilgi kalitesi[2].

Provenans yönetiminde modern teknoloji. Provenans yönetimi hakkında halihazırdaki araştırmalar provenans verinin toplanması, sunumu, sorgulanması ve saklanması üzerine yoğunlaşmıştır. Örneğin provenans konusundaki ilk zorluk, provenans sistemlerinin sunum ve kapasitelerini anlamaya yönelikti. [19]

Katkılarımız

·        Güvenli provenans yönetimi sistemlerinin gereksinimlerini araştırıyoruz. Bu sistemlerin tüm hayat döngüsünü kapsaması gerektiğini savunuyoruz. Özellikle provenans yönetimi sistemlerindeki güvenlik gereksinimlerini tartışıyor ve gelişmiş erişim kontrolü, doğruluk, sorumluluk, gizlilik koruması ve uyumluluk üzerinde duruyoruz.

·        Güvenli provenans yönetimi sistemleri için bir çerçeve öneriyoruz.

İkinci kısımdaysa güvenli provenans yönetimi sistemlerinin ortaya koyduğu zorlukları tartışıyoruz. Üçüncü kısım, güvenli provenans yönetimi sistemleri için bir çerçeve sunuyor. Dördüncü kısım bu konudaki önceki çalışmalara değinmekte ve beşinci kısım incelemeyi sonlandırmaktadır.

II - GÜVENLİ PROVENANS YÖNETİMİ SİSTEMLERİNİN GEREKSİNİMLERİ

Güvenli provenans yönetimi birçok uygulamada, özellikle veri güvenliğinin ön planda olduğu durumlarda önemlidir. Doğal olarak akla şu soru geliyor:

Güvenli bir provenans yönetimi sistemi -belki de güvenli veri yönetimi sistemlerinin benzeri bir şekilde- nasıl bir şeydir? Nasıl tasarlamalı ve uygulamalıyız?

Bu soruları cevaplamak için öncelikle güvenli provenans yönetimi sorununu ve ortaya koyduğu kendine özgü zorlukları anlamalıyız.

A. İşlevsel Gereksinimler

Verinin (ya da bilginin) dağıtılmış / yaygın sistemlerde mesaj formatında hareket edebildiğini varsayarız. Ayrıca diğer mesajları girdi olarak kabul eden algoritmalarca yeni mesajlar da üretilebilir. Yani öncelikle, çoğu zaman geniş ölçekli olabilen dağıtılmış veya yaygın veri ve provenans yönetiminden söz ediyoruz.

İşlevsel açıdan bakarsak, güvenli bir provenans yönetimi sisteminin verinin tüm yaşam döngüsünü ve ilişikli olduğu diğer provenansları da kapsaması gerektiğine inanıyoruz. Bu bağlamda verinin yaşam döngüsünü türeme, işleme, yayılma ve uyumluluk diye süreçlere ayırdık.

 

·        Türeme: Veri, bir katılımcı aracılığıyla provenans yönetimi sistemine girer.

·        İşleme: Her katılımcı diğer katılımcılardan elde ettiklerine dayanan yeni veri ya da bilgiler üretebilir. Veri parçalarını işlemek için çeşitli  algoritma ve işlevler kullanılabilir.

·        Yayılma: Katılımcı, ürettiklerini diğer katılımcılara dağıtabilir, belli politikalar çerçevesinde. Kötü niyetli saldırganlar olsa bile verinin dağıtımını sağlamak önemlidir.

·        Uyumluluk: Hangi verileri kimin okuduğu / yazdığı / değiştirdiği kadar, kimin okuyabileceği / yazabileceği / değiştirebileceği de önemlidir. Özellikle bilgi sızması halinde şüphelileri saptayabilmek için bu çok önemlidir.

B. Güvenlik Gereksinimleri

1) Güvenlik Servisi Gereksinimleri: Güvenli bir provenans yönetimi sistemi, şu servisleri üst düzey uygulamalar için sağlamalıdır: bilgi güvenilirlik yönetimi, güvenli bilgi yayılımı yönetimi ve bilgi uyumluluk yönetimi.

Bilgi Güvenilirlik Yönetimi. Bilginin güvenilirliği genel olarak kaynağın, aracı nodların ve işletme algoritmalarının güvenilirliğine bağlıdır. Ancak bazı katılımcılar (örn. Menşe ve aracı nodlar) zararlıysa, işler kısa sürede karışabilir.

·        Sisteme girilmesi gereken veri ya da bilginin güvenilirliğinin bilinmesi önemlidir. Ayrıca sisteme girilen bilginin tutarsız, hatta yanıltıcı olduğu fark edilirse, ilgili tüm katılımcılar bundan haberdar edilebilmelidir.

·        Aracı nodun hem esas menşein, hem de önceki aracı nodların güvenilirliğinden haberdar olması şarttır. Böylece, sözgelimi bilgiyi yeniden yaymak için bir karar verilebilir.

·        Veri/bilgi tüketicisi için gelen veri/bilgi maddesinin güvenilirliğini değerlendirebilmek önemlidir. Ayrıca tüketici, bu maddelere dayanan kararlar verirken dikkatli olmalıdır, çünkü bunlar geri döndürülemez kararlar olabilir ve bir kez uygulandıktan sonra ciddi sonuçlar doğurabilirler.

·        Yönetici için, ağlardaki bilgi evrimi üzerinde kimin büyük ölçüde etkisi olduğunu bilmek önemlidir. Bu tür katılımcıların güvenliğini arttırmak, tüm sistem açısından da güvenliği önemli ölçüde arttıracaktır.

Güvenli Bilgi Yayılımı Yönetimi. Servisler şu sorulara cevap sunmalıdır: Yayılan sistemlerde içeride kötü niyetli kişiler ya da saldırganlar olursa ne yapmalı? Yayılma yönetimi hata düzeltimine nasıl yardımcı olmalı? Bilgi sağlayıcılar bir politika çerçevesinde sorulara pasifçe cevap mı vermeli, yoksa aktif olarak cevap mı aramalı? Provenans bilgisi ne zaman verilmeli? Yayılma süreci, kablosuz ortamlardaki saldırılara karşı da güvenilir ve sağlam mıdır?

Bilgi Uyumluluk Yönetimi. Şu sorulara cevap verilmesi önemlidir.

·        Bir veri maddesini kimler okumuş / yazmış / değiştirmiştir ve kimler okuyabilir / yazabilir / değiştirebilir? Bu önemlidir, çünkü sözgelimi bilgi sızdıran kötü niyetli bir katılımcının saptanmasına yardımcı olabilir.

·        Bir provenans veri maddesini kimler okumuş / yazmış / değiştirmiştir ve kimler okuyabilir / yazabilir / değiştirebilir? Bu önemlidir, çünkü kimin hangi işlemde rol aldığı görülerek bilgi sızdıran tarafın saptanmasına yardımcı olabilir.

2) Veri Provenansını Güvenceye Almak: Güvenli bir provenans yönetimi sistemi, şu işlevleri sağlar: gelişmiş erişim kontrolü, doğruluk sağlaması, sorumluluk ve gizlilik koruması.

Gelişmiş erişim kontrolünün yürürlüğe koyulması. Bir veri maddesinin kaynağı genellikle bir Yönlendirilmiş Düz Grafiktir (YDG)Burada her nod bir objeyi temsil eder ve her yay, iki obje arasındaki ilişkiyi yakalar.[5] Klasik erişim kontrolü modelleri[5] YDG’lere uygulanamaz, halihazırdaki erişim kontrol modellerinin provenans verilere doğrudan uygulanması da yetersizdir.

Doğruluğun sağlanması. Bir yandan, kötü niyetle yanlış veya yanıltıcı bilgi giren kişinin bundan sorumlu olmasını sağlamalıyız. Bilginin güvenilirliğini sağlamak için bu önemlidir. Öte yandan, gizli bilgiyi sızdıran tarafın da sorumlu tutulmasını sağlayabilmeliyiz. Bu da bilgi uyumluluk yönetimi açısından önemlidir.

Gizlilik korumasının uygulanması. Güvenli provenans yönetimi bağlamında gizlilik korumasının birçok boyutu vardır. Öncelikle, katılımcıların gizliliğini nasıl koruyabiliriz? İkincisi, dürüst kullanıcıların gizliliğini (veya mahremiyetini) korurken gizli bilgilerin uyumluluğunu nasıl sağlayabiliriz? Üçüncüsü, hem verinin hem katılımcıların gizliliğini tehlikeye atmadan bilginin güvenilirliğini nasıl ölçebiliriz?   

III - GÜVENLİ PROVENANS YÖNETİMİ İÇİN ÇERÇEVE

Yukarıdaki tartışmalar, tam teşekküllü bir güvenli provenans yönetim sistemi geliştirmenin zorluklarını açıkça göstermektedir. Ancak güvenli provenans yönetimi sorunlarına çözümler de ortaya koymaktadır. Biz, güvenli bir provenans yönetimi sisteminin (1) politika açısından, (2) uygulama açısından tarafsız olması gerektiğine inanıyoruz. Bunun anlamı (1) var olan veriye erişim politikalarıyla veri provenans bilgisi erişimi politikalarını uygulayabilmesi ve (2) uygulamaya özel tak-çalıştır modüllerine izin vermesidir.

Politikalar. Politikalar, hangi veri/bilgiyi kimin hangi kurallara göre işletebileceğini belirler.

Erişim kontrolü. Erişim kontrolü, verinin güvenlik ihtiyacıyla provenans bilgisini aynı anda barındırabilmelidir. Üç olasılık vardır:

·        Veri maddeleri, bağlı oldukları provenans bilgi maddeleri kadar hassastırlar. Bu durumda kullanıcının veri maddelerini kullanmasına izin veriliyorsa, provenans bilgi maddelerini okumasına da izin verilir. Ancak bir zorluk vardır. Bilgi maddesi bir YDG’dır ve kullanıcının YDG’in hangi parçasına erişim izni olduğu belirsizdir.

·        Veri maddeleri, bağlı oldukları provenans bilgi maddelerinden daha hassastırlar.

·        Veri maddeleri, bağlı oldukları provenans bilgi maddelerinden daha az hassastırlar.

·        Bu yazıda şunların gerekliliğini savunuyoruz.

·        YDG yapılı (hatta genel grafikler de) provenans verileri ve veri güvenilirliği, yayılımı ve uyumluluk yönetimi için güvenlik teknikleri, özellikle erişim kontrol modelleri.

·        YDG yapılı veriyle çalışırken bile, bazı veri maddelerinin bağlı oldukları provenans bilgi maddelerinden daha az veya çok hassas olmaları nedeniyle karışıklıklar doğabilir. Bu nedenle, farklı politikaları barındıracak esnek bir yetki çerçevesi oluşturmak önemlidir.

Doğruluk yönetimi. Saklama, işleme ve transfer aşamasında hem verinin, hem provenans bilginin doğruluğu önemlidir.

Güvenli yayılım ve uyumluluk yönetimi. Bu tabaka, verinin ve bağlı olduğu provenans bilginin güvenli yayılımını sağlar. Ayrıca verinin ve provenans bilgisinin uyumluluğunu yönetir.

Sorumluluk ve gizlilik yönetimi. Bu tabaka, katılımcıların sorumluluğunu uygulayarak gizliliklerini korur. Sorumluluk ve gizlilik çakıştıkları için, her ikisini aynı anda barındırabilen çözümlere ihtiyaç vardır.

IV. İLGİLİ ÇALIŞMALAR

Halihazırdaki konuyla en ilgili eser, kaynağın YDG yapısını vurgulayan Braun ve diğerlerinin çalışmalarıdır. 

·                   Bireysel sistem seviyesinde provenans yönetimine dair önceki çalışmalar:

Tek sistem dahilinde kayak yönetimini işletim sistemi (OS) ve veri tabanı yönetimi sistemi (DBMS) yapabilir.[1] OS seviyesinde kaynakları bilen depolama sistemleri (PASS) projesi, dosyaların okuma/yazma işlemlerini sistem aramalarına müdahale ederek gerçekleştirir. DBMS seviyesinde, Trio projesi veri yönetimi, veri kaynağı ve veri belirsizliğini tek bir entegre sistem olarak hedef alır.

·        Dağıtımlı sistem seviyesinde provenans yönetimine dair önceki çalışmalar:

Orkestra projesi, [18], [25], [15]  provenanslara açık güncellemeler yapan dinamik verilerin yayımını destekleyen teknikler geliştirmiştir. Groth ve diğerleri, bilimsel iş akışı sistemlerinde provenans yönetimini ayrıntılı olarak incelemişlerdir. [9], [4], [11], [12], [22]   Dai ve diğerleri, [10]  dağıtılmış sistemlerdeki bağlantılı provenanslara dayanarak veri güvenilirliğini değerlendirmek için bir yöntem üzerinde araştırma yapmıştır. [16]

V. SONUÇ

Güvenli provenans yönetimi sistemlerinin güvenlik gereksinimlerini inceledik. Zorlukların üstesinden gelmekte ilk adım olarak, aranan çözümleri ortaya koyduk. Yukarıda da tartıştığımız gibi, güvenli provenans yönetiminde yeni erişim kontrolü modellerinden sorumluluk ve gizlilik yönetimi mekanizmalarına kadar birçok alanda henüz çözülmemiş sorunlar bulunmaktadır.


KAYNAKÇA

[1] P. Agrawal, O. Benjelloun, A. Sarma, C. Hayworth, S. Nabar, T. Sugihara, and J. Widom. Trio: A system for data, uncertainty, and lineage. In VLDB, pages 1151–1154, 2006.

[2] O. Benjelloun, A. Sarma, A. Halevy, and J. Widom. Uldbs: Databases with uncertainty and lineage. In VLDB, pages 953–964, 2006.

[3] R. Bose and J. Frew. Lineage retrieval for scientific data processing: a survey. ACM Comput. Surv., 37(1):1–28, 2005.

[4] S. Bowers, T. McPhillips, B. Lud¨ascher, S. Cohen, and S. Davidson. A model for user-oriented data provenance in pipelined

scientific workflows. In International Provenance and Annotation Workshop (IPAW), pages 133–147, 2006.

[5] U. Braun, A. Shinnar, and M. Seltzer. Securing provenance. In HotSec’08, 2008.

[6] P. Buneman, A. Chapman, and J. Cheney. Provenance management in curated databases. In SIGMOD’06, pages 539–550, 2006.

[7] P. Buneman, S. Khanna, and W. Tan. Why and where: A characterization of data provenance. In Proceedings of the 8th International Conference on Database Theory (ICDT’01), pages 316–330, 2001.

[8] J. Cheney. Program slicing and data provenance. IEEE Data Eng. Bull., 30(4):22–28, 2007.

[9] S. Cohen, S. Boulakia, and S. Davidson. Towards a model of provenance and user views in scientific workflows. In Third International Workshop on Data Integration in the Life Sciences (DILS), pages 264–279, 2006.

[10] C. Dai, D. Lin, E. Bertino, and M. Kantarcioglu. An approach to evaluate data trustworthiness based on data provenance. In 5th VLDB Workshop on Secure Data Management, volume 5159 of Lecture Notes in Computer Science, pages 82–98, 2008.

[11] S. Davidson, S. Boulakia, A. Eyal, B. Lud¨ascher, T. McPhillips, S. Bowers, M. Anand, and J. Freire. Provenance in scientificworkflow systems. IEEE Data Eng. Bull., 30(4):44–50, 2007.

[12] J. Golbeck and J. Hendler. A semantic web approach to tracking provenance in scientific workflows. Concurrency and Computation: Practice and Experience, 20(5):431–439, 2008.

[13] T. Green, G. Karvounarakis, Z. Ives, and V. Tannen. Update exchange with mappings and provenance. In VLDB, 2007.

[14] T. Green, G. Karvounarakis, N. Taylor, O. Biton, Z. Ives, and V. Tannen. Orchestra: facilitating collaborative data sharing. In SIGMOD’07, pages 1131–1133, 2007.

[15] P. Groth. The Origin of Data: Enabling the Determination of Provenance in Multi-institutional Scientific Systems through the Documentation of Processes. PhD thesis, 2007.

[16] P. Groth, S. Jiang, S. Miles, S. Munroe, V. Tan, S. Tsasakou, and L. Moreau. An architecture for provenance systems. Technical report, Nov. 2006.

[17] R. Hasan, R. Sion, and M. Winslett. Introducing secure provenance: problems and challenges. In Proceedings of the 2007 ACM Workshop On Storage Security And Survivability (StorageSS), pages 13–18, 2007.

[18] Z. Ives, N. Khandelwal, A. Kapur, and M. Cakir. Orchestra: Rapid, collaborative sharing of dynamic data. In CIDR, pages 107–118, 2005.

[19] L. Moreau, B. Lud¨ascher, I. Altintas, R. Barga, S. Bowers,S. Callahan, G. Chin, B. Clifford, S. Cohen, S. Cohen-Boulakia, S. Davidson, E. Deelman, L. Digiampietri, I. Foster, J. Freire, J. Frew, J. Futrelle, T. Gibson, Y. Gil, C. Goble, J. Golbeck, P. Groth, D. Holland, S. Jiang, J. Kim, D. Koop, A. Krenek, T. McPhillips, G. Mehta, S. Miles, D. Metzger, S. Munroe, J. Myers, B. Plale, N. Podhorszki, V. Ratnakar, E. Santos, C. Scheidegger, K. Schuchardt, M. Seltzer, Y. Simmhan, C. Silva, P. Slaughter, E. Stephan, R. Stevens, D. Turi, H. Vo, M. Wilde, J. Zhao, and Y. Zhao. Special issue: The first provenance challenge. Concurr. Comput. : Pract. Exper., 20(5):409–418, 2008.

[20] K. Muniswamy-Reddy, D. Holland, U. Braun, and M. Seltzer. Provenance-aware storage systems. In Proceedings of the 2006 USENIX Annual Technical Conference, pages 43–56, 2006.

[21] J. Ockerbloom. Copyright and provenance: Some practical problems. IEEE Data Eng. Bull., 30(4):51–58, 2007.

[22] Y. Simmhan, B. Plale, and D. Gannon. Karma2: Provenance management for data-driven workflows. Int. J. Web Service Res.,5(2):1–22, 2008.

[23] W. Tan. Research problems in data provenance. IEEE Data Eng.Bull., 27(4):45–52, 2004.

[24] W. Tan. Provenance in databases: Past, current, and future. IEEE Data Eng. Bull., 30(4):3–12, 2007.

[25] N. Taylor and Z. Ives. Reconciling while tolerating disagreement in collaborative data sharing. In SIGMOD’06, pages 13–24, 2006.

[26] S. Wong, S. Miles, W. Fang, P. Groth, and L. Moreau. Provenance-based validation of e-science experiments. In International, Semantic Web Conference (ISWC), pages 801–815, 2005.



[1] Veri modellemesinde sıkça kullanılan grafiklerin içinde bir dairesel bağlantının (cycle) bulunmadığı durumdur. Yani her düğümden yalnızca bir yol üzerinde yalnızca bir kere geçilebilir ve geri dönüş mümkün değildir.

Örneğin aşağıda bir araba kasası ile arabanın 4 tekeri arasındaki ilişkiyi gösteren örnek bir grafik verilmiştir.

Döngü içermemesi (daire içermeyen düz bir grafik olması) yüzünden, yönlü (directed) olması durumunda ağaç (tree) olarak da isimlendirilirler.


Yorum Yaz
Arkadaşların Burada !
Arkadaşların Burada !