Bilgisayar BilimleriFizikÖzgün İçerik

CERN’de 85 Petabayt Veri Silindi

Derleyen: Ümit Sözbilir

Düzenleyen: Songül Özdeş

Özet: CERN’deki CMS deneyi, kendi tarihinin en büyük veri silme işlemini gerçekleştirdi. Verinin büyüklüğü ise 85 petabayt! Bu yaklaşık olarak 85.000.000.000.000.000 bayta eşittir. Dahasıysa bu işlem RAW verilere dokunulmadan yapıldı yani istendiği vakit silinen verilere tekrar ulaşılabilir.

Daha önce sitemizde de bahsettiğimiz üzere Büyük Hadron Çarpıştırıcı’sında (BHÇ) gerçekleştirilen deneylerde belirli aralıklarla yükseltmeler yapılmaktadır. Bu yükseltmeler bakım ve iyileştirme için olabiliyor. 2018 yılında bakıma alınan BHÇ’de yapılan iyileştirmelerle standart model ötesi yeni fizik ile ilgili keşiflerin daha fazla yapılması fizikte gizemini koruyan birçok olgunun açıklanabilmesi bekleniyor.

Verilerin Depolanması

BHÇ’de çarpışan protonların yarattıkları parçacık duşları içlerinde oldukça fazla bilgiyi ihtiva ediyor. Her bir olayda birçok farklı bilgi olabiliyor. İş bu olayları öncelikle RAW olarak depoluyoruz. Ardından bunları anlamlı hâle getiriyoruz. Mesela oradaki parçacığın müon, foton veya pion olduğunu tespit ediyoruz. Bunları yaparken çeşitli analiz yöntemleri kullanıyoruz ve yaptığımız tanımlamalardan sonra yeni bir veri seti oluşturuyoruz. CMS’nin verileri Standart Modelin öngörüleriyle karşılaştırmak için kullandığı devasa benzetim örneklerini de eklersek Worldwide LHC Computing Grid (WLCG) olarak adlandırılan yalnızca dünya çapındaki büyük bilgisayar merkezlerinde depolanabilecek muazzam miktarda bilgi elde ediyoruz. Buraya kadar sorun yok gözüküyor lakin CERN gibi oldukça büyük veri üretimi yapan yerlerde her şey hard disklere veya katı hal disklerine (SSD) kaydedilmiyor. O kadar çok fazla veri var ki bahsettiğimiz veri merkezleri bunları genelde manyetik bantlarda saklıyor. Takdir edersiniz ki bu manyetik bantların da bir sınırı var ve doluyor. Peki depolama alanımız dolunca ne yapıyoruz? Siliyoruz!

cern,veri,petabayt
CERN’deki Veri Merkezi (Kaynak: Robert Hradil, Monika Majer/ProStudio22.ch)

BHÇ’de geçen günlerde başlayan yeni çarpıştırma süreci için veri merkezlerinde yer açılması gerekiyordu. Çünkü yapılan hesaplamalara göre Çalıştırma 1 ve Çalıştırma 2 esnasında toplanan bütün veriden daha fazla veri toplanacaktı. Bu da ortalama 600 PB veriye tekabül ediyor. Yani 7/24 video yüksek çözünürlüklü (1080p) video kaydı yapan bir kameranın 20.000 yıldan daha fazla video çekmesi gibi bir şeye eşit. [1] İşte bu verileri depolayabilmek için geçtiğimiz günlerde 85 PB’lık veri CMS’nin merkezlerinden silindi.

Petabayt Ne Kadar Büyük?

Bununla ilgili bir örnek daha verelim. 1 PB’ın ne kadar olduğunu hayal etmek için bir roman düşünelim. Elinize bir kitap alın, bir roman. Onu yere bırakın ve üstüne bir adet daha koyun. Ardından bir tane daha yerleştirin, bir tane daha, bir tane daha… Bir apartman yüksekliğine gelince soluklanın sonra devam edin. Bir gökdelen yüksekliğine geldiniz mi? Biraz daha soluklanın sonra devam edin! Uçakların uçtuğu yüksekliğe eriştiğinizde üstünüze kalın bir şeyler almış olmayı isteyebilirsiniz çünkü bulunduğunuz yerden daha soğuk bir yere çıkacağız: Uluslararası Uzay İstasyonu’na (ISS)! Fakat burada da durmayacağız, durağımız: Ay! Ay’a vardığınızda dinlenebilirsiniz çünkü geri dönmeniz gerekiyor, sonra geri gelmeniz gerekiyor. Aslında 1 PB’lık veri için 13 kez aya gidip gelmeniz gerekiyor. İşte CMS’de bunun gibi 85 PB silindi.

Nasıl Silindi?

Elbette bu silme işlemi rastgele veya bir anda yapılmadı. Öncelikle “Fizik Performansı ve Veri Kümesi” alanı analiz için uygun olmayan verilerin kontrolünü sağladı. Daha sonra hangi verilerin güncel olmadığını ve yerine yeni verilerin üretilebileceğinin bilgilerini listeledi. Ardından “Fizik” alanı bu listeyi inceleyip hangi verilerin kendilerine hâlâ lazım olduğunu seçip onların silinmemesi için komutlar verdi. “Fizik” alanı derken burada yüzlerce grup olduğunu belirtmek isterim. Her birindeki kişilerin tek tek dönüt vermesi ve onaylaması yapılan işlemler veya yapılabilecek yakın zamandaki işlemler için tartışmalar ve yol haritaların çıkarılması gibi adımlar bulunmaktadır. “Fizik” alanındaki kişiler kullanacakları verileri belirledikten sonra geriye sadece silinebilecekler kalıyor. Bu verilerin güvenli bir şekilde silinebilmesi için WLCG’deki bilgi işlem merkezlerinin yöneticileri devreye giriyor ve gerekli işlemler başlıyor. Bu işlemlerin ne kadar uzun sürdüğünü tahayyül edin lütfen!

Silme işlemi sadece işlenmiş verilerle yapıldı yani ham veri hâlâ elde tutuluyor. Gerekli durumlarda benzer analiz yöntemleriyle ham veriden aynı veri setleri üretilebilir.

Yoluyla
The European Organization for Nuclear Research. (2023, August 3). How CMS cleaned up 85’000’000’000’000’000 bytes without touching any original, raw data! CERN.
Kaynak
[1] The European Organization for Nuclear Research (2023, July 21). Storage. CERN.

Ümit Sözbilir

Sorgulamayı seven bir doktora adayı, yüksek enerji fizikçisi, astronomi sevdalısı, çevre fizikçisi, kitap kurdu, bilmeden konuşmayan. https://www.cern.ch/usozbili
Başa dön tuşu