Bilgisayar BilimleriSoru - CevapTeknoloji

Görüntü İşleme Nedir, Nasıl Yapılır?

Yazan: Rohit Kundu & Simplilearn

Derleyen: Ayça Soyubelli

Düzenleyen: Ümit Sözbilir

Özet: Görüntü işleme, dijital veya analog görüntülerin hesaplama teknikleri kullanılarak manipüle ve analiz edilmesini içeren, çeşitli amaçlara hizmet edebilen bir alandır. Süreç; görsel kaliteyi artırmayı, bozulmaları ortadan kaldırmayı ve görüntülerdeki anlamlı desenleri veya nesneleri tanımlamayı amaçlamaktadır. Görüntü işleme, tıbbi görüntüleme ve bilgisayarla görme dâhil olmak üzere çeşitli alanlarda uygulanmakta ve teknolojik ilerlemelerle birlikte gelişmeye devam etmektedir.

Görüntü işleme; dijital veya analog görüntülere çeşitli işlemler uygulayarak bu görüntülerin kalitesini artırmayı, görüntüleri analiz etmeyi ve görüntülerden bilgi çıkarmayı amaçlayan bir yöntemler bütünüdür. Görüntü işleme, bilgisayarın bir görselden bilgi çıkarmasına ve bu bilgiyi yorumlamasına olanak tanıyan teknolojik araştırma alanının ayrılmaz bir parçasıdır. Bu alanda bilgisayar bilimi, matematik ve mühendislik disiplinleri bir araya gelerek görüntülerin algoritmalar kullanılarak manipüle edilmesine olanak sağlar. Tıbbi görüntüleme, güvenlik, eğlence sektörü ve derin öğrenme tabanlı bilgisayarla görü1 (computer vision) gibi çeşitli uygulamalarda görüntü işleme önemli bir rol oynar.

1. Bilgisayar Görüntüleri Nasıl “Görür”?

Dijital görüntüler bilgisayar tarafından iki veya üç boyutlu matrisler olarak yorumlanır. Bu matrislerde her bir değer veya piksel, pikselin “yoğunluğu” olarak adlandırılan genliği temsil eder. Genellikle genlik değeri 0 ila 255 arasında değişen 8 bitlik2 görüntülerle çalışılır.

Bir görüntüyü insanlar ve bilgisayarlar farklı şekilde algılar. (Kaynak: v7 Labs)

Böylece bilgisayar dijital görüntüleri I(x, y) veya I(x, y, z) fonksiyonları olarak görür. “I” piksel yoğunluğunu temsil ederken, (x, y) veya (x, y, z) ise görüntüdeki piksellerin koordinatlarını temsil eder. Bu koordinatlar, ikili veya gri tonlu görüntüler için (x, y) ve RGB görüntüler için (x, y, z) koordinatları kullanılır.

Bir görüntüde kullanılan koordinat sisteminin düzeni. (Kaynak: v7 Labs)

2. Görüntü Türleri

Bilgisayarlar işlevlerine bağlı olarak farklı görüntü türleriyle ilgilenir.

2.1. İkili (Binary) Görüntü

Sadece iki farklı piksel yoğunluğuna sahip olan görüntülere ikili görüntü denir. Bu yoğunluklar için 0 değeri siyahı, 1 değeri ise beyazı temsil eder. İkili görüntüler genelde renkli bir görüntünün ayırt edici kısmını vurgulamak için kullanılır.

(Kaynak: v7 Labs)

2.2. Gri Tonlamalı Görüntü

Gri tonlamalı veya 8-bit görüntüler, 0 değerinin siyahı ve 255 değerinin beyazı temsil ettiği 256 farklı renkten meydana gelir. Kalan 254 değer ise gri renginin tonlarını temsil eder. Aşağıdaki örnekte renkli bir görüntüdeki kırmızı, yeşil ve mavi renk oranlarını gösteren histogramın görüntü gri tonlamalıya çevrildiğinde de aynı şekle sahip olduğu görülecektir.

Aynı görüntünün RGB ve gri tonlamalı histogramları. (Kaynak: v7 Labs)

2.3. RGB Renkli Görüntü

Günümüzde sıkça karşılaştığımız görüntüler genellikle bilgisayarlar için 16-bit matrislerle temsil edilen RGB türündedir. Yani, her piksel için 65.536 farklı renk olasılığı vardır. “RGB”; bir görüntünün kırmızı, yeşil ve mavi “kanallarını” (channel)3 temsil eder.

RGB görüntülere kadar sadece bir kanalı olan görüntüler mevcuttu. Yani iki koordinat, bir matristeki herhangi bir değerin konumunu belirtebilirdi. RGB görüntülerde ise kanal olarak adlandırılan ve her biri 0 ile 255 arasında değerlere sahip olan üç eşit boyutlu matris üst üste yığılmıştır. Bundan dolayı matris elemanlarından birinin değerini belirtirken üç farklı koordinata ihtiyaç duyulur.

Bir RGB görüntüdeki pikselin rengi, değeri (0, 0, 0) olduğunda siyah ve (255, 255, 255) olduğunda beyaz olacaktır. İki değer arasındaki tüm kombinasyonlar ise doğadaki tüm renklere karşılık gelecektir. Bir görüntüde (255, 0, 0) değeri piksel için sadece kırmızı kanal aktive edildiği için kırmızı rengine karşılık gelecektir. Buna benzer şekilde (0, 255, 0) değeri yeşil, (0, 0, 255) değeri ise mavi rengine karşılık gelecektir. Aşağıdaki kanallarına ayrılmış görüntü örneği incelendiğinde her kanal için histogram şekillerinin farklı olduğu görülecektir.

Bir görüntünün kırmızı, yeşil ve mavi kanallarına ayrılması. (Kaynak: v7 Labs)

2.4. RGBA Görüntü

RGBA görüntü “alfa” olarak bilinen ve RGB görüntünün saydamlığını gösteren ekstra bir kanala sahip olan RGB görüntüdür. Saydamlık, %0 ila %100 arasında bir değere sahip olan bir “arkasını görme” özelliğidir.

Fizik biliminde saydamlık bir nesnenin geçirdiği ışık miktarını belirtir. Örneğin bir selofan saydamdır yani saydamlığı %100 değerindedir. Bir tahtanın saydamlığı ise %0 değerindedir yani opaktır. Buzlu cam gibi saydamlık değeri saydam ve opak nesnelerin saydamlık değerlerinin arasında kalan nesneler ise yarı saydamdır. RGBA görüntülerdeki alfa kanalı bu özelliği taklit etmeye çalışır.

Alfa kanalının bazı değerlerine birer örnek. (Kaynak: v7 Labs)

3. Görüntü İşleme Aşamaları

Olağan bir dijital görüntü işlemedeki temel adımlar aşağıdaki gibidir.

3.1. Görüntü Edinme

Görüntü, kamera tarafından yakalandıktan sonra, eğer kamera çıktısı otomatik olarak dijitalleşmediyse, bir analogdan dijitale dönüştürücü kullanılarak bilgisayarda işlenmek üzere dijitalleştirilir.

3.2 Görüntü İyileştirme

Bu adımda, edinilen görüntü, görüntünün kullanılacağı belirli görevin gereksinimlerini karşılamak için uygun hâle getirilir. İyileştirmede kullanılan teknikler, kontrast ve parlaklık ayarı gibi ayarları değiştirerek görüntüde belirgin olmayan veya önemli ayrıntıları vurgulamayı amaçlar. Görüntü iyileştirme, doğası gereği oldukça öznel bir işlemdir.

3.3. Görüntü Onarımı

Bu adım, görüntünün görünümünün iyileştirilmesiyle ilgilidir ve görüntünün bozulması matematiksel veya olasılıksal bir modele atfedilebildiğinden nesnel bir işlemdir. Örnek olarak bir görüntüden kirlilik veya bulanıklığın giderilmesi verilebilir.

3.4. Renkli Görüntü İşleme

Bu adımda, renkli (16-bit RGB veya RGBA) görüntülerin işlenmesi gerçekleştirilir. Örneğin görüntülerde renk düzeltme veya renk modellemesi yapmayı amaçlamaktadır.

3.5. Dalgacıklar ve Çoklu Çözünürlüklü İşleme

Dalgacıklar, görüntüleri çeşitli çözünürlük derecelerinde temsil eden yapı taşlarıdır. Görüntüler, veri sıkıştırma ve piramidal gösterim için art arda daha küçük bölgelere bölünür.

3.6. Görüntü Sıkıştırma

Görüntülerin başka cihazlara aktarılması veya hesaplama kapasitesi kısıtlamaları nedeniyle görüntülerin sıkıştırılması gerekir ve orijinal boyutlarında saklanamaz. Bu, görüntülerin internet üzerinden görüntülenmesinde de önemlidir. Örneğin Google’da bir görselin küçük resmi; orijinalin oldukça sıkıştırılmış versiyonudur, orijinal çözünürlükte gösterilmesi için resme tıklamanız gerekir. Bu işlem sunuculardaki bant genişliğinden tasarruf sağlar.

3.7. Morfolojik İşleme

Şeklin temsili ve açıklamasında yararlı olan görüntü bileşenlerinin seçilerek daha sonraki işlemler veya sonraki görevler için alınması gerekir. Morfolojik işleme adımı bunu başarmak için gerekli araçları sağlar ki bu araçlar esasen matematik işlemlerdir. Örneğin, bir görüntüdeki nesnelerin kenarlarını sırasıyla keskinleştirmek ve bulanıklaştırmak için sırasıyla erozyon (erosion) ve genişletme (dilation) işlemleri kullanılır.

3.8. Görüntüyü Parçalara Ayırma

Bu adım, bir görüntünün temsilini basitleştirmek ve/veya onu daha anlamlı ve analiz edilmesi daha kolay bir şeye dönüştürmek için görüntüyü farklı temel parçalara ayırmayı içerir. Böylece bilgisayarların görüntünün daha önemli kısımlarına dikkat etmesini, geri kalan kısımlarla ilgilenmemesini sağlar ve bu da otomatik sistemlerin daha iyi performans göstermesine katkıda bulunur.

3.9. Temsil ve Açıklama

Parçalara ayırma prosedürlerini genellikle bu adım takip eder; temsil kısmında görev, parçalara ayrılmış bölgenin bir sınır olarak mı yoksa tam bir bölge olarak mı gösterilmesi gerektiğine karar vermektir. Açıklama kısmı ise bazı ilgi çekici niceliksel bilgilerle sonuçlanan veya bir nesne sınıfını diğerinden ayırt etmek için temel olan niteliklerin çıkarılmasıyla ilgilidir.

3.10. Nesne Tespit Etme ve Tanıma

Nesneler bir görüntüden bölümlere ayrılır ve temsil ve açıklama aşamaları tamamlanır. Bu aşamalardan sonra otomatik sistemin insan kullanıcılara hangi nesnenin algılandığını bildirmek için nesneye “araç” veya “kişi” benzeri bir etiket ataması gerekir.

3.11. Bilgi Tabanı

Bilgi, görüntüde bulunan ilgi çekici bir nesnenin sınırlayıcı kutu koordinatları ve ona atanan nesne etiketi kadar basit olabilir. Eldeki belirli görev için problemin çözümüne yardımcı olacak her şey bilgi tabanına kodlanabilir.

4. Görüntü İşleme Teknikleri

Görüntü işleme; bir görüntünün kalitesini arttırma, görüntüden istenmeyen nesneleri çıkarma veya baştan bir görüntü oluşturmak için kullanılabilir. Örneğin, görüntü işlenerek bir insanın bulunduğu görüntüden arka planın çıkarılmasıyla yalnızca ön plandaki konu bırakılabilir.

Görüntü işleme, birçok algoritma ve teknik kullanılarak farklı sonuçlar elde edilebilen geniş ve karmaşık bir alandır. Bu bölümde görüntü işleme tekniklerinin kullanıldığı en yaygın durumlardan bazılarına odaklanacağız.

4.1. Görüntü İyileştirme

Görüntü işlemenin kullanıldığı en yaygın durumlardan biri görüntünün kalitesinin iyileştirilmesidir. Bilgisayar görüşü görevleri (computer vision tasks), uzaktan algılama (remote sensing) ve gözetleme (surveillence) alanlarında oldukça önemli görüntü işleme uygulamaları yapılmaktadır. Yaygın yaklaşımlardan biri ise görüntünün kontrastının ve parlaklığının ayarlanmasıdır.

Kontrast bir görüntünün en karanlık ve en aydınlık alanları arasındaki parlaklık farkıdır. Bir görüntünün kontrastı arttırıldığında gölgeler belirginleşir, böylece görüntüyü görmek kolaylaşır. Parlaklık ise görüntünün genel aydınlığı veya karanlığını temsil eder. Parlaklığı arttırarak görüntünün daha aydınlık hâle gelmesiyle görüntünün görülmesi kolaylaşır. İki özellik de çoğu görüntü düzenleme yazılımıyla otomatik olarak ayarlanabildiği gibi elle de ayarlanabilir.

Kontrast ve parlaklığın arttırılması arasındaki farka bir örnek. (Kaynak: v7 Labs)

Bir görüntünün kontrastını ve parlaklığını ayarlamak temel işlemlerdir. Bazen mükemmel kontrast ve parlaklığa sahip görüntülerin boyutu arttırıldığında metre kareye düşen piksel sayısının (piksel yoğunluğu) azalmasıyla görüntü bulanık hâle gelebilir. Bu sorunu çözmek için nispeten yeni ve çok daha gelişmiş bir konsept olan süper çözünürlüklü görüntü (image super-resolution) kullanılır. Bu konseptte yüksek çözünürlüklü bir görüntü düşük çözünürlüklü benzerlerinden elde edilir. Bunu başarmak için derin öğrenme4 (deep learning) teknikleri kullanılır.

Süper çözünürlüklü görüntü konseptinin kullanımına bir örnek. (Kaynak: v7 Labs)

4.2. Görüntü Onarımı

Görüntülerin kalitesi çeşitli nedenlerle, özellikle de bulut depolamanın günümüzdeki kadar yaygın olmadığı dönemlerden fotoğraflarda düşebilir. Örneğin, eski şipşak kameralarla çekilmiş basılı kopyalardan taranan görüntülerin üzerinde sıklıkla çizikler oluşur.

Görüntü onarımına bir örnek. (Kaynak: v7 Labs)

Görüntü onarımının özellikle ilgi çekici olmasının bir sebebi de bu konudaki gelişmiş tekniklerin hasar görmüş tarihi belgeleri onarma potansiyeli yaratmasıdır. Güçlü derin öğrenme tabanlı görüntü onarma algoritmaları yırtılmış belgelerdeki büyük miktardaki eksik bilgiyi ortaya çıkarabilir. “Görüntü iç boyaması” (image inpainting) bu kategoriye giren, eksik piksellerin doldurulduğu bir işlemdir. Bu işlem, eksik pikselleri doldurmak için yeni dokuları sentezleyen bir doku sentezi algoritması kullanılarak yapılabilir. Derin öğrenme tabanlı modeller, desen tanıma yeteneği nedeniyle pratikte tercih edilen seçenek haline gelmiştir.

(Kaynak: v7 Labs)

4.3. Görüntü Segmentasyonu

Görüntü segmentasyonu, bir görüntüyü birden fazla segmente veya bölgeye ayırma işlemidir. Her bölüm görüntüdeki farklı bir nesneyi temsil eder ve görüntü segmentasyonu genellikle nesne tespiti için bir ön işleme adımı olarak kullanılır.

Görüntü segmentasyonu için kullanılabilecek birçok farklı algoritma vardır ancak en yaygın yaklaşımlardan biri eşikleme (thresholding)5 kullanmaktır. Örneğin ikili eşikleme (binary thresholding), bir görüntüyü, her pikselin siyah veya beyaz olduğu ikili bir görüntüye dönüştürme işlemidir. Eşik değeri (threshold), parlaklık düzeyi eşiğin altında olan tüm pikseller siyaha, parlaklık düzeyi eşiğin üzerinde olan tüm pikseller beyaza dönecek şekilde seçilir. Bu işlem, artık siyah ve beyaz bölgelerle temsil edildikleri için görüntüdeki nesnelerin bölümlere ayrılmasıyla sonuçlanır.

Eşik değerinin 127 olduğu bir ikili eşikleme örneği. (Kaynak: v7 Labs)

Çok düzeyli eşiklemede (multi-level thresholding) görüntünün farklı bölümleri, düzey sayısına bağlı olarak farklı gri tonlarına dönüştürülür. Aşağıdaki örnekte, bir makaleden alınan bir tıbbi görüntüleme olan beyin MRI segmentasyonu için çok seviyeli eşikleme kullanmıştır. [6]

(Kaynak: v7 Labs)

4.4. Nesne Tanıma

Nesne tanıma, genellikle güvenlik ve gözetim gibi alanlarda kullanılan, bir görüntüdeki nesneleri tanımlama görevidir. Nesne tanıma için birçok farklı algoritma kullanılabilir ancak en yaygın yaklaşım derin öğrenme modellerini, özellikle evrişimli sinir ağlarını (convolutional neural network, CNN) kullanmaktır.

V7 ile nesne tanıma. (Kaynak: v7 Labs)

CNN, evrişim işlemi bilgisayarın piksellerle birer birer uğraşmak yerine görüntünün parçalarını görmesine yardımcı olduğundan dolayı özellikle görüntü işleme görevi için tasarlanmış bir yapay sinir ağı türüdür. Nesneleri tanımak için eğitilen CNN; nesnenin görüntüde algılandığı konumu sınıf etiketiyle birlikte gösteren bir sınırlayıcı kutu (bounding box), yukarıdaki görselde gösterildiği gibi, üretecektir.

4.5. Görüntü Sıkıştırma

Görüntü sıkıştırma, görüntünün kalitesini korumaya çalışırken dosya boyutunu küçültme işlemidir. Bu, özellikle mobil ve uç6 cihazlarda görüntü işleme algoritmalarını çalıştırmak veya görüntüyü iletmek için gereken bant genişliğini azaltmak amacıyla depolama alanından tasarruf etmek için yapılır.

Görüntü sıkıştırmaya yönelik modern yaklaşımlar, görüntüleri daha düşük boyutlu olarak kodlamak ve bunu bir kod çözme ağı kullanarak kullanıcı tarafında normal boyutta görünmesi için derin öğrenmenin kullanılmasını içerir. Verimli bir kodlama şemasını öğrenen kodlama kısmı ve görüntüyü kayıpsız normal boyutuna çevirmeye çalışan kod çözme kısmından oluşan bu model türüne otomatik kodlayıcı (autoencoder) denir.

Otomatik kodlayıcı eğitimi için temel çerçeve. (Kaynak: v7 Labs)

4.6. Görüntü Manipüle Etme

Görüntü manipülasyonu, bir görüntünün görünümünü değiştirmek için değişiklik yapma işlemidir. Bu yöntem, istenmeyen bir nesnenin görüntüden çıkarılması veya görüntüde bulunmayan bir nesnenin eklenmesi gibi çeşitli nedenlerle kullanılabilir. Grafik tasarımcıları genellikle posterler, filmler vb. oluşturmak için bu yöntemi kullanırlar.

Görüntü manipülasyonunun bir örneği, bir görüntünün başka bir görüntünün stiline uyarlanması için derin öğrenme modellerini kullanan sinirsel stil transferi (Neural Style Transfer) tekniğidir. Örneğin normal bir görüntüye van Gogh’un “Yıldızlı Gece” stilini aktarabilir. Sinir stil transferi ayrıca yapay zekânın sanat eserleri üretmesine de olanak tanır.

(Kaynak: v7 Labs)

Diğer sanatsal tarzlara aktarılan görsellerin örnekleri aşağıdaki görselde gösterilmiş ve mevcut en gelişmiş yöntemlerle karşılaştırılmıştır.

(Kaynak: v7 Labs)

4.7. Görüntü Oluşturma

Yeni görüntülerin sentezi, görüntü işlemede, özellikle de eğitilmesi için büyük miktarda etiketli veriye ihtiyaç duyulan derin öğrenme algoritmalarında bir diğer önemli görevdir. Görüntü oluşturma yöntemlerini genellikle farklı bir sinir ağı mimarisi olan Çekişmeli Üretken Ağlar (Generative Adversarial Networks, GAN) kullanır.

(Kaynak: v7 Labs)

GAN iki ayrı modelden oluşur: sentetik görüntüleri üreten üreteç ve sentetik görüntüleri gerçek görüntülerden ayırmaya çalışan bir ayırıcı. Üreteç, ayrımcıyı kandırabilecek kadar gerçekçi görünen görüntüleri sentezlemeye çalışır ve ayırıcı da bir görüntünün sentetik mi yoksa gerçek mi olduğuna daha isabetli karar verebilmek için eğitilir. Bu çekişmeli oyun, üretecin birkaç yinelemeden sonra daha gerçekçi görüntüler üretmesine olanak tanır ve bu görüntüler daha sonra diğer derin öğrenme modellerini eğitmek için kullanılabilir.

4.8. Görüntüden Görüntüye Çeviri

Görüntüden görüntüye çeviri, bir eğitim seti içinde yer alan hizalanmış görüntü çiftlerini kullanarak bir girdi görüntüsü ile bir çıktı görüntüsü arasındaki eşlemeyi öğrenme amacı güden bir görme ve grafik problemleri sınıfını ifade eder. Örneğin, aşağıdaki görseldeki gibi, çizimde çıktı olarak gösterilen nesnenin gerçekçi bir görüntüsünü elde etmek için girdi olarak serbest elle bir çizim çizilebilir.

(Kaynak: v7 Labs)

5. Görüntü İşlemede Kör Ters Evrişimi

Kör görüntü ters evrişimi (blind image deconvolution), ideal bir iğne deliği kamerasıyla elde edildiği gibi, bir görüntünün nasıl bulanıklaştığını tam olarak bilmeksizin, bulanık ve gürültülü bu görüntüden net bir görüntü elde etmenin zorluğunu ifade eder. Tanımlanamayan bulanıklaştırma işlemi; odak kaybı, kameranın hareketi, sahnenin hareketi veya diğer optik kusurlardan kaynaklanabilir. Uygun fotoğraf pozlaması için pozlama süresi ve diyafram arasında bir denge gereklidir. Fotoğrafçı, aydınlatmanın kötü olduğu durumlarda büyük bir diyafram açıklığı veya uzun pozlama süresi kullanabilir. İlk seçenek, pozlama gerçekleşirken kamera sahnedeki nesnelere göre hareket ettiğinde hareket bulanıklığı yaratır. İkinci seçeneği kullanırken odak düzleminden uzaktaki nesneler odak dışı bulanıklaşır. Bu durum, görüntü işlemede kör ters evrişime yol açabilir.

6. Görüntü İşlemede Çınlama Efekti

Görüntü işlemeye yönelik matematiksel yaklaşımlarda sıklıkla Gibbs fenomeni olarak bahsedilen ve hoş olmayan çınlama etkisi, fotoğraf ve videolarda keskin kenarların yakınında dalgalanmaların görünmesidir. Bu etki, görüntüdeki yüksek frekanslı bilgilerin eksik veya bozuk olmasından kaynaklanır.

(Kaynak: Wikipedia)

7. Görüntü İşleme Uygulamaları

7.1. Tıbbi Görüntü Alma

Görüntü işleme, tıbbi araştırmalarda yaygın olarak kullanılarak daha etkili ve doğru tedavi planlarının yapılmasına olanak sağlamıştır. Örneğin meme taramalarında gelişmiş bir nodül tespit algoritması kullanılarak meme kanserinin erken teşhisi için kullanılabilir. Ancak tıbbi uygulamalar yüksek derecede eğitilmiş görüntü işleme uzmanlarını gerektirdiğinden, bu uygulamaların kullanıma kabul edilmesi öncesinde ciddi bir değerlendirme doğrulama süreci gerekir.

7.2. Trafik Algılama Teknolojileri

Trafik sensörlerinde video görüntü işleme sistemi (Video Image Processing System, VIPS) kullanılır. Bu sistem; bir görüntü yakalama sistemi, telekomünikasyon sistemi ve bir görüntü işleme sisteminden oluşur. Video çekerken VIPS’te, bir araç bölgeye girdiğinde “açık” sinyali veren ve ardından araç algılama bölgesinden çıktığında “kapalı” sinyali veren çeşitli algılama bölgeleri bulunur. Bu algılama bölgeleri, birden fazla şerit için ayarlanabilir ve belirli bölgelerde trafiğin durumunu tespit etmek için kullanılabilir.

(Kaynak: Simplilearn)

Sistem; aracın plakasını otomatik olarak kaydedebilme, tipini ayırt edebilme, hızını takip edebilme ve bunlar gibi birçok özelliğe sahiptir.

7.3. Görüntüyü Yeniden Oluşturma

Görüntü işleme bir görüntünün kayıp parçalarını kurtarmak veya bozulmuş kısımlarını düzeltmek için kullanılabilir. Bu, eski ve hasarlı fotoğrafların daha iyi sürümlerini oluşturmak için mevcut fotoğraf veri kümeleriyle kapsamlı bir şekilde eğitilmiş görüntü işleme sistemlerinin kullanılmasıyla gerçekleştirilir.

(Kaynak: Simplilearn)

7.4. Yüz Tanıma

Bu teknik, bir makinenin önce insan yüzünün yüz şekli veya gözler arasındaki mesafe gibi temel özelliklerini öğrenmesi ve ardından derin öğrenme algoritmalarını kullanarak yüz tanıma işlemini gerçekleştirmesini sağlar. Makine, bu eğitim sürecini tamamladıktan sonra bir görüntüde insan yüzüne benzeyen tüm nesneleri seçebilir hâle gelir. Yüz tanıma uygulaması, güvenlik sistemlerinde, biyometrik kimlik doğrulamada ve sosyal medya mobil uygulamalarında bulunan fotoğraf veya video filtrelerinin teknolojisinde önemli rol oynamaktadır.

8. Görüntü İşlemenin Faydaları

Görüntü işleme tekniklerinin uygulanması birçok teknoloji üzerinde büyük bir etki yaratmıştır. Uygulanma alanlarından bağımsız olarak, görüntü işlemenin sağladığı büyük faydalar arasında şunlar bulunmaktadır:

  • Dijital görüntü istenen herhangi bir formatta (geliştirilmiş görüntü, X ışını, fotoğraf negatifi vb.) sunulabilir.
  • İnsanların yorumlayabilmesi için görüntülerin iyileştirmesine yardımcı olur.
  • Makinelerin yorumlayabilmesi için görüntülerden bilgi çıkarılabilir ve bu bilgi işlenebilir.
  • Görüntüdeki pikseller istenilen yoğunluk ve kontrasta göre ayarlanabilir.
  • Görüntüler kolayca saklanabilir ve saklanılan yerden geri alınabilir.
  • Görüntülerin üçüncü taraf sağlayıcılara elektronik olarak kolayca iletilmesine olanak tanır.

1 Bilgisayarla görü, iki boyutlu, üç boyutlu veya daha yüksek boyutlu her türlü görsel sayısal verinin özellikle akıllı algoritmalarla anlamlandırılmasıdır. [1]

2 Bir bit (ikili basamak), bir bilgisayarın işleyebileceği ve depolayabileceği en küçük veri birimidir. [2]

3 Bir renk kanalı, bir renk modelinin birincil renk bileşenlerinden birine ilişkin renk bilgilerini saklar. Örneğin RGB renk modelinin kırmızı, yeşil ve mavi renkleri için üç ayrı renk kanalı vardır. [3]

4 Derin öğrenme, esasen üç veya daha fazla katmana sahip bir sinir ağı olan makine öğreniminin bir alt kümesidir. Bu sinir ağları, insan beyninin davranışını taklit etmeye çalışarak büyük miktarda veriden “öğrenmeye” çalışır. [4]

5 Eşikleme, verilen gri tonlamalı bir görüntüyü bir eşik değerine göre iki bölgeye ayırarak ikili bir görüntü oluşturan segmentasyon tekniklerinden biridir. [5]

6Uç cihaz, veri merkezi ile gerçek dünya arasındaki arayüz olan ağ üzerindeki bir uç noktadır. [7]

Yoluyla
Kundu, R. (2023, April 20). Image Processing: Techniques, Types, & Applications [2023]. V7labs.Simplilearn. (2023, October 11). What is image processing : overview, applications, benefits, and more. Simplilearn.com.
Referanslar
[1] Ünal, G. (n.d.). Bilgisayarla görü. İTÜ Yapay Zekâ ve Veri Mühendisliği. [2] Sheldon, R. (2022, June 24). bit (binary digit). Tech Target. [3] Federal Agencies Digital Guidelines Initiative. (n.d.). Color channel - Glossary - Federal Agencies Digitization Guidelines Initiative. Digitization Guidelines. [4] What is Deep Learning?. (n.d.). IBM. [5] Srimandutta. (2023, January 16). Thresholding-Based image segmentation. GeeksforGeeks. [6] Bandyopadhyay, R., Kundu, R., Oliva, D., & Sarkar, R. (2021). Segmentation of brain MRI using an altruistic Harris Hawks’ Optimization algorithm. Knowledge-Based Systems, 232, 107468. [7] What is an Edge Device? | Glossary. (n.d.). HPE.
Başa dön tuşu