Yapay zeka veri yönetimini nasıl iyileştiriyor?
Yapay zeka, veri yönetimini, verinin kalitesi, erişebilirliği ve güvenliğini sessiz sedasız iyileştiriyor.
Thomas H. Davenport & Thomas C. Redman
Veri yönetimi, verinin tüm şirket genelinde faydalı olabileceği bir ortam yaratmak için hayati öneme sahip. Etkili veri yönetimi, kötü veriden kaynaklanan ek sürtüşme, kötü kestirim ve hatta basit erişilemezlik gibi sorunları, ideal olarak, daha ortaya çıkmadan en aza indirir.
Bununla birlikte, veriyi yönetmek emek yoğun bir faaliyettir: Verileri temizlemeyi, ayıklamayı, bütünleştirmeyi, kataloglamayı, etiketlemeyi, düzenlemeyi ve veriyle ilgili birçok görevi tanımlamayı ve gerçekleştirmeyi içerir. Bütün bunlar, çoğunlukla, gerek veri bilimcilerini gerek unvanında 'veri' bulunma- yan çalışanları çileden çıkarır.
Yapay zeka (YZ) binlerce farklı şekilde başarıyla uygulandı, ancak bunların daha az görünür ve daha az dramatik olanlardan biri veri yönetiminde sağlanan iyileşme. YZ'nin önemli roller oynadığını gördüğümüz beş yaygın veri yönetimi alanı bulunuyor:
• Sınıflandırma: Genel anlamda belgeler, fotoğraflar, el yazısı ve diğer ortamlardan veri elde edilmesini, özütlenmesini ve yapılandırılmasını kapsar. • Kataloglama: Verinin konumlandırılmasına yardımcı olmak. • Kalite: Verideki hataları azaltmak. • Güvenlik: Veriyi kötü kişilerden korumak ve ilgili yasalara, politikalara ve geleneklere uygun kullanıldığından emin olmak. • Veri entegrasyonu: Listelerin birleştirilmesi de dahil olmak üzere veri 'ana listeleri'nin oluşturulmasına yardımcı olmak.
Aşağıda, bu alanların her birini sırayla tartışıyoruz. Ayrıca satıcı ortamını ve veri yönetimi için insanların hangi açılardan gerekli olduğunu açıklıyoruz.
YZ İMDADA YETİŞİYOR
Teknoloji, tek başına, veri kalitesine proaktif bir şekilde saldırmak, herkesin rollerini ve sorumluluklarını anlamasını sağlamak, veri tedarik zincirleri benzeri kurumsal yapılar inşa etmek ve temel terimlerin ortak tanımlarını oluşturmak gibi iyi veri yönetimi süreçlerinin yerini alamaz. Ancak YZ, hem üretkenliği hem de şirketlerin veriden elde ettiği değeri önemli ölçüde artırabilen değerli bir kaynak.
YZ'nin bir organizasyonda etkili veri yöneti- mi üzerinde en fazla tesire sahip olabileceği beş alanı şöyle sıralayabiliriz.
1. Alan: Sınıflandırma
Veri sınıflandırma ve ayıklama geniş bir alan ve medyanın dijitalleşmesiyle, sosyal medyanın giderek daha fazla görüntü ve videoya odaklanmasıyla daha da büyüdü. Günümüzün online ortamlarında uygunsuz gönderilerin belirlenmesi için içeriğin denetlenmesi, YZ olmadan bu ölçekte yürütülemez (gerçi bu alanda hala çok sayıda insan istihdam ediliyor). Bu alana sınıflandırmayı (Bu bir nefret söylemi mi?), kimlik/öğe çözümlemesini (Bu bir insan mı yoksa robot mu ve insansa hangisi?), eşleştirmeyi (A veri tabanındaki Jane Doe ile veri tabanı B'deki J.E. Doe aynı insan mı?), verinin içinden bilgi çıkartmayı (Bu adli dosyadaki en önemli veri nedir?) ve benzeri unsurları dahil ediyoruz.
Banka çekleri veya adresli zarflar gibi öğelerden önemli verileri çıkartmak amacıyla optik karakter tanıma (OKT) için YZ'nin ilkel biçimleri yıllardır kullanılıyor. OKT o kadar yaygın hale geldi ki artık bu tür yetenekleri YZ olarak düşünmüyoruz. Daha yeni YZ sistemleri, insan el yazısını doğru okuyabilen derin öğrenme modelleriyle OKT'yi genişletti.
Önemli veriler genellikle faks, PDF ve uzun kelime işlem belgeleri gibi esnek olmayan belge biçimlerinde mahsur kalır ve bunlara erişmek, bunları analiz etmek ve hatta bunlar hakkındaki soruları yanıtlamak için bu verilerin önce bilginin çıkartılması gerekir. Örneğin sağlık hizmetlerinde bilgiler hala faksla iletiliyor ve bunlara erişmek önemli ölçüde insan çabası gerektiriyor. Bir elektronik sağlık kayıtları şirketi, fakslardan hangi verinin önemli olduğunu bulmak ve bunları doğrudan EHR sistemine girmek için bir YZ programı yazdı ve bu da önemli ölçüde zaman tasarrufu sağladı. Ayrıca YZ programları, avukatlar ve denetçilerin işine yarayacak şekilde sözleşmelerden önemli hükümleri belirleyebilir ve çıkarabilir.
2. Alan: Kataloglama
Onlarca yıldır şirketler, sistemlerinde ve kayıtlarında önemli verilerin nerede bulunduğuna dair doğru bir kılavuzdan yoksundu. Neyse ki veri kataloglama, son yıllarda bu materyali takip etmek için önemli bir yardımcı olarak ortaya çıktı. Ancak bu tür katalogları oluşturmak ve güncel tutmak hep emek yoğun bir iş oldu. YZ, çeşitli veri havuzlarında aramaları otomatikleştirebilir ve otomatik olarak kataloglar oluşturabilir. YZ sistemleri, sistem belgelerinde bulunan tüm meta verileri yakalayabilir. YZ aynı zamanda, verilerin kökenini de -nereden kaynaklandığını, kimin oluşturduğunu, nasıl değiştirildiğini ve şu anda nerede bulunduğunu- tanımlayabilir.
Ancak YZ ile kataloglar ve veri dizisi bilgileri oluşturmak daha kolay olsa da şirketlerin yine de mevcut veri ortamlarının dağınıklığıyla mücadele etmesi gerekiyor. Pek çok şirket, mimari karmaşanın boyutlarını ortaya çıkarmak istemediği veya kapsamlı bir çaba harcamadan önce verilerin daha iyi organize edilmesini ve daha yüksek kalitede olmasını beklemek istediği için geleneksel emek yoğun yöntemleri kullanarak katalog oluşturmaya direndi. Ancak YZ ile katalog oluşturma ve güncelleme kolaylığı, şirketlerin daha kolay bilgi erişimini sürekli veri iyileştirme süreçleriyle birleştirebileceği anlamına geliyor.
3. Alan: Kalite
Veri kalitesi araçları, esas olarak, çoğunlukla iş kurallarını kullanarak, izin verilen veri değerlerinin alanlarını tanımlayan kontroller uygular. Bir gün ve bir aydan oluşan bir tarihi düşünün. İzin verilen değerlerin yalnızca 366 kombinasyonu bulunur. Bu nedenle, "Çubat" izin verilen bir ay değildir, "35" izin verilen bir gün değildir ve "31 Şubat" izin verilen bir kombinasyon değildir. İş kurallarını tanımlama, kodlama ve güncel tutma, özellikle zahmetli olması itibarıyla, otomatik öğrenme tabanlı YZ'nin büyük fayda sağladığı bir alan.
YZ araçları, izin verilmeyen değerleri belirlemek için verileri tarayabilir; bazı hatalı değerler otomatik olarak düzeltilir ve diğerleri düzeltme için bir kişiye veya gruba atanır. Birçok satıcının araçları, daha şimdiden, bu amaçlar için otomatik öğrenmeden yararlanıyor.
YZ, verileri (bir eşleştirme sürecinden sonra) diğer dahili veya harici veri tabanlarından ek bilgilerle çoğaltma, eksik veri boşluklarının nasıl doldurulacağına dair kestirimler yapma ve çoğaltılmış veya nadiren kullanılan verileri silme dahil olmak üzere veri kalitesiyle ilgili diğer işlevleri de gerçekleştirebilir.
Daha da önemlisi, satıcılar, veri kalitesi yö- netimine -veri hatalarını bulup düzeltmek yerine önlemeye odaklanan- daha proaktif bir yaklaşımı destekledikleri takdirde araçlarını geliştirebilir. Bu amaçla kontroller, veri oluşturma noktalarına mümkün olduğunca yakın uygulanmalı. Ek olarak, araçlar, veri kalitesi ölçümlerini iş etkisi ile yakından uyumlu hale getirmeli ve istatistiksel süreç kontrolünü ve kalite iyileştirmeyi desteklemeli.
4. Alan: Güvenlik
Verinin güvenliğini ve gizliliğini korumak, günümüzde her organizasyon için kritik meseleler. Bilgisayar korsanlığını, ihlalleri ve hizmet reddini önlemek, veri koruma mesleğinin doğuşundan bu yana büyük ölçüde insanlar tarafından yapılan işler oldu.
YZ, bu işlevlerin çoğuna yardımcı olabilir. Örneğin tehdit istihbaratında kullanılabilir -dış dünyayı gözlemek; tehdit sinyallerini, aktörleri ve dili sentezlemek; kimin kime ne yaptığını kestirmek için. YZ tabanlı tehdit istihbaratı, siber güvenlik uzmanlarının karşılaştığı- yüksek hacimlerde tehdit aktörü, muazzam miktarlarda görünüşte anlamsız enformasyon ve yetenekli profesyonel eksikliği gibi sayısız zorluğa bir yanıt olabilir. Öncü çözümler, birden çok dahili ve harici sistemde güvenlik verilerinin toplanmasını otomatikleştirmek, yapılandırılmamış biçimlerden yapılandırılmış veriler oluşturmak ve hangi tehditlerin en güvenilir olduğunu değerlendirmek için otomatik öğrenmeden faydalanıyor. YZ sistemleri, önceki saldırı kalıplarına dayalı olarak olası saldırı yollarını tahmin edebilir ve yeni tehditlerin önceden bilinen aktörlerden mi yoksa yenilerinden mi geldiğini belirleyebilir. Çoklu bağlantısız güvenlik sistemlerindeki yanlış pozitif siber güvenlik tehditlerinin sayısı göz önüne alındığında, karar kuralları ve otomatik öğrenme modellerinin bir kombinasyonu, insan araştırması için tehditleri önceliklendirebilir veya öncelik sırasına koyabilir.
Denetimsiz öğrenme sistemleri, bir organizasyonun bilişim teknolojisi (BT) ortamlarındaki anormallikleri teşhis edebilir, olağan dışı erişim modelleri veya organizasyonun sistemlerine erişen nadir IP adresleri gibi. Bu yaklaşımlar, her zaman değişime tabi olan geçmiş siber güvenlik yaklaşımları hakkında eğitim almaya ihtiyaç duymama avantajına da sahip.
YZ iç dolandırıcılık tehditlerinin yanı sıra yasal düzenlemelere uyulmadığını belirlemek için de kullanılabilir. Bu kabiliyet, bankacılık ve yatırım gibi yüksek düzeyde düzenlenmiş sektörler için özellikle ilgi çekici. YZ yazılımı, bir organizasyon içindeki dijital iletişimleri izler ve şüpheli dili veya davranış kalıplarını tanımlar. Elbette çalışanların veya müşterilerin yaptığı suistimali doğrulamak için insan soruşturması gerekir.
5. Alan: Veri entegrasyonu
Belki de YZ'nin veri yönetiminde yol açtığı en büyük iyileşmelerden biri veri entegrasyonu alanında oldu. Ana kayıt oluşturma denen bu işlem, bir organizasyon içindeki bir veri öğesinin mümkün en iyi kaynağı olan bir ana veya "altın" veri kaydının oluşturulmasını içerir.
Şirketler çeşitli nedenlerle veri entegrasyonuna ihtiyaç duyabilir: Zaman içinde önemli verilerin farklı sürümlerini çoğalttıkları için, işlemsel verileri analitik amaçlar için yeniden kullanmak istedikleri için veya kendi veri tabanı bulunan şirketleri satın aldıkları veya onlarla birleştikleri için. Büyük bir organizasyondaki verileri birleştirmek ve yönetmek, tarihsel olarak, muazzam çaba gerektiren ve yıllarca süren bir görev olmuştur.
Geçmişte, veri entegrasyonuna yönelik en yaygın yaklaşım, örneğin belirli bir müşteri veya tedarikçi kümesine ait kayıtların aslında aynı kayıt oldukları için birleştirilip birleştirilmeyeceğine karar vermek için bir dizi iş kuralından faydalanan ana veri yönetimiydi. Kapsamlı bir kurallar dizisi oluşturmak ve bunları gözden geçirmek o kadar zor ve pahalıydı ki bir çok veri entegrasyon projesinden daha tamamlanmadan vazgeçildi.
Şimdi ise Tamr gibi şirketlerin otomatik öğrenmeye dayalı ana kayıt oluşturma sistemleri, kayıtların birleştirilip birleştirilmeyeceğine karar vermek için olasılıksal eşleştirme tekniklerini kullanıyor. Aynı öğe olma olasılığı yüksek -örneğin yüzde 90 ya da üzerinde- olan kayıtlar otomatik olarak birleştiriliyor. Bu yaklaşımla çözülemeyen nispeten az sayıdaki kayıt, insan uzmanlar tarafından incelenebilir.
YZ VE VERİ İÇİN SAĞLAYICI ORTAMI
Veri yönetimi durumlarını geniş ölçüde iyileştirmek için YZ'den faydalanmak isteyen şirketler, bu araçların satıcıları söz konusu olduğunda iki temel seçeneğe sahip: Kapsamlı, pahalı ve en iyi ihtimalle yarı saydam bir çözümü seçmek veya bir dizi tek amaçlı YZ sistemini bir araya getirmek.
Başlangıçta savunma ve istihbarat pazarına odaklanan, ancak sonrasında ticari uygulamalarını da genişleten Palantir gibi şirketler, ilk seçeneği temsil ediyor. Palantir'in veri yönetimi tekliflerinin kapsamına yaklaşan diğer sağlayıcılar arasında Collibra, Informatica, IBM ve Talend yer alıyor. Diğer şirketler belirli veri türlerine odaklanıyor, makina verisi alanında faaliyet gösteren Splunk gibi.
Tek amaçlı ürünler sunan satıcıların çoğu küçük ve pekiyi tanınmıyor. Bazı büyük bulut sağlayıcıları veri için YZ araçları sunuyor, ancak bir tercih yapmayı gerektiren birden fazla seçeneğe sahip olmak potansiyel müşteriler için genellikle kafa karıştırıcı oluyor. Bu araçlar için satıcı ortamı da hızla değişiyor: Bir satıcının bize ifade ettiği gibi, "Bu alanda her gün yeni bir şirket ortaya çıkıyor ve çoğu anlamsız derecede dar bir araç sunuyor."
Büyük profesyonel hizmet firmaları, veri yönetiminde YZ kullanmak isteyen şirketler için üçüncü bir olasılığı temsil edebilir. Bunların çoğu, seçeneklerini entegre etmek için küçük işletmelerle, yapılandırma ve özelleştirme hizmetleri sağlamak için de daha büyük işletmelerle ortaklıklar kurdu. Böyle bir büyük hizmet firması, olağan zaman ve malzeme düzenlemeleri yerine temiz, entegre veri kayıtlarının sağlanmasına ve kayıt başına belirli bir maliyete dayalı yeni iş modelleri arayışında. Böylesine karmaşık bir ortamda bu düzeyde bir basitlik muhtemelen birçok organizasyonun ilgisini çekecek.
VE İNSANIN ÖNEMLİ OLDUĞU YERLER
Veri yönetimini iyileştirmede kaydettiği ilerlemeye karşın YZ'nin bu alanda hala yapamadığı bir çok şey bulunuyor. Genel olarak, iyi veri, hala, veriyi önemseyen, önemli bir varlık olarak gören ve veriye bu şekilde muamele eden bir yönetim sistemi kuran iyi yöneticiler gerektiriyor.
YZ'nin henüz pek faydalı olamadığı spesifik görevler şunlar:
• Bir veri stratejisi oluşturmak ve bir işlet- me için hangi verilerin en önemli olduğuna karar vermek.
• Veri odaklı bir kültür yaratmak. • Duyaçları veya ekipmanı ayarlamak. • Veri yönetişimi politikaları ve yapıları geliştirmek. • Temel iş terimlerini tanımlamak veya ortak bir dil oluşturmak. • Bir organizasyonun bir sorunu çözmek için doğru verileri mi yoksa yanlış verileri mi kullandığını belirlemek. • Bir organizasyonun verilerini nerede depolaması veya işlemesi gerektiğini önermek. • İnsanları siber güvenlik ihlalleri veya veri bağlantılı dolandırıcılık nedeniyle cezalandırmak.
Dolayısıyla organizasyonlar verileri yönetmek için insanlara -hem verileri oluşturan ve kullanan normal çalışanlara hem de işi veriyi tasarlamak, korumak ve iyileştirmek olan veri yönetimi profesyonellerine- ihtiyaç duymaya devam edecek. Yüksek düzeyde yapılandırılmış ve sık icra edilen veri yönetimi görevlerinin YZ yardımıyla otomatikleştirilmesi kaçınılmaz, şimdi veya yakın gelecekte. Bu, genel olarak, veri yönetimi kullanıcıları ve uygulayıcıları için iyi bir haber ancak bu süreçte bazı alt düzey veri yönetimi uzmanlarının işleri önemli ölçüde değişebilir ve hatta ortadan kalkabilir. İyi verinin şu anki ve gelecekteki faaliyetleri için önemli olduğuna inanan organizasyonlarda, YZ'nin hangi görevlerde kullanılacağını, hangi faaliyetlerin hala insanlar tarafından yürütüleceğini ve bu ikisinin birlikte nasıl çalışacağını planlamak büyük önem taşıyor.
Thomas H. Davenport: Babson College'da Bilgi Teknolojisi ve Yönetimi Başkanlık Ordinaryüs Profesörü, Oxford'da bulunan Saïd İşletme Okulu'nda misafir profesör ve MIT Dijital Ekonomi Girişimi'nin öğretim üyesi, Working With AI: Real Stories of Human-Machine Collaboration (YZ'yle Birlikte Çalışmak: Gerçek İnsan-Makina İşbirliği Hikayeleri, MIT Press, 2022) kitabının ortak yazarı.
Thomas C. Redman: New Jersey merkezli danışmanlık şirketi Data Quality Solutions'ın başkanı ve The Real Work of Data Science: Turning Data Into Information, Better Decisions, and Stronger Organizations (Veri Biliminin Gerçek İşi: Veriyi Enformasyona Dönüştürmek, Daha İyi Kararlar ve Daha Güçlü Organizasyonlar, Wiley, 2019) kitabının ortak yazarı.