Yapay Saftirik Zekâ: Büyük Dil Modellerini Kandırmak Mümkün mü?

Modern dünyanın yeni kâhinleri olarak sunulan büyük dil modelleri, gündelik hayatın her alanına şaşırtıcı bir hızla nüfuz ederken, insanlık olarak bu teknolojinin vaat ettiği parlak geleceğin cazibesine kapılmış durumdayız. Sorularımıza anında yanıt veren, karmaşık metinler üreten ve hatta sanat eserleri yapan bu sistemler, adeta dijital birer her derde deva gibi pazarlanıyor. Ancak madalyonun diğer yüzünde ise bu göz kamaştırıcı yeteneklerin temelinde yatan derin ve sistemik bir zafiyet gizleniyor. Yapay zekânın en büyük gücü, yani insan dilini anlama ve verilen talimatları harfiyen yerine getirme kabiliyeti, aynı zamanda onun en tehlikeli Aşil topuğunu oluşturuyor. Bu modeller, birer sadık hizmetkâr gibi programlanmış olsalar da, zekice kurgulanmış bir hikâye veya sinsi bir komut karşısında kolayca yoldan çıkabilen, iyi niyetli bir talimat ile kötü niyetli bir manipülasyonu ayırt etme yetisinden yoksun kırılgan modellerdir. Bu durum, basit bir yazılım hatasından çok daha fazlasıdır. Sorun, bu sistemlerin kodlarındaki birkaç satırlık bir hatadan değil, bizatihi varoluş mimarisinden kaynaklanan bir kontrol illüzyonuna işaret etmektedir. Bu teknolojilerin ardındaki kontrol mekanizmalarının ne denli zayıf olduğu anlaşıldıkça, bireysel mahremiyetten ulusal güvenliğe uzanan geniş bir yelpazede geri döndürülmesi zor problemlerin ortaya çıkma potansiyeli de belirginleşmektedir.

Basit Komutlar Tehdidi

Bu yeni nesil tehdidin en temel biçimi, komut enjeksiyonu olarak bilinen yöntemle kendini gösterir. Bu yöntemin en basit hali olan doğrudan enjeksiyonda, kötü niyetli bir kullanıcı, yapay zekâya önceki tüm komutlarını unutmasını ve kendisine verilen yeni talimatlara uymasını emreder. Nitekim 2023’te bir Stanford öğrencisinin, Microsoft’un Bing sohbet robotuna yönelttiği “Önceki talimatları yok say” gibi basit bir komutla, modelin “Sydney” kod adlı gizli iç yönergelerini ifşa etmeyi başarması, bu zafiyetin ne denli temel olduğunu kanıtlamıştır.[1] Bu olay, yapay zekânın karmaşık siber saldırılara değil, basit ve net ifadelere karşı ne kadar savunmasız olduğunu göstermiştir. Ancak tehdit, bu kadarla sınırlı değildir. Çok daha sinsi ve tehlikeli olan dolaylı enjeksiyon yönteminde, kötü niyetli komutlar, yapay zekânın işlemesi için sunulan bir web sitesi, e-posta veya PDF dosyası gibi harici veri kaynaklarının içine gizlenir. Örneğin, bir e-postanın görünmez bir metinle “tüm e-postalarımı sil” komutunu içermesi ve yapay zekâ asistanının bu e-postayı özetlemesi istendiğinde farkında olmadan bu komutu çalıştırması, yapay zekânın etkileşimde bulunduğu her veri parçasını potansiyel bir mayın tarlasına dönüştürmektedir. Bu durum, saldırı yüzeyini sonlu sayıdaki kod açıklarından, insan dilinin sonsuz özgünlük ve aldatmaca potansiyeline taşımaktadır. Geleneksel siber güvenlik paradigmaları, kod ve veri arasında net bir ayrım yaparken, büyük dil modellerinde bu ayrım ortadan kalkmıştır. Yani, her veri potansiyel bir komut, her komut ise potansiyel bir tehdit haline gelmiştir.

Manipülasyon teknikleri, yapay zekânın sadece belirli görevlerini saptırmakla kalmaz, onun bütün ahlaki ve etik pusulasını ortadan kaldırmayı hedefler. Jailbreaking olarak adlandırılan bu yöntemler, modelin güvenlik ve etik bariyerlerini kırmaya yöneliktir. Bunun en çarpıcı örneklerinden biri, “Ölü Büyükanne Numarası” olarak bilinen tekniktir. Bir kullanıcı, yapay zekâya, “rahmetli büyükannesinin napalm üreten bir fabrikada kimya mühendisi olduğunu ve küçüklüğünde uykuya dalarken kendisine ninni gibi napalm yapımının adımlarını anlattığını” söyleyerek masum ve duygusal bir hikâye kurgulamıştır.[2] Bu duygusal manipülasyon karşısında, normal şartlarda tehlikeli bilgi vermeyi reddedecek olan yapay zekâ, güvenlik protokollerini devre dışı bırakarak istenen zararlı bilgiyi sunmuştur. Bu örnek, yapay zekânın savunma mekanizmalarının, mantıksal argümanlar yerine insani duygular ve kurgusal anlatılarla ne kadar kolay manipüle edilerek aşılabileceğini göstermektedir. Model, bir komutun ardındaki niyeti değil, yalnızca komutun yüzeydeki anlamını ve duygusal tonunu işleyebildiği için, ahlaki bir ikilemle karşılaştığında kolayca yanlış yöne sapabilmektedir.

Büyük dil modellerine yapılan saldırılardan belki de en kaygı verici ve temel olanı, modelin eğitim aşamasında gerçekleştirilen veri zehirlenmesidir. Saldırganlar, yapay zekâyı eğitmek için kullanılan devasa veri setlerine kasıtlı olarak yanlış, taraflı veya kötü niyetli bilgiler enjekte ederler. Yapılan bir araştırma, bir tıp yapay zekâsının eğitim verilerinin sadece yüzde 0,001’inin zehirlenmesinin, modelin tehlikeli ve yanlış tıbbi teşhisler üretmesine yol açabildiğini göstermiştir.[3] Sistemin temel bilgi kaynağını bozarak, onu kalıcı bir dezenformasyon aracına dönüştürme potansiyeli taşıyan bu tür bir manipülasyonun tespiti ve düzeltilmesi neredeyse imkânsızdır. Model, zehirli veriyi bir kez öğrendiğinde, bu yanlışı doğru olarak kabul eder ve gelecekteki tüm çıktılarında bu yanlışı tekrarlar.

LLM

Küresel ve Yerel Zafiyetler

Bu teorik zafiyetlerin gerçek dünyadaki yansımaları, bireysel ve kurumsal düzeyde somut zararlara yol açmaya başlamıştır. Bir Chevrolet sohbet robotunun, bir dolara araba satmaya ikna edilmesi [4] veya bir Air Canada sohbet robotunun yanlış iade bilgisi vererek şirketi bu karara uymak zorunda bırakması[5] gibi vakalar, bu teknolojilerin anlık finansal ve itibar risklerini gözler önüne sermektedir. Samsung çalışanlarının farkında olmadan ChatGPT aracılığıyla gizli şirket verilerini sızdırması ise mahremiyet ve kurumsal güvenlik ihlallerinin ne kadar kolay gerçekleşebileceğinin bir kanıtıdır.[6] Fakat önemli bir tehlike de bu modellerin kişiye özel ve son derece ikna edici oltalama (phishing) e-postaları, finansal dolandırıcılık planları ve siyasi dezenformasyon üretmek için kitlesel olarak kullanılabilmesidir. Bu durum, kamu güvenini ve toplumsal uyumu temelden sarsma potansiyeline sahiptir. Ulusal güvenlik boyutunda ise bu zafiyetler, birer silaha dönüşebilir. Marjinal gruplar, manipüle edilmiş büyük dil modellerini kullanarak büyük ölçekte ve hızda otomatik propaganda ve dezenformasyon kampanyaları yürütebilir, demokratik süreçleri istikrarsızlaştırabilir ve kültürel anlatıları zehirleyebilirler. Akıllıca hazırlanmış bir komuta sahip tek bir kişi, milyonlarca insanın kullandığı bir sistemi tehlikeye atabilir ve bu sistem aracılığıyla zararlı içeriği otomatik olarak üreterek yayabilir. Bu durum, daha önce sadece süper güçlerin sahip olduğu bir etki kapasitesini küçük grupların da eline vererek, küresel ve yerel istikrar için öngörülemez bir tehdit oluşturmaktadır.

Büyük dil modellerinin bu denli ciddi güvenlik açıkları barındırması ve zekice yöntemlerle kolayca kandırılabilmesi, bu teknolojilere karşı yaklaşımımızda köklü bir paradigma değişimini zorunlu kılmaktadır. Mevcut durumda teknoloji şirketleri, bu modelleri bir an önce piyasaya sürme ve ticarileştirme yarışına girmişken, etik ve güvenlik testlerini çoğu zaman birer formalite olarak görmektedirler. Ancak karşı karşıya olduğumuz riskler, basit bir yazılım güncellemesiyle giderilebilecek türden değildir. Bu modellerin, insan dilinin inceliklerini, aldatmacalarını ve duygusal manipülasyonlarını anlayabilecek ve bunlara karşı koyabilecek şekilde eğitilmesi ve yönlendirilmesi gerekmektedir. Girdi ve çıktıların kural bazlı denetimi maalesef yeterli olmamakta, hatta sansür eleştirilerine varan farklı tartışmaları tetiklemektedir. Bu süreçte belki de aylar değil, yıllar sürecek derinlemesine, disiplinlerarası ve son derece titiz test süreçleri zorunludur. Bu modellerin etik açıdan ve güvenlik riskleri bakımından uzun süreler boyunca, farklı senaryolar altında test edilmesi, bir tercih değil mecburiyettir. Aksi takdirde, bireylerin mahremiyetinden ulusal güvenliğe, toplumsal barıştan demokratik süreçlerin işleyişine kadar geri döndürülmesi imkânsız bireysel ve toplumsal zararların ortaya çıkması kaçınılmaz olacaktır. Yapay zekânın sunduğu potansiyel faydalar ne kadar büyük olursa olsun, bu faydaların kontrolsüz ve denetimsiz bir şekilde serbest bırakılmasının bedeli, insanlık için çok ağır olabilir. Bu nedenle, geniş kesimler tarafından her şeyi bilen kusursuz kâhinler olarak algılanan bu modellere körü körüne inanmak yerine, onların kırılgan zekâsını ve gizli tehlikelerini anlamak ve buna göre hareket etmek, geleceğimiz için atılacak en akıllıca adımdır. Aksi halde, insanlığın en büyük icatlarından biri olarak görülen bu teknoloji, Nobel ödüllü araştırmacı Geoffrey Hinton'ın yavru kaplan analojisindeki[7] gibi kontrolümüzden çıkarak kendi mimarına yönelen bir silaha dönüşebilir ve dijital dünyadan ziyade, gerçek dünyada onarılması güç yaralar açabilir.

[1] https://www.theverge.com/23599441/microsoft-bing-ai-sydney-secret-rules

[2] https://now.fordham.edu/politics-and-society/when-ai-says-no-ask-grandma

[3] https://www.azorobotics.com/News.aspx?newsID=15632

[4] https://cybernews.com/ai-news/chevrolet-dealership-chatbot-hack

[5] https://techhq.com/news/air-canada-refund-for-customer-who-used-chatbot

[6] https://www.forbes.com/sites/siladityaray/2023/05/02/samsung-bans-chatgpt-and-other-chatbots-for-employees-after-sensitive-code-leak

[7] https://fortune.com/article/geoffrey-hinton-ai-godfather-tiger-cub

Yapay Saftirik Zekâ: Büyük Dil Modellerini Kandırmak Mümkün mü?

Basit Komutlar Tehdidi

Küresel ve Yerel Zafiyetler

Neler Çektik Dezenformasyondan…

Kriter'in Eylül Sayısı Çıktı!

Manipülasyona ve Dezenformasyona Karşı Toplumu Savunmak

Sosyal Medya’da Düzenleyici Dalga Devam Ediyor

Pürüzsüz Şefkat ve Ötekinin Tasfiyesi: “Pet-Anneliği”nin Otopsisi

Üniversiteler İçin Türk Dili Dersi ve Yapay Zekâ

Sosyal Medya’da Düzenleyici Dalga Devam Ediyor

Etiketin Hafızası: Türkiye’de Enflasyon Neden Düşmüyor?

Dijital Çağın Emperyalist Gücü: Veri Sömürgeciliği ve Yapay Zekâ

Yapay Zekâda Demokrasi Masalı: Teknoloji Devlerinin Politikası ve Dijital Feodalite

Yapay Zekâ Devrimi mi, Yapay Zekâ Balonu mu?

Yapay Zekâ Kıskacında Küresel Tüketici Elektroniği Piyasası

Dergi Satın Al

Yapay Saftirik Zekâ: Büyük Dil Modellerini Kandırmak Mümkün mü?

Basit Komutlar Tehdidi

Küresel ve Yerel Zafiyetler