AraKullanıcı girişiGezintiEn son ağ günlüğü gönderileri
En Çok Okunanlar
Kimler yeni
İçerik paylaşımı |
Çocuk Pornosu ve Zararlı İçerik Engellemede Önemli Yöntemlerden Biri : URL KategorizasyonuÖzet: URL Kategorizasyonu: URL kategorizasyonu yapan bir sistemin amacı, URL önceden tanımlanmış kategorizasyon şemasına göre ayrı etiketlere ya da kategorilere dâhil etmektir. Bu işaretlemeler, filtreleme veya düzeltme gibi amaçlarla kullanılabilir. Günümüzdeki hızlı bilgi artışında otomatik URL kategorizasyonu önemli bir hedeftir. Web tarayıcısı kullanan sınıflandırma sistemlerinin çoğunda işlemler insan desteğiyle yapılmaktadır [1]. Bu işlemleri elle yapmak iyi bir yaklaşım gibi görünse de URL sorgularının milyonlara eriştiği bir ortamda bu sistemler pek de işe yaramamaktadır. Bu ortamlarda bu işlemleri yapacak yeni yaklaşımlara her zaman ihtiyaç duyulmaktadır. Bu yaklaşımlardan biri ve bizim kullandığımız merkezi yada yük dağılımı yapılmış arka serverlarda metin, resim ve editörler aracılığı ile toplanan URL lerin merkezi sistemden dağıtılması –Push Method- için offline olarak geliştirilen metin tarama, resim tarama ve obje analizi yapılarak daha sonra istenirse editörel bir onaydan sonra URL veritabanına kaydedilmesinin sağlanmasına bu çalışmada crawler analizi denmiştir. Şu anda çalışmakta olduğumuz crawler tekniği ise bu aloritmayı biraz daha değiştirip bu küme oluşturulurken ilgili her kelimeye kaç kez rastlandığı ve bu kelimelerin başka hangi kategoriler altında bulunduğu bilgisi de tutulmuştur. Webjini içerik tarama motorunda ise kelimenin grupda kaç defa geçtiği bilgisi 1,3,5 sayılarından biriyle yada kullanıcı tanımlı kümelerde kullanıcının ifade ettiği sayılarla gösterilmiştir. Daha sonraki adımda küme 550 kelimeye yaklaşınca öncelikle kelimeler sıralanmış ve üç karakterden kısa olan kelimeler (“ile”, “de”, “da” vs.) kümeden çıkartılmıştır. Kalan kelimeler alfabetik sıraya göre dizilmiş ve birbirinin kökü olabilecek kelimeler korunup diğerleri kümeden çıkartılmış, korunan kelimelerin görülme sayısına çıkartılan kelimeler eklenmiştir. Daha sonra her bir kümeyi ifade eden 21 adet grup kelime tablosu oluşturulmuştur. Web tarama/Veritabanı tarama: Kategorize edilecek URL lerin listesi. Webjini yasak site veritabanından başlangıç için seçilir, daha sonra sayfalar analiz edilirken ayrıca sayfa içerisinde olan linkler eğer webjini yasak veritabanında da yoksa ayrıca geçici olarak oluşturulan bir listeye eklenir ve sonradan o liste de kategorizasyona ilave edilerek devam edilir. İçerik Tarama: İçerik taramada sayfada grubu ifade eden kelimelerin değerlendirmesi işlemi yapılır. Burada iki Burada iki yöntem kullanılır. Bit yöntemi ve Frekans yöntemi. Link Analizi: Kategorize edilmek istenen sayfanın refer etiği URL lerin tespiti ve daha sonra bu URL lerin ana URL in kategorizasyonunda ağırlık fonksiyonu olarak bu bilgilerin değerlendirilmesi fonksiyonlarının işletilmesi. HTML Yapı Analizi: Kategorize edilmek istenen URL in aşağıdaki örnekte olduğu gibi HTML sayfasını oluşturan tagların sıyrılması ve bu tagların adet ve değerlerinin vb.. elde edilmesi. <HTML> <CENTER> <BR> HTML sayfası yapısı bizim karar vermemizde kullandığımız ikinci yöntem. Benzerlik Ölçümü: Bir sayfa birden fazla gruba dahil olabilir. URL analiz edilirken kategorize edilmiş grup veritabanındaki bütün gruplar için kendini ifade eden bir değer bulunur. Daha sonra ağırlığı en büyük olan seçilir
Geliştirme: Yukarıda anlatılan teknikler platform bağımsız olması ve WEB teknolojileri ile uyumlu olması amacı ile JAVA kullanılarak geliştirilmiştir. Referanslar: 2. Joachims, T.. Text categorization with support vector machines: Learning with many relevant features. C. N'edellec ve C. Rouveirol (Ed.), Proceedings of the European Conferenceon Machine Learning içinde (s. 137-142)., 1998 Berlin: Springer. 3. Karypis, G., and Han, E., Concept Indexing A Fast Dimensionality Algorithm with Applications to Document Retrieval and Categorization University of Minnesota, Minneapolis, USA, 2000.
Dr. Ertuğrul AKBAŞ __________________________ (1 vote)
|
Benzer yazılar
Etiketlerİçerik Filtreleme
Şifre
Ağ
Antivirüs
Apple
botnet
Cisco
Cross Site Scripting
DDoS
Denetim
Denial Of Service
DoS
Ebeveyn Kontrolü
Exploit
Firefox
Güvenlik
Güvenlik Açıkları
Güvenlik Duvarı
Google
Hack
hacking
Hafıza Taşması
IP
Kablosuz Ağ
Kriptografi
Kriptolama
Kurtçuk
Kurulum
Linux
malware
Microsoft
Olta Saldırısı
Phishing
Rootkit
Servis Kullanımı Engelleme
Spam
SQL Injection
Sunucu
Trojan
Veritabanı
Virüs
Vista
VPN
web filtreleme
Web Güvenliği
Windows
worm
XSS
En son forum mesajlarıYaklaşan Aktiviteler |
Son yorumlar
1 hafta 2 gün önce
1 hafta 2 gün önce
2 hafta 3 saat önce
2 hafta 4 saat önce
2 hafta 18 saat önce
2 hafta 2 gün önce
2 hafta 4 gün önce
2 hafta 6 gün önce
2 hafta 5 gün önce
2 hafta 6 gün önce