2016'da Google, 3,2 trilyondan fazla arama sorgusu işledi, ancak arama motorunun sağladığı sonuçlar, mevcut çevrimiçi içeriğin yalnızca bir kısmını oluşturuyordu. Çevrimiçi olarak sunulan bilgilerin çoğuna arama motorları erişemez, bu nedenle bu gizli sayfaları bulmak için özel araçlar kullanmanız veya web sitelerini kendiniz araştırmanız gerekir. Deep web olarak bilinen bu gizli bilgi, tipik arama teknikleri kullanılarak elde edilenin 5.000 katına kadar açıklanır.
Gizli İçerik Türleri
Web sitelerinin gizli sayfaları, arama motorlarına neden görünmez kaldıklarını açıklayan kategorilere ayrılır.
Bazıları, yalnızca bir ziyaretçi hedeflenen sonuçları sunmak için veritabanına dayalı kod kullanan bir web sitesinde belirli bir istekte bulunduğunda sunulan dinamik içerik oluşturur. Örnek olarak, bu sayfalar, belirli ürün kriterleri kombinasyonlarına dayalı alışveriş sonuçlarını içerebilir. Arama motorları, bu veritabanlarında saklanan bilgileri izlemek ve depolamak için tasarlanmamıştır. Bu sayfaları bulmak için, web sitesine gitmeniz ve aradığınız belirli bilgileri aramanız veya Bright Planet gibi veritabanı odaklı bir arama hizmeti kullanmanız gerekir.
Bazı sayfalarda, onları aranabilir kaynaklara bağlayan bağlantılar yoktur. Az gelişmiş web sitelerinin birden çok sürümü gibi geçici kaynaklar, kötü tasarlanmış web siteleri gibi bu kategoriye girebilir. Örneğin, birisi bir web sayfası oluşturup onu web sitesinin sunucusuna yüklediyse, ancak web sitesinin mevcut sayfalarına bir bağlantı ekleyemediyse, arama motorları dahil hiç kimse onun orada olduğunu bilemezdi.
Abonelik siteleri gibi daha fazla sayfa, bunları görüntülemek veya bunlara ulaşmak için oturum açma kimlik bilgileri gerektirir. Web tasarımcıları, sayfaları ve sitelerin bölümlerini arama motorları için sınır dışı olarak belirler ve geleneksel yollarla bulunmalarını etkin bir şekilde ortadan kaldırır. Bu sayfalara erişmek için, genellikle size erişim izni verilmeden önce bir hesap oluşturmanız gerekir.
Robots.txt Dosyalarını Kullanma
Arama motorları, bir web sitesindeki sayfaları tarar ve sorgulara yanıt olarak gösterilebilmesi için içeriğini dizine ekler. Bir web sitesi sahibi, alanının bazı bölümlerini bu indeksleme prosedürlerinden çıkarmak istediğinde, bu dizinlerin veya sayfaların adreslerini, sitesinin kökünde depolanan robots.txt adlı özel bir metin dosyasına ekler. Çoğu web sitesi, herhangi bir istisna ekleyip eklemediğine bakılmaksızın bir robots dosyası içerdiğinden, içeriğini görüntülemek için belgenin tahmin edilebilir adını kullanabilirsiniz.
Tarayıcınızın konum satırına tırnak işaretleri olmadan "[alan adı]/robots.txt" yazarsanız ve "[alan adı]" yerine site adresini yazarsanız, robots dosyasının içeriği genellikle aşağıdakilerden sonra tarayıcı penceresinde görünür: "Enter" tuşuna basıyorsunuz. "İzin verme" veya "nofollow" ile başlayan girişler, sitenin bir arama motoru aracılığıyla erişilemeyen kısımlarını temsil eder.
Kendin Yap Web Sitesi Hackleme
robot.txt dosyalarına ek olarak, web tarayıcınızda belirli sayfalar ve klasörler için web adreslerini yazarak genellikle gizli içeriği bulabilirsiniz. Örneğin, bir sanatçının web sitesine bakıyorsanız ve her sayfanın aynı adlandırma kuralını kullandığını fark ettiyseniz – galeri1.html, galeri2.html, galeri4.html gibi – o zaman "sayfayı yazarak gizli bir galeri bulabilirsiniz. galeri3.html." web tarayıcınızda.
Benzer şekilde, web sitesinin sayfaları düzenlemek için klasörler kullandığını görürseniz - example.com/content/page1.html gibi, "/content" klasördür - o zaman web sitesini ve klasörü yazarak klasörün kendisini görüntüleyebilirsiniz. , web tarayıcınızda "example.com/content/" gibi bir sayfa olmadan. Klasöre erişim devre dışı bırakılmamışsa, gizli içeriği bulmak için içerdiği sayfaların yanı sıra herhangi bir alt klasördeki sayfalarda gezinebilirsiniz.