Web Scraping
Araştırma çalışmaları, makaleler, ürün katalogları, kişisel bloglar, kurumsal web sayfaları ve yüzlerce farklı kate web üzerinde harika içerikler ve kullanılabilir, değerli veri mevcut. Ancak bugün web'de 2 milyardan fazla web sitesi ve online kaynak var. En iyi ya da en temiz bilgiyi el ile bulmak gerçekten mümkün değil hatta imkansız diyebiliriz. Bununla birlikte, son yıllardaki bazı ciddi gelişmeler sayesinde, web'den toplanan verilerin hacmini ve çeşitliliğini otomatik hale getirmenin bir yolu vardır. Bu, “Web Scrapping” denilen bir şeyle mümkün olur.
Diyelim ki pazar araştırması yapan bir firmada çalışıyorsunuz ve bir sonraki raporunuzda son beş senede piyasaya sürülen e-cüzdan özellikli ürünlerden söz edeceksiniz. Ancak o kadar çok bilgi var ki önünüzde nereden başlayacağınızı bilmiyorsunuz. Neyse ki ekipten birisi gecen hafta içinde e-cüzdan kelimesi gecen, teknoloji forumlarının, bloglarının ve haber sitelerinin listesini hazırlamış.
Önünüzde yaklaşık 120 tane link var ve her birinin okunup raporlanması gerekiyor. Bu işi elle yaparsanız 2 belki de 3 haftanızı alacak. Peki ya HTML, XPATH ya da REGEX hakkında biraz bilgi sahibi iseniz? Bu işi rahatlıkla bir haftada halledebilir ve manuel şekilde yapacağınızdan çok daha düzenli bir veri bankası oluşturabilirsiniz.
Nasıl mı?
Web Scrapping ile internet sayfalarını kazıyıp ihtiyacınız olan bilgiyi söküp alarak. Web Scrapping, bir sayfada gözünüzün gördüğü hemen hemen her şeyi getirebilir. Linklerden, görsellere kadar.
Bir diğer deyimiyle web kazıma, web sitelerinden bilgi çıkartmanın bilgisayar programı kullanılarak uygulanan tekniğidir. Çoğunlukla, bu tür yazılım programları düşük seviye Köprü Metni Aktarım Protokolü (HTTP) veya Mozilla Firefox gibi tam teşekküllü gömülü web tarayıcısı tarafından World Wide Web'in insan araştırmaları simüle edilir.
Web Scraping Amacı Nedir?
Web scraping, web üzerinde genel verilerin toplanmasını otomatikleştirir. Veriyi çıkardıktan ve sakladıktan sonra, çeşitli şekillerde kullanılabilir. Örneğin, iletişim bilgilerini bulmak veya web'deki fiyatları karşılaştırmak.
Web Scraping Nasıl Çalışır?
Web scraping işlemlerini kavramak için, öncelikle web sayfalarının metin tabanlı biçimlendirme dilleri ile oluşturulduğunu anlamak önemlidir – en yaygın olanı HTML'dir.
Bir biçimlendirme dili, bir web sitesinin içeriğinin yapısını tanımlar. Evrensel bileşenlerin ve işaretleme dillerinin etiketleri bulunduğundan, web kesicilerinin ihtiyaç duyduğu bilgileri almaları çok daha kolay olur.HTML ile ayrıştırma web scrapping yalnızca yarısıdır. Bundan sonra, scraper daha sonra gerekli verileri alır ve saklar. Aşağıda bir web kazıyıcı çalışmasının neye benzediği ile ilgili şematik bir görsel verilmiştir.
Tüm iş modelleri, web kazıma uygulaması etrafında toplanmıştır ve gelecekte bunun yalnızca daha fazla örneğini görmeye devam edeceğiz. Aşağıda, günümüzde web hurdalarının daha belirgin uygulamalarından 5 tanesi gösterilmektedir.
1. Kontak çıkarma
Farkında olabilirsiniz veya farkında olmayabilirsiniz ancak web'de bir yerde, telefon numaranızın veya e-posta adresinizin çıkarılması ihtimali yüksektir. Ağ kazıma işleminde buna kontak çıkarma denir.
Hunter.io gibi bir araç, halka açık web'i tarar ve doğru e-posta adresi olduğuna inandıklarını, mevcut telefon numaraları ile çizer. Bilgi her zaman yüzde 100 doğru olmamakla birlikte, yine de soğuk erişimi daha verimli hale getirmektedir.
2. Fiyat karşılaştırması
Benim gibi bir “düşük fiyatlı şahin” iseniz, geçmişte bir noktada bir fiyat karşılaştırma aracıyla etkileşime girdiğinizden eminim.
Ürün veya hizmet web sitelerini kazıyarak, gerçek zamanlı fiyat karşılaştırmaları ve dalgalanmaları sağlayabilen araçlar vardır. Bugün bunun gerçek dünya örneği, müşterilere seçilen varış yerlerine en ucuz uçuş seçeneklerini sağlayan Hopper gibi bir araçtır.
3. Kupon ve promosyon kodu çıkarma
Fiyat karşılaştırma araçlarına benzer şekilde, web kuponları ve promosyon kodlarını çıkarmak için de kullanılabilir. Bunu zaten RetailMeNot gibi web platformları ve Honey gibi mobil uygulamalar ile görüyoruz. Bu araçların başarısı değişmekle birlikte (ve şirketler promo teklifleriyle daha zeki olurlar), kontrol etmeden önce para kazanıp kazanamayacağınızı görmeye değer.
4. SEO denetimi
Günümüzde web kazıma işleminin daha kazançlı yollarından biri SEO denetimidir. Temel olarak, Google ve Bing gibi arama motorları, anahtar kelimeler için arama sonuçlarını sıralama konusunda yüzlerce kılavuza sahiptir – bazıları diğerlerinden daha fazla değer taşır.
SEO yazılımı, web'i, diğer şeylerin yanı sıra, arama motorlarındaki içeriği SEO gücü açısından analiz etmek ve karşılaştırmak için kullanır. Pazarlamacılar daha sonra bu görüşü kullanır ve günlük içerik stratejilerine uygular.
Referanslar
- https://towardsdatascience.com/web-scraping-basics-selenium-and-beautiful-soup-applied-to-searching-for-campsite-availability-4a8de1decac9
- https://www.hongkiat.com/blog/web-scraping-tools/
- https://www.freecodecamp.org/news/better-web-scraping-in-4-python-with-selenium-beautiful-soup-and-pandas-d6390592e251/
- http://www.tuncaycoklu.com.tr/python-web-scraping-2/