Lompat ke konten Lompat ke sidebar Lompat ke footer

Bagaimana cara mengekstrak URL dari peta situs?

 Bagaimana cara mengekstrak URL dari peta situs?

Bagaimana cara mengekstrak URL dari peta situs?

Dalam posting cara ini, saya akan menjelaskan cara mengekstrak URL dari peta situs, menggunakan beberapa teknik:


  • Google Sheets dengan rumus IMPOR XML
  • Screaming Frog 
  • Piton 
  • Layanan eksternal
  • Ekstrak URL dari peta situs dengan Google Sheets

Salah satu keuntungan utama mengambil URL langsung di Google Sheets adalah kemungkinan yang ditawarkan untuk mengisinya dengan data dari Google Analytics atau Google Search Console di spreadsheet yang sama. Untuk mencapai itu, ikuti instruksi yang akan datang:


Dapatkan URL peta situs yang ingin Anda ekstrak URL-nya. Biasanya https://www.example.com/sitemap.xml. Jika Anda tidak mengetahui URL mana yang digunakan peta situs Anda, lihat file robots.txt (https://www.example.com/robots.txt), karena mungkin ditunjukkan di sana:

peta situs-dalam-robot-txt

Buat spreadsheet baru di Google Sheets. Anda dapat menggunakan domain https://sheets.new untuk membuatnya dalam satu klik tanpa harus melalui Beranda Google Drive atau Google Sheets.

Di salah satu sel, sertakan rumus berikut:

contoh-importxml-sietmap-google-sheets

Seperti yang Anda lihat, ini adalah salah satu teknik paling sederhana di luar sana untuk mencapai hasil yang diinginkan. Namun demikian, Anda mungkin tidak bekerja dengan Google di perusahaan Anda, oleh karena itu saya akan menjelaskan cara menggunakan metode yang berbeda untuk mendapatkan hasil yang sama.


Ekstrak URL dari peta situs dengan Screaming Frog

Screaming Frog adalah salah satu tools yang sangat berguna yang wajib anda gunakan sebagai seorang SEO. Untuk mengekstrak URL dari peta situs (bahkan tanpa merayapinya), Anda dapat menggunakan trik super sederhana:


Abrid Screaming Frog y usar el modo List

mode-daftar-teriakan-katak

Klik tombol “Unggah” dan pilih opsi “Unduh Peta Situs” atau “Unduh Indeks Peta Situs”, tergantung pada file yang akan Anda masukkan. 

menu-download-sitemap-screaming-frog

Masukkan URL

download-sitemap-screaming-frog

Tunggu sebentar, pilih teks yang muncul di jendela (CMD+A atau CTR+A untuk memilih semuanya) dan salin (CMD+C atau CTR+C)

Tempel teks di dokumen Google Sheets

Hapus dua baris pertama dan terakhir dari teks yang ditempel

Lihat "Ditemukan" (dengan spasi) dan ganti dengan "" (tidak ada)

temukan-ganti-google-sheets

Anda harus memiliki daftar lengkap

Tentu saja, jika Anda ingin mendapatkan informasi tentang URL ini (seperti kode respons), Anda harus merayapinya, tetapi tujuan dari posting cara ini adalah untuk menjelaskan cara mengambil daftar URL saja, bukan cara merayapinya sebagai baik 🙂


Ekstrak URL dari peta situs dengan Python

Jika Anda terbiasa dengan Python, Anda dapat menggunakan rumus berikut dalam alur kerja Anda:


def ExtractSitemap(url, sitemap_index):

xml = []

final_xml = []


if sitemap_index == 0:

r = requests.get(url)

soup = Soup(r.content, features='lxml')

urls = soup.findAll('loc')


for element in urls:

url = str(element)

url = url.replace('', '').replace('', '')

final_xml.append(url)


elif (sitemap_index == 1):


r = requests.get(url)

soup = Soup(r.content, features='lxml')

urls = soup.findAll('loc')


for element in urls:

url = str(element)

url = url.replace('', '').replace('', '')

xml.append(url)


for element in xml:

r = requests.get(element)

soup = Soup(r.content, features='lxml')

urls = soup.findAll('loc')

data_new.append(element)


for element in urls:

url = str(element)

url = url.replace('', '').replace('', '')

final_xml.append(url)


return final_xml

Fungsi ini menerima dua parameter:


URL peta situs

Apakah peta situs adalah indeks (1) atau peta situs biasa (0)

Jika Anda ingin fungsi ini berfungsi, Anda memerlukan Permintaan bersama dengan BeautifulSoup yang diinstal di lingkungan Python Anda.


Ekstrak URL dari peta situs dengan alat eksternal

Anda dapat menemukan beberapa alat di luar sana yang memungkinkan Anda mengunduh daftar URL dari peta situs, tetapi jika saya harus memilih satu, saya akan menggunakan https://robhammond.co/tools/xml-extract , yang sederhana dan efektif .


xml-sitemap-extractor

Anda hanya perlu memasukkan URL peta situs dan alat ini akan mengekstrak URL tersebut. Bagaimana bisa lebih sederhana?

Posting Komentar untuk "Bagaimana cara mengekstrak URL dari peta situs?"