Tutorial Scraper Web Chrome Dari Semalt Expert

Jika Anda menggunakan Google Chrome, ada ekstensi untuk peramban Anda yang dapat membantu mengikis halaman web. Ini dikenal sebagai 'Scrapper', dan dapat digunakan tanpa masalah. Scrapper akan membantu mengikis konten situs web dan mengunggah hasilnya ke dokumen Google.

Bagaimana cara memo situs web menggunakan ekstensi Scraper?

1. Pilih Toko Web Chrome di Google Chrome;

2. Dalam ekstensi, lakukan pencarian untuk '' Scrapper '';

3. Hasil pencarian pertama adalah ekstensi yang dikenal sebagai 'Scrapper' ';

4. Pilih tombol yang tercantum sebagai '' Tambahkan ke Chrome ";

5. Kembali ke daftar anggota parlemen Inggris;

6. Klik tautan berikut;

7. Sekarang cari satu MP dan pastikan entri ditandai;

8. Klik kanan untuk memilih opsi "Mengikis Mirip ...";

9. Konsol untuk scrapper akan muncul di jendela lain;

10. Lihat konten yang dikikis di konsol scraper;

11. Untuk memastikan konten disimpan sebagai Google Spreadsheet, pilih "Simpan ke Google Documents ..."

Kerokan yang diperpanjang

Sebelum berpegang pada resep ini, ada baiknya untuk memahami dasar-dasar HTML. Misalnya, Anda dapat membaca pengantar singkat ke HTML melalui tautan ini

Mari kita bayangkan kita tertarik pada semua film yang dibintangi Asia Argento, seorang aktris terkenal Italia.

1. Ada arsip aktor yang sangat terperinci di IMDB. Situs Asia Argento adalah: http://www.imdb.com/name/nm0000782/;

2. Di sini, Anda dapat melihat semua peran yang dimainkan oleh aktris. Mari kita mulai membuang informasi yang kami minati;

3. Cobalah mengikisnya seperti yang dijelaskan di atas;

4. Anda akan melihat bahwa daftarnya agak terdistorsi. Ini disebabkan oleh fakta bahwa daftar di sini dapat disusun secara berbeda;

5. Pergi ke konsol scraper. Kiri atas, Anda akan melihat kotak kecil bertuliskan XPath;

6. Xpath adalah sejenis bahasa query yang berfungsi untuk XML dan HTML;

7. XPath dapat membantu menemukan bagian-bagian halaman yang Anda minati. Hal berikutnya adalah menemukan elemen yang sesuai dan menulis XPath untuknya;

8. Sekarang mari kita mengatur meja kita;

9. Anda akan melihat bahwa XPath kami yang ada, yang memiliki semua data yang dibutuhkan adalah "// div [3] / div [3] / div [2] / div";

10. XPath menginformasikan Sistem untuk melihat dokumen HTML dan memilih elemen ketiga, lalu elemen kedua dan kemudian semuanya;

11. Tapi, kami ingin memisahkan data kami;

12. Memanfaatkan bagian kolom di konsol untuk scrapper untuk menyelesaikan ini;

13. Pertama mari kita cari judul kita Ђњ Gunakan Elemen Inspeksi untuk melihat judul;

14. Periksa judul dalam sebuah tag. Tambahkan tag ke XPath;

15. Ekspresi tampaknya berfungsi dengan tepat, jadi buatlah itu kolom pertama kami;

16. Di bagian "Kolom", ganti nama kolom pertama ke "judul";

17. Tambahkan XPath ke dalamnya;

18. Di bagian kolom, XPath bersifat relatif dan itu berarti "./b" akan memilih elemen <b>

19. Di XPath untuk kolom judul, tambahkan "./b" dan pilih "scrape";

20. Sekarang mari kita terus berjalan selama satu tahun. Tahun dapat ditemukan dalam satu rentang;

21. Buat kolom baru dengan memilih tanda tambah kecil di sebelah kolom untuk judul Anda;

22. Menggunakan XPath "./span" buat kolom untuk "tahun";

23. Klik gesek dan lihat bagaimana tahun ditambahkan;

24. Dilakukan!

mass gmail