Litar

Cara Membina Pengikis Web: 20 Langkah

Cara buat website sendiri Malaysia - cara buat website sendiri secara percuma kurang 10 minit

Cara buat website sendiri Malaysia - cara buat website sendiri secara percuma kurang 10 minit

Isi kandungan:

Anonim

Ramai orang menggunakan komputer peribadi tanpa menggunakannya

keupayaan penuh mereka. Dengan mempelajari beberapa prinsip asas dan menggunakan perisian percuma, seseorang boleh mula membuka kunci kuasa dan sumber daya komputer yang ditawarkan. Tutorial ini akan menggambarkan kaedah membina bot "Web-Scraping" atau crawler. "Crawler" ini mampu mengumpul semua jenis data yang berbeza dari mana-mana laman web secara automatik. Alat ini sangat kuat untuk pengguna komputer mana pun.

Bekalan:

Langkah 1: Bahan yang Diperlukan:

1 Komputer Peribadi

- Saya akan menggunakan Windows 10 dalam demonstrasi ini, tetapi kod dan prinsipal yang sama boleh digunakan di semua platform, walaupun mudah alih.

Sambungan internet

Google Chrome

Langkah 2: Pengalaman Komputer Terdahulu:

Walaupun tutorial ini tidak memerlukan pengalaman pengekodan sebelumnya,

disarankan agar pengguna mempunyai pemahaman asas tentang cara menggunakan papan kekunci (salin dan tampal) dan cara menggunakan tetikus.

PERHATIAN: Sentiasa pastikan anda membuat sandaran fail penting anda. Pemasangan yang tidak betul boleh menyebabkan rasuah data.

Langkah 3: Memulakan Projek

Pertama, kita perlu memuat turun dan memasang program yang dipanggil

Python 2.7.14. Pergi ke "http://www.python.org/downloads/" dan klik muat turun Python 2.7.14. Setelah selesai memuat turun, jalankan fail dan pasang Python. Untuk memastikan ia dipasang, lihat dalam folder C: / Drive dan cari folder bernama Python27. Jika ada, Python dipasang dengan jayanya. Jika tidak ada, cuba mulakan semula komputer anda dan jalankan semula program pemasangan.

Langkah 4:

Sekarang kita perlu membuat Windows dan Python bermain bagus bersama.

Panel Kawalan Terbuka dan pilih "Sistem dan Keselamatan"

Langkah 5:

pilih "Sistem"

Langkah 6:

Pergi ke lajur kiri dan pilih "Tetapan Sistem Lanjutan" Tetingkap baru harus muncul.

Langkah 7:

Klik "Pembolehubah Alam Sekitar"

Langkah 8:

Satu disebut "Pembolehubah Pengguna" dan satu lagi yang dipanggil "Pembolehubah Sistem" Navigasi ke "Pembolehubah Sistem" dan klik "Baru .." (Kami akan TAMBAH dua pembolehubah baru)

Langkah 9:

TAMU Nama Pemboleh ubah Pertama: PYTHON Variable PATH: C: Python27

Langkah 10:

TAMAN Nama Pemboleh ADD Kedua: Python_Scripts PATH Variable: C: Python27 Scripts Restart your computer.

Langkah 11:

Selepas memulakan semula command prompt terbuka (Tekan kekunci tingkap dan taipkan "cmd") Masukkan perintah: python Anda harus lihat: "Python 2.7.13 (v2.7.13: a06454b1afa1, 17 Dis 2016, 20:42:59) MSC v. Jika anda tidak melihatnya, ulangi LANGKAH 1 & 2. Tekan "Crtl" + C "dan kemudian" Enter "untuk keluar dari Python dan kembali ke barisan utama. Tutup Command Prompt;

Langkah 12:

Kami secara rasmi telah memasang Python. Sekarang kita perlu pasang

beberapa program kecil untuk "crawler" kami untuk berfungsi.

Buka fail notepad baru dan salin dan tampal semua teks dari "http://bootstrap.pypa.io/get-pip.py"

Simpan fail teks sebagai "get-pip.py" dan pindahkannya ke dalam folder dokumen anda.

Buka command prompt sebagai pentadbir

Langkah 13:

Taip "dokumen cd" tekan enter

Taip "python get-pip.py" Tekan enter

Taip "pip memasang selenium" tekan enter

Selepas selenium berjaya dipasang bergerak ke langkah seterusnya

Langkah 14:

Buka fail notepad baru.

Salin dan tampal semua CODE dari http://pastebin.com/RbNpyc60 ke dalam notepad

Sekarang keseronokan bermula …

Kita perlu memutuskan apa jenis data yang kita mahu mengikis. Demi demonstrasi, saya akan menggunakan harga barangan Ebay.

Katakan saya ingin menjual instrumen saya, tetapi saya tidak pasti apa harganya harga.

Saya boleh menggunakan "crawler" untuk mengumpul harga untuk saya.

Langkah 15:

Dalam fail notepad, cari baris yang mengatakan

landing_page_url = 'http://xxxxxxxxxxxxxx.com'

Saya akan menyalin dan menyisipkan URL dari halaman yang saya mahu mengikis di sini.

Dalam kes ini akan menjadi

landing_page_url =

'http://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570

.l1313.TR3.TRC2.A0.H0.Xmpc + 2000xl.TRS0 & _nkw = mpc + 2000xl & _sacat = 0 '

Ini adalah halaman hasil carian ebay untuk "MPC 2000XL". (alat yang saya mahu jual)

Langkah 16:

Setiap perkara yang anda lihat pada halaman web dipanggil

"Elemen". Oleh itu, mereka masing-masing mempunyai "alamat" atau "kedudukan" mereka sendiri pada halaman yang unik untuk setiap elemen. Kami mahu bot merebut dan merakam elemen tertentu, tetapi bukan yang lain. Kami melakukan ini dengan bijak untuk bot yang perkara-perkara yang kita mahu ia ambil.

Pergi ke fail notepad dan cari baris yang mengatakan,

Item_price_element_list = browser.find_elements_by_css_selector ("xxxx") # Cari kotak carian

Sekarang buka chrome dan arahkan ke landing_page yang telah anda lampirkan sebelum ini.

Langkah 17:

Klik kanan elemen yang anda mahu untuk mengikis dan pilih

"Periksa Elemen"

Seksyen baru harus dibuka dan anda harus dapat melihat kod sumber halaman.

Langkah 18:

Unsur yang anda klik telah diserlahkan di tetingkap kod sumber.

Klik kanan bahagian yang diserlahkan dan alihkan salinan

Kemudian pilih Copy CSS Selector

Langkah 19:

Tampalkannya ke bahagian "xxxx"

Item_price_element_list seperti ini:

Item_price_element_list = browser.find_elements_by_css_selector ("# item3f88323b1e> ul.lvprices.left.space-zero> li.lvprice.prc> span") # Find the search box

Langkah 20: Nikmati

Percayalah atau tidak, kita sudah selesai. Program ini akan

berjaya membuat senarai harga dari halaman hasil 1 untuk kami.

Simpan fail notepad sebagai crawler.py dan pindahkan ke Folder Dokumen anda

(PERHATIAN: JIKA ANDA MELAKUKAN ITU TIDAK TIDAK BOLEHKAN)

Sekarang buka CMD (tidak perlu berada dalam mod pentadbiran)

Taip "dokumen cd"

Taip "python crawler.py"

Anda harus melihat senarai harga

Sekarang saya dapat mencari min dan median dan senaraikan senarai instrumen saya dengan harga yang berpatutan!