Definicija Spideringa i Web pretraživača

by Lahle Wolfe

Paukovi i Web pretraživači: Šta trebate znati za zaštitu podataka o web lokaciji

Paukovi su programi (ili automatizovani skriptovi) koji "puzaju" putem Interneta koji traže podatke. Paukovi putuju kroz URL adrese veba i mogu izvlačiti podatke sa web stranica kao što su adrese e-pošte. Paukovi se takođe koriste za hranjenje informacija pronađenih na web stranicama za pretraživače.

Paukovi, koji se takođe nazivaju 'web pretraživači', pretražuju Veb, a svi nisu prijateljski u svojoj nameri.

Spamers Spider Web lokacije za prikupljanje informacija

Google, Yahoo!

i ostali pretraživači nisu jedini zainteresovani za puzanje web stranica - tako su i scammers i spammers.

Spajderi i drugi automatizovani alati koriste spamere za pronalaženje adresa e-pošte (na internetu se ova praksa često naziva "berba") na veb sajtovima i zatim ih koristi za kreiranje spam spiska.

Paukovi su takođe alat koji pretraživači koriste da bi saznali više informacija o vašoj web lokaciji, ali su ostali nepotvrdjeni, a veb lokacija bez uputstava (ili, 'dozvole') o tome kako puzim vašu stranicu može predstavljati velike rizike u sigurnosti informacija. Paukovi putuju slijedećim linkovima i veoma su umešni u pronalazenje veza s bazama podataka, programskim datotekama i drugim informacijama za koje možda ne želite da imaju pristup.

Webmasteri mogu pregledati evidenciju kako bi videli šta su paukovi i drugi roboti posetili svoje stranice. Ove informacije pomažu webmastrima da znaju ko indeksira njihovu lokaciju i koliko često.

Ove informacije su korisne jer omogućavaju webmasteri da precizno podešavaju svoj SEO i ažuriraju robot.txt datoteke kako bi zabranili određenim robotima da puzim svoje web stranice u budućnosti.

Savjeti za zaštitu vašeg web sajta od neželjenih robota

Postoji prilično jednostavan način da sačuvate neželjene gusare iz vaše web stranice. Čak i ako niste zabrinuti zbog zlonamjernih pauka koji puzaju na vašoj web lokaciji (obfuscating email adresa neće vas zaštititi od većine popisivača), ipak trebate osigurati važne instrukcije pretraživačima.

Sve web stranice treba da imaju datoteku koja se nalazi u korijenskom direktoriju pod nazivom datoteka robots.txt. Ova datoteka vam omogućava da instruktirate web pretraživače u kojima želite da indeksiraju stranice (osim ako nije drugačije navedeno u meta podatcima određene stranice da se ne indeksiraju) ako su pretraživači.

Kao što možete reći željenim gajderima gde želite da ih pregledaju, možete ih takođe reći gde možda neće ići i čak blokirati određene gusenice sa celog web sajta.

Važno je imati na umu da dobro sastavljena robots.txt datoteka ima ogromnu vrijednost za pretraživače i može biti čak i ključni element u poboljšanju performansi vašeg web sajta, ali neki robotski popisači će i dalje ignorisati vaše instrukcije. Iz tog razloga, važno je da sve svoje programe, dodatke i programe ažurirate u svakom trenutku.

Povezani članci i informacije

Usled prevalencije prikupljanja informacija koja se koristi u svirepne (spam) svrhe, usvojen je zakon u 2003. godini kako bi se pojedine prakse učinile nezakonitim. Ovi zakoni o zaštiti potrošača spadaju pod CAN-SPAM Act iz 2003. godine.

Važno je da odvojite vrijeme da pročitate CAN-SPAM Act ako se vaše preduzeće angažuje u bilo kojoj masovnoj pošti ili prikupljanju informacija.

Možete saznati više o anti-spam zakonima i kako se baviti spammerima, a ono što vi kao vlasnik preduzeća ne možete učiniti, pročitajte sljedeće članke:

CAN-SPAM Act 2003
Pravila CAN-SPAM za neprofitne organizacije
5 CAN-SPAM pravila Vlasnici malih preduzeća trebaju razumjeti

Spamers Spider Web lokacije za prikupljanje informacija

Savjeti za zaštitu vašeg web sajta od neželjenih robota

Povezani članci i informacije

Related Content

Fresh articles

Intresting articles