Robot.txt-fil – Hvad er det ?
Når dit websted er indekseret af søgemaskinerne, er det “kravlet” af søgemaskinespiders – Googlebot, Yahoo slubre, Bingbot – for at finde alt indhold på dit websted, så andre mennesker kan finde det.
Men hvad nu hvis du har dele på dit websted, som du ikke ønsker indekseret? I denne artikel ser vi på hvad robots.txt – kan fortælle søgemaskiner, hvad de kan og ikke kan indeksere.
Hvad er en robots.txt-fil?
Robots.txt er et lille tekst dokument, der er placeret i roden af din hjemmeside og fortæller “robotter” som besøger din hjemmeside, hvilke sider de kan og ikke kan få adgang.
Når en af disse “robotter” besøger dit websted, er det første de gør er at gå på udkig efter den robots.txt fil. De lytter til dine ønsker, og vil ikke besøger sider, du ikke ønsker idekseret.
Hvordan kan du lave en robots.txt-fil?
Beslut hvilke områder af din hjemmeside du ønsker skal indekseres, og hvilke du ikke vil have dem til at kravle igennem. Du kan også bestemme, om der er nogen bots, som du ikke ønsker skal kravle dit websted.
Åbn en text editor valg, opret en ny, tom tekstfil og gem den som robots.txt og skriv så denne information i filen:
Hvis du vil blokere alle edderkopper fra hele dit websted:
User-agent: *
Disallow: /
At lade alle edderkopper se alt indhold på dit websted:
User-agent: *
Disallow:
For at blokere visse mapper:
User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / personlige /
Disallow: / fotos / staffchristmasparty /
For at blokere en bestemt edderkop:
User-agent: Googlebot
Disallow: /
Hvis du vil tillade en vis edderkop, mens blokering andre:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Tips:
Du skal bruge en ny linje for hver instruktion.
Blanke linjer bruges til at vise separate grupper af instruktioner (som i det sidste eksempel).
Stjernen i User-agent line har en særlig betydning i robots.txt og kan ikke bruges som et wildcard, hvis man ville forbyde alle GIF-billeder på dit websted, kan du ikke bare kan ikke bare skrive Disallow: *. gif – det virker ikke.
Filen skal hedde robots.txt, benyt kun små bogstaver.
Filen skal placeres i roden af din hjemmeside: www.dinside.dk/ robots.txt. Det er her edderkopperne kigger, når de besøger dit websted, og de vil ikke finde filen, hvis du placerer den andre steder.
Nu skal du blot gemme filen og upload den til din hjemmeside.
Forsøg ikke at bruge din robots.txt-fil ftil at skjule indhold på dit websted – robots.txt-fil er i stand til at blive set af enhver, blot ved at skrive www.dinside.dk/ robots.txt i browseren, så alle kan se de ting, du ikke ønsker indekseret!
Hvis der er indhold på dit websted, som du virkelig ikke vil have andre kan se, skal du password-beskytte denne mappe.
Trackbacks/Pingbacks