Το robots.txt είναι ένα αρχείο στον αρχικό φάκελο (root) ενός website. Ο σκοπός του αρχείου robots.txt είναι να καθοδηγεί τα ρομπότ των μηχανών αναζήτησης (crawlers) και άλλων ανιχνευτών για το ποιά μέρη σε μια Ιστοσελίδα πρέπει ή δεν πρέπει να προσπελάσουν.
Αν αναρωτιέσαι, μα και με το sitemap.xml οι web crawlers διαβάζουν το site μου είσαι στον σωστό δρόμο.
Ποιά είναι η σχέση του robots.txt με το sitemap.xml;
Το robots.txt και το sitemap.xml έχουν συμπληρωματική σχέση και εκτελούν διαφορετικές λειτουργίες. Το robots.txt είναι ο γενικός οδηγός των crawlers για το ποιές σελίδες να κάνουν Index και ποιές όχι και περιλαμβάνει το sitemap. Το sitemap είναι ο ειδικός οδηγός και παρέχει την δομή των σελίδων και τη σχέση μεταξύ τους.
Πως φτιάχνω ένα robots.txt;
Για να φτιάξεις ένα αρχείο robots.txt σε μια Ιστοσελίδα θα χρειαστεί να χρησιμοποιήσεις τις εντολές User-Agent
, Allow
, Disallow
και Sitemap
. Αν χρησιμοποιείς WordPress μπορείς να το φτιάξεις με το Yoast SEO, σε κάποια CMS φτιάχνεται αυτόματα, αλλιώς μπορείς και manual.
Παράδειγμα robots.txt
User-agent: *
Sitemap: https://www.example.com/sitemap.xml
Disallow: /members/
Πως χρησιμοποιώ το User-Agent σε ένα robots.txt;
Το User-Agent
σε ένα αρχείο robots.txt είναι μια οδηγία που χρησιμοποιείται για να πει στους web crawlers ή bots αν επιτρέπεται να διαβάσουν το website ή οχι.
Μπορείς να επιτρέπεις σε όλα τα bot να σε διαβάσουν με τον αστερίσκο *.
Αλλιώς μπορείς να γράψεις κάθε ένα bot ξεχωριστά όπως τα παρακάτω.
- Googlebot
- Bingbot
- Slurp Bot
- DuckDuckBot
- YandexBot
- Facebot
Πως χρησιμοποιώ το Allow / Disallow σε ένα robots.txt;
Το Allow
και το Disallow
χρησιμοποιούνται σε ένα αρχείο robots.txt για να ορίσουν αν θα γίνουν ή δεν θα γίνουν index συγκεκριμένες σελίδες ή φάκελοι σε έναν Ιστότοπο.
User-agent: Bingbot
Disallow: /
User-agent: Ahrefsbot
Disallow: /
Πως ελέγχω αν είναι verify το robots.txt;
Για να ελέγξεις αν είναι verify το robots.txt αρχείο χωρίς errors, υπάρχουν πολλοί τρόποι με τους γνωστότερους να είναι οι παρακάτω.
Tips όταν φτιάχνεις το αρχείο Robots.txt
Παρακάτω γράφουμε τα κυριότερα tips όταν φτιάχνεις ένα αρχείο robots.txt.
- Χρησιμοποίησε πολύ προσεκτικά την εντολή disallow (μπλόκαρε μόνο ότι δεν προσφέρει αξία στο SEO ή ευαίσθητα προσωπικά δεδομένα π.χ. /cgi-bin/, /wp-admin/, /cart/, /scripts/ , /plugins/ )
- Μην χρησιμοποιείς την εντολή
Disallow: /
- Χρησιμοποίησε το Disallow σε directories με duplicate content
- Πάντα να περιέχεις στο αρχείο robots.txt το Sitemap με το πλήρες URL
- Αν κάποια σελίδα δεν την χρειάζεστε χρησιμοποιήστε το noindex και μην την αποκλείσετε
Πως χρησιμοποιώ το robots.txt για να βελτιστοποιήσω το Crawl Budget;
Το Crawl budget είναι από τους κυριότερους παράγοντες για SEO το 2024 και μέσω του robots.txt μπορείς να μπλοκάρεις συγκεκριμένους φακέλους και url (μόνο φυσικά αν γνωρίζεις τι κάνεις) ώστε να το βελτιστοποιήσεις. Σε site με πάρα πολλές σελίδες μπλόκαρε αυτές με πολύ χαμηλή ή καθόλου κίνηση.