Urllib.robotpathser

Urllib.robotpathser
Dans cet article, vous découvrirez le module RobotParser dans le package Urllib, qui fournit la classe RobotFileParser pour déterminer si un agent utilisateur donné peut accéder à une URL spécifiée dans les robots.fichier txt.

Classe de robotfileparser

La classe RobotFileParser fournit diverses méthodes pour la lecture, l'analyse et la réponse aux questions sur les robots.Fichier TXT à une ressource donnée.

Les méthodes prises en charge comprennent:

  1. set_url () - définit l'URL pour les robots.fichier txt.
  2. read () - lit les robots.fichier txt et le nourrit dans les robots.analyseur TXT.
  3. Parse (lignes) - analyse l'argument de la ligne.
  4. can_fetch (userAgent) - vérifie si un agent utilisateur spécifié peut accéder à une URL spécifiée comme spécifié dans les robots.fichier txt.
  5. mtime () - renvoie l'heure des robots.Le fichier txt a été récupéré,
  6. Modified () - met à jour le dernier temps de récupération pour les robots.txt à l'heure actuelle.
  7. Crawl_delay (UserAgent, URL) - Renvoie la valeur du paramètre Crawl_delay.
  8. request_rate (userAgent) - Renvoie le paramètre de taux de demande en tant que tuple nommé.
  9. Site_maps () - Renvoie le paramètre du site du site à partir des robots.Fichier TXT comme liste.

Exemple de cas d'utilisation

Le code suivant montre l'utilisation de la classe RobotFileParser et les méthodes fournies.

Importer Urllib.robotpathser
RP = Urllib.robotpathser.RobotFileParser ()
rp.set_url ("https: // linuxhint.com / robots.SMS")
rp.lire()
req_rate = rp.request_rate ("*")
req_rate.secondes
rp.crawl_delay ("*")
rp.can_fetch ("*", "https: // linuxhint.com / abonnez-vous-linuxhint-com / ")
rp.can_fetch ("*", "https: // linuxhint.com / abonnez-vous-linuxhint-com / wp-admin ")

Le code ci-dessus commence par importer le module RobotParser et créer une instance de la classe RobotFileParser.

Nous passons ensuite l'URL aux robots.fichier txt et envoyer le fichier à l'analyseur. Nous utilisons ensuite les méthodes fournies pour effectuer diverses actions.
Le code ci-dessus doit retourner:

5
30
Vrai
FAUX

Conclusion

Dans cet article, nous avons discuté de la façon d'utiliser le module RobotParser du package UlLlib vous permettant d'effectuer diverses actions comme prévu dans les robots.fichier txt. N'hésitez pas à explorer le code source pour plus d'informations.