Urlpartse python

Urlpartse python
Les URL incluent fréquemment des données essentielles qui pourraient être exploitées lors de l'évaluation d'un site Web, de la recherche d'un participant ou de la distribution du matériel dans chaque domaine. Bien qu'ils semblent parfois assez complexes, Python est livré avec une variété de bibliothèques utiles qui vous permettent d'analyser les URL et de récupérer leurs parties constituantes.

Dans Python 3, le package UlLlib permet aux utilisateurs d'explorer les sites Web à partir de leur script. L'Urllib contient plusieurs modules pour gérer différentes fonctions URL. Lors de l'ouverture d'une URL dans la programmation Python, la bibliothèque Urllib est cruciale. Il vous permet de visiter et d'interagir avec les sites Web en utilisant leur localisateur de ressources universels. Cette bibliothèque nous fournit des packages comme: Urllib.Demande, Urllib.Erreur, Urllib.analyse et Urllib.robotpathser.

Dans cet extrait, bien qu'il s'agisse d'un grand sujet à comprendre en même temps, nous ferons simplement attention à l'urllib.module d'analyse. Plus particulièrement, la méthode UrlParse ().

L'Urllib.Le module d'analyse est utilisé pour analyser les URL des sites Web. Cela implique qu'en divisant une URL, nous pouvons obtenir ses différentes parties. De plus, il peut être utilisé pour obtenir n'importe quelle URL à partir d'une URL source et d'un chemin de référence.

Chargement de l'Urllib:

Python inclut Urllib comme bibliothèque standard. Pour l'utiliser, nous devons d'abord importer cette bibliothèque. Pour cela, nous ouvrirons l'outil Spyder et rédigerons la commande suivante:

Importer Urllib

Module UrlParse ():

Le module UrlParse () propose une méthode définie pour analyser un localisateur de ressources uniformes (URL) dans des sections distinctes. Pour le dire simplement, ce module nous permet de séparer facilement les URL en différents composants et de filtrer une partie particulière des URL. Il a simplement divisé l'URL en 6 composants qui se rapportent à la syntaxe globale d'un

URL: schéma: / netloc / chemin; paramètres?requête # fragment.

Commençons maintenant notre tutoriel avec un exemple pratique.

De Urllib.Analyse d'importation URLPARSE, URLUNPARSE

Dans cet extrait de code, la première chose que nous avons faite est l'importation de l'URLPARSE et de l'URLUNPPARSE de l'urllib.analyse. Cela permettra toutes les fonctionnalités requises de la méthode UrlParse () dans notre outil.

De Urllib.Analyse de l'analyse d'importation
exampleUrl = urlparse ('https: // linuxhint.com / ')
print ("URL Composants:", ExempleUrl)

Maintenant, comme nous pouvons utiliser la méthode UrlParse (). Nous avons défini une variable nommée «ExempleUrl» qui stockera les valeurs de chaîne. Ensuite, nous avons utilisé l'opérateur d'affectation «=» pour attribuer des valeurs. À côté, nous avons appelé la méthode «UrlParse ()». À l'intérieur des accolades de la méthode UrlParse (), entre les virgules inversées, nous avons défini une URL d'un site Web particulier sur lequel nous voulons effectuer l'analyse. Les accolades de l'instruction PRINT () contiennent un texte cité et le nom de variable, séparé par une virgule.

L'image ci-dessous nous montre la sortie suivante.

Vous pouvez voir que l'URL fournie est divisée en 6 composants. Maintenant, avant de plonger dans l'apprentissage de ces composants, nous apprendrons d'abord à remettre ces composants à l'URL d'origine.

À cette fin, la méthode utilisée est «UrlunParse ()».

De Urllib.Analyse d'importation URLPARSE, URLUNPARSE
exampleUrl = urlparse ('https: // linuxhint.com / ')
print ("URL Composants:", ExempleUrl)
unpar_url = urlunparse (exampleUrl)
print ("URL d'origine:", unpar_url)

Nous avons déjà importé l'Urlunparse de l'urllib.analyse dans l'extrait ci-dessus. Maintenant, nous allons créer une variable nommée «unpar_url». Invoquant la méthode «urlunparse ()» et écrivant le nom de la variable, nous allouons l'ouverture d'URL pour la méthode UrlParse () i.e. "ExempleUrl". Dans la dernière étape, utilisez l'instruction «print ()» pour afficher un texte et le nom de variable pour désadresser l'URL.

L'URL analysée s'affiche dans l'image attachée ci-dessous.

L'utilisation des fonctions UrlParse () et UrlunParse () a été démontrée. Maintenant, explorons la signification de chaque élément du parseresult qui a été retourné.

UrlParse () Composants:

La méthode UrlParse () divise l'URL fournie dans 6 morceaux qui sont un schéma, Netloc, le chemin, les paramètres, la requête et le fragment.

Le premier composant est le schéma. Le régime est utilisé pour spécifier le protocole qui doit être utilisé pour acquérir les ressources en ligne qui pourraient être HTTP ou HTTPS. Le composant suivant est netloc: le net fait référence au réseau tandis que LOC signifie l'emplacement. Donc, il nous parle de l'emplacement du réseau URL fourni. Le composant chemin Contient la voie précise qu'un navigateur Web doit prendre pour acquérir la ressource fournie. Le paramètres sont les paramètres des éléments de chemin. Le mettre en doute adhère au composant Path et propose un flux de données que la ressource peut utiliser. Le dernier composant fragment classe simplement une partie.

Comme mentionné précédemment, chacun de ces éléments contient des données sur l'URL. Étant donné que l'objet retourné est fourni sous forme de tuple, tous ces composants peuvent également être récupérés en utilisant la position d'index.

De Urllib.Analyse de l'analyse d'importation
exampleUrl = urlparse ('https: // linuxhint.com / ')
Imprimer (ExempleUrl.schéma, "==", exampleUrl [0])
Imprimer (ExempleUrl.netloc, "==", exampleUrl [1])
Imprimer (ExempleUrl.Path, "==", ExampleUrl [2])
Imprimer (ExempleUrl.Params, "==", ExampleUrl [3])
Imprimer (ExempleUrl.Query, "==", ExampleUrl [4])
Imprimer (ExempleUrl.fragment, "==", exampleurl [5])

Dans cet extrait de code, nous avons défini les index pour chaque composant séparément à l'intérieur de l'instruction print (). Nous avons utilisé le nom de la variable avec le nom du composant par rapport à lequel nous avons mentionné le nom de la variable avec la position d'index à laquelle il se trouve dans le flux. Nous continuerons à utiliser cette séquence jusqu'à ce que nous ayons mentionné tous les composants avec des positions d'index correspondantes.

Les chaînes résultant peuvent être vues dans l'image ici.

Même si ceux-ci constituent la majorité du contenu indexé, plus de mots clés peuvent également être utilisés pour récupérer certaines fonctionnalités supplémentaires telles que le nom d'hôte, le nom d'utilisateur, le mot de passe et le port. Le nom d'hôte identifie le nom d'hôte de l'URL spécifiée, le nom d'utilisateur tient le nom de l'utilisateur, le mot de passe maintient le mot de passe que l'utilisateur a fourni, tandis que le port raconte le numéro de port.g\

Conclusion

Dans le sujet d'aujourd'hui, nous avons discuté du module UrlParse () fourni par l'Urllib.analyse. Nous avons expliqué le but et la convivialité de la méthode UrlParse (). Nous avons développé différentes composantes de la méthode UrlParse () et aussi comment nous réalisons l'accès. En mettant en œuvre les exemples de codes pratiques sur l'URL de tout site Web spécifié employant l'outil Spyder, nous avons essayé de créer un apprentissage simple, compréhensible mais bénéfique pour vous.