Meilleurs moteurs de recherche auto-hébergés

Meilleurs moteurs de recherche auto-hébergés
Votre patron sait-il que vous cherchez un autre travail? Avez-vous informé votre autre significatif de l'incapacité de décider si vous voulez avoir des enfants ou non? Vous connaissez vos parents sur votre orientation sexuelle? Eh bien, Google et d'autres moteurs de recherche majeurs font.

«La plupart des utilisateurs recherchent Google lors de leur connexion, donc toutes les informations sur leur vie en ligne sont disponibles: les recherches, les e-mails et les antécédents de recherche YouTube», explique Adam Tauber, développeur principal du moteur de métasearch respectueux de la confidentialité Searx.

Bien sûr, vous pouvez utiliser Tor pour l'anonymat et supprimer toujours toutes les traces de votre activité après chaque recherche, mais le faire après chaque recherche allait probablement vieillir assez rapidement. Au lieu de cela, vous devriez envisager d'installer un moteur de recherche auto-hébergé capable de récupérer des informations pour vous sans divulguer rien de sensible à votre sujet.

Nous avons sélectionné deux de ces moteurs de recherche, et nous introduisons également trois moteurs de recherche supplémentaires pour vous montrer que d'excellentes alternatives aux moteurs de recherche propriétaires tels que Google ou Bing existent déjà et sont plus faciles à installer et à utiliser que vous ne le pensez.

Flèche

Yacy est un moteur de recherche de peer-to-peer distribué gratuit dont le composant de base est écrit en java. Parce que tous les utilisateurs de Yacy sont égaux et que le moteur de recherche ne stockent pas les demandes de recherche des utilisateurs, la censure n'est tout simplement pas possible.

Actuellement, Yacy index environ 1.4 milliards de documents dans son index grâce à l'activité de plus de 600 homologues qui y contribuent chaque mois. À titre de comparaison, l'indice de recherche Google contient des centaines de milliards de pages Web et est bien supérieur à 100 000 000 gigaoctets.

Bien que Yacy ait encore un long chemin à parcourir avant de pouvoir rivaliser avec les plus grands moteurs de recherche centralisés au monde, il est déjà utilisable comme portail de recherche pour les intranets privés et les applications spécifiques au projet car Yacy peut fonctionner comme un seul appareil de recherche sans réseautage avec d'autres pairs.

Yacy peut être facilement intégré dans n'importe quelle page Web grâce à ses extraits de code simples qui peuvent être copiés et collés sans effort sans aucune modification.

Searx

Searx est décrit comme un moteur de métasearch piratable respectueux de la confidentialité. Il est disponible sous la version 3 de la licence générale générale de GNU Affero, et son objectif principal est de protéger la confidentialité de ses utilisateurs en ne partageant jamais les adresses IP des utilisateurs ou l'historique de recherche avec les moteurs de recherche à partir desquels il rassemble des résultats.

"Lors de l'utilisation de Searx, l'adresse IP de Searx, un agent utilisateur aléatoire et une requête de recherche est envoyée à Google par défaut", a-t-il, Adam Tauber, alias Asciimoo, explique comment fonctionne son moteur de métasearch. «Bien sûr, vous pouvez personnaliser Searx pour transmettre d'autres paramètres supplémentaires comme le langage de recherche ou le numéro de page de la page de résultat demandée."

Searx bloque automatiquement tous les cookies de suivi desservis par les moteurs de recherche pour empêcher la modification des résultats basée sur le profilage de l'utilisateur, qui peut résulter d'un moteur de recherche essayant d'implémenter la recherche qui est individualisé en fonction de ce que le moteur sait de l'utilisateur. Searx est 100% libre, et tout le monde peut le modifier au besoin. Vous pouvez même prendre le code Searx et exécuter le moteur de métasearch sur votre propre serveur, ce qui devrait certainement répondre à toutes les préoccupations que vous pourriez avoir concernant les journaux.

Elasticsearch

Elasticsearch est un moteur de recherche basé sur Lucene, une bibliothèque logicielle de récupération d'informations gratuite et open source prise en charge par l'Apache Software Foundation et est publiée sous la licence logicielle Apache.

Elasticsearch fournit un moteur de recherche en texte complet avec une interface Web HTTP. Le moteur de recherche peut être utilisé pour rechercher toutes sortes de documents, et il peut être facilement distribué sur plusieurs nœuds.

Il est possible de créer un moteur de recherche auto-hébergé à l'aide d'Elasticsearch et Docker, et vous pouvez trouver un tutoriel qui décrit le processus ici.

Ambar

Ambar est un moteur de recherche de documents open source avec de nombreuses fonctionnalités utiles. Il prend en charge les rampes, le marquage automatisées et la recherche instantanée en texte intégral, juste pour donner quelques exemples. L'une des fonctionnalités les plus excitantes d'Ambar est sa capacité à effectuer l'OCR sur les images et les fichiers PDF. Les langues soutenues incluent l'anglais, l'allemand, le russe, l'italien, le français, l'espagnol, le polonais et les néerlandais.

Ambar peut être facilement déployé avec un seul fichier docker-compose, et vous pouvez apprendre à le faire ici.

Apache Solr

Écrit en Java, Apache Solr est une plate-forme de recherche d'entreprise qui comprend la recherche en texte intégral, la surbrillance à succès, la recherche à facettes, l'indexation en temps réel, le regroupement dynamique et de nombreuses autres fonctionnalités importantes. Il a été créé en 2004 pour un projet interne chez CNET Networks. CNET Networks l'a gentiment fait don à la Fondation des logiciels Apache en 2006, où il est diplômé du statut d'incubation dans un projet de haut niveau autonome en 2007.

Aujourd'hui, Solr est une plate-forme de recherche d'entreprise très fiable, évolutive et tolérante aux défauts qui alimente les caractéristiques de recherche et de navigation de la plupart des plus grands sites Internet du monde, notamment DuckDuckgo, Eharmony et BestBuy. Tu peux

Comment installer et configurer Yacy

L'installation de Yacy est très simple, et il ne faut que quelques minutes parce que vous n'avez pas besoin d'installer une base de données externe ou un serveur Web-yacy est livré avec tout ce qui est nécessaire.

  1. Accédez au site officiel de Yacy et téléchargez le dernier package pour Linux.
  2. Installez l'environnement d'exécution OpenJDK 8.
    • Si vous utilisez une distribution basée sur Debian, utilisez la commande suivante: $ sudo apt-get install openjdk-8-jre
    • Sinon, suivez les instructions spécifiques à votre distribution.
  3. Extraire le package téléchargé sur votre emplacement préféré.
  4. Allez dans le nouveau dossier et commencez le «Startyacy.script sh »dans le terminal.
  5. Vous devriez voir un message de confirmation vous informant que Yacy a commencé comme un démon

Conclusion

Les moteurs de recherche en savent plus sur nous que la plupart des gens ne souhaitent admettre. Si vous souhaitez arrêter de nourrir les grandes entreprises avec des données juteuses, vous pouvez prendre les choses en main et créer un moteur de recherche auto-hébergé pour protéger votre vie privée. Bien que les moteurs de recherche auto-hébergés aient encore un long chemin à parcourir pour devenir pleinement utilisable, le potentiel pour eux de surpasser Google est là et le capturer est juste une question d'attirer plus d'utilisateurs.