# apt-get install tesseract-ocr#! /bin/bash
#Script qui permet de relever les proxy sur le site http://www.insolite-du-geek.fr/seo/Proxy-find-list.php
#Création d'une boucle pour tester les proxys récupérer un par un
#Compteur pour la boucle
countProxy=1
#Nombre max de proxy qu'on veut récupérer
maxProxy=48
#Lancement de la boucle
while (( $countProxy < $maxProxy ))
do
#Histoire que ça raconte un peu quelque chose
echo "Numéro de la passe de recherche du proxy : "$countProxy
#Regarder les sources de la page pour voir que chaque image est numéroté en partant de 1 à 50
urlProxy=http://www.insolite-du-geek.fr/seo/images/proxies/proxy$countProxy.png
#récupération de l'image contenant l'adresse du proxy. L'utilisation de curl au lieu de wget ou lynx n'a aucune utilité ici mais vu que je l'avais écris comme ça je le laisse
curl --location --silent -O $urlProxy > /dev/null
#Pareil ce sleep ne sert surement à rien mais il ne fait de mal à personne alors on le laisse
sleep 2
#Conversion de l'image png en tif de 8 bits et agrandissement de 200%. L'option monochrome permet de mettre en noir et blanc
#Pour utiliser convert vous devez avoir installé imagemagick
#On agrandit l'image car sinon tessercat n'arrive pas à lire
convert -sample 200%x200% -monochrome -depth 8 proxy$countProxy.png proxy$countProxy.tif
#Un sleep histoire d'attendre que la conversion soit terminée
sleep 2
#Lecture de l'image avec tesseract (j'ai l'option -l deu qui veut dire que je lis en allemand car j'ai installé cette langue mais chez vous ce sera pas forcement la bonne langue, je vous laisse faire un man tesseract)
tesseract proxy$countProxy.tif proxy$countProxy -l deu > /dev/null
#Attribution de la valeur du fichier à la variable proxy
proxy=$(cat proxy$countProxy.txt)
echo $proxy >> proxyList.txt
#Suppression de tous les fichiers temporaires
rm proxy$countProxy.png
rm proxy$countProxy.tif
rm proxy$countProxy.txt
#Affichage du proxy trouvé
echo Le proxy trouvé est le suivant : $proxy
#Incrémentation de la variable countProxy pour faire avancer la boucle
countProxy=$(($countProxy+1))
doneRetourner vers Référencement et Webmaster
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité