Outils pour utilisateurs

Outils du site


outils_et_methodes_de_gestion_de_l_information:tableur_et_web_2.0

Tableur et WEB 2.0

Tableur et WEB 2.0 n'ont aucun rapport sauf que Google Documents :

Import de données

Faire la suite sur une nouvelle feuille de calcul : bouton en bas à gauche.

Consulter l'aide :

Import d'un flux RSS

  • Tester l'exemple fourni dans l'aide pour la fonction ImportFeed.
    • Exemple : =ImportFeed("http://news.google.com/?output=atom")
    • Placer la formule en A2.
    • Ajouter à la fonction les paramètres suivants : ;”items”;true ; pour avoir l'affichage des entêtes.
  • Dupliquer la feuille et remplacer l'URL par celle d'un flux RSS d'un tag de Delicious.
    • Copiez l'adresse du flux par un clic droit sur l'icône RSS.
A B C D
1 Url : http;//...
2 =ImportFeed(D1;"items";true)
  • Rendre ce tag aisément modifiable en construisant l'URL avec la fonction CONCATENATE
    • Exemple : =CONCATENATE("http://debut.url/";D1;"?fin=url")
A B C D
1 Tag : css Url : =CONCATENATE( … )
2 =ImportFeed(D1;"items";true)

Import des résultats d'une page HTML

Le but est d'obtenir et de publier sur le WEB la liste des sites les plus fréquents pour un certain tag.

Pour la suite de l'activité, on va utiliser la fonction ImportXML qui permet d'extraire les données d'une page WEB à l'aide d'une expression XPath.

Utilisation de XPath

Comme toujours un peu de lecture sur XPath n'est pas inutile.

XPather

Il existe une extension formidable pour XPath :

Et il y a même une documentation sommaire.

On cherche à extraire les noms de domaines comme sur l'exemple suivant :
http://delicious.com/search?p=css&lc=1&context=all

Faire un click droit sur un est choisir Show in XPather Dans le menu contextuel :


Il ne montre que le résultat correspondant à un favori du fait du sélecteur : [@id='item-d95d042cb19ef62f74a1f6eef0c03da2-0']

En supprimant ce sélecteur, on peut obtenir tous les noms de domaine :

Le chemin XPath sera utilisé pour extraire les données dans le Tableur.

Vous pouvez simplifier l'expression XPath en utilisant // en lieu et place d'une succession d'imbrication non discriminante ; exemple : /html/body[@id='index']/

Utiliser dans le tableur (aprés l'avoir tester avec XPather) : //ul[@id='srch0-bookmarklist']//div[@class='full-url']//strong

XPath peut vous sembler compliqué ; mais si vous avez FireBug d'installé, je peux vous montrer que ce n'est pas le cas. De plus, l'utiliser, c'est faire un bond de 10 ans (avec une technologie vieille de 10 ans).

ImportXML

Sur une nouvelle feuille.

Le plus dur est fait, il suffit de donner à la fonction ImportXML l'URL de la page et l'expression XPath.

A
1 =ImportXML(”URL de la page”;”expression XPath”)

Remarque : il ne retourne que 10 résultats, on verra plus loin comment obtenir les suivants.

Manipulations des données

  • Utiliser la fonction UNIQUE pour obtenir une liste sans doublons. Exemple : =UNIQUE(A:A)
  • Avec la fonction COUNTIF comptez le nombre d'occurrences. Exemple : =COUNTIF(A:A;C1) (L'appliquer à chaque ligne)
  • Trier la liste (en ordre descendant) avec SORT. Exemple : =SORT(B:C;1;false)

Publication

Publier les résultats comme l'exemple en début de TP. Consulter l'aide Publication sur le Web et utiliser Autres options de publication.

Obtenir plus de résultats

L'URL http://delicious.com/search?p=css&lc=1 ne donne que 10 résultats.
http://delicious.com/search?p=css&lc=1&page=2 donne les 10 suivants.

En fait, on peut utiliser http://delicious.com/search?p=css&context=all&lc=1&page=N pour obtenir 10 Niem résultats.

Utiliser plusieurs fonctions ImportXML pour obtenir plus de résultats.

Bonus : trouver une solution pour éviter de recopier la formule.

Allez plus loin

outils_et_methodes_de_gestion_de_l_information/tableur_et_web_2.0.txt · Dernière modification: 2009/12/07 23:00 (modification externe)