J'essaie de mettre en place une page d'index pour l'hebdomadaire sur lequel je travaille. Il s'agit d'afficher aux lecteurs les noms des entreprises mentionnées dans le numéro de cette semaine, ainsi que les numéros de page où elles apparaissent.
Je souhaite effectuer une recherche dans tous les fichiers PDF de la semaine, où un PDF = une page de magazine (réalisée à l'origine dans Adobe InDesign CS3 et Adobe InCopy CS3).
J'ai établi une liste de sociétés que je veux rechercher et, à l'aide de PowerGREP et en utilisant des caractères réguliers délimités, j'ai trouvé une liste de sociétés. je suis en mesure de trouver la plupart des numéros de page où une entreprise est mentionnée. Toutefois, lorsqu'un nom de l'entreprise contient deux mots ou plus, la recherche que j'effectue ne permet pas de repérer les cas où le nom apparaît sur plus d'une ligne. nom apparaît sur plus d'une ligne.
Par exemple, en recherchant "CB Richard Ellis" et "Cushman & Wakefield", je n'ai obtenu aucun résultat lorsque le texte s'affichait comme suit texte apparaissait comme ceci :
DTZ bat BNP PRE, CB [retour à la ligne].
Richard Ellis et Cushman & [retour à la ligne].
Wakefield pour obtenir le contrat. [fin de la ligne ici]
Quelqu'un pourrait-il me conseiller sur la manière d'écrire une expression régulière qui ignorera les espaces blancs entre mots et ignorera les fins de ligne OU une expression qui recherchera les mots en incluant tous les types d'espaces blancs (c'est-à-dire les espaces inégaux entre les mots, les espaces en fin de ligne ou en fin de ligne et les tabulations). (Je suppose que cette information est intégrée d'une manière ou d'une autre dans les fichiers PDF).
Voici un exemple de l'ensemble des termes que j'ai demandé à PowerGREP de rechercher :
\bCB Richard Ellis\b
\bCB Richard Ellis Hotels\b
\bCentaur Services\b
\bChapman Herbert\b
\bCharities Property Fund\b
\bChetwoods Architects\b
\bChurch Commissioners\b
\bClive Emson\b
\bClothworkers’ Company\b
\bColliers CRE\b
\bCombined English Stores Group\b
\bCommercial Estates Group\b
\bConnells\b
\bCooke & Powell\b
\bCordea Savills\b
\bCrown Estate\b
\bCushman & Wakefield\b
\bCWM Retail Property Advisors\b
(Notez qu'il y a un retour dur délimité entre chaque \b à la fin de chaque phrase et au début de la phrase suivante].
À propos, je suis journaliste de production et je ne suis pas habituellement impliqué dans la recherche de solutions de type informatique. Je trouve difficile de comprendre le langage technique du site PowerGREP.
Merci de votre aide
Alison