Aller au contenu

« Discussion Wikipédia:AutoWikiBrowser/Typos » : différence entre les versions

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
LamBoet (discuter | contributions)
SyntaxTerror (discuter | contributions)
Ligne 384 : Ligne 384 :
::::{{notif|SyntaxTerror}} Merci encore, mais pas besoin de tourner autour du pot : il suffisait vraiment de dire que oui, il sera détecté {{clin}}. Je propose de l'indiquer explicitement dans [[Wikipédia:AutoWikiBrowser/Typos/Aide]].
::::{{notif|SyntaxTerror}} Merci encore, mais pas besoin de tourner autour du pot : il suffisait vraiment de dire que oui, il sera détecté {{clin}}. Je propose de l'indiquer explicitement dans [[Wikipédia:AutoWikiBrowser/Typos/Aide]].
::::J'avais bien sûr déjà fait mes tests sur ce site, et si j'avais quand même un doute, c'est parce que malgré le test positif, [https://fr.wikipedia.org/w/index.php?title=Wikip%C3%A9dia:AutoWikiBrowser/Typos&diff=156258034&oldid=149031123 mon ajout] n'a pas déclenché de correction des quelques centaines d'occurrences de « [[<nowiki/>Lepidoptère]] » (actuellement visibles [https://fr.wikipedia.org/w/index.php?title=Sp%C3%A9cial:Pages_li%C3%A9es/Lepidopt%C3%A8re&limit=500 ici]). Est-ce que quelque chose m'échappe ? --[[Utilisateur:LamBoet|LamBoet]] ([[Discussion utilisateur:LamBoet|discuter]]) 11 mars 2019 à 22:51 (CET)
::::J'avais bien sûr déjà fait mes tests sur ce site, et si j'avais quand même un doute, c'est parce que malgré le test positif, [https://fr.wikipedia.org/w/index.php?title=Wikip%C3%A9dia:AutoWikiBrowser/Typos&diff=156258034&oldid=149031123 mon ajout] n'a pas déclenché de correction des quelques centaines d'occurrences de « [[<nowiki/>Lepidoptère]] » (actuellement visibles [https://fr.wikipedia.org/w/index.php?title=Sp%C3%A9cial:Pages_li%C3%A9es/Lepidopt%C3%A8re&limit=500 ici]). Est-ce que quelque chose m'échappe ? --[[Utilisateur:LamBoet|LamBoet]] ([[Discussion utilisateur:LamBoet|discuter]]) 11 mars 2019 à 22:51 (CET)
:::::{{notif|LamBoet}} je ne comprends pas bien ce que tu cherches à faire.
:::::As-tu bien compris que cette liste de corrections de typos sert uniquement lorsque des logiciels comme AutoWikiBrowser sont utilisés ? C'est-à-dire qu'il faut par exemple qu'un contributeur édite un article avec AWB, avec l'option ''RegEx Typo Fixing'' activée, pour que les typos contenues dans la liste soient corrigées.
:::::L'ensemble des pages de wp.fr ne va pas être corrigé automatiquement lorsqu'on ajoute quelque chose à cette liste de typos. Cordialement, <span class="nowrap">[[Discussion utilisateur:SyntaxTerror|Şÿℵדαχ₮ɘɼɾ๏ʁ]]</span> 12 mars 2019 à 00:12 (CET)

Version du 12 mars 2019 à 00:12

2007200820092010
2011201220132014
20152016

Vous ne savez pas comment insérer une nouvelle correction ? Pensez à consulter l'aide !

Modèles ordinaux

Bonjour.
À la suite de cette discussion sur la pdd des conventions typo, une exception a été introduite à la recommandation de l'utilisation des modèles ordinaux. Cette exception figure dans ce paragraphe :
« Exception : lorsque le nombre ordinal est utilisé seul comme texte d’un lien interne, les formes 1{{er}}, 2{{e}}etc. sont à préférer car, dans ce cas, l’utilisation de modèles ordinaux comme {{1er}}, {{2e}}etc. ne donne pas le résultat escompté au passage de la souris sur le lien[(1)]. Exemple : [[2e régiment d'infanterie|2{{e}}]] donne 2e. »

  • (1).  Avec navigation sans gadget Popups.

J'ai corrigé « à la main » cette palette [1]. Un autre exemple → [2]. Serait-il possible de tenir compte de cette exception dans les corrections effectuées avec AWB ? Cordialement, Daniel*D, 20 janvier 2015 à 03:47 (CET) màj Daniel*D, 20 janvier 2015 à 10:58 (CET)[répondre]

Pour Effectivement 2e affiche l'infobulle définie dans {{2e}} et qu'il n'est pas envisageable de retirer. JackPotte ($) 20 janvier 2015 à 20:26 (CET)[répondre]

Latin italique

Bonjour,

Le lexique des règles typographique suggère l'utilisation de l'italique pour certaine expression latine (non usuel). J'ai pris ici l’exemple de ad hoc afin de créer cette expression régulière qui permet de les passer toutes en latin -si besoin est:

<Typo word="latin ad hoc" find="(ad hoc)(?:\'{3})?(?:\s|$)" replace="''$1''" />

Pour des exemple d'utilisation voir ici

Pensez vous que je puisse la rajouter (ainsi que ces petites sœurs ?) à AutoWikiBrowser/Typos ? J’espère écrire tout ça au bonne endroit et avec le bon jargon : )

Toute remarque est la bien venu

Cdlt,

--Razoa (discuter) 15 février 2015 à 17:55 (CET)[répondre]

Bonjour Razoa
Il me semble que cette expression régulière pose plusieurs problèmes : elle supprime l'espace suivant l'expression, supprime la fin de mise en gras, ne marche pas si elle est suivit d'un point ou d'une virgule...
Je propose en remplacement :
<Typo word="latin ad hoc" find="\b(ad hoc(''')?)(?=[\s,.)]|$)" replace="''$1''" />
Q'en pensez-vous ? — Zebulon84 (discuter) 15 mars 2015 à 13:09 (CET)[répondre]
Bonjour Zebulon84,
Vous avez entièrement raison ! Je n'avais pas pensée a tester ces cas de figure. Merci beaucoup.
Une question, un poil technique. Pourquoi préféré le $ dans
\b(ad hoc(''')?)(?=[\s,.)]|$)
au \b
\b(ad hoc(''')?)(?=[\s,.)])\b
 ?
Personnellement, je ne sais laquelle des deux pratiques est la plus rapide.
Le \b indique un limite de mot. On ne désire pas une limite de mot juste après un point ou une virgule (blabla ad hoc. Blabla). Mettre cette limite avant n'est pas non plus valable si on est au niveau d'une fin de gras ('''blabla ad hoc''' blabla).
Zebulon84 (discuter) 15 mars 2015 à 13:45 (CET)[répondre]
Merci pour l'explication.
Je vous est compris pour le point ou la virgule mais ma regex ne semble pas posé de problème. En effet aprés ah hoc il doit soit y avoir .,!? (un signe de ponctuation) où une limite de mots.
Concernant le cas de figure du fin de gras ('''blabla ad hoc''' blabla).
Somme nous d'accord pour postuler que la regex ne dois pas matcher ? En effet, ad hoc étant déjà en italique il n'y à rien à faire.
J'ai tester votre implémentation (https://www.regex101.com/r/dZ6oG8/8) et la mienne (https://www.regex101.com/r/dZ6oG8/7) et votre regex match deux fois dans ce cas là. La deuxième correspondant à ``` 0 foi puis $.
Cdlt,TApplencourt (discuter) 16 mars 2015 à 13:32 (CET)[répondre]
J'avais loupé ce message. (Smiley oups)
Effectivement la ponctuation ne gène pas puisqu'il s'agit d'un lookahead qui ne modifie pas la position, je me suis trompé sur ce point.
Mais si une expression est en gras elle n'est pas forcément en italique. Donc il faut transformer '''blabla ad hoc''' blabla en '''blabla ''ad hoc''''' blabla. Et pour ça le \b ne marche pas.
Cordialement, Zebulon84 (discuter)
Meaculpa (en italique ou pas ? :p), j'avais confondu italique et gras. Vous avez entièrement raison !
Merci de la patience et pour la pédagogie.
TApplencourt (discuter) 16 mars 2015 à 18:00 (CET)[répondre]

16 mars 2015 à 13:46 (CET) Bonjour Razoa, est-ce que l'italique est réellement justifié dans toutes les règles qui ont été ajoutées ? En particulier, des mots comme "via" ne sont-il pas naturalisés (WP:TYPO#MOTS-ÉTRANGERS) et donc à écrire sans italique ? --NicoV (discuter) 16 mars 2015 à 08:28 (CET)[répondre]

Bonjour NicoV,
Personnellement je suis de votre avis. Néanmoins, j'ai préféré me référer au fameux << Lexique des règles typographiques en usage à l'Imprimerie Nationale >>. Je suppose que leurs choix est aussi arbitraire que le notre (par exemple, il considère a priori comme étant francisé maintenant) et peut étre en retard de quelques années, mais ils on le mérite de l'autorité (je vous accorde le coté fallacieux de cette argument) et de la référence.
En conclusion : je suis partagé.
Razoa Si le choix est plus ou moins arbitraire, je pense qu'il faut éviter de mettre les règles ici car les contributeurs qui utilisent AWB ou WPCleaner ne sauront pas forcément quoi faire quand "via" sera détecté comme à mettre en italique (ce qui était mon cas ce matin quand WPCleaner détectait souvent des "via" à corriger). Dans les règles de typos pour AWB, il ne faudrait mettre que ce qui est sans équivoque. --NicoV (discuter) 16 mars 2015 à 10:04 (CET)[répondre]
J'ai supprimé la règle concernant "via" car ce n'est en général pas une expression latine mais bien une expression française, cf. VIA. --NicoV (discuter) 16 mars 2015 à 11:02 (CET)[répondre]
Parfait, merci TApplencourt (discuter) 16 mars 2015 à 13:32 (CET)[répondre]

J'ai aussi une question concernant l'optimisation de ces règles (ainsi que le fonctionnement): ne faudrait-il pas ajouter un "\b" au début de chacune des règles pour qu'elle ne soit testée que sur les débuts de mots et pas en plein milieu ? --NicoV (discuter) 16 mars 2015 à 11:06 (CET)[répondre]

J'ai appliqué la modification que j'ai proposé ci-dessus qui inclue un \b initial. — Zebulon84 (discuter) 16 mars 2015 à 12:56 (CET)[répondre]

Optimisation des règles "Unité monnaie après"

Bonjour,

Les 2 règles "Unité monnaie après" sont très longues à exécuter avec WPCleaner sur certaines pages (par exemple, environ 40s pour la première sur mon PC pour Liste des îles d'Indonésie). Est-ce que l'on pourrait les optimiser ? Mes idées d'optimisation pour l'instant :

  • Commencer la règle par un \b pour éviter qu'elle ne se déclenche à chaque chiffre ?
  • Séparer la première règle en plusieurs, en fonction du nombre de groupes de chiffres ?
    • 1 règle pour un seul groupe de chiffres
    • 1 règle pour exactement 2 groupe de chiffres
  • Rendre non capturant les groupes qui n'ont pas besoin de l’être ?

--NicoV (discuter) 4 mars 2015 à 19:01 (CET)[répondre]

(Bonjour,

Voici ma petite contribution.

Avant : <Typo word="Unité monnaie après" find="([0-9]+)( | +)*([0-9]+)?[.,]([0-9]+)( | +)?(€|\$|euros?|dollars?|USD|£|₤)" replace="$1$3.$4 $6" />

Changement :

- Doit commencer par un début de mot histoire d'optimiser
- Une regex par groupes de chiffre (A faire dans l'ordre N , N-1, etc. sinon la regex pour N-1 va matcher aussi pour N) 
- Support des \d.\d \d (comme décrit ici noter encore « 1 234 567 890,123 456 78 ¤ » qui affiche « 1 234 567 890,123 456 78 ¤ »)

Limitation :

- Ne gère pas le nombre sans virgule(comme avant remarquez)

Maintenant :

- Typo word="N groupes" ...
- Typo word="2 groupes" find="\b(\d+)\s+(\d+)[.,]([\s\d]*)(?:\s*)(€|\$|euros|dollars|USD|£|₤)\b" replace="$1$2.$3 $4"
- Typo word="1 groupe" find="\b(\d+)[.,]([\s\d]*)(?:\s*)(€|\$|euros|dollars|USD|£|₤)\b" replace="$1.$2 $3"

Une autre astuce plus, hum, violente est la suivante:

1- Supprimer tout les espace pour les mots qui match "\b([\d\s]+[.,]*+[\d\s]*)(€|\$|euros|dollars|USD|£|₤)\b"
2- Crée facilement la regex.

Mais je ne sais pas supprimer tout les espaces conditionnellement avec AWB.

En espérant avoir été un peu utile,

PS : Je n'arrive pas a tout indenter. Désolé... TApplencourt (discuter) 15 mars 2015 à 12:29 (CET))[répondre]

Logorrhée

Bonjour,

un problème avec ce mot. Nom seulement l'orthographe correcte « logorrhée » est détectée mais il y a aussi suggestion d'une orthographe incorrecte en remplacement (« logohrée »).

J'ai essayé de comprendre comment fonctionne les regex mais en l'occurrence celle-ci paraît trop compliquée pour moi :)

Merci à celui qui corrigera cette erreur.

Kropotkine 113 (discuter) 23 avril 2015 à 09:12 (CEST)[répondre]

J'ai simplifié cette regex, et corrigé la proposition. – Zebulon84 (discuter) 23 avril 2015 à 10:03 (CEST)[répondre]

De la cupidité

Bonjour
Quelqu'un pourrait me dire comment rendre cupide la regex suivante et faire en sorte qu'elle ne prenne que

[[Nabal]] ([[:en:Nabal|en]])

plutôt que

[[Bible]], '''Abigaïl''' ('''אֲבִיגָיִל''' - ''la joie de son père'') était la femme de [[Nabal]] ([[:en:Nabal|en]])

Ça serait vraiment apprécié.
Merci ! - Simon Villeneuve 10 septembre 2015 à 04:21 (CEST)[répondre]

En remplaçant . par quelque chose comme [^\]], ça fonctionne. Elle ne détectera pas un lien du type [] ([[Crochet (typographie)|[]]]), mais ça devrait suffire dans le cas général. Bonnes contributions — Ltrlg (discuter), le 10 septembre 2015 à 07:18 (CEST)[répondre]
Merci ! Malheureusement, malgré mes lectures sur le sujet, je n'arrive toujours pas à comprendre comment maîtriser les expressions « ^ » et « $ ». - Simon Villeneuve 10 septembre 2015 à 11:21 (CEST)[répondre]
^ a deux sens différents suivant le contexte : le premier est le dual de $ (début/fin d’unité de traitement), lorsqu’il se trouve en début d’expression (ou pas loin). Ici, il s’agit du second : au début d’un ensemble de caractères entre crochets, il permet de produire la négation de cet ensemble. Ainsi, [^\]] signifie n’importe quel caractère, sauf ], d’où les cas particuliers pour lesquels la solution proposée ne fonctionne pas. Bonnes contributions — Ltrlg (discuter), le 11 septembre 2015 à 00:32 (CEST)[répondre]
C'est ce que j'ai fini par comprendre.
Lorsque tu dis « au début d'un ensemble de caractères entre crochets », cela signifie que [^\]\}] détectera n'importe quel caractère sauf ] et } ? J'avais tendance à écrire [^\]^\}]. - Simon Villeneuve 11 septembre 2015 à 00:38 (CEST)[répondre]
Oui. L’autre forme serait inutilement longue : combiner tous les caractères sauf et ces quelques caractères serait soit un NOP (tout sauf a, plus b), soit contradictoire (tout sauf a, plus a). Une seule indication suffit donc. Dans cette deuxième forme, le second ^ est donc considéré comme un caractère normal et [^\]^\}] signifie tout sauf ], ^ et }. Bonnes contributions — Ltrlg (discuter), le 11 septembre 2015 à 00:50 (CEST)[répondre]
Ok. Merci encore !
As-tu un texte à me conseiller sur les regex ? J'ai cherché avec Google en français et en anglais, mais sans grand succès. - Simon Villeneuve 11 septembre 2015 à 12:16 (CEST)[répondre]
Pas vraiment : j’ai appris au fur et à mesure de mes besoins avec diverses sources, que j’ai oubliées depuis. Bonnes contributions — Ltrlg (discuter), le 11 septembre 2015 à 17:11 (CEST)[répondre]

Simplification formatnum

Bonjour à tous,

à cause de mauvais remplacement occasionés par les anciennes regex relatives à formatnum qui faisaient ce genre de truc: 1 437 034 -> 1 437 034

J'ai essayé de simplifier et généraliser le code avec ce diff: https://fr.wikipedia.org/w/index.php?title=Wikip%C3%A9dia%3AAutoWikiBrowser%2FTypos&type=revision&diff=120229377&oldid=120225947

Le invoke String replace va remplacer les chiffres avec espace par l'équivalent sans espace.

Faites moi signe si vous avez des soucis avec cette nouvelle regex malgré mes tests.

-- Chico75 (blabla) 6 novembre 2015 à 16:30 (CET)[répondre]

Notification Chico75 : ça n'a pas l'air de mieux marcher, et ça ne marche pas partout : [3]
Pour les nombres supérieurs à 999999, je me demande s'il ne serait pas possible de faire deux passages (voire plus pour les nombres plus grands, le second passage repérant {{formatnum:9999}} 999 et le modifiant en {{formatnum:9999999}}. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 2 février 2016 à 08:39 (CET)[répondre]
Je suis revenu à l'ancienne version qui marche aussi bien sinon mieux je pense. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 21 février 2016 à 00:41 (CET)[répondre]
Notification SyntaxTerror :: ça marche mal ces notifications, je n'ai rien dans ma liste concernant celle-ci, peut-être à cause des autres notifications sur la même page?
Sinon j'ai re-regardé le code et je pense voir ce qui causait le problème que tu as trouvé. Je referais des tests ces jours-ci pour voir si je peux améliorer. -- Chico75 (blabla) 24 mars 2016 à 04:52 (CET)[répondre]
Notification Chico75 et SyntaxTerror : Pour info, j'ai créé une tâche phabricator liée à ce type d'utilisation, T130815, pour qu'il y ait une évolution côté AWB. --NicoV (discuter) 24 mars 2016 à 10:21 (CET)[répondre]
Je ne suis pas spécialement expert AWB mais cette demande ne me semble pas possible avec les possibilités de l'API car elle ne traite pas les subts:
Et il n'y a rien dans AWB qui pourrait remplacer cette fonctionnalité de ce que j'en ai vu.
Je ne pense pas qu'on puisse s'amuser à traiter que la partie après subst, il y aurait sûrement trop de cas où ça ferait des trucs bizarres, surtout si le remplacement ne se fait que sur un bout de phrase/modèle, ce qui empêchera tout extension des modèles.
De plus cela pourrait avoir un impact sur les performances d'AWB qui devra faire un appel API en plus pour chaque 1er remplacement de typo, ce que les développeurs principaux peuvent juger bloquant pour la fonctionnalité.
J'ai aussi essayé de jeter un coup d'oeil à l'implémentation de l'API mais le code est vraiment obscur.
Enfin tout ça pour dire que je pense qu'il y a vraiment très peu de chances que ce demande aboutisse hélas :(
Notification SyntaxTerror : C'est vraiment bloquant si ça affiche {{subst:#invoke:String|replace|99999|%s|||false}}}} dans le commentaire de diff? Je comprend que ça puisse rebuter/faire peur à ceux qui ne connaissent pas les "parsers functions" (99% des wikipédiens probablement), mais ce qui compte c'est la modification et le rendu final je dirais non? -- Chico75 (blabla) 31 mars 2016 à 05:19 (CEST)[répondre]
Notification Chico75 : Je n’ai jamais parlé de action=expandtemplates, mais de action=parse&onlypst. Expandtemplates ne traite pas les substs, Parse oui si on lui demande (onlypst) : je l’utilise dans le code de WPCleaner justement pour ces cas là. Exemple avec subst --NicoV (discuter) 31 mars 2016 à 06:49 (CEST)[répondre]
Notification Chico75 : je sais pas trop, mais le but d'un diff c'est d'expliquer la modification, et là si 1% des gens comprennent il y a un problème. Le plus simple serait sans doute de supprimer le diff automatique avec la regex typo fixing, d'autres remplacement posent aussi des problème de compréhension, genre , → , ou les remplacement de <sup> qui n'indiquent que le 1er remplacement du genre (si je me souviens bien). En tous cas, le remplacement de la règle ne se justifie que si elle apporte un plus vraiment notable au vu du problème avec le diff, ce qui n'était pas le cas. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 31 mars 2016 à 15:25 (CEST)[répondre]

Apostrophe en tant que séparateur de milliers

Il a été fait mention par Nouill (d · c · b) dans une requête de bot de l'existence d'une notation suisse utilisant une apostrophe comme séparateur de milliers (par ex. 22'000 : [4]). Je ne sais pas s'il est possible de repérer les occurrences de ceci, mais je pense qu'il serait bien d'ajouter cette correction à la liste des typos. Je crains de faire des fautes ou des oublis, ma connaissance des regex n'étant pas encore très bonne, je laisse donc cela à d'autres plus compétents. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 2 février 2016 à 08:39 (CET)[répondre]

Notification SyntaxTerror : c'est possible de repérer les occurences avec une recherche sur un dump. Je ne peux pas le faire tout de suite mais j'essaye de regarder ça les prochains jours. L'ajout des les regex actuelles semble facile, dans les regex formatnum, il suffit de l'ajouter à la liste des séparateurs de groupes de chiffre qui est actuellement:
( |&nbsp;)
à
( |&nbsp;|')
Je testerai en même temps que le changement du message précédent. -- Chico75 (blabla) 24 mars 2016 à 05:02 (CET)[répondre]
Notification Chico75 : j'ai depuis découvert comment utiliser les regexes et la recherche sur un dump avec AWB et j'ai déjà fait les changements dans les 129 articles concernés.
La regex que tu proposes semble convenir. Malgré tout, j'avais utilisé un modèle {{unité}} dans la plupart des corrections que j'ai faites, mais ça m'a demandé un sacré nombre de regexes pour arriver à un résultat satisfaisant (j'ai conservé ces regexes dans un fichier de préférences au cas où, mais il reste des améliorations à apporter). Si on se contente de mettre les nombres uniquement dans des mots magiques formatnum, c'est bien sûr beaucoup plus simple. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 24 mars 2016 à 09:50 (CET)[répondre]

Évidement

Bonjour, Je souhaitais signaler un faux positif : AWB corrige évidement en évidemment, ce qui est une erreur puisque le terme évidement existe aussi en langue française. Cordialement, --[[Utilisateur:|Lebronj23]] (discuter) 26 mars 2016 à 03:37 (CET)[répondre]

Notification Lebronj23 : merci pour la remarque, c'est corrigé. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 10:12 (CET)[répondre]
Merci pour la correction :). --Lebronj23 (discuter) 26 mars 2016 à 13:08 (CET)[répondre]

Simplification de la liste

Bonjour

Je ne modifiais pas cette page avant d'apprendre à utiliser les regexes il y a peu de temps, et la correction de la règle pour « évidemment » qui corrigeait aussi improprement « évidement » (voir message ci-dessus) m'a fait me rendre compte qu'on pourrait simplifier grandement la page : il y a beaucoup de règles en double pour le mot avec une majuscule ou sans. Ne pourrait on pas à la place utiliser une backreference pour cela ?

Par exemple, remplacer

<Typo word="évidemment" find="\b[eé]vid[aeé]mm[ae]n[ts]?\b" replace="évidemment" />
<Typo word="Évidemment" find="\b[EÉ]vid[ae]mm[aeé]n[ts]?\b" replace="Évidemment" />

par

<Typo word="évidemment" find="\b([eéEÉ])vid[aeé]mm[ae]n[ts]?\b" replace="$1videmment" /> ?

Vu le nombre de lignes que cela supprimerait, ça devrait accélérer un peu le traitement des pages. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 10:22 (CET)[répondre]

Notification SyntaxTerror : Le problème, c'est que la regex en une seule ligne ne marche pas... Elle ne remplacera par un "e" initial par "é" ou un "E" initial par "É"... --NicoV (discuter) 26 mars 2016 à 10:26 (CET)[répondre]
En tout cas pour WPCleaner, ce qui accélèrerait le traitement des pages c'est de revoir les regex sur le unités en utilisant les subst et #invoke. --NicoV (discuter) 26 mars 2016 à 10:33 (CET)[répondre]
En trafiquant un peu, on doit pouvoir faire une seule regex en conservant la capitalisation de la première lettre du mot. non ? -- Archimëa [Toc 2 Mi] 26 mars 2016 à 10:42 (CET)[répondre]
Je ne vois pas comment on peut gérer dans une expression régulière des cas aussi complexes de remplacement d'un caractère ("e" devient "é", "E" devient "É", "é" ou "É" ne sont pas modifiés). Mais si il existe une solution, cool ! --NicoV (discuter) 26 mars 2016 à 10:53 (CET)[répondre]
En effet, en y regardant, je crois que la détection est facile dans une seule regex, mais c'est le remplacement qui pose problème. -- Archimëa [Toc 2 Mi] 26 mars 2016 à 10:56 (CET)[répondre]
Le seul truc que je vois serait bien compliqué : avoir un modèle qui met un accent aigu à une lettre ({{accent aigu}} ?), et subster l'appel à ce modèle dans le remplacement ({{subst:accent aigu|$1}}). --NicoV (discuter) 26 mars 2016 à 10:57 (CET)[répondre]
Ah oui, pas bête, mais ca semble un peu compliqué pour pas grand chose, 2 règles changent pas grand chsoe finalement, sinon là il faut l'avis d'un spécialiste -- Archimëa [Toc 2 Mi] 26 mars 2016 à 11:11 (CET)[répondre]
Notification NicoV : je ne comprends pas trop ta phrase « Elle ne remplacera par un "e" initial par "é" ou un "E" initial par "É"... », « evidemment » est fautif, il faut bien remplacer le « e » initial par un « é ». Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 11:57 (CET)[répondre]
Notification SyntaxTerror : Oui, « evidemment » est fautif, et le problème est que la règle que tu proposes ("elle") ne détectera pas le problème et qu'elle ne proposera pas le bon remplacement : ([eéEÉ]) va matcher sur "e" et la règle proposera de le conserver tel quel ($1). --NicoV (discuter) 26 mars 2016 à 12:23 (CET)[répondre]
Conflit d’édition :
Si tu détecte dans la même regex des lettres capitalisées et non-capitalisées comme ([EeéÉ]), tu n'aura qu'une possibilité de remplacement par $1, donc pas de possibilité de proposer une lettre capitalisée, ou pas. -- Archimëa [Toc 2 Mi] 26 mars 2016 à 12:27 (CET)[répondre]
Notification NicoV et Archimëa : ha ouéééééé... okay alors. Émoticône Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 12:33 (CET)[répondre]

┌─────────────────────────────────────────────────┘
J'ai trouvé cette règle qui me semble bizarre dans ce cas (elle en me semble servir à rien à priori) :

<Typo word="égout" find="\b(é|É|E)gout(s?)\b" replace="$1gout$2" />

Ça m'amène à proposer une règle pour remplacer les majuscules non accentuées sur tous les mots dont la première lettre est accentuée et en majuscule :

<Typo word="Électrique" find="\bE(chelle|clipse|cole|comusée|glise|lémentaire|paule|querre|quipage|tincelle|toile)(s?)\b" replace="É$1$2" />

La liste n'est pas complète, c'est juste un exemple, mais ça permettrait de fusionner des lignes comme :

<Typo word="Économie" find="\bEconomie(s?)\b" replace="Économie$1" />
<Typo word="Église" find="\bEglise(s?)\b" replace="Église$1" />
etc.

Qu'en pensez vous ?

La ligne pour "égout" semble effectivement inutile, vu que le remplacement correspond à la chaîne trouvée.
Pour le regroupement, je ne sais pas trop :
  • Au niveau performance, la différence doit être faible (on ne fait le \bE qu'une seule fois au lieu de chaque fois, mais c'est une comparaison directe)
  • Au niveau lisibilité, c'est moins bien (que ce soit l’expression elle-même ou le nom que l'on va donner à l'expression)
  • Certains sont déjà traités de manière plus large, comme <Typo word="École" find="\b[EÉ]coll?e(s?)\b" replace="École$1" />
--NicoV (discuter) 26 mars 2016 à 14:04 (CET)[répondre]
Égout provient d'une modification très très ancienne. --NicoV (discuter) 26 mars 2016 à 14:10 (CET)[répondre]
Notification NicoV : ça permettrait de corriger quelques trucs de plus, même s'il est plutôt rare de trouver ces mots avec une majuscule (mais ça peut être le cas dans des tableaux par exemple). Niveau lisibilité, une fois que la liste aura été faite, il n'y a pas de raison de la modifier : des mots avec une première lettre accentuée ne sont pas ajoutés tous les jours dans le vocabulaire français. On peut aussi mettre la liste dans le nom de la règle, en note ou dans la documentation, sous forme de liste déroulante par exemple. Le problème est que je n'arrive pas a trouver la liste des mots français commençant par une lettre accentuée. Şÿℵדαχ₮ɘɼɾ๏ʁ 26 mars 2016 à 14:29 (CET)[répondre]

Joseph-Arthur

Les prénoms composés débutant par Joseph était très populaires au siècle dernier. Tellement qu'on identifiait les individus par leurs initiales.

Voilà que dans plusieurs page, lorsqu'on donne les années de naissance et de mort d'un individu on retrouve la forme suivante :

1879-1936 J.-A. Lavoie

Le problème se situe dans la lignes suivantes :

<Typo word="Unité énergie" find="([0-9]+)( | +)?([0-9]+)?( | +)?([0-9]+)?( | +)?([Jj]oules?|J|kJ|MJ|GJ|TJ|PJ|EJ|[Kk]ilowatt-heure|kWh|kW⋅h|Wh|MWh|GWh|TWh|[Tt]onnes? d'équivalent pétrole|tep|ktep|Mtep|calories?|cal)\b(?!\|)" replace="{{unité|$1$3$5|$7}}" />

Celle-ci interprète 1936 J comme étant 1936 joules et propose le modèle unité.

J'aurais aimé proposer une solution, mais j'avoue ne pas comprendre le (?!\|) à la fin. Quelqu'un pour me renseigner ? ---- VänBrøøken (diskusjon) 6 juillet 2016 à 18:30 (CEST)[répondre]

Que pensez-vous de remplacer (?!\|) par (?!\||\.-) ---- VänBrøøken (diskusjon) 7 juillet 2016 à 01:12 (CEST)[répondre]

Exposant

Bonjour,

Fin 2008 cette modification avait introduit le remplacement systématique de la syntaxe <sup></sup> vers {{exp|}}. J'ai retiré cette modif à la suite de cette discussion avec Chico75 : d'un, ce n'est pas une typo que d'utiliser les balises html, de deux, quand bien même ce choix aurait pu se justifier en 2008 (comme Chico75 l'a argumenté, on pouvait éventuellement considérer que le rédacteur habitué à la syntaxe wiki souhaite garder cette même syntaxe en toutes choses), il est largement obsolète avec l'implémentation de l'éditeur visuel et pose des problèmes quand on souhaite utiliser ce dernier, ce qui est devenu le choix majoritaire des nouveaux arrivants.

En parlant de problèmes, je ne sais pas si c'est le lieu, mais à tout hasard : ça fait 3 fois que je vois des utilisations inappropriées du modèle "unité" pour transformer, par exemple, 180m ou 180m2 : hors, dans certains articles (notamment ceux sur les isotopes, mais je suppose que ce n'est pas le seul endroit), ces notations ne veulent pas dire "180 mètres" ni "180 mètres carrés". Je comprends bien que des erreurs occasionnelles sont inévitables quand on traite un grand nombre d'article, c'est juste la répétition de cette erreur particulière qui m'avait quelque peu fait tiquer.

Cordialement, (discuter) 17 août 2016 à 19:34 (CEST)[répondre]

Faux positif

Bonsoir, j'ai plusieurs fois des espaces ajoutés avant des liens internes, comme pour [[Emmanuel Carrère]], ''Werner Herzog'', Paris, Edilig, [[1982]] sur Werner Herzog. Cet règle semble ajouter un nouvel espace à chaque modification, sans s'arrêter. Bonne continuation --Framawiki 20 août 2016 à 20:47 (CEST)[répondre]

Modèles Unité et Dunité

Bonjour, suite à cette discussion: [5], je viens voir avec vous si quelqu'un saurais rajouter le modèle Dunité (et pourquoi pas Tunité aussi pour les modèles en 3D) dans la liste des corrections. Je pense que ça pourrait être utile. Tearow (discuter) 1 septembre 2016 à 14:11 (CEST)[répondre]

J'utilise dans AWB les règles suivantes :
  •  (?<= |\n|\()([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?: | +)?[xX×*](?: | +)?([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?: | +)?[xX×*](?: | +)?([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?:(?: | +)?(m|mètres?|km|kilomètres?|mm|milimètres|cm|centimètres?|in|pouces?|pieds?))?\b
    vers {{volume|$1$2|$3$4|$5$6|$7}}
  • (?<= |\n|\()([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?: | +)?[xX×*](?: | +)?([0-9]*)(?: | +)?([0-9]+[.,]?[0-9]*)(?:(?: | +)?(m|mètres?|km|kilomètres?|mm|milimètres|cm|centimètres?|in|pouces?|pieds?|minutes?))?\b
    vers {{Dunité|$1$2|$3$4|$5}}
mais il faut peut-être des adaptations pour les utiliser dans les typos, notamment pour la compatibilité avec WPCleaner.
Zebulon84 (discuter) 1 septembre 2016 à 18:48 (CEST)[répondre]
Merci pour la réponse, malheureusement je ne m'y connais pas pour pouvoir donner d'avis sur les typos mais je vous remercie d'avoir pris le temps de répondre avec votre propre règle AWB, j'espère qu'elle finira par être utilisé. Tearow (discuter) 1 septembre 2016 à 21:35 (CEST)[répondre]
Bonsoir, je reviens car j'aimerais savoir s'il serait possible d'utiliser les paramètres Dunité de Rehtse pour enfin clore cette requête, je préfère demander n'étant pas vraiment familier des typos je ne voudrais pas créé de problème.--Tearow (discuter) 13 décembre 2016 à 21:26 (CET)[répondre]
Je ne suis pas un spécialiste de programmation, ces formules ne sont qu'un bricolage pas optimisé, c'est la raison pour laquelle je n'ai pas chercher à les placer dans la page des corrections typos, mais que je les ai laissé dans une page perso. Certains cas ne fonctionnent d'ailleurs pas et je n’ai pas compris pourquoi (par exemple le cas de figure 33,5 x {{unité|33.5|cm}}, pour lequel je n’arrive pas à faire proposer {{dunité|33.5|33.5|cm}}). De plus, je me souviens que certains ne souhaitent pas forcément accumuler les propositions de ce type, car tout le monde ne va pas aussi loin dans les modifs avec WPC. Si tu le souhaites, Tearow, tu peux aussi créer une page perso de correction typo pour reprendre des formules, en attendant que quelqu'un de plus pointu les améliore et les intègre dans le fichier commun.--Rehtse (échanger) 13 décembre 2016 à 23:02 (CET)[répondre]
D’accord, merci de ta réponse Rehtse je vais essayer de me créé une page de typo, même si je sais pas trop comment ça marche je vais découvrir, en attendant que quelqu'un réussisse (si ça arrive un jour). Je pense que la requête peut être également conclue aussi.--Tearow (discuter) 14 décembre 2016 à 19:52 (CET)[répondre]

Mois et patronymes

Les mois de janvier à juillet sont aussi des patronymes d'un certain nombre de personnes. Cela signifie qu'il y a des faux positifs lorsque ces personnes sont citées. Je propose de n'activer la suppression de la majuscule que si le mois est précédé ou suivi par un chiffre.

Si personne ne s'y oppose, je modifierai ça dans quelques jours.

Zebulon84 (discuter) 10 novembre 2016 à 17:52 (CET)[répondre]

On peut peut-être également ajouter avant : si c'est précédé de : "mois de" (pour durant le mois de janvier et au mois de janvier) et "en" (pour en janvier) -- Archimëa [Toc 2 Mi] 10 novembre 2016 à 21:01 (CET)[répondre]

Modèle NC remplacé par Image sur Commons

Bonjour, Une question de Pierre cb liée a l'utilisation d'AWB. Quelqu'un pourrait-il nous éclairer sur ce comportement ? Merci d'avance. Cordialement, Lebronj23 (discuter) 9 octobre 2017 à 21:26 (CEST)[répondre]

C'est quand AWB remplace les redirections des modèles par le nom exact du modèle.
Il y a sur la liste Wikipédia:AutoWikiBrowser/Template redirects : NC = Modèle:NowCommons, qui remplace donc NC par le nom du modèle : Modèle:Image sur Commons
Je l'ai retiré de la liste [6], AWB ne remplacera plus ce modèle. -- Archimëa [Toc 2 Mi] 9 octobre 2017 à 21:48 (CEST)[répondre]

faux-positifs avec les parkings pour la regex {{p.|X}} (modèle page)

Bonsoir,

Avec les pages que je modifie actuellement (aéroports), j'ai un certain nombre de faux-positifs avec cette regex concernant les parkings (parking P1 se trouve transformé en parking {{p.|1}}.

Ce serait judicieux de faire une vérification (par exemple avec une assertion arrière négative), comme quoi P1 n'est pas précédé du mot parking.

Je ne fait pas la correction moi, car je me sens pas encore trop de le faire, je préfère que quelqu'un plus expérimenté en regex s'en occupe.

Merci d'avance.

--Tractopelle-jaune (discuter) 1 avril 2018 à 18:00 (CEST)[répondre]

J'ai eu aussi pas mal de faux positifs sur les pages d'avions, à cause de différentes références d'avion, de moteur... type P25. Plutôt que de multiplier les assertion négatives, je propose de limité la correction aux p minuscules, et éventuellement aux P suivit d'un point (« P.25 », « p25 », « p.25 », mais pas « P25 »). — Zebulon84 (discuter) 1 avril 2018 à 21:39 (CEST)[répondre]
Ça me semble une bonne idée, je n'ai effectivement pas souvenir d'avoir vu, sur les 200-250 corrections que j'ai fait avec AWB pour le moment, le moindre remplacement pertinent (pour une indication de page) d'un P majuscule suivi directement d'un chiffre.
Donc, je pense que c'est une bonne idée, cela virera la plupart des faux-positifs liés à cette typo.
--Tractopelle-jaune (discuter) 1 avril 2018 à 22:05 (CEST)[répondre]
icône « fait » Fait.Zebulon84 (discuter) 2 avril 2018 à 01:39 (CEST)[répondre]

Nombreux faux-positifs pour « Traffic » (avec T majuscule)

Bonsoir aux wikignomes,

J'ai une suggestion concernant la typo « Traffic » → « Trafic » (avec T majuscule).

J'ai pas mal de faux-positifs avec cette typo, cela concerne surtout des ouvrages d'arts et autres noms ou termes nord-américains (qui sont très friands du terme « Traffic » pour tous un tas de choses).

Est-ce que cela vous parait judicieux de ne la réserver qu'aux cas « traffic » (avec minuscule).

Depuis que j'utilise AWB, je dois pas être loin d'une quinzaine de faux-positifs avec cette typo, et je n'ai souvenir d'aucun remplacement pertinent avec T majuscule.

Et de mémoire, tous ces faux-positifs, concernaient la variante avec T majuscule.

D'autre part, il est peu vraisemblable en français d'avoir beaucoup de phrases commençant par ce mot, qui ne s'y prête pas vraiment.

Voilà, j'aurais pu modifier moi-même la typo, mais comme je suis relativement jeune dans l'utilisation d'AWB (quelques mois à peine), je préfère d'abord demander votre avis.

Bonne soirée.

--Tractopelle-jaune (discuter) 25 mai 2018 à 19:55 (CEST)[répondre]

Pour Les mots les plus courant dans une autre langue ne devraient pas figurer dans cette liste, car ça prend un temps fou à vérifier et corrigé, et le risque d'en laisser passer est grand. Dans le même ordre d'idée j'ai l'impression d'un rapport supérieur à 50 % de faux positif sur les corrections suivantes :
  • edition → édition (avec ou sans majuscule, ainsi qu'au pluriel) : mot anglais
  • special → spécial : mot anglais
  • érr → err : nom propre hispanophone
  • les unités avec une seule lettre : erreur fréquentes dans les codes en tout genre. J'ai déjà essayé de réduire les possibilités de faux positif, mais ça n'est pas encore suffisant.
Il y en a deux ou trois autres qui m’embête régulièrement, mais je ne les ai pas en tête à l'instant.
Zebulon84 (discuter) 25 mai 2018 à 21:20 (CEST)[répondre]
Fait pour « Traffic », « edition » et « special ». — Zebulon84 (discuter) 30 mai 2018 à 01:40 (CEST)[répondre]
Merci Zebulon84 Émoticône, j'avais complémentent oublié cette discussion (j'ai plein de trucs sur le feu en ce moment, et un temps limité).
J'approuve bien entendu pour « edition » et « special », j'ai aussi pas mal de faux-positifs avec. Pour « érr », je n'ai pas d'avis, n'ayant pas souvenir d'avoir vu passer des corrections (justifiées ou pas). Mais pour moi, dès qu'il y a un peu trop de faux-positifs, la typo devrait être corrigée ou virée sans hésitation. Je préfère laisser 10 erreurs orthographiques ou typo, que de faire une seule fausse correction (qui bien souvent peut être bien plus problématique, en modifiant parfois le sens d'une phrase).
On devrait effectivement vraiment réserver ces corrections typos qu'à des choses utiles, avec un faible risque de faux-positifs. Sinon, ça n'en vaut pas la peine.
Quand on voit tout ce qu'enwiki fait avec les typos (en:WP:AWB/T), et le nombre de personnes qui les maintiennent, je trouve que l'on pourrait quand même mieux utiliser cet outil sur frwiki, quand c'est pertinent.
J'ai d'ailleurs ajouté deux typos l’autre jour (Armée rouge + Union soviétique), car il y pas mal d’occurrences problématiques, et le risque de faux-positifs est très faible.
Bonne journée.
--Tractopelle-jaune (discuter) 30 mai 2018 à 09:52 (CEST)[répondre]

Modification infobox

Bonjour

L'infobox Modèle:Infobox_Organisation comporte une faute de grammaire : un champ est intitulé "succédé par" ce qui n'est pas correct et il conviendrait d'y substituer "remplacé par" (dans le modèle et dans les pages l'utilisant).

Je l'aurai bien fait à la main mais il y a environ 300 pages concernées... Est ce possible avec un bot ?

Merci d'avance

apc005 (discuter) 30 août 2018 à 19:15 (CEST)[répondre]

Gestion des liens internes

Bonjour ; la syntaxe « find="\bmot à corriger\b" » est elle censée détecter les liens internes comme « [[mot à corriger]] », ou bien doit-on explicitement indiquer dans le find l'éventuelle présence des doubles crochets ? --LamBoet (discuter) 11 mars 2019 à 19:18 (CET)[répondre]

Bonjour Notification LamBoet. "\bmot à corriger\b" est une expression régulière où \b indique le début où la fin d'un mot, qu'il soit ou non entre des crochets.
Pour trouver « [[mot à corriger]] » il faut chercher « \[\[mot à corriger\]\] ».
Mais ne fais pas d'ajouts à cette page sans en avoir parlé sur cette PdD avant. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 11 mars 2019 à 19:46 (CET)[répondre]
Merci @SyntaxTerror, mais je me suis peut-être mal exprimé : je ne cherche pas à trouver les crochets, mais juste à ce que leur présence éventuelle n'empêche pas le mot d'être trouvé. Autrement dit, le mot sera-t-il détecté même si les caractères qui l'encadrent sont des crochets (ou des signes de ponctuation) plutôt que des espaces ? Par exemple, dans cet ajout, dois-je prendre la peine d'écrire <Typo word="lépidoptère" find="(\[\[)?(l|L)epidoptère(s?)(\]\])?" replace="$1$2épidoptère$3$4" /> ? --LamBoet (discuter) 11 mars 2019 à 20:59 (CET)[répondre]
Notification LamBoet : comme je l'ai dit, « /b » n'indique que le début ou la fin d'un mot, pas ce qu'il y a autour (crochets, parenthèses, ponctuation, début ou fin de ligne, etc.).
Tu peux tester des RegExes sur ce site : regex101.com (je t'ai d'ailleurs fait un exemple dessus).
Şÿℵדαχ₮ɘɼɾ๏ʁ 11 mars 2019 à 22:22 (CET)[répondre]
Notification SyntaxTerror : Merci encore, mais pas besoin de tourner autour du pot : il suffisait vraiment de dire que oui, il sera détecté Émoticône. Je propose de l'indiquer explicitement dans Wikipédia:AutoWikiBrowser/Typos/Aide.
J'avais bien sûr déjà fait mes tests sur ce site, et si j'avais quand même un doute, c'est parce que malgré le test positif, mon ajout n'a pas déclenché de correction des quelques centaines d'occurrences de « [[Lepidoptère]] » (actuellement visibles ici). Est-ce que quelque chose m'échappe ? --LamBoet (discuter) 11 mars 2019 à 22:51 (CET)[répondre]
Notification LamBoet : je ne comprends pas bien ce que tu cherches à faire.
As-tu bien compris que cette liste de corrections de typos sert uniquement lorsque des logiciels comme AutoWikiBrowser sont utilisés ? C'est-à-dire qu'il faut par exemple qu'un contributeur édite un article avec AWB, avec l'option RegEx Typo Fixing activée, pour que les typos contenues dans la liste soient corrigées.
L'ensemble des pages de wp.fr ne va pas être corrigé automatiquement lorsqu'on ajoute quelque chose à cette liste de typos. Cordialement, Şÿℵדαχ₮ɘɼɾ๏ʁ 12 mars 2019 à 00:12 (CET)[répondre]