4 Espacios y anclas

Los espacios, saltos de líneas y ubicación de las cadenas son otro de los elementos que pueden ser controlados y tenidos en cuenta a través de expresiones regulares.

4.1 \s

Si bien los espacios pueden ser buscados mediante un espacio en blanco, este puede ser indicado con \s.

URL
api.semantic scholar.org/corpusid:84315311
city-data.com/ township/shamrock-holt-ne.html
nytimes.com/ 2006/02/24/sports/olympics/24skate.html
d-nb.info/gnd/ 4300784-3
ncb         i.nlm.nih.gov
id.loc. gov/authorities/names/n90609243

Una operación común al respecto consiste en reemplazar los espacios en blanco consecutivos, para lo cual solo hay que buscar /s+ y reemplazar las coincidencias con una cadena de texto vacía.

URL
api.semanticscholar.org/corpusid:84315311
city-data.com/township/shamrock-holt-ne.html
nytimes.com/2006/02/24/sports/olympics/24skate.html
d-nb.info/gnd/4300784-3
ncbi.nlm.nih.gov
id.loc.gov/authorities/names/n90609243

4.2 \t

Las tabulaciones pueden ser fácilmente identificadas con expresiones regulares usando \t. A veces estas tabulaciones pueden ser confundidas con espacios en blanco.

URL
city-data.com/ township/shamrock-holt-ne.html

En algunas ocasiones los datos pueden incluir por error tabulaciones que de misma manera que con los espacios pueden corregirse con \t+.

URL
city-data.com/township/shamrock-holt-ne.html

De forma inversa, se pueden insertar tabulaciones a modo de reemplazo, sustituyendo un carácter o conjunto de caracteres por ello. Por ejemplo, se pueden reemplazar las barras invertidas por tabulaciones buscando / y reemplazando por \t.

URL
bbc.com sport 0 football 29047046
star-ch.jp channel detail.php?movie_id=28489
govtrack.us congress votes 92-1972 s908
tyndalesploughboy.org category reformers
portal.historicenvironment.scot designation lb46182
dutchcharts.nl showitem.asp?cat=a&interpret=fugees&titel=the+score

Pero no olvides que algunos ficheros pueden venir delimitados por estos caracteres, por lo que dichos cambios han de aplicarse con cuidado.

4.3 \n

Con los saltos de línea ocurre lo mismo que con los espacios y las tabulaciones. Son fácilmente localizables usando \n y las aplicaciones y advertencias vistas en las tabulaciones son directamente trasladables aquí.

URL
api.semantic
scholar.org/corpusid:84315311

Por un lado, es fácil solucionar problemas en los datos o mejorar su estructura, por ejemplo reemplazando saltos de líneas \t por espacios \s o cadenas de texto vacías.

URL
api.semanticsscholar.org/corpusid:84315311

O bien dividir cadenas de texto en líneas, por ejemplo reemplazando las barras invertidas \ por saltos de línea \n.

URL
bbc.com
sport
0
football
29047046

Nuevamente, ten cuidado al eliminar o crear líneas, sobre todo cuando apliques dichos cambios directamente sobre un fichero.

4.4 ^ y $

En relación con ello se encuentran las anclas, con las que se puede marcar el inicio y final de una línea, delimitando mejor las búsquedas y reemplazos. Algo que además puede ser de ayuda cuando se usa en combinación los saltos de línea.

Con ^ se marca el inicio de la línea. En este caso podemos usarlo por ejemplo para buscar todas aquellas URLs que comiencen por book con ^book.

URL
books.google.com/?id=jhkypjgchecc
books.google.com/?id=zaoaaaaayaaj
books.google.com/?id=y1cndwaaqbaj
books.google.bg/books?id=e4pjaaaamaaj
books.google.com/?id=lpahrqaacaaj
books.google.com/?id=aiqnaqaamaaj

Por su parte, $ marca el final de la línea. Como ejemplo, podemos buscar todas las URLs que terminan en .com usando \.com$ (recuerda que el punto es necesario escaparlo).

URL
shadowfist.com
gemacademyaz.com
fontanaheraldnews.com
hudsongroup.com
72armycadets.com
thaiembassylima.com