4 Espacios y anclas
Los espacios, saltos de líneas y ubicación de las cadenas son otro de los elementos que pueden ser controlados y tenidos en cuenta a través de expresiones regulares.
4.1 \s
Si bien los espacios pueden ser buscados mediante un espacio en blanco, este puede ser indicado con \s
.
URL |
---|
api.semantic scholar.org/corpusid:84315311 |
city-data.com/ township/shamrock-holt-ne.html |
nytimes.com/ 2006/02/24/sports/olympics/24skate.html |
d-nb.info/gnd/ 4300784-3 |
ncb i.nlm.nih.gov |
id.loc. gov/authorities/names/n90609243 |
Una operación común al respecto consiste en reemplazar los espacios en blanco consecutivos, para lo cual solo hay que buscar /s+
y reemplazar las coincidencias con una cadena de texto vacía.
URL |
---|
api.semanticscholar.org/corpusid:84315311 |
city-data.com/township/shamrock-holt-ne.html |
nytimes.com/2006/02/24/sports/olympics/24skate.html |
d-nb.info/gnd/4300784-3 |
ncbi.nlm.nih.gov |
id.loc.gov/authorities/names/n90609243 |
4.2 \t
Las tabulaciones pueden ser fácilmente identificadas con expresiones regulares usando \t
. A veces estas tabulaciones pueden ser confundidas con espacios en blanco.
URL |
---|
city-data.com/ township/shamrock-holt-ne.html |
En algunas ocasiones los datos pueden incluir por error tabulaciones que de misma manera que con los espacios pueden corregirse con \t+
.
URL |
---|
city-data.com/township/shamrock-holt-ne.html |
De forma inversa, se pueden insertar tabulaciones a modo de reemplazo, sustituyendo un carácter o conjunto de caracteres por ello. Por ejemplo, se pueden reemplazar las barras invertidas por tabulaciones buscando /
y reemplazando por \t
.
URL |
---|
bbc.com sport 0 football 29047046 |
star-ch.jp channel detail.php?movie_id=28489 |
govtrack.us congress votes 92-1972 s908 |
tyndalesploughboy.org category reformers |
portal.historicenvironment.scot designation lb46182 |
dutchcharts.nl showitem.asp?cat=a&interpret=fugees&titel=the+score |
Pero no olvides que algunos ficheros pueden venir delimitados por estos caracteres, por lo que dichos cambios han de aplicarse con cuidado.
4.3 \n
Con los saltos de línea ocurre lo mismo que con los espacios y las tabulaciones. Son fácilmente localizables usando \n
y las aplicaciones y advertencias vistas en las tabulaciones son directamente trasladables aquí.
URL |
---|
api.semantic scholar.org/corpusid:84315311 |
Por un lado, es fácil solucionar problemas en los datos o mejorar su estructura, por ejemplo reemplazando saltos de líneas \t
por espacios \s
o cadenas de texto vacías.
URL |
---|
api.semanticsscholar.org/corpusid:84315311 |
O bien dividir cadenas de texto en líneas, por ejemplo reemplazando las barras invertidas \
por saltos de línea \n
.
URL |
---|
bbc.com sport 0 football 29047046 |
Nuevamente, ten cuidado al eliminar o crear líneas, sobre todo cuando apliques dichos cambios directamente sobre un fichero.
4.4 ^ y $
En relación con ello se encuentran las anclas, con las que se puede marcar el inicio y final de una línea, delimitando mejor las búsquedas y reemplazos. Algo que además puede ser de ayuda cuando se usa en combinación los saltos de línea.
Con ^
se marca el inicio de la línea. En este caso podemos usarlo por ejemplo para buscar todas aquellas URLs que comiencen por book
con ^book
.
URL |
---|
books.google.com/?id=jhkypjgchecc |
books.google.com/?id=zaoaaaaayaaj |
books.google.com/?id=y1cndwaaqbaj |
books.google.bg/books?id=e4pjaaaamaaj |
books.google.com/?id=lpahrqaacaaj |
books.google.com/?id=aiqnaqaamaaj |
Por su parte, $
marca el final de la línea. Como ejemplo, podemos buscar todas las URLs que terminan en .com
usando \.com$
(recuerda que el punto es necesario escaparlo).
URL |
---|
shadowfist.com |
gemacademyaz.com |
fontanaheraldnews.com |
hudsongroup.com |
72armycadets.com |
thaiembassylima.com |