1 Introducción

Para la parte introductoria se va a emplear como ejemplo un listado de URLs.

1.1 La búsqueda literal

Por defecto, al realizar una búsqueda sin expresiones regulares, los términos buscados son cotejados de forma literal. Por ejemplo, al buscar la palabra google localizamos todas las URLs que incluyen en alguna parte ese término, sin importar la posición, elementos que hay antes o después…

URL
books.google.com/?id=jhkypjgchecc
books.google.com/?id=zaoaaaaayaaj
books.google.com/?id=y1cndwaaqbaj
books.google.bg/books?id=e4pjaaaamaaj
jubileebooks.co.uk/jubilee/magazine/authors/deborah_ellis/profile.asp
io9.com/the-book-of-strange-new-things-will-blow-you-away-1675147919

Aunque en muchas ocasiones los sistemas de búsqueda no distinguen entre mayúsculas y minúsculas (case sensitive), pudiendo indicarse que exista esta distinción, no se puede descuidarse este aspecto. Si fijamos que el sistema diferencie entre mayúsculas y minúsculas y en lugar de buscar book buscamos BOOK los resultados serán diferentes.

URL
BOOKS.GOOGLE.COM

1.2 Los reemplazos

Además de las búsquedas, son posibles los reemplazos. Se trata de establecer un término de búsqueda y otro de reemplazo para que automáticamente la herramienta sustituya la primera cadena de texto por la segunda. Podemos así cambiar BOOKS por books.

URL
books.GOOGLE.COM

Es también habitual dejar el campo de reemplazo vacío para que los términos buscados sean sustituidos por una cadena vacía, lo que equivale a eliminar el texto que coincida con la búsqueda. Sería así posible buscar http://www. y remplazarlo por una cadena de texto vacía para eliminar esa parte de la URL.

URL
bbc.com/sport/0/football/29047046
star-ch.jp/channel/detail.php?movie_id=28489
govtrack.us/congress/votes/92-1972/s908
tyndalesploughboy.org/category/reformers
portal.historicenvironment.scot/designation/lb46182
dutchcharts.nl/showitem.asp?cat=a&interpret=fugees&titel=the+score

1.3 ¿Qué son las expresiones regulares?

Una expresión regular (también conocida como regex) es una secuencia de caracteres que conforma un patrón de búsqueda cuya principal funcionalidad se encuentra en las operaciones de búsqueda y sustitución (“Expresión Regular” 2021).

Estas son de gran utilidad ya que pueden usarse en multitud de herramientas, desde las hojas de cálculo de Google Drive (Figura 1.1) a editores de código o en programación. Este método no debe confundirse con un lenguaje de programación si bien muchos de ellos ofrecen soporte para su uso.

Búsqueda de expresiones regulares en las hojas de cálculo de Google Drive

Fig. 1.1: Búsqueda de expresiones regulares en las hojas de cálculo de Google Drive

Aunque no todas ellas pueden aplicarse en todas las herramientas que permiten su uso y pueden existir diferencias en la sintaxis, de manera general los aspectos básicos son comunes. De igual manera, no hay una solución única y perfecta, siendo posible obtener el mismo resultado a través de diferentes expresiones.

Las expresiones regulares son de utilidad para todo tipo de investigación en la que se trabaje con datos que contengan texto:

  • Tareas avanzadas de búsqueda y reemplazo
  • Verificar la estructura de textos
  • Dividir o estructurar textos

Como muestra de estas aplicaciones, podemos en el caso de las URLs llevar a cabo una limpieza de las mismas reduciéndolas todas ellas al dominio. Para ello simplemente (después verás que, efectivamente, es sencillo) solo hay que indicar que busque la expresión regular /.* y la remplace por una cadena de texto vacía.

URL
bbc.com
star-ch.jp
govtrack.us
tyndalesploughboy.org
portal.historicenvironment.scot
dutchcharts.nl

Referencias

“Expresión Regular.” 2021. Wikipedia, La Enciclopedia Libre. https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular.