Cómo saltarse el muro de pago de cualquier periódico español
Cómo leer cualquier artículo de pago de elpais, lavanguardia, elmundo, marca, expansión, abc, elconfidencial...
Hace unos meses todo el mundo en mi timeline estaba citando y comentando un artículo de elpais con título ‘¿Sabes cómo de rico eres? Averigua tu posición en la escalera del dinero, por renta y patrimonio’. Entré a leer y me encontré que era de pago. Pero también vi que el texto estaba ahí, apenas oculto por una línea del css. Eso fue lo que me pareció más interesante del artículo y puse este tuit improvisado que, para mi sorpresa, tuvo un éxito inusual. Y digo para mi sorpresa porque es algo muy conocido que explota los conocimientos más básicos sobre navegadores y páginas web. Sorprendentemente mucha gente no lo conocía.
El tuit se terminó convirtiendo en hilo en el que nos saltamos el muro de pago de elpais, lavanguardia, elmundo, marca, expansión, abc y elconfidencial. Ningún periódico español de los que probamos se resistió. Desde entonces varias personas en tuiter me han rescatado el hilo y varios amigos me han ido escribiendo por wasap para preguntar sobre cómo leer cierto artículo o para pedirme el link al hilo. Así que vamos a dejar esa información aquí por escrito en un sitio más accesible y algo más detallada.
Por qué podemos leer artículos de pago
Un paywall o muro de pago es un sistema que restringe el acceso a contenido a usuarios que no cuentan con una suscripción pagada. Normalmente se distingue entre paywall rígido y suave pero yo voy a ser claro: los muros de pago, los de verdad, no se pueden saltar.
Si te pones el candado en la cuenta de tuiter nadie que no te siga te podrá leer. Si hago esta newsletter de pago en substack nadie que no pague podrá leer. Y aquí no hay truquitos que valgan. Solo cabrían 2 estrategias: que te pase el contenido alguien que pague o encontrar un ‘hack’. Y esta última no existe a estas alturas (y si existiera duraría poco), además de que podría traernos problemas legales.
¿Entonces por qué podemos leer artículos con paywall? Porque es lo que llaman un soft paywall o directamente un engañabobos. Sí, estos sistemas me parecen una falta de respeto por parte del periódico para con el que sí paga. Son simplemente una apariencia de paywall pero que no es tal. El contenido es en realidad público, accesible a cualquiera y simplemente te lo han ocultado detrás de una pasarela de pago de alguna forma más o menos ingeniosa.
La pregunta evidente entonces es, ¿por qué ponen muros de pago suaves en lugar de muros de pago de verdad? AAAmigo, esa es la cuestión.
Poner un muro de pago te permite cobrar pero frena en seco el crecimiento. Piénsalo, si el artículo no es público, no indexa en google, no se viraliza en redes y ningún suscriptor potencial lo puede leer para saber si le gusta o no. Y si no se puede leer no vas a tener nuevos lectores ni de pago ni de gratis.
¿Por qué no lo indexa google? Por lo evidente: si no lo puedo leer no es un resultado de búsqueda relevante para mí (además si yo no puedo entrar google tampoco).
Es un modelo de negocio complicado, por eso no ponen paywalls de verdad. Los diarios online quien estar en misa y repicando. Mi hipótesis es que ninguno de los principales periódicos españoles tiene un muro de pago de verdad. Si después de leer este post encontráis algún artículo que no podéis leer, avisadme y lo pongo al final como curiosidad.
Por tanto los “trucos” que vamos a ver en este artículo solo aplican a esos muros de pago que en realidad no son tal. ¿Y cómo distinguirlos? Pues por norma general cualquier artículo al que hayamos llegado a través de los resultados de búsqueda de google o que se haya viralizado en alguna red social no tiene un muro de pago de verdad.
Cómo funciona una página web
A pesar de que mis conocimientos sobre el tema son los justos, vamos a ver una pequeña overview de cómo funciona una página web para entender qué trucos van a utilizar los periódicos para ocultar el contenido.
Cuando nosotros escribimos una url en el navegador, este hace una petición al servidor asociado a esa url (vía dns y esas historias). Podemos imaginar el servidor como un ordenador en la otra punta del mundo que tienen una información y ejecuta cierto código. Este servidor hace sus cálculos y le manda a nuestro ordenador un archivo, normalmente con extensión html, que es la página web.
Lo que ha ocurrido en el servidor es un misterio para nosotros pero no nos interesa aquí. Eso es el backend al que no tenemos acceso. Es lo que hace que distintas personas que acceden a una misma url vean cosas distintas según los parámetros, tokens, autorizaciones, contraseñas, cookies, ips… que acompañen la petición. Según esas variables el servidor nos devuelve un archivo html u otro (por eso es en el backend donde se montan los muros de pago de verdad, los que no se pueden saltar). Pero lo que nos interesa a nosotros es el frontend, lo que ocurre con ese archivo html.
Ese archivo html, cuya información ya tenemos guardada en alguna carpeta temporal de nuestro ordenador y que nuestro navegador va a interpretar, contiene normalmente 3 tipos de lenguajes: html, css y javascript.
Sugiero enfocarlo así. Imagina que la web es una casa…
El html crea las entidades, los objetos: tabique, puerta, ventana, pared, televisión…
El css da los estilos a esos objetos: rojo, suave, grande, transparente…
El javascript hace que esos objetos hagan cosas: cierra puerta, apaga televisión…
Si la página web fuera una frase, el html serían los sustantivos, el css los adjetivos y javascript los verbos: la puerta (html), roja (css), se cierra (js).
Ya estaría. Piensa que los objetos son contenedores cuadrados, inputs de texto, botones… Los estilos definen color, tamaño, transparencia, posición… Y todo lo anterior, que sería la parte estática de la web, se puede cambiar, añadir, quitar, destruir y crear con javascript.
Creo que ya estamos listos para entender las distintas estrategias que emplean los periódicos para ocultar el contenido y cómo saltárselas.
Los truquitos
Podemos dividir las estrategias que emplean los periódicos (y nuestras contraestrategias) en 2 tipos: los que simplemente han añadido algo de css o js para ocultar el texto (este es el caso de elpais, lavanguardia, marca o elconfidencial) y los que te mandan un muro de pago real pero el artículo está o ha estado público (este es el caso de elmundo, expansión o abc).
CSS, HTML. Esto es lo más habitual. Suelen poner algo delante que no te deja ver el contenido, dar al contenido la propiedad ‘display: none’ o deshabilitar algún scroll con ‘overflow: hidden’. Es tan fácil como abrir el inspector (click derecho → inspeccionar), localizar el elemento del html que contiene el texto del artículo (si conocemos la primera frase podemos buscar con ctrl+f) y cambiar a ‘display: block’ o quitar la línea css que nos esté molestando. Esto hay que hacerlo con cada artículo que quieras leer pero en cuanto lo hayas hecho un par de veces te saldrá solo. Ejemplo de elpais, lavanguardia, marca, elconfidencial aquí.
JS. La línea css anterior normalmente la crea un código javascript que se ejecuta al cargar la página. Desactiva el js en esta web desde la configuración de tu navegador (para chrome pega esto donde la url: chrome://settings/content/javascript). Esto solo lo tendrás que hacer una vez y podrás leer todos los artículos que quieras en ese periódico. Ejemplo de elpais, lavanguardia, marca, elconfidencial aquí.
Cache, archive. El periódico hace público el artículo unos días antes pero en oculto (sin enlaces visibles al usuario) y cuando google lo indexa lo publican oficialmente con muro de pago real. O también la variante de un artículo antiguo que ha posicionado muy bien y le meten paywall. En ambos casos nos funcionará abrir el artículo en cache de google (si estás en chrome simplemente escribe delante de la url ‘cache:’) o buscar una versión antigua del mismo en archive.org. Ejemplo abc aquí.
Versión móvil. El periódico publica el artículo con un muro de pago real en la versión web pero no en la versión móvil. Pues nos vamos a la versión móvil añadiendo ‘amp.’ (Accelerated Mobile Pages) delante de la url y tocamos el css o js como se indica arriba. Ejemplo de elmundo, expansion aquí.
Cookies, ip. El artículo es público pero el periódico devuelve un muro de pago real a usuarios específicos en función de su ip, cookies… (por ejemplo, a los que ya han leído varios artículos). Esto es tan fácil como abrir el artículo de incógnito, borrar cookies o reiniciar el router para que cambie la ip.
En el hilo puedes encontrar más ejemplos explicados con imagen y video.
Por un tema de comodidad yo sugiero dejar el javascript desactivado para los periódicos que leamos habitualmente y para los casos puntuales probar, en este orden, a abrir en cache, de incógnito, en la versión móvil, desactivar js y tocar el css. Asumo que ningún artículo se merece que esperemos a que reinicie el router…
Pd1. Además de las estrategias anteriores existen extensiones para el navegador y herramientas online que intentan hacer todas o alguna de estas cosas automáticamente por nosotros, pero en mi experiencia muchas veces no consiguen extraer el contenido a pesar de no tener el artículo un muro de pago real.
Pd2. Post sugerido que escribí hace unos meses sobre scraping.
Actualización 2023/01/12. Me habéis pasado varios periódicos regionales (como lavozdegalicia, elcorreo, eldiariomontanes, elcomercio… varios del grupo vocento) que no he podido leer. El hecho de haber estado un rato (largo) intentando saltar el muro de pago sin éxito me invita a pensar que tienen muros de pago de verdad. Pero el hecho de que el artículo esté indexado y google conozca su contenido (lo que aparece en los resultados de búsqueda no coincide con lo que hay dentro de la web) me hace sospechar que quizá sea simplemente un tema de conocimientos, de que yo no soy capaz de saltarme ese muro. Aportaciones en este sentido son bienvenidas.
No te compliques la vida, dale al botón de *modo lectura* y arreando. En Firefox Ctrl+Alt+R
Vocento:
1. Desactiva Javascript.
2. Sus URL acaban en... nt.html - cambiar a nt_amp.html (versión móvil)
3. Enter y listo.
4. Se puede limpiar el banner vía Inspector o
desde móvil volver a activar Javascript para activar el READER en la barra y ya se ve el texto entero y limpio.
El modo lectura no siempre funciona. Hay que salsear con todo: JavaS, Incógnito, Reader, versiones móvil (varían según medio), caché o hacer creer que eres Google sin tocar User Agent.
Ejemplo Financial Times:
www.ft.com
1. Click noticia.
2. Copia su titular.
3. Abre Google App o Chrome y pega titular y buscar
4. Click en el resultado-titular. Y listo, aunque no este en cache:https....
Si hay otro periódico que se necesite...