¿Por qué posicionan los contenidos generados por IA?.

En la WordCamp Pontevedra di una charla cuyo título era “Los contenidos generados por IA posicionan (lamentablemente) y ¡en esta charla os explico por qué!”. Para el desconsuelo de muchos profesionales del contenido y amantes de las buenas prácticas, amén de las buenas estrategias SEO de creación de contenidos que aporten valor al usuario, existen decenas de páginas con dudoso valor que posicionan.

TL;DR: Los contenidos generados por IA posicionan porque responden a lo que el usuario está buscando. No decimos nada sobre la respuesta correcta o no. Pero responden. Y ahí está la clave.

Video de WordPress.tv

Presentación de la ponencia

Esta es una versión ampliada a la que se mostró en pantalla, con mucha más información y referencias, para que tengais la máxima información que os puedo dar en un artículo.

Las inteligencias artificiales generativas

Todo esto nace de las Inteligencias Artificiales Generativas (otro día tendremos que referirnos a los motores generativos para búsquedas, que eso es otro cantar, del que ya hablamos en la conferencia de Fluor del 2023).

Las IA crean contenido nuevo que imita el estilo y la estructura del texto humano.

Son las IA más conocidas como ChatGPT las que, ante una pregunta, se inventan la respuesta en función de probabilidades y demás programaciones varias. El verbo inventar no está puesto aleatoriamente, está puesto a conciencia. Lo bueno es que la mayoría de las cosas que se inventa, ya que actua por probabilidades, es en realidad el contenido correcto.

¿Cómo funcionan los LLM?

En un algoritmo de clasificación basado en gráficos, se puede crear un gráfico para clasificar documentos/webs determinando una puntuación o clasificación de prominencia o importancia para cada frase en cada página web (cada frase puede tener una puntuación de prominencia diferente en relación con cada URL en la que se encuentre) donde:

  1. Cada neurona corresponde a una frase
  2. Los enlaces en el gráfico representan puntajes de similitud
  3. Todos los enlaces se establecen inicialmente en el mismo valor pero se aumentan o incrementan por una puntuación de personalización o sesgo.
  4. Cada neurona puede «votar» sobre qué tan similar es entre sí (generalmente usando una medida de distancia entre las incrustaciones de las frases adjuntas a las neuronas, como la distancia del coseno).
  5. Si dos neuronas son similares según una medida o umbral en una iteración, cada una puede compartir su peso con la otra neurona, enviando una parte de su peso a la otra neurona.
  6. El algoritmo eventualmente converge en iteraciones (como el pagerank), con neuronas que tienen poca similitud con otras neuronas, y no han ganado tanto peso como las neuronas que tienen similitud con muchas otras neuronas. La prominencia se toma de los pesos de cada neurona después de que una serie de iteraciones da como resultado la convergencia.
  7. Cada puntuación de prominencia puede basarse en la puntuación de relevancia del tema para la frase, y una puntuación de frecuencia inversa para la frase.

Simplificando mucho: Si le damos un texto previo ¿Qué palabra debe ir después?

Probabilidades de aparición de una palabra tras la frase inicial. What Is ChatGPT Doing… and Why Does It Work?

Entonces ¿por qué no siempre responde de la misma manera? Básicamente porque estos algoritmos tienen una variable de aleatoriedad para evitar convertirse en eso: una respuesta única.

Si profundizamos un poco más esta variable de aleatoriedad se produce porque, a más nodos, más probabilidad que en determinados nodos se encamine hacia uno u otro. Pero también, a mayor número de nodos dentro de un grán modelo de lenguaje (Large Language Model o LLM) la probabilidad de dar un resultado que case con la formación previa del modelo aumenta.

Aproximación a la respuesta. What Is ChatGPT Doing… and Why Does It Work?   

¿Qué dice Google de la IA?

“Usar la automatización (incluida la IA) para generar contenido con el fin principal de manipular el posicionamiento es una infracción de las políticas de spam de google.”

Webmasters guidelines de Google.

Esto está en la documentación que Google pone a disposición de todos los webmasters que quieren incrementar su tráfico orgánico.

Sin embargo, Google no se queja sobre si el contenido está o no creado por una IA. Es más, hay una frase de Danny Sullivan, portavoz de Search de google, que reza de la siguiente forma: “No se trata de si el contenido es generado por IA, generado por escritores en nómina, autónomos o el método de producción exacto sino, más bien, el propósito y la calidad.

¿Entonces? Mientras que la web sea relevante, el contenido responda lo que el usuario está buscando y lo haga bien, no hay problemas.

Y la clave en la frase de arriba (la vuelvo a copiar) “que el contenido responda lo que el usuario está buscando y lo haga bien” no significa que el contenido sea correcto verdadero. Google no valora si el contenido es correcto o no, lo que valora es que responda a lo que el usuario está buscando. Y esto, obviamente, es un grave problema.

Lo mismo pasa con las SGE: cuando, en sus nuevas funcionales, Google o bing te devuelve una respuesta a una determinada pregunta no significa que esa respuesta sea correcta sino que, mediante sus algoritmos de generación de contenidos, la probabilidad de que esa sea la respuesta que necesitas es mayor que otras, por eso te la da.

Unos pocos de ejemplos del uso de las IA para generar contenidos

No es algo nuevo: la generación de contenido creado por inteligencias artificiales lleva años entre nosotros. Os pongo varios ejemplos: 

En los últimos meses ha habido un boom en el sector de creación de contenidos automáticos y ha llegado a los medios de comunicación con noticias tan impactantes como “Falsos medios de comunicación que publican mil artículos al día: la IA llega a las granjas de contenido” donde se han identificado muchas webs que se disfrazan de medios (ejemplo, World Today News) para crear miles de URL al día con contenido y búsquedas tan variopintas como, en el ejemplo anterior, una URL para posicionar por la keyword “Paloma Bloyd Wikipedia”. ¿Otro ejemplo? Este de Josh Jaffe, uno de los directivos de ingenio.com, donde se vanagloriaba que, mientras antes de la aparición de estos programas informáticos generativos hacían unas pocas decenas de perfiles de celebridades ahora pueden hacer 10.000 al mes. Ingenio (San Francisco), propietario de horoscope.com y astrology.com, ha utilizado OpenAI para lanzar sunsigns.com y dreamdiary.com

Pero no nos vayamos a mercado americanos. Os pongo el ejemplo de varias cabeceras que crean contenido automáticamente (ver, ver, ver) en medios de comunicación españoles reputados y bien valorados. ¿Esto baja su calidad? No lo creo. Sigo.

Y es curioso que esto, que parece algo tan nuevo, no lo es. En el 2010 di una charla en el extinto SEO Sarao (un evento superexclusivo que se hacía en Marbella) sobre el discurso del político: una tabla de campos que, si se juntaban, podían dar miles de combinaciones y, al cambiar determinados sustantivos podíamos posicionar casi cualquier contenido sobre casi cualquier tema. Este es un ejemplo, que aún está vivo: Este artículo sobre el experto en Hemorroides sigue aún posicionado, aunque ya en segunda página.

¿Y por qué Google no se da cuenta?

Es muy complicado discernir el contenido hecho por IA del escrito por personas. Estos modelos aprenden con textos reales, así que el texto que se produce es un texto con mucha naturalidad.

Preámbulo de la Constitución Española
Revisión de contenidos generados por IA

Los problemas de los SGE

Los SGE o motores de búsqueda generativos son los que contestan a una pregunta diretamente con la respuesta sin pasar por los 10 links azules, por eso, en el mundo SEO, se ha levantado un gran revuelo.

  • Ha cambiado la interfaz: no hay 10 links azules.
  • Ha cambiado la verdad (o la sensación de verdad): ¿La tortilla de patatas se hace con cebolla?
  • Ha cambiado la fuente. O la no-fuente, porque ¿de dónde sale?

En el mundo del information retrieval esto no es recuperación de la información, esto es texto predictivo: a raíz de una pregunta la IA te devuelve lo que predice que responderá a tu búsqueda.

El problema por el que han alzado la voz los SEO (y en general todos los productores de contenido que han usado para alimentar estas herramientas) es que ya el buscador no da siquiera una referencia a la fuente sino que, como se «inventa» las respuestas ya no saca la información de una fuente concreta sino de n fuentes.

Esto conlleva la no visita, que implica menos ventas, menos impactos publicitarios y menos intereses por parte de los productores de contenidos de producirlos sin una remuneración a cambio.

La relación de parte de webmasters con las IA

Es obvio que hay muchas personas ganando dinero con las webs creadas en automático, con poca intervención humana o una intervención ínfima y que la creación de webs ha roto su última barrera: la necesidad de conocer el sector para poder escribir sobre él. Es, sin duda, un cambio en el paradigma brutal.

Dos ejemplos: David García o Álvaro Saez venden la creación de webs automáticas directamente o plugins para montar webs automáticas. La mayoría de los servicios son creación de webs automáticas de Amazon Afiliados. El pack suele incluir el montaje, los vídeos del proceso (montaje, buscar nicho, expirado, tips, scripts…), la consultoría y los gastos de la API de la web. O plugins como WP PAA Generator, que mezcla 3 tecnologías: Recopilación de preguntas PAA o listados de keywords long tail, scraping aleatorio de contenidos relacionados a las keywords y autotraducción de los textos en diversas combinaciones de idiomas. Os aconsejo que leais este artículo de Toñi Rodríguez, una buenísima manera de conocer más de las cosas que se están haciendo

Como veis, herramientas hay decenas: chatGPT 4, jasper.ai, copy.ai, Scalenut, trolly.ai, outranking.io, Writesonic, Koala, wordplay.ai, autoblogging, Content Sprout, escribelo.ai, kafkai.com, SEOWriting.ai, contents.com,… Esto no es una cuestión de herramientas, esto va de usarlas de manera mucho más inteligentemente.

Y hay veces que funcionan y otras no

Entonces ¿Qué hago para atraer tráfico?

Y aquí la pregunta del millón: entonces, desde el punto de vista SEO ¿Cómo atraigo al usuario con los nuevos motores generativos de contenido en los que, ante una pregunta, es el propio motor el que crea el contenido que responde a la búsqueda?

Y la respuesta es fácil: Si se implanta el resultado único producido por un SGE lo único que te queda es ser fuente y que el buscador te devuelva como tal. Vamos, como el SEO de toda la vida solo que el contenido ya lo tiene el buscante y solo si quiere ampliar información entraría en otras URL.

Sí. Es un palo gordo al posible tráfico orgánico que debemos recibir por ser los creadores del contenido.

E.E.A.T. Experiencia, conocimiento, autoridad y fiabilidad.

Google siempre ha querido la web del que más sabe sobre un determinado tema. Al principio era algo generalista pero, conforme las preguntas fueron más específicas, los resultados fueron siendo nutridos con webs de expertos en determinadas temáticas. Y eso es lo que google quiere: el experto en una determinada materia. 

Su nuevo mantra (la EEAT) viene pisando fuerte en los últimos años para favorecer a los usuarios expertos, los que tienen el conocimiento, de los que fiarse y con la autoridad suficiente para fiarte de ellos a ojos cerrados. Ese es el gran objetivo al que tenemos que alcanzar con nuestra web.

¿Qué es el Helpful Content Update?

Es una actualización del core de su algoritmo de ordenación creado para favorecer el contenido que ayuda, el que está creado para favorecer al usuario y el que da información de y penalizar el que no es útil.

Entonces, ¿cómo define Googe exactamente “contenido útil”?

Según Google el contenido útil es el que está creado para una audiencia específica, está escrito desde la experiencia, es digno de confianza y creíble y satisface los deseos o necesidades del buscador.
Recuerda: si quieres tráfico orgánico no es lo que tu consideres útil.

Google nos ha proporcionado una manera bastante sencilla para evaluar si el contenido es útil, en torno al contenido útil (HCU), otra actualización denominada PRU (Actualización de productos), los Core Updates y todo lo que tiene que ver con las actualizaciones de Panda (PU).

Quién, cómo, para qué y por qué

Quién, cómo, para qué y por qué son las preguntas claves a las que responde el último update de google basado en la calidad del contenido. La clave está en preguntarse (pero con vehemencia) y contestando consecuentemente (es decir, no siendo condescendiente con nosotros mismos) a cosas tan sencillas como las siguientes

  • Quién
    • ¿Se muestra claramente quién lo creó?
    • ¿Incluyen una firma?
    • ¿se muestra en el lugar indicado?
    • ¿Se proporciona información adicional sobre el autor, aportando datos sobre ellos y los temas sobre los que escriben?
  • Cómo
    • Da igual cómo pero si se usa IA hay que indicarlo y explicar por qué es útil crearlo con la IA.
  • Por qué
    • ¿Se crea porque es tendencia y hay que escribir sobre ello?
    • ¿Se crea porque necesitas visitas?
    • ¿Se crea porque necesitas URL sobre un determinado tema?
  • Para qué
    • ¿Se crea para ayudar a las personas ?
    • ¿Se crea para que sea útil?

Todas estas preguntas, y muchas más, están en las guidelines de google sobre el tema.

Esta actualización es importante porque te ayuda a valorar si el contenido de tu página web es, en realidad, lo que el usuario busca y, por ende, lo que el buscador quiere para sus usuarios.

Los Quality Rates

En todo el mundo existen más de 16.000 quality raters de google que valoran, en base a esas preguntas que te resumo arriba y que están ampliadas en el documento que te enlazo, tanto las SERP como los resultados en los que clican. Los resultados marcados como que no son contenido útil o son contenido spam nutren a la máquina que elige la idoneidad de una URL para responder a una búsqueda. Esas máquinas, controladas por IA (Neural Matching, RankBrain,…) y que se suman a las que vigilan la relevancia, el rendimiento y la UX de un sitio web se alimentan de las tipologías de contenidos que los quality raters descartan por lo que su base de datos de conocimiento se va aumentando conforme van apareciendo nuevas webs no correctas desde el punto de vista de Google.

HCU a nivel de sitio

La clave, pues, está en recompensar mejor el contenido que ofrece una experiencia satisfactoria para los visitantes, mientras que el contenido que no cumpla las expectativas de los visitantes no tendrá tan buen rendimiento. Y esta clasificación se realiza a nivel de sitio. Así que crea una web confiable.

Algunos consejos para cumplir con lo que Google te pide

Algunos consejos para crear esa web en la que google se fije para mostrar en sus resultados:

  1. Keyword research a nivel de entidad: Conocer la entidad que te rodea para crear contenidos relacionados hace que Google entienda que tu capacidad de creación de contenidos sobre un determinado tema te hace merecedor del posicionamiento.
  2. Ordena tu contenido en bloques informativos: La arquitectura de la información, con sus taxonomías y folksonomías, es fundamental para 1) que google encuentre todo lo que tienes que ofrecer y 2) agrupar por contenidos semánticos nuestro stock de URL
  3. Crea un contenido genial.
  4. Enlaza sólidamente: una estructura de linkado casi perfecta: Si tenemos clara la estructura tenemos que tener clara la manera en la que tenemos que enlazar entre las diferentes secciones. Hagámoslo. Pero que no moleste al lector.
  5. Sé una entidad confiable: Serlo y parecerlo. Ser una entidad confiable, donde el lector pueda conocer quién está detrás, quién lo escribe, por qué es relevante en el tema y por qué te tienes que fiar de la web en cuestión es fundamental.
  6. Dale al usuario lo que le has dicho que le vas a dar: la base del SEO es que el usuario, tras una búsqueda y elegir un resultado, termine en una URL que, efectivamente, responda a lo que ha buscado y lo que espera encontrar, así que mucho cuidado con el clickbait y con “engañar” al usuario diciéndole que le vas a dar un contenido y, en realidad, no se lo das. 

Autores

¿Y qué idea tienen Google con las autorías? ¿Cómo identifica google quien es el autor de un determinado texto? La verdad es que el gran buscador ya dio pasos atrás en el concepto de google plus (¿Os acordais de Google Plus? Creo que tengo alguna web aún que enlaza a mi cuenta de g+) y la asignación de los autores a los contenidos. Los últimos pasos dando relevancia a los autores de noticias dentro de las SERP parece que van en ese camino pero ¿Cómo sabe google quien escribe el contenido? ¿Cómo sabe google que no hay otra persona escribiendo ese contenido en tu nombre?.

En el SEontheBeach Cesar Aparicio nos contó el concepto de autoría desde la parte más matemática del tema. Y es que google está entrenándose para reconocer autorías de los textos que se escriben en internet. Hace unos años teníamos el rel=”author” para indicar el autor de un determinado contenido. Hoy quizá no lo necesite. Para ello, las dos patentes System and method for confirming authorship of documents (patente US9177074B2) y Generating author vectors (patente US11275895B1) nos dan pistas de la relevancia que puede llegar a darle a la relación entre un contenido y la persona detrás de ese contenido, porque ¡es que google lo tiene hasta en sus propias guidelines! En la parte de Crear contenido útil, fiable y centrado en las personas vuelve a insistir en la importancia de que esa creación de contenidos sea cuidada. Google te hace preguntarte ¿Se nota que se ha dedicado tiempo y esfuerzo a crear el contenido o, por el contrario, parece descuidado o se ha creado de forma apresurada? Pero si esto es importante aún más es la segunda parte “¿Está el contenido generado en masa por un gran número de redactores o repartido por una amplia red de sitios, de modo que cada página o sitio concreto no recibe demasiada atención ni cuidado?” Fijaros en el énfasis que pone en la importancia de tener identificados a los autores, a los creadores de contenido ¿Eso no nos da una pista? Os recomiendo la revisión de la presentación de Cesar El poder del estilo para impactar tu SEO y su video que os he enlazado más arriba.

La estilometría

Algo que los lingüistas llevan haciendo desde hace tiempo con las máquinas con cerebro IA han explotado en los últimos años. Es la estilometría.  Han descubierto una nueva obra de Lope de Vega gracias a la IA y a la estilometría digital: frecuencia un texto con 500 palabras de un texto con otras palabras se estima que puede ser el mismo autor. Si os interesa el tema os recomiendo echar un vistazo a etso.es donde explican como han aplicado la estilometría a las obras del Siglo de Oro español. Maravilloso.

La autoridad se come la relevancia

Si todo es como he contado ¿Por qué hay tantas URL “malas” en las búsquedas? ¿Por qué los grandes medios posicionan por términos como “las mejores freidoras”, “cuánto cuesta renovar un DNI” o “teléfono renfe” (seguro que muchos más ejemplos os vienen a la cabeza) Por la relevancia. La relevancia de un medio tradicional es bastante grande y su capacidad de recibir enlaces y potencia hace que muchos de ellos posicionen por encima de webs que sería más lógico que lo hicieran.

¿Y porque los “nicheros” consiguen buenos resultados? Pues porque también consiguen relevancia de manera mucho más sencilla que una web que “hace las cosas bien” Lo he puesto entre comillas a propósito porque “hacer las cosas bien” para google no es dar el resultado más veraz, sino dar el resultado que mejor contesta al usuario y más relevancia tiene.

Finalizando…

Hacer una web centrada en el usuario sigue siendo lo más importante de cara a que el buscador te mire con buenos ojos. Usar IA generativas para crear el contenido es una manera más de hacer contenido, pero no la única. En la “Inteligencia Artificial” la clave está en la palabra “inteligencia”. En el SEO, también. La marca es el centro del negocio: potenciarla para estar en el top of mind del usuario es fundamental.

In memoriam: Jose Luis Losada.

Más lecturas interesantes:


Fernando Muñoz

Ingeniero informático por la UAX, Master en Buscadores por la Pompeu Fabra. Chiclanero asentado en la Costa del Sol, dirijo Señor Muñoz Consultores, una de las agencias del Grupo Raiz Digital, del que soy cofundador. Inversor y mentor en Marketing Online. Soy SEO, especialista en posicionamiento en buscadores y proyectos de internet, con una gran base de Marketing Online. Soluciono problemas SEO.

2 comentarios en «¿Por qué posicionan los contenidos generados por IA?»

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

PPC

SEO

Te llamamos