Seguridad informática

Open Source Intelligence | ¿Qué es la inteligencia de fuente abierta y cómo se utiliza?

27 septiembre 2023

La Inteligencia de Fuentes Abiertas (OSINT) es un método de recopilación de información de fuentes públicas u otras fuentes abiertas, que puede ser utilizado por expertos en seguridad, agencias nacionales de inteligencia o ciberdelincuentes. Cuando la utilizan los ciberdefensores, el objetivo es descubrir información disponible públicamente relacionada con su organización que podría ser utilizada por los atacantes, y tomar medidas para prevenir esos futuros ataques.

OSINT aprovecha la tecnología avanzada para descubrir y analizar cantidades masivas de datos, obtenidos mediante el escaneo de redes públicas, de fuentes de acceso público como las redes de medios sociales, y de la web profunda -contenido que no es rastreado por los motores de búsqueda, pero que sigue siendo de acceso público.

Las herramientas OSINT pueden ser de código abierto o patentadas: hay que distinguir entre el código fuente abierto y el contenido de código abierto. Incluso si la herramienta en sí no es de código abierto, como herramienta OSINT, proporciona acceso a contenido disponible abiertamente, conocido como inteligencia de código abierto.

Contenidos

Open Source Intelligence | Puntos clave

La inteligencia de fuente abierta se deriva de los datos y la información que están a disposición del público en general. No se limita a lo que se puede encontrar en Google, aunque la llamada «web de superficie» es un componente importante.
Por muy valiosa que pueda ser la inteligencia de fuente abierta, la sobrecarga de información es una preocupación real. La mayoría de las herramientas y técnicas utilizadas para llevar a cabo iniciativas de inteligencia de fuente abierta están diseñadas para ayudar a los profesionales de la seguridad (o a los actores de amenazas) a centrar sus esfuerzos en áreas específicas de interés.
La inteligencia de código abierto tiene un lado oscuro: todo lo que pueden encontrar los profesionales de la seguridad también lo pueden encontrar (y utilizar) los actores de amenazas.
Disponer de una estrategia y un marco claros para la recopilación de inteligencia de código abierto es esencial: limitarse a buscar cualquier cosa que pueda ser interesante o útil conducirá inevitablemente al agotamiento.

De todos los subtipos de inteligencia sobre amenazas, la inteligencia de código abierto (OSINT) es quizá el más utilizado, lo cual tiene sentido. Al fin y al cabo, en su mayor parte es gratuita, ¿y quién puede decir que no a eso?

Por desgracia, al igual que los otros subtipos principales -inteligencia humana, inteligencia de señales e inteligencia geoespacial, por nombrar algunos-, la inteligencia de código abierto se malinterpreta y se utiliza indebidamente.

¿Qué es la inteligencia de código abierto?

Antes de examinar las fuentes y aplicaciones habituales de la inteligencia de fuente abierta, es importante entender qué es realmente.

Según el derecho público estadounidense, la inteligencia de fuente abierta

Se produce a partir de información disponible públicamente.
Se recopila, analiza y difunde oportunamente a un público adecuado.
Responde a una necesidad específica de inteligencia.

La frase importante en la que hay que centrarse aquí es «a disposición del público».

El término «código abierto» se refiere específicamente a la información que está disponible para el consumo público. Si se requieren conocimientos, herramientas o técnicas especializadas para acceder a una información, no puede considerarse razonablemente de código abierto.

Y lo que es más importante, la información de código abierto no se limita a lo que se puede encontrar en los principales motores de búsqueda. Las páginas web y otros recursos que se pueden encontrar en Google constituyen sin duda fuentes masivas de información de código abierto, pero no son ni mucho menos las únicas.

Para empezar, una enorme proporción de Internet (más del 99%, según el ex CEO de Google Eric Schmidt) no se puede encontrar utilizando los principales motores de búsqueda. La llamada «web profunda» es una masa de sitios web, bases de datos, archivos y demás que (por diversas razones, entre ellas la presencia de páginas de acceso o muros de pago) no pueden ser indexados por Google, Bing, Yahoo o cualquier otro motor de búsqueda que se le ocurra. A pesar de ello, gran parte del contenido de la web profunda puede considerarse de código abierto porque está a disposición del público.

Además, hay un montón de información en línea de libre acceso que se puede encontrar utilizando herramientas en línea distintas de los motores de búsqueda tradicionales. Veremos esto más adelante, pero como ejemplo sencillo, herramientas como Shodan y Censys pueden utilizarse para encontrar direcciones IP, redes, puertos abiertos, cámaras web, impresoras y prácticamente cualquier otra cosa que esté conectada a Internet.

La información también puede considerarse de código abierto si está

Se publica o difunde para una audiencia pública (por ejemplo, el contenido de los medios de comunicación).
Está a disposición del público previa solicitud (por ejemplo, datos censales)
Está a disposición del público mediante suscripción o compra (por ejemplo, revistas del sector).
Pueden ser vistos u oídos por cualquier observador casual.
Disponible en una reunión abierta al público
Obtenidos visitando cualquier lugar o asistiendo a cualquier evento abierto al público

Estamos hablando de una cantidad de información realmente inimaginable que crece a un ritmo muy superior al que cualquiera podría aspirar a seguir. Incluso si reducimos el campo a una sola fuente de información, pongamos por caso Twitter, nos vemos obligados a lidiar con cientos de millones de nuevos puntos de datos cada día.

Como probablemente ya habrás deducido, esta es la contrapartida inherente a la inteligencia de fuente abierta.

Como analista, disponer de tal cantidad de información es a la vez una bendición y una maldición. Por un lado, tienes acceso a casi cualquier cosa que puedas necesitar, pero por otro, tienes que ser capaz de encontrarla en un torrente interminable de datos.

¿Cómo se utiliza la inteligencia de código abierto?

Ahora que hemos cubierto los aspectos básicos de la inteligencia de código abierto, podemos ver cómo se utiliza habitualmente para la ciberseguridad. Hay dos casos de uso comunes:

1. Hacking ético y pruebas de penetración

Los profesionales de la seguridad utilizan información de fuentes abiertas para identificar posibles puntos débiles en redes amigas, de modo que puedan remediarse antes de que sean explotados por agentes de amenazas. Los puntos débiles más comunes son

Filtraciones accidentales de información sensible, como a través de las redes sociales
Puertos abiertos o dispositivos conectados a Internet no seguros.
Software sin parches, como sitios web que ejecutan versiones antiguas de productos CMS comunes.
Activos filtrados o expuestos, como código propietario en pastebins.

2. Como ya hemos comentado en numerosas ocasiones, Internet es una excelente fuente de información sobre las amenazas más acuciantes para una organización.

Desde identificar qué nuevas vulnerabilidades se están explotando activamente hasta interceptar la «charla» de los actores de amenazas sobre un próximo ataque, la inteligencia de código abierto permite a los profesionales de la seguridad priorizar su tiempo y recursos para hacer frente a las amenazas actuales más significativas.

En la mayoría de los casos, este tipo de trabajo requiere que un analista identifique y correlacione múltiples puntos de datos para validar una amenaza antes de actuar. Por ejemplo, aunque un único tuit amenazador puede no ser motivo de preocupación, ese mismo tuit se vería con otros ojos si estuviera vinculado a un grupo de amenazas conocido por su actividad en un sector específico.

Una de las cosas más importantes que hay que entender sobre la inteligencia de fuentes abiertas es que a menudo se utiliza en combinación con otros subtipos de inteligencia. La inteligencia procedente de fuentes cerradas, como la telemetría interna, las comunidades cerradas de la dark web y las comunidades externas de intercambio de inteligencia, se utiliza habitualmente para filtrar y verificar la inteligencia de fuente abierta. Existe una variedad de herramientas disponibles para ayudar a los analistas a realizar estas funciones, que veremos un poco más adelante.

El lado oscuro de la inteligencia de código abierto

Llegados a este punto, es hora de abordar el segundo gran problema de la inteligencia de código abierto: si algo está fácilmente disponible para los analistas de inteligencia, también lo está para los actores de amenazas.

Los actores de amenazas utilizan herramientas y técnicas de inteligencia de código abierto para identificar objetivos potenciales y explotar las debilidades de las redes objetivo. Una vez identificada una vulnerabilidad, a menudo es un proceso extremadamente rápido y sencillo explotarla y lograr una variedad de objetivos maliciosos.

Este proceso es la principal razón por la que tantas pequeñas y medianas empresas son pirateadas cada año. No es porque los grupos de amenazas se interesen específicamente por ellas, sino más bien porque se encuentran vulnerabilidades en la arquitectura de su red o sitio web utilizando sencillas técnicas de inteligencia de código abierto. En resumen, son objetivos fáciles.

Y la inteligencia de código abierto no sólo permite ataques técnicos a sistemas y redes de TI. Los actores de las amenazas también buscan información sobre personas y organizaciones que puedan utilizar para elaborar sofisticadas campañas de ingeniería social mediante phishing (correo electrónico), vishing (teléfono o buzón de voz) y SMiShing (SMS). A menudo, información aparentemente inocua compartida a través de redes sociales y blogs puede utilizarse para desarrollar campañas de ingeniería social muy convincentes, que a su vez se emplean para engañar a usuarios bienintencionados para que pongan en peligro la red o los activos de su organización.

Por eso es tan importante utilizar la inteligencia de código abierto con fines de seguridad: le da la oportunidad de encontrar y corregir puntos débiles en la red de su organización y eliminar información sensible antes de que un actor de amenazas utilice las mismas herramientas y técnicas para explotarlos.

Técnicas de inteligencia de código abierto

Ahora que hemos cubierto los usos de la inteligencia de fuente abierta (tanto los buenos como los malos) es el momento de examinar algunas de las técnicas que se pueden utilizar para recopilar y procesar la información de fuente abierta.

En primer lugar, hay que tener una estrategia y un marco claros para adquirir y utilizar información de fuentes abiertas. No es recomendable abordar la inteligencia de fuentes abiertas desde la perspectiva de encontrar cualquier cosa que pueda ser interesante o útil; como ya hemos dicho, el enorme volumen de información disponible a través de las fuentes abiertas simplemente te abrumará.

En su lugar, debe saber exactamente lo que está tratando de lograr -por ejemplo, identificar y remediar los puntos débiles de su red- y centrar sus energías específicamente en la consecución de esos objetivos.

En segundo lugar, debe identificar un conjunto de herramientas y técnicas para recopilar y procesar la información de fuentes abiertas. Una vez más, el volumen de información disponible es demasiado grande para que los procesos manuales sean mínimamente eficaces.

En términos generales, la recopilación de información de fuentes abiertas se divide en dos categorías:

Recopilación pasiva.
Recopilación activa.

La recopilación pasiva suele implicar el uso de plataformas de inteligencia sobre amenazas (TIP, por sus siglas en inglés, threat intelligence platforms) para combinar una variedad de fuentes de amenazas en una única ubicación de fácil acceso. Aunque esto supone un gran avance respecto a la recopilación manual de inteligencia, el riesgo de sobrecarga de información sigue siendo significativo. Las soluciones de inteligencia sobre amenazas más avanzadas, como Recorded Future, resuelven este problema utilizando inteligencia artificial, aprendizaje automático y procesamiento del lenguaje natural para automatizar el proceso de priorización y descarte de alertas en función de las necesidades específicas de una organización.

De forma similar, los grupos organizados de amenazas suelen utilizar botnets para recopilar información valiosa mediante técnicas como el rastreo de tráfico y el keylogging.

Por otro lado, la recopilación activa es el uso de una variedad de técnicas para buscar perspectivas o información específicas. Para los profesionales de la seguridad, este tipo de trabajo de recopilación suele realizarse por una de estas dos razones

Una alerta recogida de forma pasiva ha puesto de manifiesto una amenaza potencial y se necesita más información.
El objetivo de un ejercicio de recopilación de inteligencia es muy específico, como un ejercicio de pruebas de penetración.

Herramientas de inteligencia de código abierto

Para terminar, echaremos un vistazo a algunas de las herramientas más utilizadas para recopilar y procesar inteligencia de código abierto.

Aunque hay muchas herramientas útiles y gratuitas a disposición de los profesionales de la seguridad y de los actores de amenazas por igual, algunas de las herramientas de inteligencia de código abierto más utilizadas (y de las que más se abusa) son los motores de búsqueda como Google, pero no como la mayoría de nosotros los conocemos.

Como ya hemos explicado, uno de los mayores problemas a los que se enfrentan los profesionales de la seguridad es la regularidad con la que usuarios normales y bienintencionados dejan accidentalmente activos e información sensibles expuestos a Internet. Existen una serie de funciones de búsqueda avanzada denominadas consultas «tontas de Google» que pueden utilizarse para identificar la información y los activos que dejan al descubierto.

Las dork queries de Google se basan en los operadores de búsqueda que utilizan a diario los profesionales informáticos y los hackers para realizar su trabajo. Algunos ejemplos comunes son «filetype:», que limita los resultados de búsqueda a un tipo de archivo específico, y «site:», que sólo devuelve resultados de un sitio web o dominio concreto.

El sitio web de Public Intelligence ofrece un resumen más detallado de las consultas de Google, en el que se ofrece el siguiente ejemplo de búsqueda:

«sensible pero no clasificado» filetype:pdf site:publicintelligence.net

Si escribes este término de búsqueda en un motor de búsqueda, sólo te devolverá documentos PDF del sitio web de Public Intelligence que contengan las palabras «sensitive but unclassified» en algún lugar del texto del documento. Como se puede imaginar, con cientos de comandos a su disposición, los profesionales de la seguridad y los actores de amenazas pueden utilizar técnicas similares para buscar casi cualquier cosa.

Más allá de los motores de búsqueda, existen literalmente cientos de herramientas que pueden utilizarse para identificar puntos débiles de la red o activos expuestos. Por ejemplo, se puede utilizar Wappalyzer para identificar qué tecnologías se utilizan en un sitio web, y combinar los resultados con Sploitus o la National Vulnerability Database para determinar si existe alguna vulnerabilidad relevante. Yendo un paso más allá, podría utilizar una solución de inteligencia de amenazas más avanzada como Recorded Future para determinar si una vulnerabilidad está siendo explotada activamente o está incluida en algún kit de explotación activo.

Por supuesto, los ejemplos aquí expuestos son sólo una pequeña fracción de lo que se puede hacer con las herramientas de inteligencia de código abierto. Existe un gran número de herramientas gratuitas y de pago que pueden utilizarse para buscar y analizar información de fuentes abiertas, con funcionalidades comunes que incluyen:

Búsqueda de metadatos
Búsqueda de código
Investigación de personas e identidades
Investigación de números de teléfono
Búsqueda y verificación de correo electrónico
Vinculación de cuentas de redes sociales
Análisis de imágenes
Investigación y cartografía geoespacial
Detección de redes inalámbricas y análisis de paquetes

Empezar con el fin en mente

Sean cuales sean tus objetivos, la inteligencia de código abierto puede ser tremendamente valiosa para todas las disciplinas de seguridad. En última instancia, sin embargo, encontrar la combinación adecuada de herramientas y técnicas para sus necesidades específicas te llevará tiempo, así como un cierto grado de ensayo y error. Las herramientas y técnicas que necesitas para identificar activos inseguros no son las mismas que las que te ayudarían a dar seguimiento a una alerta de amenaza o a conectar puntos de datos a través de una variedad de fuentes.

El factor más importante para el éxito de cualquier iniciativa de inteligencia de código abierto es la presencia de una estrategia clara: una vez que sepas lo que estás tratando de lograr y hayas establecido los objetivos en consecuencia, la identificación de las herramientas y técnicas más útiles será mucho más factible.

Lectura que te puede interesar:
Darse de baja de Buscar-Cuit, Dateas, Cuit Online, BuscarDatos y DataCuit

Comentarios