2. Presentación
Grupo Social Media
Aragón P., Gould J., Kaltenbrunner A., Kappler K., Laniado D., Ruiz de Querol R., Ullod C., and Volkovich Y.
(2012),“Bridging the Gap: A Reflection on an Interdisciplinary Approach to Social Media Research”, In
Proceedings of the Web Science track in The World Wide Web Conference (www2012)
1. Desarrollo de herramientas que permitan a los estudios sociológicos de Big Data
2. Diseño y desarrollo de metodologías para realizar experimentos en Social Media
3. Social Media a nivel empresarial
4. Social Media para la innovación social
Grupo DatAnalysis15M
Toret J. (ed) (2013), “Tecnopolítica: la potencia de las multitudes conectadas – El sistema-red 15M un nuevo
paradigma de la política distribuida”
1. Modelar el 15M desde diversas disciplinas (sistemas complejos, lingüística,
filosofía, psicología, inteligencia artificial, ciencias políticas, narrativa
transmedia...)
2. Crear una red colaborativa de investigación sobre movimientos sociales en red 2
3. Avanzar en el estudio de modelos democráticos para la sociedad red
4. Organizar encuentros para artículos y proyectos con estos fines
3. Índice
Introducción
Topología - Métricas estructurales
Influencia - Métricas de centralidad
Viralidad - Modelos de propagación
Material adicional
3
5. Origen
La ciudad rusa de Kaliningrado está cruzada por el
río Pregel formando dos pequeñas islas sobre las
que se elevaba el centro de la ciudad.
“¿Pueden cruzarse los siete puentes y regresar al
mismo punto sin pasar dos veces por uno mismo
puente?”
5
Imagen: Wikipedia
6. Origen
Leonard Euler determinó que para este
problema:
los puntos intermedios de un recorrido posible necesariamente
han de estar conectados a un número par de líneas
si llegamos a un punto desde alguna línea, entonces el único
modo de salir de ese punto es por una línea diferente.
6
Imagen: Wikipedia
7. Teoría de grafos
Un grafo G es un par ordenado G = (V,A), donde:
V es un conjunto de vértices o nodos, y
A es un conjunto de aristas o enlaces, que relacionan estos
nodos
7
Imagen: Wikipedia
8. Representación de grafos
Un grafo G = (V,A), puede representarse como:
listas
matrices
8
Imagen: Wikipedia
9. Modelo científico
Representación abstracta (simplificando la realidad) para:
analizar
explicar
simular
Imagen: relnet.com
un sistema complejo (e.g. una red social) 9
10. Análisis de Redes Sociales
¿Qué es el análisis de redes sociales?
Investiga relaciones sociales
Mapeando las relaciones entre individuos a la teoría de redes
Teoría de grafos
Estructura de grafos modela:
Individuos como nodos Imagen: relnet.com
Relaciones como aristas 10
11. Redes sociales
Tipo de relaciones sociales:
Dirigida: La relación social no es bidireccional
Seguidores en Twitter
Fan pages en Facebook
Interacciones en foros
No dirigida: La relación social es recíproca
Amistades en Facebook
Coautores en artículos científicos
Explícita: Los propios usuarios declaran la relación
Amistades en Facebook
Seguidores en Twitter
Implícita: La relación se deduce del comportamiento
Compra en e-bay 11
Interacciones en foros
13. Grado
Definición
Número de aristas incidentes al vértice
Tipos
redes no dirigida: grado
redes dirigidas: grado de entrada / salida Imagen: Wikipedia
redes sin pesos: grado
redes con pesos: suma de los pesos de cada arista
13
14. Número de Dunbar
Definición
Una persona es capaz de relacionarse plenamente con un
máximo de 150 personas (grado=147.8) [Dunbar, 1992]
Viene determinado por el límite cognitivo del ser humano
Ciertos estudios indican aparición de conflictos en
organizaciones superiores a esta cifra
14
Imagen: www.economist.com
15. Distribución de grado
Definición
• Fracción de nodos en la red con un cierto grado k.
• El grado de un nodo en una red es el número de conexiones de un
vértice o nodo con otros nodos
15
Imagen: Wikipedia
16. Distribución de grado
Redes aleatorias
Se define como un grafo que es generado por algún tipo de
proceso aleatorio [Erdos and Renyi, 1960]:
nodos conectados aleatoriamente
red indirecta
16
Imágenes: Wikipedia
17. Distribución de grado
Redes libres de escala
Un pequeño grupo de nodos con un grado elevado y una gran
cola de nodos con un grado reducido [Barabási et al., 1999]
Ejemplos
Redes de llamadas telefónicas
Redes comercio internacional
Rutas aeroportuarias
17
Imagen: convetry.ac.uk
19. Conexión preferencial
El proceso de conexión preferencial (preferential attachment)
explica por qué la distribución de grado responde a una ley de
potencias (long tail):
Enlaces a páginas web
Citas a artículos científicos
“El rico se hace más rico”
19
Imagen: Wikipedia
20. Distancia
Definición
Mide el promedio de intermediarios que se necesita para llegar
de un usuario cualquiera a otro pasando sólo por contactos
directos.
Seis grados de separación
Experimento de Milgram con cartas [Milgram 1967]
Distancia promedio = 6
20
Imagen: Wikipedia
21. Distancia promedio
Cálculo en redes sociales
Promedio d entre las distancias posibles entre todas las posibles
parejas de usuarios
Normalmente las distancias son cortas
d = 6,6 en MSN Messenger (N = 220M usuarios) [Leskovec 2008]
d = 3,48 actores de películas (N = 450 000)
d = 6,19 coautores de artículos físicos (N = 53 000)
d = 4,95 e-mails (N = 60 000) [Newman 2003a]
21
22. Seis grados de separación
Six degrees of Kevin Bacon
Solo 17 de 700K actores de la red de IMDB están a una
distancia=8 de Kevin Bacon. (http://oracleofbacon.org/)
[Ruthven 1994]
Otros
Matemáticas: Paul Erdös
Física: Albert Einstein
Lingüística: Noam Chomsky
Economía: Joseph Stiglitz
Matemáticas+Interpretación: Paul Erdös + Kevin Bacon 22
Imágenes: Wikipedia
23. Diámetro
¿Y las distancias máximas?
• Suelen ser más grandes
• Máxima distancia D de las distancias entre todas las
• posibles parejas de usuarios
• D se llama diámetro de la red
• Diámetro efectivo (90% percentil de las distancias)
Dato curioso
• El diámetro decrece si crece la red [Leskovec 2007]
• Cuanto más usuarios, más cercanos son.
• Más usuarios conlleva muchas más relaciones 23
24. Densidad
Definición
• Proporción del número de relaciones en la red relativas al total.
Propiedades
• Redes sociales suelen ser muy poco densas.
• Densidad depende del tamaño de la red.
• Cuanto más usuarios, más baja suele ser la densidad.
• La red de respuestas tiene más usuarios y más conexiones por
usuario pero es menos densa.
• La densidad sirve para comparar redes de tamaño similar.
24
25. Componente gigante
Definición
• Es el componente conexo más grande de la red.
• En un componente conexo existe un camino entre
• cualquier pareja de usuarios que pertenecen a este componente
conexo.
• No hay usuarios aislados en este componente.
25
Imagen: Wikipedia
26. Componente gigante
Propiedades en redes sociales
• Suele ser muy grande.
• La gran mayoría de los nodos pertenecen a el.
• Sólo existen grupos muy pequeños aparte de este.
• Si un grupo aislado empieza a tener alrededor del orden de 10
miembros se une al componente gigante.
26
Imagen: Wikipedia
27. Coeficiente de clustering
Definición
• Mide la densidad de conexiones entre los vecinos
directos de un usuario.
• C es el promedio de coeficientes locales Ci
• Ci se calculado para cada usuario
Ci = Ei / (ki * (ki) - 1))
• ki = el grado total (grado entrante más saliente) del nodo
• Ei = el conjunto de aristas entre los vecinos directos del
usuario directos del usuario i
27
Imagen: Wikipedia
28. Redes de mundo pequeño
Redes de mundo pequeño [Watts 1998]
• Distancia promedio reducida
• Diámetro crece logarítmicamente con el número de nodos
• Coeficiente de clustering alto
28
Imagen: emotionaliching.com
29. Enlaces débiles
[Granovetter 1983]
La dinámicas de difusión y coordinación se ven influidas por
vínculos establecidos con nodos que pertenecen a otros clusters.
Ha adquirido gran vigencia con el auge de las redes sociales y las
redes profesionales.
29
Imagen: http://www.facebook.com/note.php?note_id=469716398919
30. Enlaces débiles
[Bakshy 2012]
Los enlaces débiles tienen el mayor potencial para exponer enlaces
a sus contactos que no de otro modo habría descubierto.
30
Imágenes: http://www.facebook.com/note.php?note_id=469716398919
31. Enlaces débiles
[Grabowicz et al., 2012]
Interacciones personales son más probables de ocurrir en los
enlaces internos a los grupos (enlaces fuertes)
La propagación de eventos o nueva información se propagan por
enlaces intermedios (enlaces débiles)
31
32. Reciprocidad
Definición
• Métrica para redes dirigidas.
• Mide la cantidad de aristas bidireccionales.
• Ratio entre las aristas bidireccionales y el número total de aristas
es sesgado
• donde ...
• aij = 1 si existe una arista entre los nodos i y j).
32
• â es la densidad del grafo
34. Asortatividad
Definición
Mide si existe una preferencia para relaciones entre usuarios
con las mismas o diferentes características.
Posibles características:
Número de relaciones
Sexo
Edad
Raza
Peso
Lengua materna
etc. 34
35. Asortatividad
Interpretación
r > 0: mezclado asortativo
Existe una preferencia de relaciones entre usuarios similares.
Usuarios con muchos contactos se relacionan preferentemente
entre ellos y vice versa.
r = 0: mezclado neutral
No hay preferencia de relación.
r < 0: mezclado disortativo
Existe una preferencia de relaciones entre usuarios con
características diferentes. 35
Por ejemplo entre usuarios con muchos pocos contactos.
36. Asortatividad
Ejemplos
actores de películas: r = 0;208
coautores de artículos físicos: r = 0;36
e-mails (libretas de direcciones): r = 0;092
Resultados
Por grado (número de conexiones):
Muchas redes sociales son asortativas: los nodos más activos se
conectan más entre sí
En Wikipedia, es al revés (red disortativa): los más activos
interactúan sobre todo con los menos expertos [Laniado et al., 2011]
Por género: 36
En Wikipedia, las mujeres hablan más entre sí
En Tuenti, no hay preferencias significativas
39. Modularidad
Definición
Los módulos de la red son conjuntos de nodos altamente
interconectados. La modularidad expresa la fracción de aristas
dentro de un mismo módulo frente al valor esperado en una red
aleatoria
Utilidad
Detección de comunidades (e.g. Método Louvain [Blondel et al,. 2008])
39
Imagen: sociedadinformacion.fundacion.telefonica.com
40. Modularidad
Análisis de la red de ciudades hermanadas [Kaltenbrunner et al. 2013]
USA, España y la
mayoría de países de
Sudamérica, Asia y
África.
Europa oriental y países
balcánicos (enlaces
fuertes entre Turquía,
Rusia y Polonia)
Europa central y
occidental (y algunas de
sus ex-colonias)
40
Países nórdicos
41. Conclusiones
• Podemos modelar relaciones sociales a través de redes
• Las métricas estructurales permiten caracterizar las redes como:
• De pequeño mundo (small-world)
• Erdös – Renyi
• Libres de escala
• y muchas más!
• La visualización facilita la comprensión de las características
estructurales de la red
41
43. Motivación
Personas se influencian mutuamente
Afectan el pensamiento, sentimientos y acciones de
otros.
¿Se puede medir el potencial de una persona en
una red social a influir en los demás?
43
Imagen: http://mashable.com/
45. Centralidad de grado
Explicación
Identificar los nodos con un mayor número de enlaces a otros
nodos
Cálculo
Corresponde al grado (número de enlaces) de cada nodo
45
Imagen: Wikipedia
46. Closeness
Explicación
En un modelo de difusión se suele interpretar como el tiempo de
llegada de algo que fluye a través de la red
Mide la accesibilidad de un nodo respecto a otro.
Cálculo
Es la suma de las distancias en una red de todos los nodos de la
red, donde la distancia de un nodo a otro se define como la
longitud (en enlaces) del camino más corto de un nodo a otro.
46
47. Betweenness
Explicación
Indica la frecuencia que un usuario aparece en el camino más
corto entre dos otros.
Cálculo
de un usuario i CB (i) = ∑ s ≠i ≠ t ∈ V σst(i) / σst
σst(i) número de diferentes
caminos más cortos entre
los nodos s y t
σst la cantidad de ellas que 47
pasa por el nodo i
Imagen: Wikipedia
48. Comparativa
Líderes
Centralidad de grado
Centralidad por cercanía (closeness)
Centralidad por intermediación (betweenness)
48
Imagen cedida por Y. Volkovich
49. Comparativa
Líderes
Centralidad de grado: usuario A
Centralidad por cercanía (closeness): usuarios B y C
Centralidad por intermediación (betweenness): usuario D
49
Imagen cedida por Y. Volkovich
50. Comparativa
Líderes
• A: Centralidad de grado
• B: Centralidad por cercanía (closeness)
• C: Centralidad por intermediación (betweenness)
50
Imagen: Wikipedia
51. PageRank
Explicación
Métrica de popularidad definida por Google para el ranking de
webs
Se simula un camino aleatorio donde en cada paso se realiza un
salto a un usuario aleatorio con una probabilidad probability (1 − c)
PR*(i) = PageRank
D*j = grado salida del nodo j 51
N* número de nodos
Imagen cedida por Y. Volkovich
52. Descomposición k-cores
Explicación
Detectar los nodos son más eficientes (a nivel global) para
contagiar a otros nodos
Descartar hubs locales (con muchos contactos aislados).
Definición
es el sub-grafo más grande
donde cada nodo tiene
como mínimo k vecinos
directos.
52
Imagen: Wikipedia
54. Conclusiones
Crítica sobre la existencia de los influyentes
Duncan Watts. Challenging the influential hypothesis
La detección de influyentes siempre pasa a posteriori
Usa datos anecdóticos no repetibles
Encuentra influyentes por accidente
Todos podemos ser influyentes
Se puede ser influyente en un tema pero no en otro
Explotar la influencia probablemente lleva a la perdida de la misma
En resumen…
Hay nodos con más potencial de influencia que otros
Pero no hay garantía que lo puedan emplear
54
56. Motivación
La epidemiología es una rama científica que estudia
distribución
frecuencia
relaciones
predicciones
de la propagación de enfermedades
Aplicación
Epidemias sanitarias
Fallos en sistemas informáticos
Fenómenos virales a través de Internet y redes sociales 56
58. Tipping point
En física:
Ejemplo de histéresis en el que el punto en el que se desplaza un objeto
que está un estado de equilibrio estable a un nuevo estado de equilibrio
cualitativamente diferente de la primera.
En sociología:
El caso de un fenómeno anteriormente inusual y que crece rápida y
dramáticamente.
58
Imagen: www.fouryearsago.org
59. Modelo de umbrales
[Granovetter, 1978]
• N individuos
• Cada individuo tiene un umbral
• Uj para cada persona j
• Se une si Tj individuos también se unen
59
Imagen: http://jumpingpolarbear.com/
60. Modelo SIR
[Kermack and McKendrick, 1927]
3 estados:
S : Individuos susceptibles
I : Individuos infectados
R : Individuos recobrados
De manera que S I R
60
Imagen: http://www.lasindias.net
Ejemplo: http://jsxgraph.uni-bayreuth.de/wiki/index.php/SIR_model:_swine_flu
61. Percolación
La teoría de la percolación describe el comportamiento
de clusters conectados
Con un umbral p=0.59 aparece un “tipping point”
http://ccl.northwestern.edu/netlogo/models/run.cgi?Percolation.569.514
61
Imágenes: Wikipedia y articles.businessinsider.com
62. Percolación
Redes sociales
Cada nodo infectado tiene probabilidad p para
infectar a un nodo vecino.
Si p es superior al umbral de percolación, a
continuación, la información se extiende por toda
la red
No obstante, en redes libres de escala (siguiendo
62
conexión preferencial), el umbral de percolación se
desvanece
63. La estructura de la difusión
Estudio de difusión en Yahoo! Kindness, Yahoo! Zync,
The Secretary Game ,Twitter News Stories,Twitter
Videos , Friend Sense y Yahoo! Voice [Goel, 2012]
La viralidad, a diferencia de la popularidad, depende de la
aparición de cascadas
La gran mayoría de contenidos (90%) no se difunden
La gran mayoría de contenidos o no se difunden o se
difunden directamente de la fuente (99%)
Incluso para las cascadas de mayor profundidad, la mayor
parte de las adopciones a menudo se lleva a cabo dentro
de un grado de unos pocos individuos dominantes La
fuerza de los enlaces débiles 63
65. Conclusiones
La difusión de información puede modelarse a
través de diferentes modelos
La viralidad, a diferencia de la popularidad,
depende de la propagación a través de cadenas
de nodos
La difusión en redes sociales está fuertemente
condicionada por la propiedad de mundo
pequeño:
Coeficiente de clustering
La fuerza de los enlaces débiles 65
Distribución de grado
70. Arboles de discusión
Una discusión puede modelarse en forma de árbol
Raíz (artículo)
Nodos estructurales (títulos de
threads)
Comentarios anónimos
Comentarios de usuarios
registrados
70
[Laniado et al., 2011]
Presidency of Barack Obama
71. Métricas
Número de mensajes
Número de usuarios involucrados
Número de cadenas de al menos 3 respuestas
consecutivas entre 2 usuarios
Ejemplo: A B A
Objetivo: Indicador de conflictividad
Profundidad de una discusión
71
[Laniado et al., 2011]
72. Profundidad
Profundidad máxima
sensible a la presencia de hilos
aislados muy largos
h-index del árbol de discusión
máximo número h tal que hay
al menos h comentarios de
profundidad h
Ejemplo: h-index = 3
medida compacta de la
complejidad de un árbol de 72
discusión [Laniado et al., 2011]
77. Modelos de deliberación
Pre-requisitos para deliberación: cuadrante I
77
Imagen: Ackerman B. and Fishkin J. S.,
Deliberation Day. Yale University Press. 2005. [González-Bailón et al., 2010]
80. Conclusiones
El modelado de conversaciones mediante
árboles permite detectar controversia
La evolución de la controversia a lo largo del
tiempo identifica polémicas de actualidad
La profundidad y anchura de una conversación
determina si se cumplen pre-condiciones para
discusiones deliberativas.
80
89. Software
Tecnologías para procesar Big Data…
http://www.neo4j.org/ http://incubator.apache.org/giraph/ http://lintool.github.com/Map
ReduceAlgorithms/ed1.html
89
90. Referencias
A. Kaltenbrunner. Análisis de redes sociales
Dunbar, R.I.M. (1992). "Neocortex size as a constraint on group size in primates".
Journal of Human Evolution 20: 469–493.
Erdos, P., & Rényi, A. (1960). On the evolution of random graphs. Magyar Tud.
Akad. Mat. Kutató Int. Közl, 5, 17-61.
Barabási, Albert-László; Albert, Réka. (October 15, 1999). "Emergence of scaling
in random networks". Science 286 (5439): 509–512. arXiv:cond-mat/9910332.
Bibcode 1999Sci...286..509B. doi:10.1126/science.286.5439.509. MR 2091634.
PMID 10521342.
Milgram, S. (1967). The small world problem. Psychology today, 2(1), 60-67.
90
91. Referencias
J. Leskovec & E. Horvitz. Planetary-scale views on a large instant-messaging
network. In Proceeding of the 17th international conference on World Wide Web,
pages 915–924. ACM, 2008.
M. E. J. Newman. The Structure and Function of Complex Networks. SIAM
Review, vol. 45, no. 2, pages 167–256, 2003.
A. Ruthven. Kevin Bacon is the Center of the Universe rec.arts.movies. Google
groups. Retrieved 2009-07-19.
J. Leskovec, J. Kleinberg & C. Faloutsos. Graph evolution: Densification and
shrinking diameters. ACM Transactions on Knowledge Discovery from Data
(TKDD), vol. 1, no. 1, page 2, 2007.
D. Watts & S.H. Strogatz. Collective dynamics of 'small-world' networks. Nature
393 (6684): 440–442. Bibcode 1998Natur.393..440W . doi:10.1038/30918 . PMID 91
9623998.
92. Referencias
M. Granovetter, M. (1983). The Strength of Weak Ties: A Network Theory
Revisited. Sociological Theory 1: 201–233. doi:10.2307/202051. JSTOR 202051.
1983
E. Bashky. Rethinking Information Diversity in Networks.
http://www.facebook.com/notes/facebook-data-team/rethinking-information-
diversity-in-networks/10150503499618859
P.A. Grabowicz, J.J. Ramasco, E. Moro, J.P. Pujol & V.M. Eguiluz. Social Features
of Online Networks: The Strength of Intermediary Ties in Online Social Media
PLoS ONE 7(1): e29358 (2012)
P.S. Bearman, J. Moody & K. Stovel. Chains of Affection: The Structure of
Adolescent Romantic and Sexual Networks. American Journal of Sociology.
2004;110:44–91.
M.E.J. Newman. Mixing patterns in networks. Physical Review E, vol. 67, no. 2, 92
page 26126, 2003.
93. Referencias
Laniado, D., Tasso, R., Volkovich, Y., & Kaltenbrunner, A. (2011). When the
Wikipedians talk: Network and tree structure of Wikipedia discussion pages.
Proceedings of ICWSM.
Laniado, D., Castillo, C., Kaltenbrunner, A., and Fuster-Morell, M. (2012).
Emotions and dialogue in a peer-production community: the case of Wikipedia. In
Proceedings of WikiSym’12.
L. Adamic & N. Glance. The political blogosphere and the 2004 U.S. election:
divided they blog. Proceedings of the 3rd international workshop on Link discovery
Pages 36 - 43 2005
Neff, J., Laniado, D., Kappler, K., Volkovich, Y., Aragón, P., and Kaltenbrunner, A.
(2012). Jointly They Edit: Examining the Impact of Community Identification on
Political Interaction in Wikipedia. arXiv preprint arXiv:1210.6883.
. 93
94. Referencias
Blondel, V. D., Guillaume, J. L., Lambiotte, R., & Lefebvre, E. (2008). Fast
unfolding of communities in large networks. Journal of Statistical Mechanics:
Theory and Experiment, 2008(10), P10008.
Kaltenbrunner A., Aragón P., Laniado D., and Volkovich Y. (2013), ”Not all paths
lead to Rome: Analysing the network of sister cities“, To be presented in the 7th
International Workshop on Self-organizing Systems.
Granovetter, M. (1978). Threshold models of collective behavior. American journal
of sociology, 1420-1443.
Goel, S., Watts, D. J., & Goldstein, D. G. (2012, June). The structure of online
diffusion networks. In Proceedings of the 13th ACM Conference on Electronic
Commerce (pp. 623-638). ACM.
94
95. Referencias
Kaltenbrunner, A., & Laniado, D. (2012). There is No Deadline-Time Evolution of
Wikipedia Discussions. arXiv preprint arXiv:1204.3453.
Gonzalez-Bailon, S., Kaltenbrunner, A., and Banchs, R. E. (2010). The structure
of political discussion networks: A model for the analysis of e-deliberation. Journal
of Information Technology, 25:230–243
95