Comparación de métodos de análisis de sentimientos en comunidades de habla hispana

Autores/as

  • Luis Gabriel Moreno Sandoval Pontificia Universidad Javeriana
  • Alexandra Pomares Quimbaya Pontificia Universidad Javeriana https://orcid.org/0000-0002-2639-2474
  • Camilo Eduardo Cruz Gutiérrez Pontificia Universidad Javeriana
  • Johan Ferney García Pachón Pontificia Universidad Javeriana
  • David Felipe Vanegas Ramírez Pontificia Universidad Javeriana

Palabras clave:

Machine Learning, Deep Learning, lexicon, Twitter, Análisis de Subjetividad Colectiva

Resumen

Uno de los fenómenos de estudio que ha motivado a sociólogos, antropólogos, psicólogos y, en general, a investigadores interesados en las interacciones humanas y los alcances de la comunicación lo constituye el Análisis de Subjetividad Colectiva. Las redes sociales son actualmente la principal plataforma para “escuchar” modos de pensar, actuar y sentir (PAS) entre usuarios en la Web con una infinidad de retos computacionales para determinar información útil. Por ello, analizar el sentimiento como un aspecto del lenguaje usado para expresar los estados mentales y emocionales o “estados privados”, que no pueden ser directamente observados, representa un aporte significativo para analizar la subjetividad colectiva. El presente artículo compara el desempeño de modelos de aprendizaje de máquina clásico, aprendizaje profundo y modelos basados en lexicones con el fin de establecer una metodología para analizar los PAS de las comunidades de habla hispana que puedan contribuir al análisis de subjetividad colectiva. Con este propósito, se utiliza un corpus de Twitter proveniente de la competencia TASS2019 para el idioma español. El enfoque de aprendizaje profundo obtuvo los mejores desempeños con los artículos de los principales periódicos en los 32 departamentos de Colombia.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Luis Gabriel Moreno Sandoval, Pontificia Universidad Javeriana

Investigador académico y profesional en temas relacionados con los sistemas de información, el análisis de datos, la minería de textos y las redes sociales publicando en revistas internacionales y  capitulos de libros de conferencias  conocidas como Computational Social Networks,  Cognitive Computation, PAN at CLEF, CD MAKE 2018, entre otras . Amplios conocimientos en temas como la lingüística computacional, la sociolingüística computacional y la semiótica computacional como temas principales del proyecto de investigación doctoral. Actualmente, soy estudiante de doctorado en ingeniería en la Pontificia Universidad Javeriana, cuyo tema es el análisis del comportamiento de las redes sociales digitales (RSD), el cual se construye a partir de las relaciones, interacciones, expresión de estados privados y comportamientos de los participantes en la red, por lo que se construyó un modelo para abordar formalmente el estudio del análisis de la subjetividad colectiva en las redes sociales digitales, basado en tres dimensiones. Estas dimensiones son la estructura, el contenido y la valoración, constituyendo una contribución a las comunidades científicas centradas en el estudio de las estructuras sociales emergentes en las redes sociales digitales y en la expresión lingüística de los estados privados inherentes a los contenidos compartidos en los escenarios digitales. Desarrollo de proyectos en estas áreas con tecnologías y metodologías relacionadas con el análisis de datos y el big data. Participación en múltiples congresos internacionales otorgando reconocimiento a los estudios presentados. Segundo lugar en la última conferencia PAN@CLEF, sobre competencia en lingüística computacional para determinar estilos sociolingüísticos y variables demográficas, psicográficas y de comportamiento de un grupo de muestra de celebridades, en Lugano Suiza.

He tenido a mi cargo la supervisión de equipos técnicos de trabajo, asesorando y ofreciendo a las empresas conceptos tecnológicos para la adaptación de plataformas base para el desarrollo de aplicaciones propias y de clientes. Desarrollo de tareas de planificación, diseño y estructuración de estrategias arquitectónicas necesarias para la realización de proyectos de software para diferentes actores, ofreciendo un conjunto de herramientas que ayudan a medir, predecir y gestionar los proyectos. Amplia experiencia diseñando, desarrollando e implementando proyectos de software aplicando arquitecturas empresariales altamente escalables y robustas, desarrolladas con los estándares de mercado necesarios para crear plataformas de reconocido éxito.

He desarrollado la planificación estratégica de proyectos de base tecnológica utilizando diferentes metodologías como el Design Thinking, y diferentes instrumentos como el Canvas, donde los productos deben tener una propuesta de valor añadido mezclando el profundo conocimiento que tengo de las arquitecturas y tecnologías para el beneficio del negocio y así conseguir que los clientes se acerquen a los productos ofrecidos. También he estado en el aprendizaje y comprensión de los modelos de negocio que han surgido recientemente con Internet y las economías móviles, desde el ámbito académico y empresarial ya que estos modelos de negocio son fundamentales para las empresas TIC hoy en día, y el éxito de los productos de base tecnológica en un mercado podría estar determinado por el excelente enfoque de estas herramientas e instrumentos.



Referencias bibliográficas

Chandra, R., & Krishna, A. (2021). COVID-19 sentiment analysis via deep learning during the rise of novel cases. PLOS ONE, 16(8 August).

Chiruzzo, L., Etcheverry, M., & Rosá, A. (2020). Sentiment analysis in Spanish tweets: Some experiments with focus on neutral tweets. Procesamiento de Lenguaje Natural, 64, 109–116

Kamyab, M., Liu, G., & Adjeisah, M. (2021). Attention-Based CNN and Bi-LSTM Model Based on TF-IDF and GloVe Word Embedding for Sentiment Analysis. Applied Sciences (Switzerland), 11(23).

Molina-González, M. D., Martínez-Cámara, E., Martín-Valdivia, M. T., & Perea-Ortega, J. M. (2013). Semantic orientation for polarity classification in Spanish reviews. Expert Systems with Applications, 40(18), 7250–7257. https://doi.org/10.1016/j.eswa.2013.06.076

Moreno-Sandoval, L. G., Pomares-Quimbaya, A., & Alvarado-Valencia, J. A. (2021). Celebrity profiling through linguistic analysis of digital social networks. Computational Social Networks, 8(1). https://doi.org/10.1186/s40649-021-00097-w

Osorio Angel, S., Peña Pérez Negrón, A., & Espinoza-Valdez, A. (2021). Systematic literature review of sentiment analysis in the Spanish language. Data Technologies and Applications, 55(4), 461–479. https://doi.org/10.1108/DTA-09-2020-0200

Puertas, E., Moreno-Sandoval, L. G., Redondo, J., Alvarado-Valencia, J. A., & Pomares-Quimbaya, A. (2021). Detection of Sociolinguistic Features in Digital Social Networks for the Detection of Communities. Cognitive Computation, 13(2), 518–537.

Sun, S., Luo, C., & Chen, J. (2017). A review of natural language processing techniques for opinion mining systems. Information Fusion, 36, 10–25.

van Paridon, J., & Thompson, B. (2021). subs2vec: Word embeddings from subtitles in 55 languages. Behavior Research Methods, 53(2), 629–655.

Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python O’Reilly Media.

Nankani, H., Dutta, H., Shrivastava, H., Rama Krishna, P. V. N. S., Mahata, D., & Shah, R. R. (2020). Multilingual Sentiment Analysis (pp. 193–236).

Graves, A., & Schmidhuber, J. (2005). Framewise Phoneme Classification with Bidirectional LSTM Networks. Proceedings of International Joint Conference on Neural Networks, Montreal, 2047–2052.

Harjule, P., Gurjar, A., Seth, H., & Thakur, P. (2020). Text Classification on Twitter Data. Proceedings of 3rd International Conference on Emerging Technologies in Computer Engineering: Machine Learning and Internet of Things, ICETCE 2020, 160–164.

Moreno-Sandoval, L. G., Beltrán-Herrera, P., Vargas-Cruz, J. A., Sánchez-Barriga, C., Pomares-Quimbaya, A., Alvarado-Valencia, J. A., & García-Díaz, J. C. (2017). CSL: A Combined Spanish lexicon: Resource for polarity classification and sentiment analysis. ICEIS 2017 - Proceedings of the 19th International Conference on Enterprise Information Systems, 1, 288–295.

Ochoa-Luna, J., & Ari, D. (2018). Deep neural network approaches for Spanish sentiment analysis of short texts. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 11238 LNAI, 430–441.

Tan, Y. (2018). An Improved KNN Text Classification Algorithm Based on K-Medoids and Rough Set. Proceedings - 2018 10th International Conference on Intelligent Human-Machine Systems and Cybernetics, IHMSC 2018, 1, 109–113.

Utitiaj, I., Morillo, P., & Huanga, D. V. (2020, December 24). Sentiment Analysis Tool for Spanish Tweets in the Ecuadorian Context. ACM International Conference Proceeding Series.

Villena, J., Daedalus, R., Lana-Serrano, S., Martínez-Cámara, E., & Carlos González-Cristóbal, J. (2013). TASS-Workshop on Sentiment Analysis at SEPLN TASS-Taller de Análisis de Sentimientos en la SEPLN. Procesamiento Del Lenguaje NaturaL, 50, 37–44.

Data Science Lab. (n.d.). Multilingualsentiment. Sites.Google.Com. Retrieved May 18, 2022, from https://sites.google.com/site/datascienceslab/projects/multilingualsentiment

Facebook Inc. (2022). fastText: Word representations. Fasttext.Cc/. https://fasttext.cc/docs/en/unsupervised-tutorial.html

Pedregosa, F., Michel, V., Grisel OLIVIERGRISEL, O., Blondel, M., Prettenhofer, P., Weiss, R., Vanderplas, J., Cournapeau, D., Pedregosa, F., Varoquaux, G., Gramfort, A., Thirion, B., Grisel, O., Dubourg, V., Passos, A., Brucher, M., Perrot andÉdouardand, M., Duchesnay, andÉdouard, & Duchesnay EDOUARDDUCHESNAY, Fré. (2011). Scikit-learn: Machine Learning in Python. In Journal of Machine Learning Research (Vol. 12). http://scikit-learn.sourceforge.net.

Perez, V., Banea, C., & Mihalcea, R. (n.d.). Sentiment Lexicons in Spanish. Web.Eecs.Umich.Edu. Retrieved May 18, 2022, from http://web.eecs.umich.edu/~mihalcea/downloads.html#SPANISH_SENT_LEXICONS

Randim Řehůřek. (2009). GENSIM: topic modelling for humans. Radimrehurek.Com. https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html#sphx-glr-auto-examples-tutorials-run-doc2vec-lee-py

Roales González, N, (2014), DETECCIÓN DE TENDENCIAS EN TWITTER UTILIZANDO MINERÍA DE DATOS ADAPTATIVA, Universidad Autónoma de Madrid. https://repositorio.uam.es/bitstream/handle/10486/662510/roales_gonzalez_natalia_tfg.pdf?sequence=1

Secretaria de Estado de Investigación Desarrollo e Innovación. (2011). iSOL. Timm.Ujaen.Es. http://timm.ujaen.es/recursos/isol/

Swysen, T. (2020). Swysen2020. Universidad de Chile.

Descargas

Publicado

07-09-2022

Cómo citar

[1]
L. G. Moreno Sandoval, A. Pomares Quimbaya, C. E. Cruz Gutiérrez, J. F. García Pachón, y D. F. Vanegas Ramírez, «Comparación de métodos de análisis de sentimientos en comunidades de habla hispana», EIEI ACOFI, sep. 2022.