ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK

Mayenka Fernández Chambi

Resumen


RESUMEN

La presente investigación muestra el análisis de opinión realizado en los tuits históricos publicados en la red social o microblogging Twitter en idioma español durante el evento clasificatorio de la selección peruana de futbol al mundial Rusia 2018, durante el periodo del año 2015 hasta diciembre del 2017 según calendario clasificatorio Rusia 2018 de la FIFA. El modelo del análisis de opinión o sentimiento ha sido desarrollado en la plataforma de computación distribuida Spark; demostrándose que las tareas de preparación de datos, modelado y evaluación de algoritmos de aprendizaje de máquina para clasificación de texto se han desarrollado con eficiencia dentro del pipeline de Spark entre tareas transformadoras y estimadoras sobre la estructura de datos DataFrame y la librería MLlib, así los modelos estándar de aprendizaje de máquina para Big Data pueden ser realizadas en forma escalable y distribuida con facilidad de uso por los científicos de datos. Finalmente el modelo de clasificación binario de texto de tuits ha alcanzado una precisión de 83,51% para un modelo de regresión logística y está sobre las métricas estándar de aceptación de clasificadores de su mismo tipo; adicionalmente, esta investigación deja construido y disponible el dataset “PeruARusia2018.csv” con 3 000 ítems de tuits etiquetados siguiendo los estándares adecuados que la hacen propicia  para que la comunidad investigadora pueda seguir experimentando sobre ella y halle mejores resultados; así como 376 250 tuits como raw data.

Palabras Clave: Análisis de opinión, big data, clasificación de texto, MLlib, red social, Spark.

 


Texto completo:

PDF

Referencias


LITERATURA CITADA

Aguilar, L. J. (2016). Big Data, Análisis de grandes volúmenes de datos en organizaciones: Alfaomega Grupo Editor.

AI Zone, D. (2019). Streaming ML Pipeline for Sentiment Analysis Using Apache APIs: Kafka, Spark, and Drill (Part 1). Recuperado Jun 2, 2019, de https://dzone.com/articles/streaming-machine-learning-pipeline-for-sentiment

Apache Spark, o. (2019). MLlib Main Guide Spark 2.3. Recuperado Ago 15, 2019, de https://spark.apache.org/docs/2.3.0/ml-guide.html

Baltas, A., Kanavos, A., & Tsakalidis, A. K. (2016). An apache spark implementation for sentiment analysis on twitter data. Paper presented at the International Workshop of Algorithmic Aspects of Cloud Computing.

Chambers, B., y Zaharia, M. (2018). Spark: the definitive guide: big data processing made simple: " O'Reilly Media, Inc.".

Fifa.com. (2018). 2018 FIFA world cup RUSSIA all matches in southamerica. Recuperado Oct 08, 2018, de https://www.fifa.com/worldcup/preliminaries/southamerica/

Go, A., Bhayani, R., & Huang, L. (2009). Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 1(12), 2009.

Jefferson, H. (2016). GetOldTweets Programatically. Recuperado Oct 18, 2018, de https://github.com/Jefferson-Henrique/GetOldTweets-python

Leskovec, J., Rajaraman, A., y Ullman, J. D. (2014). Mining of massive datasets: Cambridge university press.

Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data: Springer Science & Business Media.

Liu, B. (2012). Opinion mining and sentiment analysis Web Data Mining (pp. 459-526): Springer.

McCreadie, R., Soboroff, I., Lin, J., Macdonald, C., Ounis, I., y McCullough, D. (2012). On building a reusable Twitter corpus. Paper presented at the Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval.

McMinn, A. J., Moshfeghi, Y., y Jose, J. M. (2013). Building a large-scale corpus for evaluating event detection on twitter. Paper presented at the Proceedings of the 22nd ACM international conference on Information & Knowledge Management.

Nodarakis, N., Sioutas, S., Tsakalidis, A. K., & Tzimas, G. (2016). Large Scale Sentiment Analysis on Twitter with Spark. Paper presented at the EDBT/ICDT Workshops.

Pang, B., y Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends® in Information Retrieval, 2(1–2), 1-135.

Rosenthal, S., Farra, N., & Nakov, P. (2017). SemEval-2017 task 4: Sentiment analysis in Twitter. Paper presented at the Proceedings of the 11th international workshop on semantic evaluation (SemEval-2017).

Singh, P. (2018). Machine Learning with PySpark: With Natural Language Processing and Recommender Systems: Apress.

Svyatkovskiy, A., Imai, K., Kroeger, M., y Shiraito, Y. (2016). Large-scale text processing pipeline with Apache Spark. Paper presented at the 2016 IEEE International Conference on Big Data (Big Data).

Tan, P.-N., Steinbach, M., & Kumar, V. (2006). Introduction to data mining: Pearson Education, Inc.

Trendogate.com. (2018). Twitter Trends Archive. Recuperado, de https://trendogate.com/

Twitter.com. (2018). Documentación de la API Rest de Twitter. Recuperado, de https://developer.twitter.com/en/docs

Witten, I. H., Frank, E., Hall, M. A., y Pal, C. J. (2016). Data Mining: Practical machine learning tools and techniques: Morgan Kaufmann.

Zafarani, R., Abbasi, M. A., y Liu, H. (2014). Social media mining: an introduction: Cambridge University Press.

Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., . . . Franklin, M. J. (2016). Apache spark: a unified engine for big data processing. Communications of the ACM, 59(11), 56-65.

Zhai, C., & Massung, S. (2016). Text data management and analysis: a practical introduction to information retrieval and text mining: Morgan & Claypool.


Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia


.........................................................................................................................................................................................................................................................................................................................................

 Licencia de Creative Commons

Revista de Investigaciones de la Escuela de Posgrado - UNA by Escuela de Posgrado de la Universidad Nacional del Altiplano is licensed under a Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional License.