< Volver al sumario
Volumen 31 - Número 4 - Octubre - Diciembre 2023
Introducción a la creación de un conjunto de datos para machine learning

G. Santolària Rossell, M. Olivera1, C. Méndez Mangana2, Antón Barraquer Kargacin3
1Complejo Hospitalario Universitario Insular Materno Infantil. Instituto Canario de la Retina. Las Palmas de Gran Canaria.
2Centro de Ojos de La Coruña.
3Centro deOftalmología Barraquer. Barcelona.

CORRESPONDENCIA
Maximiliano Olivera
E-mail: mxolivera@gmail.com

RESUMEN
Cualquier proyecto de data science (ciencia de los datos) necesita de un conjunto de datos o dataset. Por eso se dice que la piedra angular de todo proyecto de machine learning (aprendizaje automático) y deep learning (aprendizaje profundo) es el conjunto de datos. Su desarrollo ocupa aproximadamente el 70% del tiempo total que se dedica a todo un proyecto. Esto se debe a que una mala generación del conjunto de datos puede resultar en modelos ineficaces o sesgados. A través del ejemplo de nuestro grupo de investigación, se detalla la generación de un dataset oftalmológico con imágenes para el entrenamiento de un modelo de machine learning de clasificación. Finalmente, se presentan casos de la literatura a modo de ejemplo, para que el lector pueda extender su conocimiento con casos de éxito.



RESUM
Tot projecte de data science necessita un conjunt de dades o dataset. Per això es diu que la pedra angular de tot projecte de machine learning i deep learning és el conjunt de dades. El seu desenvolupament ocupa aproximadament el 70% del temps total que es dedica a tot un projecte. Això es deu al fet que una mala generació del conjunt de dades pot resultar en models ineficaços o esbiaixats. A través de l’exemple del nostre grup de recerca es detalla la generació d’un dataset oftalmològic amb imatges per a l’entrenament d’un model de machine learning de classificació. Finalment, es presenten casos de la literatura a tall d’exemple, perquè el lector pugui estendre el seu coneixement amb casos d’èxit.

ABSTRACT
Any data science project relies on its dataset. That is why it is said that the backbone of any machine learning/deep learning project is its dataset. Its development takes up approximately 70% of the total time spent on a data science project. Poor dataset generation can result in an inefficient or biased model. Through this example from our research team, we provide the generation of an ophthalmological dataset with classification images to train a machine learning model. To finish, we provide examples from literature so that the reader can extend their knowledge of the subject in question.