Resumen:
Las herramientas de investigación en la detección de intrusos basada en anomalías dependen en gran medida de los datos de rastreo de tráfico adecuados. Los conjuntos de datos tradicionales presentan varios problemas, como la eliminación de información confidencial (anonimato) y el número o volumen insuficiente de casos de ataques, que limitan su calidad para el diseño y la evaluación de los A-NIDS. En este trabajo, presentamos un método de filtrado de tráfico anómalo que puede ser utilizado para generar trazas de tráfico libres de anomalías. El conjunto de datos desinfectado puede utilizarse para mejorar el cálculo de los perfiles de comportamiento durante la fase de formación. La propuesta se basa en la construcción y el análisis estadístico del espacio de entropía a nivel de flujo para la identificación de valores atípicos utilizando tres estimadores de entropía. Los resultados empíricos mostraron que las nuevas trazas de tráfico del conjunto de datos saneados tienen una similitud distributiva entre ellos mayor que la presentada entre los conjuntos de datos originales.
Descripción:
Research Tools in Anomaly-based Intrusion Detection are highly dependent on appropriate traffic trace data. Traditional datasets present several issues such as: removal of sensitive information (anonymization) and insufficient number or volume of attack instances, which limit their quality for the design and evaluation of A-NIDSs. In this paper, we present a method for anomalous traffic filtering which can be used for generating anomaly-free traffic traces. The sanitized dataset can be used to improve the computation of the behaviour profiles during the training stage. The proposal is based on the construction and statistical analysis of the flow-level entropy space for the identification of outliers using three entropy estimators. Empirical results showed that the new traffic traces of the sanitized dataset have a distributional similarity among them greater than that presented among the original datasets.