DOI: https://doi.org/10.7203/qf.22.11299

Analizar las diferencias de vocabulario entre corpus sin los tests Chi-cuadrado y Log-likelihood


Resumen


Los tests de log-likelihood y chi-cuadrado probablemente sean las pruebas estadísticas más populares utilizadas en la lingüística de corpus, especialmente cuando la investigación tiene como objetivo describir las variaciones léxicas entre corpus distintos. Sin embargo, dado que este uso específico del chi-cuadrado no es válido, produce demasiados resultados significativos. Esta contribución explica el origen del problema (es decir, la no independencia de las observaciones), los motivos por los cuales las soluciones habituales no son aceptables y qué clase pruebas estadísticas deben ser utilizadas en su lugar. Se ha realizado un análisis de corpus sobre las diferencias léxicas entre el inglés británico y el inglés americano para mostrar el problema y confirmar la adecuación de la solución propuesta. La última sección presenta las órdenes que pueden darse a WordSmith Tools, un programa informático muy popular en el procesamiento de corpus, a fin de obtener los datos necesarios para las pruebas adecuadas, así como un procedimiento muy fácil de usar en R, un paquete estadístico gratuito y fácil de instalar, que realiza estas pruebas.

Palabras clave


diferencias léxicas entre corpus; test de remuestreo; Wordsmith tools; inglés británico y americano

Texto completo:

PDF (English) PDF PDF (Català)


Licencia de Creative CommonsEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

© de los textos: los autores y las autoras

© de la edición: Universitat de València (año en curso)

Depósito Legal: V.229-1995

ISSN impreso: 1135-416X

ISSN electrónico: 2444-1449