Miksi välistä data jaetaan TRAINING- ja VALIDATION-settien lisäksi myös TEST-setiksi?
Training setin avulla sovitetaan dataan (x,y) vaikkapa 1. asteen ja 3. asteen polynomit. Eli y = ax + b ja y = cx^3 + dx^2 + ex + f, sovitus antaa arvot parametreille a, b, c, d, e ha f.
Validation set on datasta etukäteen erotettu osa, jota ei käytetty mallin sovitukseen (ts. Validation setin data ei ole osa training setin data). Validation setin ideana on testata, kuinka hyvin sovitus toimii uudelle datalle. Pienin training error ei takaa pienintä validation erroria. Tässä vaiheessa testataan, oliko 1. asteen polynomi vai 3. asteen polynomi parempi kuvaamaan uutta datajoukkoa.
Kuitenkin joskus näkee myös käytettävän KOLMATTA alkuperäisestä datasta erotettua settiä, jota kutsutaan TEST-setiksi. Mikä on idea? Mikä on sen ero VALIDATION-setin käyttöön nähden?
Kommentit (5)
Kerron vastauksen jos kerrot vastauksen P=NP-ongelmaan.
Validaatio settiä käytetään hyperparametrien tuunaukseen. Eli sun tapauksessa minkä asteen polynoomia kannattaa käyttää.
Testi setti taas varmistaa oliko koko hommasta edes mihinkään.
Toki tui setti ajattelu on vanhentunutta siltä ajalta milloin ei ollut tarpeeksi laskutehoa.
Lue siitä samasta lähteestä, josta muunkin kopioit.