Onderzoeksverantwoording prognoseonderzoek

14-03-2023

De verantwoording

Frank Huysmans van WareKennis heeft op ons verzoek met meervoudige logistische regressietechnieken weer modellen ontwikkeld die de kans voorspellen dat iemand de komende jaren boeken zal lezen, kopen en lenen. Het regressiemodel gebruikt de variabelen geslacht, leeftijd, opleiding, woonregio en huishoudgrootte om trends voor de nabije toekomst te voorspellen. KVB-Boekwerk heeft de uitkomsten van het model waar mogelijk gekoppeld aan CBS-prognoses over bevolkingsontwikkeling. Hierdoor wordt de mogelijke omvang in aantallen Nederlanders van elke doelgroep duidelijk. Deze koppeling is alleen gemaakt voor de achtergrondvariabelen ‘geslacht’ en ‘leeftijd’ omdat CBS-prognoses voor de andere variabelen gecombineerd ontbreken.

De gebruikte onderzoeken

De onderzoeksdata waar het model op gebaseerd is zijn afkomstig van consumentenonderzoeken naar het koop-, lees- en leengedrag van Nederlanders, uitgevoerd in opdracht van SMB. Deze onderzoeken vinden vier keer per jaar plaats en worden afgenomen onder een representatieve steekproef uit het consumentenpanel van onderzoeksbureau GfK. Elke steekproef bestaat uit ongeveer 1.200 tot 1.300 respondenten. De onderzoeksresultaten kunnen als representatief worden beschouwd voor de Nederlandse bevolking van 14 jaar en ouder. Voor de onderhavige analyse is gebruik gemaakt van de metingen die van 2009 tot en met 2024 in januari van elk jaar plaats hebben gevonden.

De data over de lees-, koop- en leenfrequentie van Nederlanders en hun socio-demografische gegevens zijn in één bestand opgeleverd door GfK. GfK heeft kleine tekstaanpassingen in vraagstellingen of antwoordcategorieën die door de tijd heen zijn gemaakt methodologisch opgelost zodat de jaarlijkse onderzoeksresultaten vergelijkbaar blijven.

De lezers, kopers van nieuwe boeken (fysieke boeken, e-boeken en luisterboeken) en leners bij de openbare bibliotheek zijn in vier categorieën verdeeld.

	Leesfrequentie boeken	Koop- en leenfrequentie boeken
Heavy	3 keer per week of vaker	Minimaal 1 keer per maand
Medium	1-2 keer per week	1-2 keer per kwartaal
Light	Minder vaak	Minder vaak
Nooit	Nooit	Nooit

De presentatie

De lees-, koop- en leenfrequentie vertonen in de metingen van 2009 tot en met 2023 een grillig beeld, terwijl we uit ervaring weten dat de leesfrequentie in werkelijkheid niet zo fluctueert. Om de grilligheid af te vlakken hebben we ervoor gekozen om te werken met een voortschrijdend gemiddelde van 5 jaar. 2023 is dus een gemiddelde van de verdeling van 2019 tot en met 2023. Daarom laten we alle jaren vanaf 2013 zien; 2013 is immers het eerste jaar waarin een gemiddelde van de afgelopen vijf jaar berekend kon worden.

De onderzoeksdata

SMB consumentenonderzoek boeken: sinds 2007 jaarlijks vier onderzoeken over het lezen, kopen en lenen van boeken. Gebruikt zijn de onderzoeken die van 2009 tot en met 2024 in januari gedaan zijn.

Circa 1.200 respondenten (14+) per jaar met goede spreiding naar socio-demografische kenmerken (sekse, leeftijd, opleiding, huishoudensgrootte, regio e.a.). Na weging op 36 combinaties van sekse, leeftijd en opleiding (2*6*3=36) representatief naar combinaties van sekse, leeftijd en opleiding.

Het lezen, kopen en lenen van boeken is gemeten door te vragen naar hoe vaak men leest, koopt en leent (de frequentie waarmee men deze activiteiten verricht).

De databestanden voor de 16 afzonderlijke meetjaren zijn samengevoegd tot één bestand met (meet)jaar als toegevoegde variabele.

De te verklarende en verklarende factoren

De frequentie van lezen, kopen resp. lenen waren de te verklaren factoren (afhankelijke variabelen). Deze hadden vier categorieën: niet (lezen/kopen/lenen), light, medium en heavy.

En in onderstaande lijst staan de verklarende factoren (onafhankelijke variabelen). Tussen haakjes staat het aantal verschillende waarden.

sekse (vrouw, man)
leeftijd (14-17, 18-24, 25-34, 35-49, 50-64, 65+)
opleiding (lo/vmbo, mbo/havo/vwo, hbo/wo)
regio (G4+ randgemeenten, overig west, noord, oost, zuid)
aantal personen in het huishouden (1, 2, 3, 4, 5 of meer)
leeftijd*opleiding (18; ‘netto’ 10)
jaar (15 voor lezen/kopen; 12 voor lenen)
coronajaar 1 (‘dummy’: 2021 vs overige jaren) – om de piek in lezen en kopen en het dal in lenen te kunnen modelleren
coronajaar 2 (‘dummy’: 2022 vs overige jaren) – idem
Het kwadraat van meetjaar 1 t/m 16 (2009 t/m 2024) t.b.v. de curvilineaire modellen

Hoewel vanaf in maart 2020 maatschappelijke impact van corona voelbaar werd, is 2020 voor het onderzoek geen coronajaar. De meting van 2020 vond plaats in januari – vóór corona. Begin 2022 werden de versoepelingen ingezet na de laatste lockdown. Vandaar dat hier de ‘meetjaren’ 2021 en 2022 als ‘coronajaren’ gelden en 2020 niet.

Omdat de coronajaren zulke uitzonderlijke jaren waren, zijn ze in de modellen ook als uitschieters gemodelleerd, zodat de langjarige trend erdoor ‘onaangetast’ blijft.

De modellen

Met dit bestand zijn in totaal 6 statistische (ordinale logistische regressie-)modellen geschat.

3 Lineaire modellen
3 Curvilineaire modellen

Per model – voor boeken lezen, kopen resp. lenen – zijn vervolgens de voorspellingen voor de komende jaren berekend. Per model is per jaar voor iedere mogelijke combinatie van geslacht (2), leeftijdsgroepen (6), opleiding (3), regio (5) en huishoudgrootte (5) de kans berekend dat deze en heavy, medium, light of niet lezer dan wel koper dan wel lener is.

Lineair versus curvilineair

Bij een lineaire trend stijgt of daalt het lezen/kopen/lenen elk jaar in dezelfde mate. De gemeten frequenties liggen dan ongeveer op een rechte lijn. Het ligt dan voor de hand om deze rechte lijn door te trekken naar de toekomst. Het kan echter ook zijn dat de metingen niet op een rechte lijn liggen. Zo kan een stijging of een daling na verloop van tijd gaan afvlakken en daarna weer gaan toenemen. Dat is wat we sinds de coronaperiode in de metingen zien. Van 2009 tot de coronaperiode daalde de leesfrequentie min of meer lineair, maar sindsdien stijgt ze. Of dit het gevolg is van de coronaperiode, waarin veel mensen meer lazen dan voorheen, is nog niet met zekerheid te zeggen, maar het is zeker mogelijk. In zo’n geval past een curvilineair (‘kromlijnig’) model beter bij de uitkomsten, en ligt het voor de hand om die tendens door te trekken naar de komende jaren.

Afwijkende analyse leners

De analyse voor de prognose lenen is iets anders uitgevoerd dan voor kopen en lezen. Dit is omdat het gebruikte model licht afwijkt van de werkelijkheid tussen 2020 en 2023. Wanneer we voor 2020 tot en 2023 de gemiddelde prognoses vergelijken met de gemiddelde metingen dan blijkt dat deze voor het totaal overeenkomen. Ook bij het geslacht en het opleidingsniveau zien we nauwelijks afwijkingen. Helaas zien we bij leeftijdsgroepen wel afwijkingen. Bij de jongste leeftijdsgroep onderschat het model het aandeel leners en de leenfrequentie. Bij de oudste leeftijdsgroep overschat het model het aandeel leners en de leenfrequentie. Voor beide groepen is de trend in de prognose omhoog, in lijn met de algemene trend. Voor de prognose leners 2030 gebruiken we daarom alleen het model. De beginpercentages van de prognose in 2023 wijken voor de jongste en de oudste groep af van de gemeten werkelijkheid. Dit verandert niets aan de conclusies die we trekken in dit artikel.

Het voorbehoud

Zoals bij alle statistische voorspellingen geldt dat ze gebaseerd zijn op de impliciete aanname dat allerlei overige omstandigheden niet veranderen. Ze zijn in die zin beperkt houdbaar. Bij de vorige trendvoorspelling in 2018 werd de coronapandemie uiteraard niet voorzien. Een uitzonderlijk verkoopsucces als de Zeven Zusters-reeks kan zich in de komende jaren weer voordoen, of juist uitblijven. Dit moet bij het lezen van de trendvoorspellingen in het achterhoofd worden gehouden.