A corpus of spoken Quebec French created from parliamentary speech (data from the National Assembly of Quebec). The ParlBleu corpus builds upon Peter Milne's (2014) AssNat corpus, incorporating its Quebec French component into an expanded new dataset.
The latest release of the corpus (v1.0.0) is hosted on OSF, and can be found in the Corpus ParlBleu v1_0_0 directory: this includes all aligned TextGrids and associated WAV files.
The GitHub repository contains speaker metadata (in the meta directory), which can be used to conduct sociolinguistic or dialectological analyses. It also contains all the scripts used to go from the raw files downloaded from the National Assembly website to the release version.
The original MP4 files were (for the most part) kept, but not uploaded due to their size. If you're interested in using them in your analysis, please feel free to contact Massimo Lipari.
Coming soon
This project is not in any way affiliated with or authorized by the National Assembly of Quebec. All rights to the original data remain with the National Assembly: more information can be found on the National Assembly's website. The derivative works provided here were produced and are shared for research purposes only, both for replicability of already published studies and to faciliate future work. We believe this usage is protected under the fair dealing provisions of Canadian copyright law, but this is not legal advice.
Un corpus oral de français québécois constitué à partir de données parlementaires (données de l'Assemblée nationale du Québec). Le corpus ParlBleu est inspiré du corpus AssNat de Peter Milne (2014): il en intègre le volet québécois tout en y accolant une expansion majeure.
La dernière version du corpus (v1.0.0) est distribuée sur OSF, dans le dossier Corpus ParlBleu v1_0_0: on y trouvera tous les fichiers TextGrid contenant les transcriptions alignées ainsi que les ficihiers WAV associés.
Le référentiel GitHub renferme les métadonnées sur les parlementaires (dans le dossier meta), permettant d'effectuer des analyses sociolinguistiques ou dialectologiques. On y trouvera également les scripts qui ont été utilisés pour créer la version distribuée à partir des fichiers téléchargés du site web de l'Assemblée.
Les fichiers MP4 originels ont (pour la plupart) été conservés, mais ne sont pas téléversés ici puisqu'ils sont trop gros. Si vous êtes intéressés à les analyser, veuillez contacter Massimo Lipari.
À venir
Ce projet n'est d'aucune façon affilié à, ni autorisé par, l'Assemblée nationale du Québec. Tous les droits d'auteur entourant les données originales appartiennent à l'Assemblée: pour de plus amples informations, veuillez consulter le site web de l'Assemblée. Les produits dérivés distribués ici ont été créés et sont partagés à des fins de recherche seulement, autant pour assurer la reproductibilité d'études déjà publiées que pour faciliter la recherche future. Selon notre compréhension, cet usage serait donc protégé par la notion d'utilisation équitable du droit canadien sur le droit d'auteur, mais ceci n'est pas un avis légal.