Tout ce que vous aurez besoin de savoir sur les échantillons et les mors

J'ai commencé à entrer dans la profondeur de bits et le taux d'échantillonnage dans mon mixage / mastering final et bien que nous ne soyons pas nécessairement des ingénieurs du son numérique, certaines informations de base sur la profondeur et le taux d'échantillonnage sont de bonnes informations pour quiconque est impliqué dans le numérique. la musique. C’est quelque chose avec lequel vous travaillez tout le temps, que vous le sachiez ou non, et qui constitue une excellente information de base, que ce soit pour comprendre les éléments de base de l’audio numérique à des fins personnelles, ou simplement pour pouvoir être élégant en cas de conversation. jamais se poser.


Rapide vue d'ensemble

La première chose à comprendre est donc que la profondeur de bits et la fréquence d'échantillonnage n'existent que dans l'audio numérique. En audio numérique, la résolution en bits décrit l’amplitude (axe vertical) et la fréquence d’échantillonnage, la fréquence (axe horizontal). Ainsi, lorsque nous augmentons le nombre de bits que nous utilisons, nous augmentons la résolution en amplitude de notre son et en augmentant le nombre d'échantillons par seconde que nous utilisons, nous augmentons la résolution en fréquence de notre son..

Dans un système analogique (et dans la nature), l'audio est continu et lisse. Dans un système numérique, la forme d'onde analogique lisse n'est approximée que par des échantillons et doit être fixée à un nombre limité de valeurs d'amplitude. Lors de l'échantillonnage d'un son, l'audio est divisé en petites tranches (échantillons) et ces échantillons sont ensuite fixés à l'un des niveaux d'amplitude disponibles. Le processus de fixation du signal à un niveau d'amplitude est appelé quantification et le processus de création des tranches d'échantillon est bien entendu appelé échantillonnage..

Dans le diagramme ci-dessous, vous pouvez voir une visualisation de ceci où une onde sinusoïdale organique joue pendant une seconde. Il commence à 0 seconde et se termine à 1 seconde. Les barres bleues représentent l'approximation numérique de l'onde sinusoïdale où chaque barre est un échantillon et a été fixée à l'un des niveaux d'amplitude disponibles. (Ce diagramme est bien sûr beaucoup plus grossier que dans la vie réelle.)

Cette seconde d’audio aurait 44,1K, 48K, etc. échantillons allant de gauche à droite en fonction de la fréquence d’échantillonnage sélectionnée pendant l’enregistrement et couvrirait de -144 dB à 0 dB en 24 bits (ou de -96 dB à 0 dB en 16 bit). La résolution de la plage dynamique (le nombre de niveaux d’amplitude possibles sur lesquels l’échantillon doit reposer) serait de 65 536 à 16 bits et -obtenir 16,777,216 si elle était enregistrée à 24 bits.

Donc, augmenter la profondeur de bits augmente évidemment considérablement notre résolution en amplitude et notre plage dynamique. Ce qui n’est pas si évident, c’est l’augmentation de la plage dynamique. Les dB ajoutés sont ajoutés à la plus doux partie du son puisque l’amplitude ne peut jamais dépasser 0 dB. Cela permet de faire entendre des sons plus délicats (par exemple une queue de réverbération se terminant à -130 dB) qui auraient autrement été coupés courts à un échantillon de 16 bits et -96 dB..


Arrondissement et Troncature

En audio numérique, chaque échantillon est analysé, traité, reconverti en audio et inséré dans les haut-parleurs. Lorsqu'un échantillon est traité (changement de gain, distorsion, etc.) dans votre DAW, il est envoyé via un algorithme de multiplication ou de division de base et le numéro représentant l'échantillon est modifié en conséquence et recraché. Simple si nous n’avons pas affaire à des nombres simples ou arrondis (un gain de gain de 1 dB nécessite une multiplication par 1,122018454), de sorte que même un échantillon de 8 ou 4 bits peut être facilement étendu bien au-delà de notre espace d’échantillon de 24 bits..

Comme nous n’avons que 24 bits, ces longs nombres doivent s’inscrire dans cet espace. Pour ce faire, les DSP utilisent un arrondi ou une troncature du bit le moins significatif (LSB - le dernier bit d'un mot numérique - par exemple le 16ème chiffre d'un échantillon de 16 bits). Arrondir est assez simple et agit comme vous le souhaitez en arithmétique de base. La troncature supprime simplement les informations après le LSB sans autre analyse.

Ceci est évidemment problématique en ce que les deux processus introduisent une erreur dans l’équation et que ces erreurs se multiplient à mesure que le processus sur le processus s’accumule tout au long de la chaîne du signal. Le côté positif de ceci est que le bit de poids faible dans un mot numérique est l’amplitude la plus faible de ce mot; ainsi, dans un échantillon de 16 bits, l’erreur est de -96 dB et de -144 dB pour un échantillon de 24 bits. Même dans ce cas, la différence entre un DSP doté d’une bonne architecture et une architecture qui semble horrible réside en grande partie dans la façon dont le DSP gère ces mots longs et ces processus composés..


Tremblement

Nous savons donc maintenant que les DSP sont nécessairement entachés d’erreurs; que même les approximations grossières qu’ils font d’un phénomène naturel sont eux-mêmes entachés d’erreurs. Ces erreurs rendent non seulement le son audio moins impeccable que dans le cas contraire, mais peuvent aussi introduire des artefacts audibles..

Pour contrer ces artefacts, un type de bruit de faible amplitude, calculé mathématiquement (caractère aléatoire) appelé dither est appliqué au signal. Ce caractère aléatoire dissocie les erreurs périodiques du signal susceptibles de créer de nouvelles fréquences ou d’autres artefacts. Le bruit de dither est d'amplitude très faible et bien qu'il soit légèrement audible à des niveaux élevés, il crée toujours un produit final bien meilleur que sans..

Une forme d'onde montrant les effets du dither. Le ditherement a été appliqué à la forme d'onde supérieure.

Une chose à noter à propos du dither est que le bruit est cumulatif. En ajoutant du bruit au signal, vous réduisez essentiellement le rapport signal sur bruit (le rapport entre le signal utilisable et le bruit). Si cela est fait à plusieurs reprises, ce rapport continue de diminuer tout en ajoutant une randomisation supplémentaire à un signal qui n'en a plus besoin. C’est pourquoi le dither est toujours appliqué à la dernière étape du processus de mastering et n’est appliqué qu’une fois..

Dither a une histoire relativement colorée:

L'une des premières [applications] de dither a eu lieu pendant la Seconde Guerre mondiale. Les bombardiers ont utilisé des ordinateurs pour effectuer des calculs de navigation et de trajectoire de bombe. Curieusement, ces ordinateurs (des boîtes remplies de centaines d’engrenages et de rouages) fonctionnaient plus précisément à bord de l’avion et moins bien au sol. Les ingénieurs ont compris que les vibrations de l'avion réduisaient les erreurs dues aux pièces mobiles collantes. Au lieu de se déplacer par petites secousses, ils se déplaçaient plus continuellement. De petits moteurs vibrants ont été intégrés dans les ordinateurs et leur vibration a été appelée tramage du verbe anglais moyen "didderen", signifiant "trembler". Les dictionnaires modernes définissent le tramage comme un état hautement nerveux, confus ou agité. En quantités infimes, le dither rend un système de numérisation un peu plus analogique.

- Ken Pohlmann, Principes de l'audio numérique


Taux d'échantillonnage

Selon la théorie, 44,1K échantillons par seconde devraient être plus que suffisants pour couvrir toutes les fréquences comprises dans la plage d'audience humaine (et légèrement en dehors de celle-ci). Vous avez peut-être déjà rencontré le théorème de Nyquist qui stipule que pour éviter le repliement (type de distorsion) et recréer avec précision toutes les fréquences au cours de l'échantillonnage, il est nécessaire d'échantillonner au moins deux fois le taux de la plus haute fréquence contenue dans un signal donné (ce théorème). s'applique aux médias en dehors de l'audio, mais nous n'entrerons pas dans cela ici).

L’oreille humaine peut entendre jusqu’à 20K (la plupart des études indiquent qu’elle se situe autour de 17K au mieux) cycles par seconde (Hz). Par conséquent, une fréquence d’échantillonnage de 40K échantillons par seconde devrait être suffisante pour entendre toutes les fréquences possibles. 44.1K est le standard de l'industrie, a été conçu de cette manière pour plusieurs raisons et a finalement été choisi par l'oligarchie connue sous le nom de Sony.

Pour être bref (long) récit, les échantillons audio numériques doivent nécessairement être au-dessus de la fréquence de Nyquist, car, dans la pratique, ils doivent également être filtrés passe-bas pendant la conversion A / D et D / A pour éviter également les repliements. Plus la pente du filtre passe-bas est douce, plus il est facile à réaliser (lire moins cher). Ainsi, un signal audio avec un filtre passe-bas ayant une pente douce couvrant par exemple 2 kHz et commençant à 20 kHz pour laisser passer tout le spectre de fréquences, doit être échantillonné à 44K échantillons par seconde (20K (fréquence la plus élevée)). (pente de LPF) x 2 (théorème de Nyquist) = 44K).

En fin de compte, le standard 44.1K a été choisi après une bataille entre Sony et Philips (ils avaient tous deux des propositions finales similaires) et a été choisi sur la base des mathématiques derrière la fréquence d'échantillonnage audio et l'anatomie de la bande vidéo; afin que l’audio et la vidéo puissent résider sur la même cassette vidéo avec un bon rapport qualité / prix. Cependant, 48K est actuellement la norme pour l'audio lié à la vidéo. Le CD audio reste à 44,1K.

Cette image montre le niveau d'échantillon d'un enregistrement de grosse caisse organique dans Logic. Vous pouvez voir comment le son a été échantillonné et quantifié à partir des approximations rectangulaires nettes de la forme d'onde. Le son de batterie d'origine n'aurait pas eu une telle distorsion.


Est-ce que vous pouvez l'entendre?

Certaines personnes affirment être en mesure d'entendre une différence nette entre un taux d'échantillonnage de 44,1 K et un taux d'échantillonnage de 96 K, par exemple. La plupart des gens attribuent cette différence à l’augmentation de la bande passante produite (96K représenteraient des fréquences jusqu’à 48 kHz). Bien que moi aussi, j'ai remarqué des changements subtils de clarté lors du suréchantillonnage, il est incorrect de penser que ces différences sont présentes en raison des fréquences plus élevées présentes (ou du moins, elles ne sont pas directement liées)..

Différents tests ont montré que c’est le filtrage passe-bas qui crée des différences audibles et, à des fréquences d’échantillonnage plus élevées, que ces artefacts LPF se situent en dehors du spectre audible. En augmentant la fréquence de coupure du filtre de 22 kHz à 48 kHz lors de l'échantillonnage, nous réduisons la demande du filtre pour qu'il agisse dans la plage audible, nous assurant ainsi qu'il ne reste plus d'artefacts de filtre dans le spectre ultrasonore..

Cela clarifie le spectre audible et donne l’illusion qu’une bande passante / un taux d’échantillonnage élevé crée un son plus pur. Même si un son plus pur est créé, le taux d'échantillonnage est suffisamment élevé pour contrecarrer les artefacts d'un filtre passe-bas mal conçu (malheureusement un standard) lors de la conversion A / N et D / A..


Assez d'infos?

Donc, cela couvre à peu près tout. Je me rends compte que cela a peut-être été plus une leçon qu'un tutoriel, mais c'est une bonne information de ne pas en avoir moins. Connaître les outils avec lesquels vous travaillez n’est jamais une mauvaise chose et c’est aussi détaillé que vous devrez jamais connaître le sujet dans un but pratique en tant que producteur de musique. Toutefois, les ingénieurs et audiophiles devront peut-être chercher ailleurs;)

Jusqu'à la prochaine fois.

-W