Roulement de Sommes dans SQL - un Exemple Pratique

Date de publication : 05/08/2008

Pr�c�dent � Sommaire �

�� Version PDF (Miroir) � Version hors-ligne (Miroir)

�

III. Observation int�ressante l'utilisation de l'auto-jointure

Damien Seguy a une observation int�ressante sur mon utilisation de l'auto-jointure pour la g�n�ration du

roulement de sommes :

Qu'en est-il � propos de l'utilisation d'une variable utilisateur pour faire le roulement de sommes depuis le d�but? Quelque chose de simple comme ceci :

set @sum := 159;
// Num�ro initial du post, ou 0 si vous pr�f�rez.
set @mn := 0;
// Num�ro du mois
select @mn := @mn + 1 as MonthNumber Month, Added, @sum := @sum + Added as RunningTotal from ResultListing1;

Damien a, bien s�r, raison sur le fait que j'aurais pu utiliser une variable utilisateur comme ci-dessus pour g�n�rer le roulement de sommes au lieu d'utiliser une auto-jointure. Cependant, il y a quelques complications.
Premi�rement, jetons un oeil � ce qu'il arrive si je r�-�cris la requ�te originelle GROUP BY de Lenz afin d'y inclure une variable utilisateur pour calculer les totaux courants :

mysql> SELECT COUNT(*) INTO @running_total 
    -> FROM feeds WHERE created < '2007-01-01';
Query OK, 1 row affected (0.00 sec)

mysql> SELECT 
    ->   MONTHNAME(created) AS Month
    -> , COUNT(*) AS Added
    -> , @running_total := @running_total + COUNT(*) AS RunningTotal
    -> FROM feeds
    -> WHERE created >= '2007-01-01'
    -> GROUP BY MONTH(created);
    
+----------+-------+--------------+
| Month    | Added | RunningTotal |
+----------+-------+--------------+
| January  |     1 |          160 | 
| February |     1 |          160 | 
| March    |    11 |          170 | 
| April    |     8 |          167 | 
| May      |    18 |          177 | 
| June     |     4 |          163 | 
+----------+-------+--------------+
6 rows in set (0.00 sec)

Comme vous pouvez le constater, nous avons quelques probl�mes. Clairement, la variable utilisateur @running_total n'est pas calcul�e correctement quand elle est utilis�e � la fois comme sortie et comme affectation dans la m�me colonne. Observons maintenant ce qu'il se passe si je sors la variable utilisateur d'affectation dans une colonne s�par�e...

mysql> SELECT COUNT(*) INTO @running_total 
    -> FROM feeds WHERE created < '2007-01-01';
Query OK, 1 row affected (0.00 sec)

mysql> SELECT @running_total;

+----------------+
| @running_total |
+----------------+
| 159            | 
+----------------+
1 row in set (0.00 sec)

mysql> SELECT 
    ->   MONTHNAME(created) AS Month
    -> , COUNT(*) AS Added
    -> , @running_total := @running_total + COUNT(*)
    -> , @running_total AS RunningTotal
    -> FROM feeds
    -> WHERE created >= '2007-01-01'
    -> GROUP BY MONTH(created);
    
+----------+-------+---------------------------------------------+--------------+
| Month    | Added | @running_total := @running_total + COUNT(*) | RunningTotal |
+----------+-------+---------------------------------------------+--------------+
| January  |     1 |                                         160 |          159 | 
| February |     1 |                                         160 |          159 | 
| March    |    11 |                                         170 |          159 | 
| April    |     8 |                                         167 |          159 | 
| May      |    18 |                                         177 |          159 | 
| June     |     4 |                                         163 |          159 | 
+----------+-------+---------------------------------------------+--------------+
6 rows in set (0.00 sec)

Encore un coup de d�. Cepdenant, dans la sortie pr�c�dente, vous pouvez voir plus clairement ce qui arrive � la requ�te : le calcul du COUNT(*) est r�alis� durant la phase du GROUP BY, qui intervient apr�s la s�lection des lignes de donn�es.
Malheureusement, le calcul d'une variable utilisateur d'affectation est r�alis� pendant la phase de s�lection des lignes, et depuis que l'affectation de @running_total � lui-m�me plus le groupement du COUNT(*) recquiert des informations non disponibles durant la phase de s�lection des lignes, l'affectation n'est pas faite contrairement � nos attentes. Pour d�montrer ceci plus loin, jetons un oeil � ce qui arrive si nous avons ajoutons un nombre constant, et non le r�sultat du COUNT(*) � la variable @running_total, dans une colonne s�par�e.

mysql> SELECT COUNT(*) INTO @running_total 
    -> FROM feeds WHERE created < '2007-01-01';
Query OK, 1 row affected (0.00 sec)

mysql> SELECT @running_total;

+----------------+
| @running_total |
+----------------+
| 159            | 
+----------------+
1 row in set (0.00 sec)

mysql> SELECT 
    ->   MONTHNAME(created) AS Month
    -> , COUNT(*) AS Added
    -> , @running_total := @running_total + 1
    -> , @running_total AS RunningTotal
    -> FROM feeds
    -> WHERE created >= '2007-01-01'
    -> GROUP BY MONTH(created);

+----------+-------+--------------------------------------+--------------+
| Month    | Added | @running_total := @running_total + 1 | RunningTotal |
+----------+-------+--------------------------------------+--------------+
| January  |     1 |                                  160 |          159 | 
| February |     1 |                                  161 |          159 | 
| March    |    11 |                                  162 |          159 | 
| April    |     8 |                                  163 |          159 | 
| May      |    18 |                                  164 |          159 | 
| June     |     4 |                                  165 |          159 | 
+----------+-------+--------------------------------------+--------------+
6 rows in set (0.01 sec)

Comme vous pouvez le constater ci-dessus, ajouter une constante � une variable utilisateur fonctionne comme voulu, r�sultant en une incr�mentation du total courant. Mais depuis que l'expression COUNT(*) est �valu�e pendant la phase GROUP BY, l'affectation du total courant est faite par groupe, et par cons�quent ne correspond pas � nos attentes d'un total courant.

Donc, comment pouvons-nous sortir de cette impasse tout en utilisant une variable utilisateur pour faire les sommes courantes?
Bien, nous pourrions revenir � notre vieille amie, la table d�riv�e, pour forcer le calcul du GROUP BY � �tre r�alis� en premier, et ensuite appliquer la technique de Damien. Et, comme vous pouvez le constatez ci-dessous, ceci fonctionne tr�s bien :

mysql> SELECT COUNT(*) INTO @running_total 
    -> FROM feeds WHERE created < '2007-01-01';
Query OK, 1 row affected (0.01 sec)

mysql> SELECT @running_total;

+----------------+
| @running_total |
+----------------+
| 159            | 
+----------------+
1 row in set (0.00 sec)

mysql> SELECT 
    ->   Month
    -> , Added
    -> , @running_total := @running_total + Added AS RunningTotal
    -> FROM (
    -> SELECT 
    ->   MONTHNAME(created) AS Month
    -> , COUNT(*) AS Added
    -> FROM feeds
    -> WHERE created >= '2007-01-01'
    -> GROUP BY MONTH(created)
    -> ) AS t;
    
+----------+-------+--------------+
| Month    | Added | RunningTotal |
+----------+-------+--------------+
| January  |     1 |          160 | 
| February |     1 |          161 | 
| March    |    11 |          172 | 
| April    |     8 |          180 | 
| May      |    18 |          198 | 
| June     |     4 |          202 | 
+----------+-------+--------------+
6 rows in set (0.00 sec)

Le fait que vous consid�rez l'exemple pr�c�dent comme plus simple ou plus lisible que la technique de auto-joiture est enti�rement de votre avis. Les deux mani�re donnent des r�sultats identiques.

Eh! Mais qu'en est-il si je voulais une moyenne courante?

Mais, il y a plus d'une raison qui fait que je m'en tienne � la technique de l'auto-jointure, et ceci pour les situations o� vous voulez plus qu'une somme courante, mais aussi si vous voulez d'autres aggr�gats courants. Un exemple courant serait si je voudrais obtenir la moyennne courante des flux ajout�s � PlanetMySQL sur la dur�e de vie de l'historique Planet. Utilisant une auto-jointure, le code ressemble � ceci :

mysql> SELECT 
    ->   x1.YearMonth
    -> , x1.MonthName
    -> , x1.Added
    -> , SUM(x2.Added) AS RunningTotal
    -> , FLOOR(AVG(x2.Added)) AS RunningAvg
    -> FROM
    -> (
    -> SELECT  
    ->   DATE_FORMAT(created, '%Y-%m') AS YearMonth
    -> , MONTHNAME(created) AS MonthName
    -> , COUNT(*) AS Added
    -> FROM feeds
    -> GROUP BY  DATE_FORMAT(created, '%Y-%m')
    -> ) AS x1
    -> INNER JOIN (
    -> SELECT  
    ->   DATE_FORMAT(created, '%Y-%m') AS YearMonth
    -> , MONTH(created) AS MonthNo
    -> , MONTHNAME(created) AS MonthName
    -> , COUNT(*) AS Added
    -> FROM feeds
    -> GROUP BY  DATE_FORMAT(created, '%Y-%m')
    -> ) AS x2
    -> ON x1.YearMonth >= x2.YearMonth
    -> GROUP BY x1.YearMonth;
    
+-----------+-----------+-------+--------------+------------+
| YearMonth | MonthName | Added | RunningTotal | RunningAvg |
+-----------+-----------+-------+--------------+------------+
| 2005-07   | July      |    32 |           32 |         32 | 
| 2005-08   | August    |    10 |           42 |         21 | 
| 2005-09   | September |    15 |           57 |         19 | 
| 2005-10   | October   |     6 |           63 |         15 | 
| 2005-11   | November  |     5 |           68 |         13 | 
| 2005-12   | December  |     7 |           75 |         12 | 
| 2006-01   | January   |     1 |           76 |         10 | 
| 2006-02   | February  |     4 |           80 |         10 | 
| 2006-03   | March     |    20 |          100 |         11 | 
| 2006-04   | April     |     7 |          107 |         10 | 
| 2006-05   | May       |     5 |          112 |         10 | 
| 2006-06   | June      |    12 |          124 |         10 | 
| 2006-07   | July      |     5 |          129 |          9 | 
| 2006-08   | August    |    12 |          141 |         10 | 
| 2006-09   | September |     6 |          147 |          9 | 
| 2006-10   | October   |     5 |          152 |          9 | 
| 2006-11   | November  |     4 |          156 |          9 | 
| 2006-12   | December  |     3 |          159 |          8 | 
| 2007-01   | January   |     1 |          160 |          8 | 
| 2007-02   | February  |     1 |          161 |          8 | 
| 2007-03   | March     |    11 |          172 |          8 | 
| 2007-04   | April     |     8 |          180 |          8 | 
| 2007-05   | May       |    18 |          198 |          8 | 
| 2007-06   | June      |     4 |          202 |          8 | 
+-----------+-----------+-------+--------------+------------+
24 rows in set (0.00 sec)

La requ�te SQL pr�c�dente ene une version l�g�rement modifi�e des totaux courants SQL avec une auto-jointure que j'ai d�montr�e dans l'article d'hier. Les seuls changements sont que j'ai supprim� la clause WHERE dans la sous-requ�te qui limite le jeu de donn�es aux seuls flux de 2007 et j'ai chang� MONTH(created) par

DATE_FORMAT(created, '%Y-%m') afin d'y inclure �galement l'ann�e.

Notez qu'il n'y a pas que ce qui est cit� pr�c�demment qui change, tout ce que j'avais � faire pour obtenir une moyenne courante avec la m�me auto-jointure �tait d'ajouter cette ligne � la clause SELECT :

, FLOOR(AVG(x2.Added)) AS RunningAvg

La fonction FLOOR() tronque simplement � partir du point d�cimal de la moyenne et proc�de � un arrondi inf�rieur. Mais, il est tellement simple d'ajouter un calcul de moyenne courante � ce bout de requ�te. Comment aurions-nous proc�d� en utilisant les variables utilisateurs?
Bien, �a devient l�g�rement compliqu�, puisque les moyennes se basent sur le nombre total d'objets �tant moyenn�s, ce qui n�cessite dans une variable utilisateur s�par�e. Voici comment proc�der en utilisant les variables utilisateurs :

mysql> SET @num_rows := 0;
Query OK, 0 rows affected (0.00 sec)

mysql> SET @running_total := 0;
Query OK, 0 rows affected (0.00 sec)

mysql> SELECT 
    ->   YearMonth
    -> , Added
    -> , @running_total := @running_total + Added AS RunningTotal
    -> , @running_avg := FLOOR(((@running_total - Added) + Added) 
    ->   / (@num_rows := @num_rows + 1)) AS RunningAvg
    -> FROM (
    -> SELECT 
    ->   DATE_FORMAT(created, '%Y-%m') AS YearMonth
    -> , COUNT(*) AS Added
    -> FROM feeds
    -> GROUP BY DATE_FORMAT(created, '%Y-%m')
    -> ) AS t;
    
+-----------+-------+--------------+------------+
| YearMonth | Added | RunningTotal | RunningAvg |
+-----------+-------+--------------+------------+
| 2005-07   |    32 |           32 |         32 | 
| 2005-08   |    10 |           42 |         21 | 
| 2005-09   |    15 |           57 |         19 | 
| 2005-10   |     6 |           63 |         15 | 
| 2005-11   |     5 |           68 |         13 | 
| 2005-12   |     7 |           75 |         12 | 
| 2006-01   |     1 |           76 |         10 | 
| 2006-02   |     4 |           80 |         10 | 
| 2006-03   |    20 |          100 |         11 | 
| 2006-04   |     7 |          107 |         10 | 
| 2006-05   |     5 |          112 |         10 | 
| 2006-06   |    12 |          124 |         10 | 
| 2006-07   |     5 |          129 |          9 | 
| 2006-08   |    12 |          141 |         10 | 
| 2006-09   |     6 |          147 |          9 | 
| 2006-10   |     5 |          152 |          9 | 
| 2006-11   |     4 |          156 |          9 | 
| 2006-12   |     3 |          159 |          8 | 
| 2007-01   |     1 |          160 |          8 | 
| 2007-02   |     1 |          161 |          8 | 
| 2007-03   |    11 |          172 |          8 | 
| 2007-04   |     8 |          180 |          8 | 
| 2007-05   |    18 |          198 |          8 | 
| 2007-06   |     4 |          202 |          8 | 
+-----------+-------+--------------+------------+
24 rows in set (0.00 sec)

Comme vous pouvez le voir, il est possible d'obtenir des moyennes courantes avec des variables utilisateurs, mais il s'agit d'une d�licate double affectation de variable utilisateur dans la colonne de calcul de la colonne RunningAvg :

, @running_avg := FLOOR(((@running_total - Added) + Added) 
/ (@num_rows := @num_rows + 1)) AS RunningAvg

La premi�re affectation est actuellement faite pour la variable utilisateur @num_rows dans une parenth�se interne. La seconde affectation (externe) est faite par la variable utilisateur @running_avg. Nous devons faire cela car pour calculer la moyenne correctement, nous avons besoin de diviser le total des flux ajout�s par le nombre de mois (stock�s dans la variable incr�mentale @num_rows)...

Personnellement, pour des raisons telles que celles-ci, je pr�f�re utiliser la technique de l'auto-jointure car elle est plus lisible sur le long terme. Dans un article � venir, je vais regarder un benchmark de performances pour chaque m�thode afin de voir s'il y a une diff�rence notable...

Si vous d�sirez commenter cette article, Jay accepte les commentaire sur son blog,

http://jpipes.com.

Pr�c�dent � Sommaire �

�� Version PDF (Miroir) � Version hors-ligne (Miroir)

�

Copyright © 2008 developpez Developpez LLC. Tous droits réservés Developpez LLC. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents et images sans l'autorisation expresse de Developpez LLC. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.