Sa grande enquête annuelle dresse le portrait des utilisateurs de Data Mining.
Rexer Analytics, un cabinet de consulting spécialisé Analytique et CRM vient de publier la troisième édition de son étude annuelle sur le Data Mining. Une mine d’or (ok, elle était facile celle là) sur les us et coutume en vigueur dans la tribu bien particulière des Data Miner. 392 data miners en entreprise ou consultants ont été interrogés, 181 fournisseurs et 137 enseignants et chercheurs ont été interrogés. Les réponses des fournisseurs ont été retirées du panel général. Parmi les 48 pages de l’enquête, j’ai retenu notamment que l’utilisation numéro 1 du data mining est bien le CRM et le marketing, devant l’enseignement la finance et le commerce. Paradoxalement, le Data Mining est peu usité chez les professionnels du Web : 12% des répondants seulement.

Les principaux domaines d'application du Data Mining, sans surprise le CRM et le marketing dominent.
Du point de vue des outils mis en œuvre, les solutions SPSS est le logiciel le plus utilisé pour le CRM/Marketing, les solutions Open Source sont plébiscitées par les enseignants et relativement bien exploitées dans le secteur médical et pharmaceutique. SAS est la solution de prédilection du secteur financier, du commerce et de l’assurance. Comme quoi, les images d’Epinal sont parfois vraies.
Problème n°1 : la donnée
D’après l’enquête, le souci numéro 1 du Data Minier, c’est la qualité de ses données. C’est la réponse de 64% des Data Miner interrogés devant. Deuxième problème difficile : devoir expliquer le Data Mining aux autres (une réponse sur deux) puis l’abscence ou la difficulté d’obtenir des données. Nos statisticiens travaillent sur 1 à 100 millions d’enregistrements pour 24% d’entres eux, de 100.000 à 1 millions d’enregistrements pour 24% autres puis de 10.000 à 100.000 pour 21%. Ils sont 7% à travailler sur plus de 100 millions. Il faut savoir que 69% des Data Miner travaillent sur un PC traditionnel, 53% sur un laptop. 46% disposent d’un serveur local, 26% d’un serveur partagé. 6% sont déjà satellisés dans le cloud.
Des utilisateurs satisfaits… mais pas forcement fidèles
Parmi les solutions les plus appréciés par leurs utilisateurs, SPSS Clementine (IBM SPSS Modeler aujourd’hui) est actuellement plébiscitée par ses utilisateurs, devant Statistica, Rapid Miner. A noter que si Clementine est appréciée, c’est moins le cas des autres outils SPSS. Quant à la plate-forme SAS, c’est elle qui est la mois bien notée de ses utilisateurs même si tout cela reste relatif, 80% de ses utilisateurs s’affirment satisfaits ou très satisfaits. Par contre les choses évoluent rapidement et seul 53% des utilisateurs déclarent vouloir continuer avec leur outil dans les trois ans à venir. Moins de 60% des utilisateurs SAS et Weka vont continuer, moins de 30% des utilisateurs de Clementine. Personnellement je trouve ces chiffres assez surprenants… mais on dirait que ça va swinguer dans le Dataming.
Comme il s’agit de la troisième édition de l’étude, on peut voir les évolutions notamment en ce qui concerne les priorités des Data Miner. Pour 2009, la priorité fut la qualité et l’efficacité des modèles alors que l’année dernière la priorité n°1 était la stabilité des logiciels.
Dernier élément plutôt amusant : les deux tiers des data miners se sont formés eux-mêmes.
Vous pouvez demander la synthèse de l’enquête à Karl Rexer sur le site de Rexer Analytics.










Ce que je lis sur le site Rexer ne reflète pas du tout vos conclusions.
Voici ce que je lis sur page http://www.rexeranalytics.com/Data-Miner-Survey-Results-2009.html
* IBM SPSS Modeler (SPSS Clementine), Statistica, and IBM SPSS Statistics
(SPSS Statistics) are identified as the “primary tools” used by the most data
miners.
* Open-source tools Weka and R made substantial movement up data
miner’s tool rankings this year, and are now used by large numbers of
both academic and for-profit data miners.
* SAS Enterprise Miner dropped in data miner’s tool rankings this year.
* Users of IBM SPSS Modeler, Statistica, and Rapid Miner are the most
satisfied with their software.
Mea culpa.
Vous avez raison, j’ai effectivement commis une erreur d’interprétation du graphe relatif au taux de satisfaction des outils de data mining.
J’ai intégré le graphe en question dans l’article et je corrige la fin de mon billet.
Merci d’avoir révélé cette erreur et mes excuses à tous les lecteurs que j’aurais pu induire en erreur.
Nice Summary – Thanks. I’m sorry that I am unable to reply in French.
We recently sent out our free 48 page summary report to several people who contacted us after reading your summary. Anyone who wants this 2009 report can contact us at dataminersurvey@RexerAnalytics.com.
In 2Q-2010 we collected data on the Fourth Annual Data Miner Survey. In October we will be unveiling the annual survey results at the Predictive Analytics World conference in Arlington, Virginia. At that time we will also send out a free summary report for this 2010 research to anyone who wants it. Please email us if you want to receive the 2010 report in October.
Please also email us if you want to participate in the 2011 Data Miner survey. We will add you to our list and email an invitation to you in 1Q-2011.
Thank you for your interest in our ongoing research program.
– Karl Rexer