La réputation sur le Web est devenue un enjeu tant social que culturel, politique ou économique. Exister -et parfois survivre-, c’est ressortir en tête de classement des résultats donnés par une recherche sur Google ou Bing. Il faut à la fois disposer d’une masse d’abonnés et bénéficier d’un grand nombre de commentaires positifs. Pour ce faire a été élaboré le ranking.
Mais les algorithmes de ranking employés aujourd’hui ont des défauts évidents. Wikipedia, une source très utilisée, possède une fiabilité qui peut laisser à désirer. C’est Wikipedia qui sort quasi systématiquement en première position lors d’une recherche sur un sujet historique ou scientifique, et non les sites Web de sources de savoir plus traditionnelles (éditeurs, universités) pourtant excellentes dans le domaine visé. A l’utilisateur de s’accommoder de l’existant et tirer son épingle du jeu.
Toute une industrie existe donc pour optimiser le ranking et ipso facto la réputation d’institutions, entreprises ou individus. Mais une partie des stratégies employées par certaines formes de ranking tient de la tromperie délibérée. C’est le cas de la collusion entre sites Web se citant les uns les autres, et qui ont mis en place des liens croisés en vue d’améliorer artificiellement leur ranking, la mise en ligne de faux commentaires de clients (sites de commerce électronique), visiteurs ou abonnés (sites d’information, chaînes YouTube etc.).
Il est donc tout à fait logique de voir Google, comme d’autres grands acteurs du numérique, participer aux efforts de lutte contre certains types de manœuvres abusives, frauduleuses ou même criminelles sur le Web – et ce notamment à travers la R&D. Mais il est particulièrement surprenant que les contenus litigieux aient pu faire florès sur le web, alors que les investissements et recherches nécessaires ont précisément été réalisés pour gérer ce type de contenus.
De même on peut s’interroger sur les demandes faites par Google et Facebook aux médias français. En effet selon l’annonce faite le 6 février par Facebook, le journal Le Monde, l’Agence France-Presse (AFP), BFM-TV, France Télévisions, France Médias Monde, L’Express, Libération et 20 Minutes ont décidé de collaborer gratuitement avec Facebook pendant quelques mois pour réduire la présence de fausses informations sur le réseau social.
De même, Google soutenu par Facebook, a également annoncé le lancement de CrossCheck au sein du projet First Draft. CrossCheck permettra aux internautes de soumettre des questions sur des informations suspectes par rapport à seize médias français partenaires dont, à nouveau, l’AFP, Le Monde, Libération, France Télévisions et France Médias Monde.
De nombreuses questions apparaissent. En quoi les médias français devraient-ils en effet utiliser leurs ressources pour se trouver « in fine » garants du web alors que, dans le même temps, il semblerait que Google dispose des moyens pour gérer ces informations. Parallèlement crédibiliser gratuitement la position de neutralité de Google et Facebook peut-il être pas un bon concept alors que ces sociétés se refusent, sous couvert de conventions fiscales, à être soumis aux règles d’imposition française, et à celles de protection des données européennes.
C’est une clarification que n’a pas souhaité apporter Google, contacté par les journalistes de Forks. Aucune réponse consécutivement à nos nombreuses demandes n’a été apportée aux questions sur ces sujets
Or Google consacre des moyens importants à ce type de recherches. Un budget de 1,2 M $ a été investi dans le cadre du projet NSF Axioms and Algorithms for Reputation (2004-10), des recherches menées, sous la référence de contrat ITR1 IIS-0428868, par une équipe comprenant Benjamin Van Roy (PI), Ashish Goel et Ramesh Johari (coPIs), du 15 sept. 2004 au 31 août 2010,
Le programme NSF Information Technology Research for National Priorities est présenté avec ce descriptif sur le site Web de la NSF :
« The goal is to design metrics of online reputation that are both robust to gaming agents and efficiently computable. (…) This research program will have a significant impact on several important problem domains such as ranking of web pages and blogs, online market places, and peer-to-peer systems. (…) Additionally, the purpose of reputation systems is to gather highly imperfect information from many sources, and to process it into a comprehensible prediction of outcomes (e.g., whether a vendor will be reliable). Certain national security needs could conceivably be met with variants of reputation systems. One of the great challenges of intelligence assessments is to determine what information is reliable and what is not. The proposed research should help in addressing this challenge. »
Prenons 4 articles parus sur le sujet:
« Bayesian Bandits, Secretaries, and Vanishing Computational Regrets » (2009)
« An Incentive-Based Architecture for Social Recommendations » (2009)
« Hybrid Keyword Search Auctions » (2009)
« The Ratio Index for Budgeted Learning, with Applications » (2008)
« Fair Welfare Maximization » (2007)
Les recherches effectuées sur ces 4 articles sont révélatrices.
Les auteurs du premier sont Ashish Goel (Stanford), Sudipto Guha (UPenn) et Kamesh Munagala (Duke). Goel affiche pour sources de financement un NSF ITR Grant non spécifié, mais identifiable à IIS-0428868 qui renvoie à la Stanford-KAUST Alliance for Academic Excellence, Google, Microsoft et Cisco . Guha est une bourse de recherche A.P. Sloan, un NSF CAREER Award avec le contrat NSF CCF-0644119. Munagala est aussi une bourse de recherche A.P. Sloan, un NSF CAREER Award dont le contrat est NSF CNS-0540347.
Or le NSF CNS-0540347 est un DDDAS-TMRP, un Dynamic Sensor Networks. Le but de la recherche, Enabling the Measurement, Modeling, and Prediction of Biophysical Change s’étend sur le spectre 15 janv. 2006 – 31 déc. 2012, 1,26 M USD. Mais le PI James Clark (Duke) a comme coPIs Carla Ellis, Pankaj Agarwal, Jun Yang, Ka-meshwar Munagala.
Google est donc l’un des acteurs du cofinancement des recherches menées dans ce cadre.
L’article, « Hybrid Keyword Search Auctions » (2009) donne un autre cas de cofinancement par Google de recherches menées dans le cadre NSF CNS-0540347. C’est un nouvel exemple de l’implication directe de Google.
L’article de 2011, « Exploiting Temporal Coherence in Forest Dynamics Simulation » fournit un nouvel exemple de cofinancement. Cet article, en plus de la référence NSF DDDAS, affiche aussi les références ARO W911NF-07-1-0376 et W911NF-08-1-0452. La première correspond au projet Engineering Sensor Network Structure for Information Fusion (eSensIF), la seconde au projet STREAM: Scalable Techniques for High Resolution Elevation Data Analysis and Modeling.
L’article ici visé, après analyse détaillée traite du projet ARO eSensIF. Il y est montré qu’une partie importante des recherches, probablement l’intégralité, a été entreprise alors que l’un des co-auteurs, Hai Yu, était employé par Google.
Ces informations rendent fragile la position de Google, comme d’autres grands acteurs du numérique, qui s’érigent en pourfendeurs universels des manœuvres abusives, frauduleuses ou même criminelles sur le Web, qui peuvent même apparaître comme ambigüe.
Daniel Carraco, Pierre Cusson, Dominique Grimardia