Cerné par les appétits manifestes des autres géants du Net attirés par le juteux marché de la recherche sur Internet, Google sort le grand jeu : la recherche sémantique. La sémantique correspond à l'étude du langage et des signes linguistiques par rapport au sens. La recherche sémantique prend de ce fait en compte le mot et son contexte pour lui donner un sens. Ainsi, elle permettrait au moteur de recherche de répondre à l'internaute en vérifiant que le contenu trouvé corresponde au sens des mots recherchés. Si l'internaute recherche le mot « orange » par exemple, en fonction des autres mots de la requête, le moteur de recherche sera capable de déterminer s'il s'agit de la couleur ou du fruit. Il pourra, par conséquent, répondre correctement à la demande de l'internaute. Un dirigeant de Google, Amit Singhal, a récemment fait savoir au Wall Street Journal que l'algorithme de Google allait être mis à jour pour permettre la recherche sémantique. Depuis deux ans, des ingénieurs ont constitué une base de données répertoriant des éléments comme des films, des acteurs ou encore des lieux. Cette base de données permettrait ainsi de relier ces éléments entre eux. Google sera alors capable de répondre directement aux questions des internautes : il pourra, par exemple, lister les acteurs d'un film. Historiquement, les moteurs de recherche se sont basés sur l'analyse des mots présents dans les documents indexés. Si un document contient les mots ou même l'expression demandée par l'internaute, alors il est sans doute pertinent. C'était l'époque d'Altavista, quand l'indice de densité était une notion utile (ce n'est plus du tout le cas). Ensuite, Google a rajouté une couche très importante : l'analyse des liens. Une page qui contient les bons mots c'est bien, mais il peut y en avoir beaucoup : laquelle mettre en avant dans les résultats ? Réponse : les plus populaires, c'est-à-dire celles qui reçoivent le plus de citations (des liens).Petit à petit, Google a progressé dans l'analyse linguistique : prise en compte des « petits mots » (stop words), reconnaissance des différentes formes des mots (singulier/pluriel et bien plus) puis des synonymes et autres relations entre les mots sémantiquement proches. Enfin, Google s'est mis à analyser les documents par syntagmes plutôt que par mots, avant de faire un énorme pas vers le monde des entités nommées. Concrètement et simplement, une entité nommée est une sorte d'objet textuel avec un nom bien identifié et une série de propriétés. On peut définir par exemple des entités pour des personnes, des lieux, des entreprises, des films, des livres et de très nombreux autres sujets. En juillet 2010, en rachetant Metaweb et sa base de données de 12 millions d'entités nommées (named entities), Google a sans doute accentué son avance. En effet, à titre de comparaison, Wikipédia n'en contient que 3,5 millions (pour la langue anglaise). Actuellement, le projet Freebase (développé par Metaweb) contient 22 millions d'entités, librement consultables. En moins de 2 ans, Google aurait étendu sa base à 200 millions d'entités ! Pour cela, les dizaines d'ingénieurs qui travaillent sur le projet ont développé des « algorithmes d'extraction », c'est-à-dire des systèmes automatisés qui agrègent des données éparpillées sur le Web. En plus de ces algorithmes, Google aurait passé des accords avec des organisations et des agences gouvernementales pour augmenter sa base de connaissances. Par exemple, Google aurait accès à la CIA World Factbook, une base de connaissances à jour sur tout ce que l'on sait sur tous les pays dans le monde. Amit Singhal, le boss de l'algo Google, a présenté quelques informations à la presse américaine sur l'avenir du célèbre moteur de recherche. On apprend que Google saura prochainement répondre de façon intelligente aux requêtes des internautes, grâce à une énorme base de données d'entités nommées et à des nouveaux algorithmes. Ce qui impressionne le plus dans les annonces faites par Amit Singhal, c'est le fait que Google sache fournir des informations très poussées sur certains sujets dès lors qu'ils sont demandés par les internautes. On connait déjà les exemples de la météo, des matchs de foot ou des films de cinéma pour lesquels Google affiche des informations pertinentes dans une OneBox adapté. Désormais, quand un internaute tape le nom d'un lac (exemple « Lake Tahoe »), Google pourra afficher directement dans la page de résultats tout un tas d'informations comme l'emplacement géographique du lac, son altitude, sa température moyenne et son degré de salinité. Google saura également répondre à des questions comme « Quels sont les 10 plus grands lacs de Californie ? ». Certaines personnes s'émeuvent et annoncent déjà la mort du SEO, acronyme de Search Engine Optimization (référencement en français), une technique décrivant la marche à suivre afin d'améliorer le classement de son site Web dans le résultat des moteurs de recherche. Faut-il avoir peur de ce nouveau bouleversement ? Pour certains experts, il n'y a rien de nouveau là dedans. En effet, Google utilise la recherche sémantique depuis 2003, comme le précise Danny Sullivan du site Searchengineland. L'idée de réponse directe n'est pas nouvelle, Google y travaille également depuis des années et le fait même depuis quelque temps et cela n'a pas tué le SEO pour autant !Mais ce qui est nouveau, en l'occurrence, c'est l'acquisition par la firme de Mountain View de Metaweb Technologies qui dispose de 12 millions d'entités tels des livres, films, célébrités... Une base de données gigantesque qui va fortement aider la recherche sémantique. Il n'y a donc pas lieu de s'alarmer face à cette énième évolution de Google. En effet, comme le souligne Danny Sullivan, seul un petit nombre de sites qui fournissent de l'information brute vont être touchés par ces modifications. C'est un coup dur pour eux mais a priori une bonne chose pour l'internaute qui trouvera une réponse rapide à des questions simples. Mais la grosse majorité des sites (e-commerce, d'entreprise...), tout comme beaucoup de requêtes, ne seront pas concernés par ces changements. La recherche sémantique constitue, donc, une évolution majeure du moteur de recherche Google, depuis sa création. En effet, selon les propos rapportés d'Amit Singhal, « la recherche sémantique va permettre d'associer différents mots avec d'autres, par exemple, une entreprise lambda avec le nom de son créateur et aussi des membres de son personnel ou un écrivain avec ses titres publiés ». L'objectif de Google sur les 10 années à venir, c'est de fournir une réponse qui soit exactement ce que l'internaute veut savoir. Le PDG de Google Eric Schmidt, voit le futur de la recherche en connexion directe sur le cerveau de l'internaute ! Entendre par là, que pour ce faire, il faut savoir exactement ce qui se passe dans sa tête, ce qu'il pense, ce qu'il veut. Google est le leader incontesté de la recherche Internet avec une part de marché de près de 66% et plus de 75% des revenus publicitaires en ligne. Ce qui lui permet de générer un revenu annuel de 37 milliards de dollars. Avec la recherche sémantique, l'objectif inavoué de Google est donc de maintenir ce leadership. Et donc, de conserver une bonne longueur d'avance sur ses poursuivants que sont Microsoft et Apple (avec Siri). Sans oublier Facebook qui, fort de ses 850 millions de membres, constituerait une réelle menace pour les revenus publicitaires en ligne de Google. Facebook ayant collecté des informations précieuses sur des millions de personnes et de lieux que de nombreuses entreprises souhaitent pouvoir exploiter dans leurs stratégies commerciales. La recherche sémantique est une véritable opportunité pour Google d'engranger des revenus substantiels en affichant sous ses résultats directs des liens pour vendre des livres, de la musique, des billets d'avion, des réservations d'hôtels ... Avec le lancement de la recherche semantique, Google espère avoir trouvé le moyen de retenir le public sur son site. Car, les internautes passent plus de temps sur Facebook que sur l'ensemble des sites de recherche réunis (Google, Bing, AOL, ...). De plus, il faut aussi compter avec le temps moyen passé par les internautes sur Twitter qui ne cesse de croître. Ainsi que sur le dernier né des réseaux sociaux, Pinterest. Dans la mesure où la recherche sémantique vise à fournir des réponses concises directement sur la page de résultats aux internautes, il va sans dire que le temps moyen passé sur Google va considérablement augmenter. Car, Google va se servir de tous les contenus produits pour afficher des extraits de ces contenus à ses utilisateurs. Sans que ces derniers aient besoin d'aller visiter les pages web.