Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 1 Intégration de mnoGoSearch sur le site de lEtat de Vaud Jean-Luc Thirot Centre de Compétence Web Content Management System DSI / DI / Pôle Plates-formes transversales Juin 2009
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 2 Thèmes abordés Pourquoi changer IndexedSearch? Pourquoi mnoGoSearch? Résultats Installation et configuration
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 3 Indexed Search nest pas adapté Un audit en juin 2008 à clairement identifié que Indexed Search était responsable des pertes de performances du site en raison des charges sur la base de données MySQL. Il est aussi admis que ce moteur nest pas adapté pour des sites de plus de 100 pages [1]. Indexed Search gère 7 requêtes simultanées et met 10 secondes pour afficher une requête. Lindexation est la recherche sont pénalisantes.
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 4 Des chiffres Typo3 version (actuelle ) mnogoSearch version (actuelle 3.3.8) Statistiques du mois de Juin 2008: 3 millions de pages vues (dont pages de recherche) Pointe à pages vues sur la journée la plus chargée 10% des requêtes pendant l'heure de pointe (11h) Dans le pire des cas, on a donc une pointe de fréquentation de pages en une heure Cela nous donne une moyenne de 5,5 pages par seconde
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 5 Conclusion de laudit « Au cours de ce test, on constate que la charge serveur est très élevée, proche de 50, avec des centaines de processus Apache en attente. La page de recherche affiche un temps de réponse démesuré (280 secondes soit près de 5 minutes). Pendant tout le test, le processus MySQL est resté à 100% de CPU ce qui montre qu'il est le point limitant. »
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 6 Pourquoi mnoGoSearch? Solution open source Préconisé par les auditeurs Préconisé par Dmitri Dulepov –Intégré à Typo3
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 7 Test de charge avec mnoGoSearch 48 x plus rapide Temps moyen pour afficher une page –Indexed Search = 6599ms –Static files = 235ms –mnoGoSearch = 135ms
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 8 Indexer vite DBMode = multi => 6h. DBMode= blob => 1h20 multi threads « indexer –N10 » => 40 minutes.
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 9 Charges lors de lindexation 5 juin 2009 Load average max de 10 durant 40 minutes
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 10 Architecture Serveur 1 Typo3 et MySql Serveur 2 mnoGoSearch et MySQL Indexer.conf Search.htm Cron pour lindexation journalière sr_iframe_modifie Binaires (pdftotext)
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 11 mnoGoSearch vs Indexed Search Avantages de mnoGoSearch La vitesse La charge sur le serveur pour la recherche et lindexation Le plugin Typo3 « mnoGoSearch » [3] fait par Dmitry Dulepov [2] Utilisation dun moteur indépendant et spécialisé Désavantages de mnoGoSearch Les accès sur les pages privées ne sont pas gérés [1] Le Typo3 core travaille sur lamélioration de Indexed Search pour la version 4.3 [1] mais avec un gain en vitesse de 2 à 3x.
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 12 Bibliographie 1.Indexed Search Enhanced Finding results faster with full-text, Michael Stucki ced.pdf 2.DMITRY-DULEPOV.COM typo3-web-site.html 3.Extension mnoGoSearch 4.Mnogosearch engine with mm_forum
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 13 Question?
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 14 Qualité RecherchemnoGoSearchGoogleRemarque vivarium2824 Maternité bas revenu Emploi Emplois Emplois taille Emplois taille (409) Mise en évidence+ Résumé++ Pertinence++ Version html+ L'anti dictionnaire-+
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 15 Divers Remarques iFrame (sr_iframe)Modifications nécessaires de lextension Taille verticale fixe Programmation de la page de recherche mnoGo Utilisation dexpression régulière pour afficher le titre Les parsersIls doivent être à jour même si les dernières versions datent Modification des templates Typo3 Ajout des balises … pour exclure des éléments de la page de lindexation.
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 16 Charges lors de lindexation 15 octobre 2008 Load average max de 2.9
Direction des systèmes dinformation Avenue Recordon 1, CH-1014 Lausanne Tél: ++41(0) Fax: ++41(0) Page 17 Configuration pour lindexation Configuration mnoGoSearch DBMode = multi => 6h. DBMode= blob => 1h20 multi threads « indexer –N10 » => 40 minutes. Le mode live nest pas en place (indexation+recherche simultanée) Le site est indexé à 4h00 du matin La taille des documents à indexer est limitée à 3Mo. Cette taille ne semble pas pauser de problèmes aux parsers ou à lindexer.