Simon Lacoste-Julien Chercheur CR Équipe-Projet SIERRA, INRIA - École Normale Supérieure Keyrus – 11 septembre 2014.

Slides:



Advertisements
Présentations similaires
RAPPORT et TAUX Objectif.
Advertisements

Les pronoms compléments
Les expressions de quantité
MY. Which ones which? MON (masculine) p ère MA (feminine) m ère MES (all plurals) parents.
STEP 1 Bring an object you really like or which is important to you and hide it in your bag.
Quelle est la date aujourd’hui ?
Questions II How do you Form Questions in French??
les fournitures scolaires masculin! féminin! un crayon un stylo
So what are Garfield and Odie saying?
Les expressions de quantité Followed by de or d. Que veut dire… Assez de Beaucoup de Combien de Plus de Moins de Trop de Tant de.
Time with minutes French II Le 30 Octobre.
H. Stanistreet Exercice #22 Translate: Are there books in the classroom? Yes, there are books in the classroom. Are there markers in the classroom? No,
Le Superlatif des Adjectifs
Status report SOLEIL April 2008
Procédure dappel Appeal process 1(c) RISS / IJHS, 2012.
Français 1b OPT Benchmark Oral Exam Begins Tuesday, May 29, 2012.
Reading an analog clock
Its all about « mois », the « months » that are important!
I want to achieve … Level 5 Writing. Level 5 is considered the gold standard at the end of Key Stage 3 … if you can get a Level 5 you are in a strong.
L ES ADJECTIFS SPÉCIAUX - BAGS Français 1 In French, most adjectives follow the noun that they modify. Par exemple – Elle est une élève intelligente.
and a justification for level 4
Role-play C On the first page, you will see a sample of the preparation material you will be given 10 minutes before your exam. On the second page, you.
WALT: how to use the time when talking about your timetable WILF: to identify the correct time in French when reading & listening (level 3) DAYS OF THE.
Rules Each group answers every question. A student will be selected at random to answer the question. If that team misses, a 2 nd name is drawn, and they.
The interrogative structure indicates that the speaker is searching for information In other words, we use the interrogative to ask questions.
Les pluriels Sometimes you cant just take one!. Les articles… There are « DEUX » articles that can show that something is plural. Les = the Les ciseaux,
En translates to some, any, of it, or of them.. Tu veux du yaourt? Non, merci, je nen veux pas.
regarder écouter dormir jouer sortir finir
How to solve biological problems with math Mars 2012.
Indefinite articles, plural of nouns
EXT: can you translate them too?
Mardi 20 Novembre 2012 Recap I can
Le système scolaire en France
Proposition for a new policy for MAPMT Gain Control Sylvie Dagoret-Campagne LAL EUSO-BALLOON 8th Progress meeting1.
Job Interview. Francais 3 Regulier (1 Oral Formative Assessment, 1 Written Formative Assessment, 1 Vocab Quiz Formative Assessment.
140 ans Dune entreprise familiale à… Une famille dentreprises.
Les numéros Today’s objective: to learn the numbers 1 to 11.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
L’ensemble microcanonique
Les Tâches Ménagères Learning Objectives:
WALT: how to talk about your timetable
Un chat deux chats deux chiens Un chien deux chevaux Un cheval
Jeudi le 7 novembre. F 3 DUE: Virtual tour in LMS by 7:30 for the 70! DUE: Flashcards also for the 70 today (50 Friday) 1. Poem practice Le dormeur du.
Il est vs. cest. How would you translate these sentences? Cest Pierre. Il est gentil. Cest un ami. Cest un ami français. It is Pierre. He is nice. Its.
Les lycées. Sixth form is compulsory in France so it is really important to choose the right one. Look carefully at the information about colleges and.
CLS algorithm Step 1: If all instances in C are positive, then create YES node and halt. If all instances in C are negative, create a NO node and halt.
To be able to say what I think about different jobs for level 3.
Physique statistique Frédéric CAUPIN.
Donnez l’heure “Time”… it’s a ticking!.
LEÇON 101. Écrivez vos devoirs: Continuez de préparer lexamen final. Tout de suite: Sortez vos 1.iPads 2.notes on Marie Antoinette 3.any/all of the sentences.
Expressing which or what And the whole or the entire and all or every.
Mon émission préférée Lesson Objectives: In this lesson you will learn how to say what time your favourite programme is on, and on which channel.
Leçon 4: L’heure Mlle Muhr French 1. The Hour There are 60 minutes in every hour. Each hour can be divided into 4 parts: 15/60 or 1/
Quelle heure est-il? What time is it ?.
Don't cry for me Argentina
Unité 2 La vie courante Leçon 3 Bon appétit Thème et Objectifs Everyday life in France In this unit, you will learn how to get along in France. You will.
When do we use numbers? Why are they important? Why is it important to know numbers in French (or any other language)? Can you think of some REAL WORLD.
Unité 1: Faisons Connaissance Leçon 1 Bonjour!
ANSWERS. What is Verb Conjugation? For one thing, conjugating a verb is simply putting a verb in an orderly arrangement. We will use a chart. To create.
Français 2, 29 Septembre 2014 Ouvrez vos livres à la page 20. Faites #26. Why is it important to be on-time for work if you're a computer security specialist?
La visite de Clément l’Aplati à Paris
Essential Question: How can you tell someone in French that you do something everyday or just on a certain day? Lesson 5.
Transition Unit Personal Information Lesson 1
Write your answer in French
Negative sentences Questions
1 Linear Prediction. 2 Linear Prediction (Introduction) : The object of linear prediction is to estimate the output sequence from a linear combination.
Quelle est la date aujourd’hui?
Qu’est-ce que tu as dans ta trousse?
Quelle est la date aujourd’hui?
Transcription de la présentation:

Simon Lacoste-Julien Chercheur CR Équipe-Projet SIERRA, INRIA - École Normale Supérieure Keyrus – 11 septembre 2014

 Mot tendance pour décrire *beaucoup* de données!  Buzz: Obama announces “Big Data initiative” Google Trends – search terms volume

 Mot tendance pour décrire *beaucoup* de données!  nous vivons à l’ère de l’information ◦ accumulation de données dans tous les domaines:  internet  biologie: génome humain, séquençage d’ADN  physique: Large Hadron Collider, octets/jour par senseurs ◦ appareils d’enregistrement:  senseurs, portables, interactions sur internet,...  défis en informatique: ◦ stockage, recouvrement, calcul distribué... ◦ 3V’s: volume, vélocité, variété  donner un sens aux données: apprentissage automatique

 Nous voulons utiliser les données pour: ◦ faire des prédictions, détecter des failles, résoudre des problèmes...  Science derrière tout cela: ◦ apprentissage automatique / statistiques computationnelles  Autres termes en pratique: ◦ data mining, business analytics, pattern recognition,...

 Question centrale selon Tom Mitchell: “Comment construire des systèmes informatiques qui s’améliorent avec l’expérience, et quelles sont les lois fondamentales qui gouvernent tous les processus d’apprentissage automatique?”  Mélange d’informatique et de statistiques CS: “Comment construire des machines qui résolvent des problèmes, et quels problèmes sont intrinsèquement faisables / infaisables?” Statistiques: “Que peut-il être déduit à partir de données et un ensemble d’hypothèses de modélisation? -> comment un ordinateur peut-il apprendre à partir de données?

inputoutput ‘zebra’ ‘tiger’  Traditional programming:  Machine learning: program ‘zebra’ ‘tiger’ training data learning program inputoutput program chosen program / model

possible models F a F a a = w 0 + w 1 * F Choose w 0, w 1 to minimize sum of squared errors training data learning program  learn a predictive model

Learning law #1: Occam’s razor and overfitting

a = w 0 + w 1 *F linear model:

a = w 0 + w 1 *F+w 2 *F 2 quadratic model:

cubic model (degree 3)

degree 10

degree 15 overfitting!

 Between two models / hypotheses which explain as well the data, choose the simplest one  In Machine Learning: ◦ we usually need to tradeoff between  training error  model complexity ◦ can be formalized precisely in statistics (bias- variance tradeoff, etc.)

Erreur de prédiction Complexité du model petitegrande Erreur d’entraînement Erreur de test Grand biais Petite variance Petit biais Grande variance sous- apprentissage surapprentissage

‘zebra’ ‘tiger’ training data decision boundary ?

group 1group 2

 Hype: With enough data, we can solve “everything” with “no assumptions”!  Theory: No Free Lunch Theorem! ◦ If we do not make assumptions about the data, all learning methods do as bad “on average” on unseen data as a random prediction!  consequence: need some assumptions ◦ for example, that time series vary ‘smoothly’

 Problème avec données en grandes dimensions: explosion combinatoire de possibilités (exponentiel en d)  Exemple: classification d’images ◦ entrées: 16x16 pixels binaires (d=16 2 =256) ◦ sortie: {-1,1} [2 classes] ◦ nombre d’entrées possible: ~ vs. nombre d’images sur Facebook: ~10 12  => impossible d’apprendre la fonction de classification sans supposition!

 We can ‘discover’ meaningless random patterns if we look through too many possibilities  “Bonferroni’s principle”; exemplified by Birthday Paradox  NSA example : say we consider suspicious when a pair of (unrelated) people stayed at least twice in the same hotel on the same day ◦ suppose 10 9 people tracked during 1000 days ◦ each person stays in a hotel 1% of the time (1 day out of 100) ◦ each hotel holds 100 people (so need 10 5 hotels) -> if everyone behaves randomly (i.e. no terrorist), can we still detect something suspicious? Probability that a specific pair of people visit same hotel on same day is ; probability this happens twice is thus (tiny),... but there are many possible pairs => Expected number of “suspicious” pairs is actually about 250,000! example taken from Rajamaran et al., Mining of Massive Datasets

 Il faut bien connaître ses statistiques en plus de l’informatique pour faire du sens du Big Data! ◦ -> métier de « Data-Scientifique »

datascientifique_ _3234.html?xtmc=data_scientist&xtcr=1

 spam classification (Google)  machine translation (not pretty, but ‘functional’)  speech recognition (used in your smart phone)  self-driving cars (again Google)

 Demo from Microsoft Chief Research Officer at Microsoft Research Asia meeting in Oct 2012

 ‘révolution’ du Big Data: disponibilités de données + avancées dans les outils computationnels et statistiques = opportunités pour résoudre de nouveaux problèmes!  apprentissage automatique – domaine en pleine croissance... ◦ par contre domaine extrêmement multidisciplinaire: combine informatique, maths appliquées, statistiques  `success stories’ dans les domaines des sciences et technologies

 from Larry Wasserman’s blog: