Fondamentaux du big data

par Invité Lun 30 Jan 2017 - 21:41

Salut tout le monde,

pour tous ceux qui aiment apprendre et qui ont des connaissances de base en programmation(python), en statistiques, en mahtématiques, en algorithmie et dans les bases de données relationnelles il y a un mooc intéressant qui vient de sortir aujourd'hui sur fun mooc "Fondamentaux du big data".
Si ça vous intéresse et que vous n'avez pas le niveau ce n'est pas les ressources qui manquent sur internet pour apprendre les bases de Python et de l'agorithmie. D'autant plus, que le niveau demandé n'est pas très élevé.

Je vous mets les objectifs de la formation :

Utiliser l’environnement (ainsi que l’interpréteur) Python pour écrire et exécuter des programmes.
Utiliser la bibliothèque standard Python et ses modules dans des programmes de base.
Utiliser les conteneurs, les branchements et les boucles dans des programmes Python.
Utiliser les fonctions dans l’écriture des programmes Python.
Écrire des programmes Python orientés objet en utilisant les classes et leurs méthodes.

Identifier et manipuler un espace vectoriel réel
Identifier et manipuler un espace vectoriel engendré par une famille finie Identifier et manipuler une base.
Calculer et utiliser la dimension d’un espace vectoriel réel.
Calculer et utiliser le rang d’une famille de vecteurs Identifier si une famille de vecteurs est libre ou liée et utiliser ses caractéristiques Identifier et manipuler une application linéaire et ses propriétés selon les cas (composition, injectivité, surjectivité, inverse).
Utiliser le noyau d’une application linéaire.
Utiliser le théorème du rang pour caractériser l’inversibilité d’une application linéaire.
Identifier le lien entre une application linéaire et une matrice.
Identifier et utiliser la base canonique.
Réaliser des opérations sur les matrices (produits, inverse, transposition, changement de base).

Identifier les forces et les faiblesses des SGBD relationnels classiques pour savoir dans quels cas les utiliser ou préférer d’autres systèmes.
Connaître les différents types de données dans les systèmes NoSQL et leurs particularités.
Identifier les caractéristiques des systèmes clé-valeur, des systèmes orientés document, des systèmes orientés colonnes et en connaître quelques exemples.
Identifier les avantages de l’utilisation des systèmes NewSQL.

Importer les bibliothèques Numpy et Matplotlib pour le calcul scientifique en Python en fonction des besoins.
Créer des tableaux avec Numpy.
Manipuler les tableaux et utiliser les attributs shape, ndim, size, dtype, etc.
Faire de l’arithmétique sur les tableaux.
Générer des données aléatoires avec Numpy.
Créer des matrices.
Lire et écrire dans un fichier.
Résoudre des problèmes d’algèbre linéaire avec Numpy (opérations d’addition, de multiplication sur des matrices, réduction de matrice, copie, changement de dimension, concaténation).

Manipuler le produit scalaire et en connaître l'intérêt et les propriétés.
Manipuler les normes.
Utiliser l’inégalité de Cauchy-Schwartz.
Comprendre l’orthogonalité, de vecteurs, de sous-espaces, de matrices et la propriété induite d’invariance.
Utiliser les projections.
Identifier si une matrice est diagonalisable et pouvoir la diagonaliser (dans le cas des matrices symétriques et dans le cas général).
Identifier l’intérêt et les cas d’utilisation de la réduction de matrice.
Manipuler la Décomposition en Valeurs Singulières, l’utiliser dans Python et en connaître des cas d’applications.

Connaître ce qu’est un univers, un univers discret, un élément, un évènement.
Faire des opérations sur les ensembles (union, intersection, etc.).
Manipuler les probabilités discrètes et en connaître les propriétés.
Manipuler le conditionnement et les probabilités conditionnelles.
Identifier les évènements indépendants en fonction de certaines propriétés.
Manipuler une variable aléatoire discrète et la loi qu’elle détermine (exemple : Variable aléatoire de Bernoulli) ainsi qu’un vecteur aléatoire discret.
Utiliser les lois conditionnelles.
Effectuer des transformations de variable aléatoires et déterminer la loi de la transformée.
Comprendre et calculer l'espérance d’une variable aléatoire discrète.
Utiliser le théorème de changement de variable.
Maîtriser les propriétés de l’espérance (linéarité, monotonie).
Comprendre et calculer l’espérance conditionnelle.

Comprendre la dérivée d’une fonction, en connaître les caractéristiques et faire le lien avec la tangente.
Comprendre et calculer les dérivées partielles d’une fonction multi-dimensionnelle, faire le lien avec le gradient, comprendre l’interprétation tangentielle.
Utiliser l’approximation quadratique.
Appréhender les ensembles convexes et en connaître quelques exemples.
Connaître les fonctions convexes et strictement convexes et leurs propriétés et en identifier quelques exemples.
Connaître les propriétés du problème d’optimisation qu’est la minimisation.
Identifier les méthodes de résolution de systèmes sous forme matricielle.
Utiliser le théorème de coercivité.
Connaître les cas où une fonction admet un minimum local, identifier le cas où la fonction est convexe.
Utiliser la règle de Fermat.

Déterminer si deux variables aléatoires sont indépendantes et utiliser les propriétés en découlant.
Déterminer si une variable aléatoire a un carré sommable et en calculer la variance.
Calculer l’espérance d’un vecteur aléatoire.
Calculer la covariance d’un couple de variables aléatoires, particulièrement dans le cas où elles sont indépendantes.
Utiliser l’inégalité de Cauchy-Schwartz.
Déterminer la matrice de covariance d’un vecteur aléatoire et en connaître les propriétés.
Connaître les propriétés du cadre continu.
Connaître la loi normale.
Calculer l’espérance d’une variable aléatoire continue, d’une transformée.
Calculer la variance d’une variable aléatoire continue, d’une variable gaussienne.
Connaître les propriétés du cadre continu multivarié.
Identifier un vecteur aléatoire continu.
Calculer les densités marginales, densité conditionnelle.
Connaître la loi conditionnelle, l’utiliser.
Calculer l’espérance conditionnelle.
Utiliser les vecteurs gaussiens, en connaître les propriétés dans le cas d’indépendance.
Manipuler l’exemple de la densité gaussienne.

Utiliser le théorème de Weierstrass pour déterminer l’existence d’un minimum.
Utiliser le théorème de condition du premier ordre (cas contraint).
Utiliser le théorème de projection sur les ensembles convexes fermés.
Utiliser les conditions KKT pour la résolution d’un problème d’optimisation.
Utiliser les conditions de Slater pour la résolution d’un problème d’optimisation.
Utiliser l’algorithme de la descente de gradient pour déterminer le minimum d’une fonction.
Utiliser la règle d’Armijo.
Utiliser la méthode de Newton.

Connaître les définitions et le vocabulaire de base (Estimation, Prédiction, Échantillon, etc.).
Calculer la moyenne et une médiane pour un ensemble d’observations.
Calculer la variance et l’écart-type empiriques d’un ensemble d’observations.
Calculer la déviation médiane absolue.
Utiliser l’histogramme pour approcher la densité.
Utiliser la fonction de répartition empirique.
Calculer le quantile d’ordre p.
Calculer la covariance et la corrélation empiriques.
Connaître les définitions de modèle statistique et modèle statistique empirique.
Étudier le cas gaussien.
Calculer l’estimateur à partir d’un échantillon, en connaître les propriétés.
Calculer le risque empirique d’un estimateur.
Déterminer l’intervalle de confiance.
Utiliser le théorème central limite.
Évaluer les tests d’hypothèse.
Utiliser le modèle de régression.
Utiliser l’estimateur de moindres carrés dans les cas uni-dimensionnel et multi-dimensionnel.

Appréhender la notion de classification binaire.
Connaître les propriétés de la minimisation du risque empirique.
Déterminer l’hyperplan séparateur.
Utiliser l’algorithme du perceptron dans un problème de classification.

Est-ce qu'il y a des zèbres qui seraient intéressés?

par Invité Lun 30 Jan 2017 - 21:44

Veuillez m'excuser pour la mise en page.

par Invité Lun 30 Jan 2017 - 23:53

je vais jeter un œil merci

par Invité Mar 31 Jan 2017 - 19:43

me suis inscrit , pour docs complémentaires sur pre requis trouvé ceci

http://www.biblio-scientifique.net/

http://www.biblio-scientifique.net/search/label/Programmmation

etc

sinon les cours de la kahn academy sont aussi gratuits pour se remémorer les bases

https://fr.khanacademy.org/

pas encore vraiment entré dans le cours, j'en suis tjs au prérequis pour vérifier mon niveau et mes lacunes

par Invité Jeu 9 Fév 2017 - 15:34

bien j'ai un bossé sur le module 1 de 2 semaine 1 cad python, 8 videos magistrales avec slides, conseiller d'installer python soit sur win soit sur browser

principes de base à acquérir en difficultés croissantes , base de programmation en somme et spécificités py notamment syntaxe, exception et vocabulaire

pas encore fait le quizz, ils laissent une marge de temps , cela permet d'approfondir, on peut aussi logiquement balancer les énoncés dans un interpreteur pour mieux piger car les questions sont assez indirectes et vicieuses dans le sens qu'elles dérivent ce qui est vu pour savoir si vous avez vraiment pigé le concept

c'est correct comme approche je pense

en y consacrant une heure ou deux par jour c'est suffisant donc, je présume qu'on peut aller plus vite en accélérant notamment à 2 la vitesse de défilement des videos

les notes restent importantes, les slides ne disent pas tout

et une partie auto dictacte s'impose aussi

le module 2 semaine 1 cause d'algebre lineaier et de calcul matriciel, rappel de norme de niveau licence, trois bouquin de base sont recommandés pour combler les gaps éventuels, le module est court et dense , pas encore entré dedans,

donc pas inatteignable mais demande des efforts surtout si comme moi on est sorti des études il ya un bail, cela doit être plus simple si on est fraichement diplomé

pour la partie surdon du bidule , il faut la gommer, je veux dire, chacun sait ses points forts et faibles, ces mooc ne visent pas à dire si vous êtes surdoué ou non mais juste pigé si vous avez acquis un savoir particulier

maintenant les surdoués doués en math auront sans doute nettement plus de facilités que d'autres mais cela reste accessible à une étendue de gens

c'est quand même le but initial d'un mooc ceci dit, de porter la science auplus grand nombre quelque soit la discipline

voilà donc quelques retours rapides

par Invité Ven 10 Fév 2017 - 12:38

j'en suis à la partie 2 semaine 1, algèbre linéaire , bijection, injective surjective, bref revoir les bases, la prof est assez didactique mais je préfère depuis longtemps les maths dites en français plutot que symbolisée

un tic chez moi, or comme elle explique en bon français la symbolique matheuse cela passe nettement mieux, les slides eux sont une suite d'équations et symboliques et abréviations, si on ne lit que les slides sauf maitrise du sujet on se perd très rapidement

mais on voit la logique, espace vectoriel de départ et d'arrivée et liens de propriétes propres et liées

la seconde video parle du lien avec cette logique d'espace et les matrices qui quelque part sont une autre maniere d'ecrire un espace

on voit évidemment ou cela veut en venir, en traitant des masses de big data , on y cherche les sous ensembles, les dimensions, les liens etc etc

donc pour dégrossir une big data on y applique les lois connues en espace vectoriel, les matrices servant surtout au niveau de la manipulation des espaces eux mêmes

bref c'est quand même du haut niveau impliquant une solide base en math

donc quand le cours dits fondamentaux du big data il ne ment pas, on parle vraiment des fondations, en ce sens c'est assez hard mais bref à ce stade je continue

je vais quand même réviser certaines bases que je n'ai pas eut en math, donc l'investissement est nécessaire à côté aussi

par Invité Ven 10 Fév 2017 - 12:45

ah oui j'ai fait le quizz module 1 python 6/8 , je râle parce que j'aurais pu faire 7/8 , et une des questions m'est insoluble à ce stade mais le niveau est assez hard , donc bref pas parfait mais bon

un surdoué aurait fait 8/8 c'est là que j'évalue mon surdon réel mais d'un autre côté on ne peut pas être surdoué en tout

cette manie de m'évaluer sans cesse

la vraie évaluation est de savoir ou non programmer un brol en py peu importe la manière et cela évidemment demande une pratique, un échange d'expérience et savoir chercher l'info dont on a besoin, ce que font tout les programmeurs en somme

sur base d'un exemple de code, le piger et savoir l'adapter, ou de zero, plus complexe, pondre le code necessaire à la question

par soto² Lun 13 Fév 2017 - 6:46

par soto² Lun 13 Fév 2017 - 7:09

Ouh, ya du kador en informatique et en mathématiques ici ! Respect

Moi çà m'intéresse beaucoup, mais j'ai pas le même bagage technique, je suis plus un designer/concepteur :
je me suis un amusé avec des réseaux de neurones artificiels (linéaire type Perceptron ou pas => règles d'apprentissages Hebb, Wridrow-Hoff, architectures diverses, réseaux récurrents) + algorithmes "génétiques", systèmes multi-agents (flocks), etc.

Du coup, je m'étais fait une mini-formation en autodidacte en algèbre linéaire (de base, hein), notamment grâce à des articles dans le bouquin de référence que j'avais sélectionné (1991) : Parallel Distributed Processing, Exploration in Microstructure of Cognition, Rumelhart & McClelland, 2 volumes. Ex : commencer à comprendre l'importance des eigenvecteurs. C'est d'ailleur comme çà que j'ai enfin compris que les opérations avec des matrices peuvent être comprises comme des transformations dans l'espace (en dim 3 pour la compréhension, pas plus Wink

). Ex : des matrices de "translations", de "rotations", etc. C'est comme çà que les logiciels de modélisation et d'animation 3D transforment et animent un objet (déplacement et zoom caméra, etc). Au lycée, j'avais vraiment rien panné, on enseignait à mon époque les math "abstrait", donc sans aucune références aux applications. En tout cas, çà va pas plus loin pour moi.

J'ai les bases de la programmation algo et objet. J'ai moi-même développé il y a une vingtaine d'année un petit environnement de simulation orienté objet en Lingo, le langage de prog du Logiciel multimédia Director, pour faire mes propres expérimentations.

Donc, je vais suivre attentivement ton fil et merci pour ton partage. Impec !

par Invité Mar 14 Fév 2017 - 13:43

non non pas kador, je bosse en auto didacte aussi :-) et c'est effectivement pas simple mais en effet ils lient le calcul matriciel à l'algèbre linéaire , en gros un espace 2d est transcris en matrices 2d et un espace 3 en matrice 3d, le vrai plus est qu'on peut travailler à n dimensions

ce qui n'est pas visualisable, mais oui en matrices et avec tous les calculs et simplifications dessus

en informatique en effet l'idée je suppose est de coder la masse de données non plus en tables indexées mais en matrices plus ou moins brutes à n dimensions, age sexe couleur des cheveux dernier achat etc etc

et de bosser le code en python pour extraire de ces matrices de données des liens stat intéressants et validés

ce n'est pas simple du tout, mais on voit l'idée générale du brol, l'idée en soi n'est pas si hard que cela, je la trouve même plutot basique en traitement de données

mais en stat il existe tellement de méthodes complexes que mélanger ces méthodes à des matrices brutes relève de la magie

mais comment sait il cela ? ben a juste croiser les données et extrait les profils m'fi

mmm mais de la théorie à la pratique c'est pas facile et je rame sur certains concepts et matières à apprendre

la prof de math du module algèbre linéaire de paris tech c'est pas rien.. jolie mais la vache elle va vite

donc no panic, j'ai rien pigé m'dame.. normal mf'i tu dois bosser et apprendre d'abord x puis y et z et si possible m , reviens me voir après ducon

lol

par Invité Mar 14 Fév 2017 - 13:52

soto² a écrit:

je me suis un amusé avec des réseaux de neurones artificiels (linéaire type Perceptron ou pas => règles d'apprentissages Hebb, Wridrow-Hoff, architectures diverses, réseaux récurrents) + algorithmes "génétiques", systèmes multi-agents (flocks), etc.

J'ai les bases de la programmation algo et objet. J'ai moi-même développé il y a une vingtaine d'année un petit environnement de simulation orienté objet en Lingo, le langage de prog du Logiciel multimédia Director, pour faire mes propres expérimentations.

Donc, je vais suivre attentivement ton fil et merci pour ton partage.

respect ! la prog neuronale c'est pas simple j'ai pas ta maitrise de ce sujet , je me demande s'ils ne vont pas aborder perceptron d'ailleurs mais toutes ces choses m'intéressent

moi j'ai surtout bossé perso dans la visualisation des données, en particulier geolocalisées mais là aussi ce n'est pas simple, ceci dit il existe des algo de codage à partir des codes postaux par exemple, on injecte une table excell et la moulinette ponds un fichier kmz par exemple

trop cool :-)

évidemment le gros boulot est formater convenablement ses données, il parait que c'est le plus gros su boulot en big data puisque bien sur la plupart des algos existent déjà

mais piger les algos et savoir en pondre soi même est sans doute l'idée aussi

bref j'avance avec la naïveté conquérante du chercheur qui ne se rend pas compte des précipices partout, pour le fun et en avant !

wééé

lol

par Invité Jeu 16 Fév 2017 - 16:17

je continue, sgdb, python et algebre lin partie 2 , de plus en plus sophistiqué

trouvé ceci au passage

https://inforef.be/swi/download/apprendre_python3_5.pdf

bref on voit l'idée de bases de données classiques lentes mais robustes, d'autres moins robustes mais super rapides et gros volumes et des nouvelles à mi chemin entre les 2, 14 bases et 8 sociétés spécialisées, marrant on ne voit pas kroosoft dedans

mais kroosoft va tous les avoir.. avec ses moteurs en ia.. ou pas

bref

python et calcul matriciel l'air de pas y toucher avec fonctions avancées et syntaxe assez hard avec des points des semi colon des virgules, des mélanges de format , conceptuellement assimilable mais c'est la combinaison des concepts

par exemple remplir un array, un tableau une matrice en somme avec des données géénrées par une fonction complexe et toussa dans la foulée d'une seule ligne de code

wow

ons e dit que le listing de code doit être ramassé

la moindre erreur ou débuggé ça .. bref va falloir faire son borg, assimiler

je n'ose ouvrir la seconde partie en algèbre linéaire , le mot avancé me vient à l'esprit .. on n'est pas en op de bases, pré requis toussa toussa

mais bon..

les quizz sont hards et ceux en sgbd semblent mal formulés, quelques comments à ce sujet, la barre de réussite est fixée haut , faut dire qu'on est plus de 4000 à suivre ce cours apparemment

filtrage de premier niveau

mon but à moi n'est pas d'avoir un diplôme mais de piger les concepts et de savoir les appliquer

bref ça continue , cela demande bien plus que 4 heures semaine, le surdon aide mais l'apprentissage demeure même rapide

je parlais de combinaison linéaire de capacités dans un autre topic, c'est un peu cela

computer scientist ou data scientist c'est avoir la combinaison mat stat proba prog, environnements, bases de données et la variable perturbatrice classique, l'art du comment on articule tout cela

on pressent aussi qu'il ya un autre art tout aussi complexe, comment kon fait la database brute à partir de la collecte des datas ? validation , présentation, tri, erreurs etc etc, données complètes ou incomplètes donc

donc double ou triple art à la sherlock

collecter, filtrer et organiser les données brutes, traitement de second niveau sur les logiques sur données convenablement formatées

c'est pas nouveau, je fais cela depuis longtemps autrement

ce qui change c'est la sophistication et la puissance des outils, j'espere aussi apprendre de nouvelels techniques de traitement stats ou prob, il ya tant de nouvelles techniques que quand on parcourt la liste des modules dans R on se sent con à n'en connaitre que 3 ou 4 dans la liste , regression ,anova etc etc ..eux ils ont déjà 50 manière de faire une régression , je n'en connais que 10

et j'ai entendu parlé de 3.. regression spatiale par exemple, très complexe à mettre en oeuvre et ayant servi à définir la réduction de temps pour les trajets tgv par exemple et de tracer une carte recrunchée des distances réelles modifiées par le temps de trajet racourci du tgv

on dirait une espace d'espace vectoriel ou quelqu'un aurait tiré sur un bout de ficelle, rapprochant deux points , en éloignant d''autres, l'hexagone devient un brol geometrique sans forme spécifique

le marketing utilise depuis longtemps et les experts en mobilité aussi les distances entre points, les périmètres de services et autres circuits logistiques

dites merci à Euler à la ville de Berne et à ses nombreux ponts

à quoi la science tient parfois..

ou comment optimiser la tournée de bus, de tram ou du facteur, doit il passer d'abord par la rue A ou la rue B

la complexité combinatoire des trajets est un casse tête pour de vrai, les fourmis de prigogine elles s'en foutent, elles se lancent au hasard et dès qu'elles croisent un morceau de sucre lache une féromone ou un marqueur quelconque , la suivante pareil jusqu'àtracer un chemin pour le reste de la colonie

de manière amusante les hommes en masse étant stupides, on fait pareil pour réguler le traffic routier en heure de pointe en régulant les feux de signalisation

bref je continue , on verra la suite

pour les quizz je me laisse le temps de reposer et de relire mes notes, faire à chaud n'est pas la bonne idée, le fer à froid fonctionne mieux

par Invité Jeu 16 Fév 2017 - 16:59

J'ai rien compris à ce que tu racontes Zebulon : ça te plait le MOOC ? Tu avais fait des maths en plus de ce qu'on fait jusqu'en terminale ? Tu penses qu'on peut suivre si on s'est arrêté en terminale ?

par Invité Jeu 16 Fév 2017 - 19:33

il faut une base mais tout s'apprend , des efforts et un niveau un peu plus que terminale mais le propre des moocs est de permettre à un max de gens d'apprendre

donc oui on peut suivre selon moi , 4000 inscrits à ce mooc par exemple

par Invité Jeu 16 Fév 2017 - 19:35

Ok, j'essaie alors.

par Invité Jeu 16 Fév 2017 - 19:42

Il y a 5900 inscrits cette semaine !

par Invité Ven 17 Fév 2017 - 21:11

à relire le niveau en math est l2 , je n'ai pas toutes les bases ou il faut que je revoie pas mal de choses

par ailleurs peut jamais m'empêcher de voir la suite , trouvé ceci

http://eric.univ-lyon2.fr/~ricco/

et ceci

http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html

ca fixe le niveau.. wow.. si ce mec n'est pas surdoué..

mais on peut déjà avoir une première classification en big data en fonction de grandes catégories d'analyses

finalement en stat à mon époque on m'avait enseigné quelques une des ces branches, je constate qu'il n'y en a pas tellement de si nouvelles

mais c'est déjà wow

celle qui m'intrigue

''Cartes topologiques de Kohonen

Cartes auto-organisatrices de Kohonen. Réseaux de neurones. Réduction de dimensionalité. Représentations graphiques. Interprétation des résultats. Couplage avec la CAH (classification ascendante hiérarchique).
"

vla le prof

sans doute à rapprocher des cartes imo ??

http://fireballs.imo.net/imo_view/event/2016/631

bref le fun continue

c'est hard mais bon j'apprends plein de brols

par Invité Ven 17 Fév 2017 - 21:18

ah ben voilà déjà trouvé ceci

https://fr.wikipedia.org/wiki/Carte_auto_adaptative

"où σ {\displaystyle \sigma } \sigma s'appelle coefficient de voisinage. Son rôle est de déterminer un rayon de voisinage autour du neurone vainqueur."

j'adore l'idée, en gros dans un réseau neuronal on a ce que j'appelle moi des nœuds, ici on appelle cela les vainqueurs autour desquels gravitent un eco système propre

en économie l'idée était de repondre une macro en partant non pas d'une vue keynésienne théorique mais de la réalité des vainqueurs et leurs réseaux

et d'essayer de piger ce qui fait qu'il y a des vainqueurs ou et pourquoi

bref .. restons en aux bases à acquérir.. petit à petit elie

un jour on aura une matrice de codes à analyser en big data , qui sait...

par Invité Ven 17 Fév 2017 - 21:31

oui donc plus concrètement en 2 semaines 3 cours différents

1 en python
2 algèbre linéaire
3 sgbd , sql et non sql etc

donc ce qui est vu est ceci

Utiliser l’environnement (ainsi que l’interpréteur) Python pour écrire et exécuter des programmes.

Utiliser la bibliothèque standard Python et ses modules dans des programmes de base.
Utiliser les conteneurs, les branchements et les boucles dans des programmes Python.
Utiliser les fonctions dans l’écriture des programmes Python.
Écrire des programmes Python orientés objet en utilisant les classes et leurs méthodes.

Identifier et manipuler un espace vectoriel réel
Identifier et manipuler un espace vectoriel engendré par une famille finie Identifier et manipuler une base.
Calculer et utiliser la dimension d’un espace vectoriel réel.
Calculer et utiliser le rang d’une famille de vecteurs Identifier si une famille de vecteurs est libre ou liée et utiliser ses caractéristiques Identifier et manipuler une application linéaire et ses propriétés selon les cas (composition, injectivité, surjectivité, inverse).
Utiliser le noyau d’une application linéaire.
Utiliser le théorème du rang pour caractériser l’inversibilité d’une application linéaire.
Identifier le lien entre une application linéaire et une matrice.
Identifier et utiliser la base canonique.
Réaliser des opérations sur les matrices (produits, inverse, transposition, changement de base).

Identifier les forces et les faiblesses des SGBD relationnels classiques pour savoir dans quels cas les utiliser ou préférer d’autres systèmes.
Connaître les différents types de données dans les systèmes NoSQL et leurs particularités.
Identifier les caractéristiques des systèmes clé-valeur, des systèmes orientés document, des systèmes orientés colonnes et en connaître quelques exemples.
Identifier les avantages de l’utilisation des systèmes NewSQL.

Importer les bibliothèques Numpy et Matplotlib pour le calcul scientifique en Python en fonction des besoins.
Créer des tableaux avec Numpy.
Manipuler les tableaux et utiliser les attributs shape, ndim, size, dtype, etc.
Faire de l’arithmétique sur les tableaux.
Générer des données aléatoires avec Numpy.
Créer des matrices.
Lire et écrire dans un fichier.
Résoudre des problèmes d’algèbre linéaire avec Numpy (opérations d’addition, de multiplication sur des matrices, réduction de matrice, copie, changement de dimension, concaténation).

Manipuler le produit scalaire et en connaître l'intérêt et les propriétés.
Manipuler les normes.
Utiliser l’inégalité de Cauchy-Schwartz.
Comprendre l’orthogonalité, de vecteurs, de sous-espaces, de matrices et la propriété induite d’invariance.
Utiliser les projections.
Identifier si une matrice est diagonalisable et pouvoir la diagonaliser (dans le cas des matrices symétriques et dans le cas général).
Identifier l’intérêt et les cas d’utilisation de la réduction de matrice.
Manipuler la Décomposition en Valeurs Singulières, l’utiliser dans Python et en connaître des cas d’applications.

--

si des parties échappent , ce que je fais moi c'est soit demander, on peut poser quelques questions directement

chercher sur mots clefs dans Google et sur types de fichiers en combinés

ou plus fun directement en youtube our avoir un didacticiel même basique pour compléter ou amorcer

exemple fun avec ce prof

bon ici c'est vraiment la super base..khan a de très bons didacticiels zossi

là on se rapproche du mooc

par Invité Ven 17 Fév 2017 - 21:36

fun non ? :-)

par Invité Ven 17 Fév 2017 - 21:38

https://www.youtube.com/channel/UCSO-j_Rg4gf_Wpsjf4MSLyw

par Invité Ven 17 Fév 2017 - 21:50

sur les non sql

par soto² Ven 17 Fév 2017 - 21:59

Zebulon a écrit:ou comment optimiser la tournée de bus, de tram ou du facteur...

Les algorithmes "génétiques" font çà très bien (problématique dite "du voyageur de commerce"), et sont très performant de façon générale pour les problèmes d'optimisations complexes.

par Invité Ven 17 Fév 2017 - 22:11

merci soto² :-)

on trouve vraiment tout sur youtube

etc

en quebecquois :-)

si j'avais eut tous ces outils à mon époque... tsss

les jeunes ne savent pas leur chance :-)

par Invité Mar 21 Fév 2017 - 20:57

ah trop cool ! merci c'est super ! j'ai commencé le Mooc, il me manque plein de choses ! J'ai fait le pretest en cherchant sur wikipédia, mais je pense que ça ne suffira pas pour suivre, j'ai commencé la premiere vidéo, je verrai au fur et à mesure ce qu'il faut combler comme lacune.

par Invité Mer 22 Fév 2017 - 17:14

la partie proba est mathématisée et je pressens pourquoi, bref l'idée est de croiser algèbre linéaire, proba , vecteurs matrices et python

en gros au lieu de bosser sur matrices de données, on bosse sur "espaces" d'ordres variés avec un langage conçu pour cette généralisations, ce ne sont donc pas des tables mais des espaces mathématiques à propriétés spécifiques

c'est hard à suivre, mais je suppose que la pratique rendra tout cela plus clair, et puis faut faire de l'autodidacte si on pige pas, dixit ces profs

donc pas mal de temps à consacrer sauf si vous êtes diplomé en math, donc niveau l2

je présume que si je maitrise certains cours l2 me paraitront après coup simples

par moment je pige rien ...puis ça branche, le petit détail et je me dis, la vache mais qu'est ce qu'elle complique tout, puis je pige que la complexité vise à généraliser les propriétés pour pouvoir les programmer ensuite en python comme une formule complexe à appliquer sur un espace de données

je continue mais c'est hard, je ne suis pas un matheux à la base du tout, je suis un pragmatique peu pas dire mieux

mais bon pas ce choix,

le cours d'analyse en survol a l'air du même accabit donc finalement 3 semaines de math en quelque sorte et un peu de database et de prog mais peu

l'idée est aussi de lister les compétences à acquérir dans un tableau double entrée de voir celles acquises en pré requis, celle acquise avec le mooc et celles à acquérir par d'autres moyens

le drame c'est que les délais sont courts l'examen est début avril pour le dire ainsi, quizzà finir pour le 4

pas certain d'y arriver dans ces délais ni de tout assimiler à cette vitesse,

bref je continue comme je peux, on verra pour la suite

je ne suis pas surdoué en math mais je découvre que finalement je ne suis pas nul quand même

lol

il faut de la constance et de la persévérance comme souvent

99% de sueur et 1% de génie , la sueur c'est casse pied

par Invité Mer 22 Fév 2017 - 19:21

Moi aussi j esuis nulle ne maths mais j'aime bien quand même , je découvre des choses, c'est dommage qu'on nous fasse pas faire tout ça au lycée.

par Invité Mer 22 Fév 2017 - 19:41

oui mais les moyens ont considérablement changé depuis 1996, il y une révolution depuis l'internet

on peut apprendre chez soi aussi des choses qui étaient accessibles qu'à des minorités et surtout mondialement et cela ets un immense progrès

c'était l"intention première de l'internet d'ailleurs, le partage de savoir

mais cela a merdoyé comme tout

mais il reste des bonus

il ya un hyperchoix de formation, pas assez d'une vie pour toutes les faire , mais on peut en effet apprendre à haut niveau

ce mooc est donc loin d'être le plus accessible mais on peut en effet apprendre bcp

quand on sait pas on peut prendre un mot clef et chercher une autre explication ailleurs

par exemple sur cette semaine 3

j'adore les videos de khan academy notamment

par Invité Mer 22 Fév 2017 - 19:48

etc etc

on en viendrait à comprendre et aimer les maths, c'est ti pas cool :-)

par Invité Mer 22 Fév 2017 - 19:58

mon idée avant ce mooc était de refaire une formation de math de zéro comme si je ne savais rien et de revoir toute la pyramide de connaissance pour aller le plus haut après

ici je passe d'un segment à un autre , et au détour on complète par des choses peu ou pas connues, la prof dans le mooc d'ailleurs le précise bien

tu sais pas, démmerdes toi pour compenser ou apprendre, bref acquérir le pré requis, j'ai pas mal de pré requis mais aussi des faiblesses et des lacunes

je connais bien les stats et les probas par exemple mais nettement moins sous l'angle formel mathématique que peu utilisent en fin de compte dans la pratique, maisje comprend qu'ici c'est important de piger et assimiler ces concepts de cette manière

un des brols aussi analyse

bref , je devrais faire un tableau

1-concept à assimiler
2-cours correspondant
3- ressources didactique associée

du coup le mooc se simplifie en x concepts à digérer et x sources à comprendre

on peut poster en remarque ou espace dédié questions et aides de ce type, mais je ne suis pas certain que ma manière d'avancer soit partagée , je ne veux rien déranger dans la pièce :-)

je suis sage du coup , ça me ressemble peu :-)

par Invité Mer 22 Fév 2017 - 20:16

Je n'en suis qu'à la semaine 1. Mais je vais me bouger pour avancer un peu.
Super les vidéos, j'en aurai besoin aussi je pense !

par Invité Mer 22 Fév 2017 - 20:20

oki bon courage :-)

par Invité Mer 22 Fév 2017 - 21:13

et de la chance :p

par Invité Jeu 23 Fév 2017 - 5:12

Si tu as besoin d'aide THQIsansdéconner tu peux également me contacter.
Merci Zebulon2.52 d'avoir fait vivre mon post.

par soto² Jeu 23 Fév 2017 - 8:11

HS, quoi que...:

L' éclairage de la seconde cybernétique sur la révolution du Big Data:

J'ai vu qu'il y a d'autres fils sur la thématique des Big Data. çà serait bien de les regrouper. J'imagine qu'il faut s'adresser à la modération ?!

En tout cas, bon courage à ceux qui suivent ces formations ! Cool

par Invité Jeu 23 Fév 2017 - 11:05

jesaispas a écrit:Si tu as besoin d'aide THQIsansdéconner tu peux également me contacter.
Merci Zebulon2.52 d'avoir fait vivre mon post.

de rien donc:-)

merci d'avoir poster ce topic, sans quoi je n'aurais pas branché dessus :-)

par Invité Jeu 23 Fév 2017 - 11:19

par Invité Jeu 23 Fév 2017 - 11:22

par Invité Jeu 23 Fév 2017 - 11:32

par Invité Jeu 23 Fév 2017 - 11:45

par Fata Morgana Jeu 23 Fév 2017 - 11:59

Une bombe au graphite ou electromagnétique sur les sites de stockage. Ça sera peut-être l'avenir...

par Invité Jeu 23 Fév 2017 - 12:42

par prométhéus Jeu 2 Mar 2017 - 23:29

MOOC sympa, l'ensemble est très cohérent, mais les cours sont beaucoup trop succincts.

par soto² Mer 8 Mar 2017 - 11:52

OpenClassroom (mooc) > Formation "Data Architect"

"Le déluge de données actuel a fait apparaître un nouveau défi : concevoir et mettre en place les infrastructures informatiques permettant le passage à l’échelle du stockage et de l’analyse. Le rôle de Data Architect, à la pointe de la révolution Big Data, a été créé pour répondre à ce défi. Grâce à OpenClassrooms et CentraleSupélec, devenez architecte des données ! ", Ecole Centrale SupElec, 500 € / mois, durée approx. env. 6 mois.

Source : Formation "Data Architect"

par prométhéus Ven 10 Mar 2017 - 23:36

soto² a écrit:
OpenClassroom (mooc) > Formation "Data Architect"

"Le déluge de données actuel a fait apparaître un nouveau défi : concevoir et mettre en place les infrastructures informatiques permettant le passage à l’échelle du stockage et de l’analyse. Le rôle de Data Architect, à la pointe de la révolution Big Data, a été créé pour répondre à ce défi. Grâce à OpenClassrooms et CentraleSupélec, devenez architecte des données ! ", Ecole Centrale SupElec, 500 € / mois, durée approx. env. 6 mois.

Source : Formation "Data Architect"

Il parait qu'un pigeon est plus intelligent que l'on pouvait s'imaginer,
après il serait étonnant qu'il soit capable de faire ce genre de formation en moins de 6 mois.

par Invité Sam 11 Mar 2017 - 0:49

par prométhéus Sam 11 Mar 2017 - 23:44

La premier échelon dans ce mooc, c'est de comprendre les méthodes classiques de régressions .
Il y a plusieurs façon d'appréhender le truc.
L'idée de base est de faire passer une courbe exprimée sous forme d'un polynôme, qui passerait par un certains nombre de points
Pour un point le degré du polynôme doit être de un
Pour deux points le degré doit être de deux
etc ...

Le problème est un problème matriciel
V est la matrice de van der Monde
Pour n points de coordonnées (αi,βi)
$Fondamentaux du big data 29a93596720377ea4a8f01285fdf557302cc83e4$
et V=[θ0,θ1,θ2,...θn-1] matrice colonne.

Cela correspond au polynôme y(x)=θ0+θ1x+θ2x²+... qui passe par tous les points
On pose Y=[β0,β1...] matrice colonne

Matriciellement

AV=Y
On cherche V, coefficient du polynôme
Il suffira donc d'inverser A et c'est fini.

Maintenant que se passe t'il quand le nombre de points devient supérieur au degré-1 du polynôme.
Nous avons encore une matrice de Van der Monde, mais elle n'est plus inversible.
Géométriquement, si dans les problèmes précédent, il s'agissait de faire correspondre un vecteur à unique vecteur de Rn,
Là nous faisons une projection d'un vecteur dans un hyperplan...

Ici s'ouvre via le MOOC, trois méthodes:
1:
On cherche à minimiser la somme de tous les termes | y_théorique - y_reel|²
Pour le cas d'un polynôme de de degré un (droite de régression) , cela va être une équation quadratique (f(x,y)=ax²+bxy+cy²)
Si la matrice hessienne a des valeurs propres de même signe et positive, la surface z=f(x,y) sera convexe.
Donc trouver les θ0 et θ1 tel que df(θ0,θ1)=0

2:

On inverse la matrice de van der Monde via la méthode en décomposition en valeur singulière SVD

3:

si on a
Ax=y

on aura x = (At.A)^(-1)*y
C'est la méthode utilisée dans les exercices finaux du mooc.

Bon y a tous les choses très intéressantes sur la notion de perceptron, la notion de classifieur binaire, c'est très vite abordée mais pas déterminant pour la validation des quizz.

par Invité Dim 12 Mar 2017 - 0:03

par Invité Dim 12 Mar 2017 - 13:25

par Invité Dim 16 Avr 2017 - 22:18

Mon petit cheveu sur la soupe, ci dessous des liens instructifs sur ce thème sans fond
https://eric.univ-lyon2.fr/~ricco/data-mining/ (université de Lyon 2)...
et deux autres en anglais
http://datascience.ibm.com/
http://www.ccsu.edu/datamining/

Bonne réception