Fondamentaux du big data
4 participants
Page 1 sur 2
Page 1 sur 2 • 1, 2
Fondamentaux du big data
Salut tout le monde,
pour tous ceux qui aiment apprendre et qui ont des connaissances de base en programmation(python), en statistiques, en mahtématiques, en algorithmie et dans les bases de données relationnelles il y a un mooc intéressant qui vient de sortir aujourd'hui sur fun mooc "Fondamentaux du big data".
Si ça vous intéresse et que vous n'avez pas le niveau ce n'est pas les ressources qui manquent sur internet pour apprendre les bases de Python et de l'agorithmie. D'autant plus, que le niveau demandé n'est pas très élevé.
Je vous mets les objectifs de la formation :
Utiliser l’environnement (ainsi que l’interpréteur) Python pour écrire et exécuter des programmes.
Utiliser la bibliothèque standard Python et ses modules dans des programmes de base.
Utiliser les conteneurs, les branchements et les boucles dans des programmes Python.
Utiliser les fonctions dans l’écriture des programmes Python.
Écrire des programmes Python orientés objet en utilisant les classes et leurs méthodes.
Identifier et manipuler un espace vectoriel réel
Identifier et manipuler un espace vectoriel engendré par une famille finie Identifier et manipuler une base.
Calculer et utiliser la dimension d’un espace vectoriel réel.
Calculer et utiliser le rang d’une famille de vecteurs Identifier si une famille de vecteurs est libre ou liée et utiliser ses caractéristiques Identifier et manipuler une application linéaire et ses propriétés selon les cas (composition, injectivité, surjectivité, inverse).
Utiliser le noyau d’une application linéaire.
Utiliser le théorème du rang pour caractériser l’inversibilité d’une application linéaire.
Identifier le lien entre une application linéaire et une matrice.
Identifier et utiliser la base canonique.
Réaliser des opérations sur les matrices (produits, inverse, transposition, changement de base).
Identifier les forces et les faiblesses des SGBD relationnels classiques pour savoir dans quels cas les utiliser ou préférer d’autres systèmes.
Connaître les différents types de données dans les systèmes NoSQL et leurs particularités.
Identifier les caractéristiques des systèmes clé-valeur, des systèmes orientés document, des systèmes orientés colonnes et en connaître quelques exemples.
Identifier les avantages de l’utilisation des systèmes NewSQL.
Importer les bibliothèques Numpy et Matplotlib pour le calcul scientifique en Python en fonction des besoins.
Créer des tableaux avec Numpy.
Manipuler les tableaux et utiliser les attributs shape, ndim, size, dtype, etc.
Faire de l’arithmétique sur les tableaux.
Générer des données aléatoires avec Numpy.
Créer des matrices.
Lire et écrire dans un fichier.
Résoudre des problèmes d’algèbre linéaire avec Numpy (opérations d’addition, de multiplication sur des matrices, réduction de matrice, copie, changement de dimension, concaténation).
Manipuler le produit scalaire et en connaître l'intérêt et les propriétés.
Manipuler les normes.
Utiliser l’inégalité de Cauchy-Schwartz.
Comprendre l’orthogonalité, de vecteurs, de sous-espaces, de matrices et la propriété induite d’invariance.
Utiliser les projections.
Identifier si une matrice est diagonalisable et pouvoir la diagonaliser (dans le cas des matrices symétriques et dans le cas général).
Identifier l’intérêt et les cas d’utilisation de la réduction de matrice.
Manipuler la Décomposition en Valeurs Singulières, l’utiliser dans Python et en connaître des cas d’applications.
Connaître ce qu’est un univers, un univers discret, un élément, un évènement.
Faire des opérations sur les ensembles (union, intersection, etc.).
Manipuler les probabilités discrètes et en connaître les propriétés.
Manipuler le conditionnement et les probabilités conditionnelles.
Identifier les évènements indépendants en fonction de certaines propriétés.
Manipuler une variable aléatoire discrète et la loi qu’elle détermine (exemple : Variable aléatoire de Bernoulli) ainsi qu’un vecteur aléatoire discret.
Utiliser les lois conditionnelles.
Effectuer des transformations de variable aléatoires et déterminer la loi de la transformée.
Comprendre et calculer l'espérance d’une variable aléatoire discrète.
Utiliser le théorème de changement de variable.
Maîtriser les propriétés de l’espérance (linéarité, monotonie).
Comprendre et calculer l’espérance conditionnelle.
Comprendre la dérivée d’une fonction, en connaître les caractéristiques et faire le lien avec la tangente.
Comprendre et calculer les dérivées partielles d’une fonction multi-dimensionnelle, faire le lien avec le gradient, comprendre l’interprétation tangentielle.
Utiliser l’approximation quadratique.
Appréhender les ensembles convexes et en connaître quelques exemples.
Connaître les fonctions convexes et strictement convexes et leurs propriétés et en identifier quelques exemples.
Connaître les propriétés du problème d’optimisation qu’est la minimisation.
Identifier les méthodes de résolution de systèmes sous forme matricielle.
Utiliser le théorème de coercivité.
Connaître les cas où une fonction admet un minimum local, identifier le cas où la fonction est convexe.
Utiliser la règle de Fermat.
Déterminer si deux variables aléatoires sont indépendantes et utiliser les propriétés en découlant.
Déterminer si une variable aléatoire a un carré sommable et en calculer la variance.
Calculer l’espérance d’un vecteur aléatoire.
Calculer la covariance d’un couple de variables aléatoires, particulièrement dans le cas où elles sont indépendantes.
Utiliser l’inégalité de Cauchy-Schwartz.
Déterminer la matrice de covariance d’un vecteur aléatoire et en connaître les propriétés.
Connaître les propriétés du cadre continu.
Connaître la loi normale.
Calculer l’espérance d’une variable aléatoire continue, d’une transformée.
Calculer la variance d’une variable aléatoire continue, d’une variable gaussienne.
Connaître les propriétés du cadre continu multivarié.
Identifier un vecteur aléatoire continu.
Calculer les densités marginales, densité conditionnelle.
Connaître la loi conditionnelle, l’utiliser.
Calculer l’espérance conditionnelle.
Utiliser les vecteurs gaussiens, en connaître les propriétés dans le cas d’indépendance.
Manipuler l’exemple de la densité gaussienne.
Utiliser le théorème de Weierstrass pour déterminer l’existence d’un minimum.
Utiliser le théorème de condition du premier ordre (cas contraint).
Utiliser le théorème de projection sur les ensembles convexes fermés.
Utiliser les conditions KKT pour la résolution d’un problème d’optimisation.
Utiliser les conditions de Slater pour la résolution d’un problème d’optimisation.
Utiliser l’algorithme de la descente de gradient pour déterminer le minimum d’une fonction.
Utiliser la règle d’Armijo.
Utiliser la méthode de Newton.
Connaître les définitions et le vocabulaire de base (Estimation, Prédiction, Échantillon, etc.).
Calculer la moyenne et une médiane pour un ensemble d’observations.
Calculer la variance et l’écart-type empiriques d’un ensemble d’observations.
Calculer la déviation médiane absolue.
Utiliser l’histogramme pour approcher la densité.
Utiliser la fonction de répartition empirique.
Calculer le quantile d’ordre p.
Calculer la covariance et la corrélation empiriques.
Connaître les définitions de modèle statistique et modèle statistique empirique.
Étudier le cas gaussien.
Calculer l’estimateur à partir d’un échantillon, en connaître les propriétés.
Calculer le risque empirique d’un estimateur.
Déterminer l’intervalle de confiance.
Utiliser le théorème central limite.
Évaluer les tests d’hypothèse.
Utiliser le modèle de régression.
Utiliser l’estimateur de moindres carrés dans les cas uni-dimensionnel et multi-dimensionnel.
Appréhender la notion de classification binaire.
Connaître les propriétés de la minimisation du risque empirique.
Déterminer l’hyperplan séparateur.
Utiliser l’algorithme du perceptron dans un problème de classification.
Est-ce qu'il y a des zèbres qui seraient intéressés?
pour tous ceux qui aiment apprendre et qui ont des connaissances de base en programmation(python), en statistiques, en mahtématiques, en algorithmie et dans les bases de données relationnelles il y a un mooc intéressant qui vient de sortir aujourd'hui sur fun mooc "Fondamentaux du big data".
Si ça vous intéresse et que vous n'avez pas le niveau ce n'est pas les ressources qui manquent sur internet pour apprendre les bases de Python et de l'agorithmie. D'autant plus, que le niveau demandé n'est pas très élevé.
Je vous mets les objectifs de la formation :
Utiliser l’environnement (ainsi que l’interpréteur) Python pour écrire et exécuter des programmes.
Utiliser la bibliothèque standard Python et ses modules dans des programmes de base.
Utiliser les conteneurs, les branchements et les boucles dans des programmes Python.
Utiliser les fonctions dans l’écriture des programmes Python.
Écrire des programmes Python orientés objet en utilisant les classes et leurs méthodes.
Identifier et manipuler un espace vectoriel réel
Identifier et manipuler un espace vectoriel engendré par une famille finie Identifier et manipuler une base.
Calculer et utiliser la dimension d’un espace vectoriel réel.
Calculer et utiliser le rang d’une famille de vecteurs Identifier si une famille de vecteurs est libre ou liée et utiliser ses caractéristiques Identifier et manipuler une application linéaire et ses propriétés selon les cas (composition, injectivité, surjectivité, inverse).
Utiliser le noyau d’une application linéaire.
Utiliser le théorème du rang pour caractériser l’inversibilité d’une application linéaire.
Identifier le lien entre une application linéaire et une matrice.
Identifier et utiliser la base canonique.
Réaliser des opérations sur les matrices (produits, inverse, transposition, changement de base).
Identifier les forces et les faiblesses des SGBD relationnels classiques pour savoir dans quels cas les utiliser ou préférer d’autres systèmes.
Connaître les différents types de données dans les systèmes NoSQL et leurs particularités.
Identifier les caractéristiques des systèmes clé-valeur, des systèmes orientés document, des systèmes orientés colonnes et en connaître quelques exemples.
Identifier les avantages de l’utilisation des systèmes NewSQL.
Importer les bibliothèques Numpy et Matplotlib pour le calcul scientifique en Python en fonction des besoins.
Créer des tableaux avec Numpy.
Manipuler les tableaux et utiliser les attributs shape, ndim, size, dtype, etc.
Faire de l’arithmétique sur les tableaux.
Générer des données aléatoires avec Numpy.
Créer des matrices.
Lire et écrire dans un fichier.
Résoudre des problèmes d’algèbre linéaire avec Numpy (opérations d’addition, de multiplication sur des matrices, réduction de matrice, copie, changement de dimension, concaténation).
Manipuler le produit scalaire et en connaître l'intérêt et les propriétés.
Manipuler les normes.
Utiliser l’inégalité de Cauchy-Schwartz.
Comprendre l’orthogonalité, de vecteurs, de sous-espaces, de matrices et la propriété induite d’invariance.
Utiliser les projections.
Identifier si une matrice est diagonalisable et pouvoir la diagonaliser (dans le cas des matrices symétriques et dans le cas général).
Identifier l’intérêt et les cas d’utilisation de la réduction de matrice.
Manipuler la Décomposition en Valeurs Singulières, l’utiliser dans Python et en connaître des cas d’applications.
Connaître ce qu’est un univers, un univers discret, un élément, un évènement.
Faire des opérations sur les ensembles (union, intersection, etc.).
Manipuler les probabilités discrètes et en connaître les propriétés.
Manipuler le conditionnement et les probabilités conditionnelles.
Identifier les évènements indépendants en fonction de certaines propriétés.
Manipuler une variable aléatoire discrète et la loi qu’elle détermine (exemple : Variable aléatoire de Bernoulli) ainsi qu’un vecteur aléatoire discret.
Utiliser les lois conditionnelles.
Effectuer des transformations de variable aléatoires et déterminer la loi de la transformée.
Comprendre et calculer l'espérance d’une variable aléatoire discrète.
Utiliser le théorème de changement de variable.
Maîtriser les propriétés de l’espérance (linéarité, monotonie).
Comprendre et calculer l’espérance conditionnelle.
Comprendre la dérivée d’une fonction, en connaître les caractéristiques et faire le lien avec la tangente.
Comprendre et calculer les dérivées partielles d’une fonction multi-dimensionnelle, faire le lien avec le gradient, comprendre l’interprétation tangentielle.
Utiliser l’approximation quadratique.
Appréhender les ensembles convexes et en connaître quelques exemples.
Connaître les fonctions convexes et strictement convexes et leurs propriétés et en identifier quelques exemples.
Connaître les propriétés du problème d’optimisation qu’est la minimisation.
Identifier les méthodes de résolution de systèmes sous forme matricielle.
Utiliser le théorème de coercivité.
Connaître les cas où une fonction admet un minimum local, identifier le cas où la fonction est convexe.
Utiliser la règle de Fermat.
Déterminer si deux variables aléatoires sont indépendantes et utiliser les propriétés en découlant.
Déterminer si une variable aléatoire a un carré sommable et en calculer la variance.
Calculer l’espérance d’un vecteur aléatoire.
Calculer la covariance d’un couple de variables aléatoires, particulièrement dans le cas où elles sont indépendantes.
Utiliser l’inégalité de Cauchy-Schwartz.
Déterminer la matrice de covariance d’un vecteur aléatoire et en connaître les propriétés.
Connaître les propriétés du cadre continu.
Connaître la loi normale.
Calculer l’espérance d’une variable aléatoire continue, d’une transformée.
Calculer la variance d’une variable aléatoire continue, d’une variable gaussienne.
Connaître les propriétés du cadre continu multivarié.
Identifier un vecteur aléatoire continu.
Calculer les densités marginales, densité conditionnelle.
Connaître la loi conditionnelle, l’utiliser.
Calculer l’espérance conditionnelle.
Utiliser les vecteurs gaussiens, en connaître les propriétés dans le cas d’indépendance.
Manipuler l’exemple de la densité gaussienne.
Utiliser le théorème de Weierstrass pour déterminer l’existence d’un minimum.
Utiliser le théorème de condition du premier ordre (cas contraint).
Utiliser le théorème de projection sur les ensembles convexes fermés.
Utiliser les conditions KKT pour la résolution d’un problème d’optimisation.
Utiliser les conditions de Slater pour la résolution d’un problème d’optimisation.
Utiliser l’algorithme de la descente de gradient pour déterminer le minimum d’une fonction.
Utiliser la règle d’Armijo.
Utiliser la méthode de Newton.
Connaître les définitions et le vocabulaire de base (Estimation, Prédiction, Échantillon, etc.).
Calculer la moyenne et une médiane pour un ensemble d’observations.
Calculer la variance et l’écart-type empiriques d’un ensemble d’observations.
Calculer la déviation médiane absolue.
Utiliser l’histogramme pour approcher la densité.
Utiliser la fonction de répartition empirique.
Calculer le quantile d’ordre p.
Calculer la covariance et la corrélation empiriques.
Connaître les définitions de modèle statistique et modèle statistique empirique.
Étudier le cas gaussien.
Calculer l’estimateur à partir d’un échantillon, en connaître les propriétés.
Calculer le risque empirique d’un estimateur.
Déterminer l’intervalle de confiance.
Utiliser le théorème central limite.
Évaluer les tests d’hypothèse.
Utiliser le modèle de régression.
Utiliser l’estimateur de moindres carrés dans les cas uni-dimensionnel et multi-dimensionnel.
Appréhender la notion de classification binaire.
Connaître les propriétés de la minimisation du risque empirique.
Déterminer l’hyperplan séparateur.
Utiliser l’algorithme du perceptron dans un problème de classification.
Est-ce qu'il y a des zèbres qui seraient intéressés?
Invité- Invité
Re: Fondamentaux du big data
me suis inscrit , pour docs complémentaires sur pre requis trouvé ceci
http://www.biblio-scientifique.net/
http://www.biblio-scientifique.net/search/label/Programmmation
etc
sinon les cours de la kahn academy sont aussi gratuits pour se remémorer les bases
https://fr.khanacademy.org/
pas encore vraiment entré dans le cours, j'en suis tjs au prérequis pour vérifier mon niveau et mes lacunes
http://www.biblio-scientifique.net/
http://www.biblio-scientifique.net/search/label/Programmmation
etc
sinon les cours de la kahn academy sont aussi gratuits pour se remémorer les bases
https://fr.khanacademy.org/
pas encore vraiment entré dans le cours, j'en suis tjs au prérequis pour vérifier mon niveau et mes lacunes
Invité- Invité
Re: Fondamentaux du big data
bien j'ai un bossé sur le module 1 de 2 semaine 1 cad python, 8 videos magistrales avec slides, conseiller d'installer python soit sur win soit sur browser
principes de base à acquérir en difficultés croissantes , base de programmation en somme et spécificités py notamment syntaxe, exception et vocabulaire
pas encore fait le quizz, ils laissent une marge de temps , cela permet d'approfondir, on peut aussi logiquement balancer les énoncés dans un interpreteur pour mieux piger car les questions sont assez indirectes et vicieuses dans le sens qu'elles dérivent ce qui est vu pour savoir si vous avez vraiment pigé le concept
c'est correct comme approche je pense
en y consacrant une heure ou deux par jour c'est suffisant donc, je présume qu'on peut aller plus vite en accélérant notamment à 2 la vitesse de défilement des videos
les notes restent importantes, les slides ne disent pas tout
et une partie auto dictacte s'impose aussi
le module 2 semaine 1 cause d'algebre lineaier et de calcul matriciel, rappel de norme de niveau licence, trois bouquin de base sont recommandés pour combler les gaps éventuels, le module est court et dense , pas encore entré dedans,
donc pas inatteignable mais demande des efforts surtout si comme moi on est sorti des études il ya un bail, cela doit être plus simple si on est fraichement diplomé
pour la partie surdon du bidule , il faut la gommer, je veux dire, chacun sait ses points forts et faibles, ces mooc ne visent pas à dire si vous êtes surdoué ou non mais juste pigé si vous avez acquis un savoir particulier
maintenant les surdoués doués en math auront sans doute nettement plus de facilités que d'autres mais cela reste accessible à une étendue de gens
c'est quand même le but initial d'un mooc ceci dit, de porter la science auplus grand nombre quelque soit la discipline
voilà donc quelques retours rapides
principes de base à acquérir en difficultés croissantes , base de programmation en somme et spécificités py notamment syntaxe, exception et vocabulaire
pas encore fait le quizz, ils laissent une marge de temps , cela permet d'approfondir, on peut aussi logiquement balancer les énoncés dans un interpreteur pour mieux piger car les questions sont assez indirectes et vicieuses dans le sens qu'elles dérivent ce qui est vu pour savoir si vous avez vraiment pigé le concept
c'est correct comme approche je pense
en y consacrant une heure ou deux par jour c'est suffisant donc, je présume qu'on peut aller plus vite en accélérant notamment à 2 la vitesse de défilement des videos
les notes restent importantes, les slides ne disent pas tout
et une partie auto dictacte s'impose aussi
le module 2 semaine 1 cause d'algebre lineaier et de calcul matriciel, rappel de norme de niveau licence, trois bouquin de base sont recommandés pour combler les gaps éventuels, le module est court et dense , pas encore entré dedans,
donc pas inatteignable mais demande des efforts surtout si comme moi on est sorti des études il ya un bail, cela doit être plus simple si on est fraichement diplomé
pour la partie surdon du bidule , il faut la gommer, je veux dire, chacun sait ses points forts et faibles, ces mooc ne visent pas à dire si vous êtes surdoué ou non mais juste pigé si vous avez acquis un savoir particulier
maintenant les surdoués doués en math auront sans doute nettement plus de facilités que d'autres mais cela reste accessible à une étendue de gens
c'est quand même le but initial d'un mooc ceci dit, de porter la science auplus grand nombre quelque soit la discipline
voilà donc quelques retours rapides
Invité- Invité
Re: Fondamentaux du big data
j'en suis à la partie 2 semaine 1, algèbre linéaire , bijection, injective surjective, bref revoir les bases, la prof est assez didactique mais je préfère depuis longtemps les maths dites en français plutot que symbolisée
un tic chez moi, or comme elle explique en bon français la symbolique matheuse cela passe nettement mieux, les slides eux sont une suite d'équations et symboliques et abréviations, si on ne lit que les slides sauf maitrise du sujet on se perd très rapidement
mais on voit la logique, espace vectoriel de départ et d'arrivée et liens de propriétes propres et liées
la seconde video parle du lien avec cette logique d'espace et les matrices qui quelque part sont une autre maniere d'ecrire un espace
on voit évidemment ou cela veut en venir, en traitant des masses de big data , on y cherche les sous ensembles, les dimensions, les liens etc etc
donc pour dégrossir une big data on y applique les lois connues en espace vectoriel, les matrices servant surtout au niveau de la manipulation des espaces eux mêmes
bref c'est quand même du haut niveau impliquant une solide base en math
donc quand le cours dits fondamentaux du big data il ne ment pas, on parle vraiment des fondations, en ce sens c'est assez hard mais bref à ce stade je continue
je vais quand même réviser certaines bases que je n'ai pas eut en math, donc l'investissement est nécessaire à côté aussi
un tic chez moi, or comme elle explique en bon français la symbolique matheuse cela passe nettement mieux, les slides eux sont une suite d'équations et symboliques et abréviations, si on ne lit que les slides sauf maitrise du sujet on se perd très rapidement
mais on voit la logique, espace vectoriel de départ et d'arrivée et liens de propriétes propres et liées
la seconde video parle du lien avec cette logique d'espace et les matrices qui quelque part sont une autre maniere d'ecrire un espace
on voit évidemment ou cela veut en venir, en traitant des masses de big data , on y cherche les sous ensembles, les dimensions, les liens etc etc
donc pour dégrossir une big data on y applique les lois connues en espace vectoriel, les matrices servant surtout au niveau de la manipulation des espaces eux mêmes
bref c'est quand même du haut niveau impliquant une solide base en math
donc quand le cours dits fondamentaux du big data il ne ment pas, on parle vraiment des fondations, en ce sens c'est assez hard mais bref à ce stade je continue
je vais quand même réviser certaines bases que je n'ai pas eut en math, donc l'investissement est nécessaire à côté aussi
Invité- Invité
Re: Fondamentaux du big data
ah oui j'ai fait le quizz module 1 python 6/8 , je râle parce que j'aurais pu faire 7/8 , et une des questions m'est insoluble à ce stade mais le niveau est assez hard , donc bref pas parfait mais bon
un surdoué aurait fait 8/8 c'est là que j'évalue mon surdon réel mais d'un autre côté on ne peut pas être surdoué en tout
cette manie de m'évaluer sans cesse
la vraie évaluation est de savoir ou non programmer un brol en py peu importe la manière et cela évidemment demande une pratique, un échange d'expérience et savoir chercher l'info dont on a besoin, ce que font tout les programmeurs en somme
sur base d'un exemple de code, le piger et savoir l'adapter, ou de zero, plus complexe, pondre le code necessaire à la question
un surdoué aurait fait 8/8 c'est là que j'évalue mon surdon réel mais d'un autre côté on ne peut pas être surdoué en tout
cette manie de m'évaluer sans cesse
la vraie évaluation est de savoir ou non programmer un brol en py peu importe la manière et cela évidemment demande une pratique, un échange d'expérience et savoir chercher l'info dont on a besoin, ce que font tout les programmeurs en somme
sur base d'un exemple de code, le piger et savoir l'adapter, ou de zero, plus complexe, pondre le code necessaire à la question
Invité- Invité
soto²- Messages : 2760
Date d'inscription : 07/12/2016
Localisation : Au delಠ(31)
Re: Fondamentaux du big data
Ouh, ya du kador en informatique et en mathématiques ici !
Moi çà m'intéresse beaucoup, mais j'ai pas le même bagage technique, je suis plus un designer/concepteur :
je me suis un amusé avec des réseaux de neurones artificiels (linéaire type Perceptron ou pas => règles d'apprentissages Hebb, Wridrow-Hoff, architectures diverses, réseaux récurrents) + algorithmes "génétiques", systèmes multi-agents (flocks), etc.
Du coup, je m'étais fait une mini-formation en autodidacte en algèbre linéaire (de base, hein), notamment grâce à des articles dans le bouquin de référence que j'avais sélectionné (1991) : Parallel Distributed Processing, Exploration in Microstructure of Cognition, Rumelhart & McClelland, 2 volumes. Ex : commencer à comprendre l'importance des eigenvecteurs. C'est d'ailleur comme çà que j'ai enfin compris que les opérations avec des matrices peuvent être comprises comme des transformations dans l'espace (en dim 3 pour la compréhension, pas plus ). Ex : des matrices de "translations", de "rotations", etc. C'est comme çà que les logiciels de modélisation et d'animation 3D transforment et animent un objet (déplacement et zoom caméra, etc). Au lycée, j'avais vraiment rien panné, on enseignait à mon époque les math "abstrait", donc sans aucune références aux applications. En tout cas, çà va pas plus loin pour moi.
J'ai les bases de la programmation algo et objet. J'ai moi-même développé il y a une vingtaine d'année un petit environnement de simulation orienté objet en Lingo, le langage de prog du Logiciel multimédia Director, pour faire mes propres expérimentations.
Donc, je vais suivre attentivement ton fil et merci pour ton partage.
Moi çà m'intéresse beaucoup, mais j'ai pas le même bagage technique, je suis plus un designer/concepteur :
je me suis un amusé avec des réseaux de neurones artificiels (linéaire type Perceptron ou pas => règles d'apprentissages Hebb, Wridrow-Hoff, architectures diverses, réseaux récurrents) + algorithmes "génétiques", systèmes multi-agents (flocks), etc.
Du coup, je m'étais fait une mini-formation en autodidacte en algèbre linéaire (de base, hein), notamment grâce à des articles dans le bouquin de référence que j'avais sélectionné (1991) : Parallel Distributed Processing, Exploration in Microstructure of Cognition, Rumelhart & McClelland, 2 volumes. Ex : commencer à comprendre l'importance des eigenvecteurs. C'est d'ailleur comme çà que j'ai enfin compris que les opérations avec des matrices peuvent être comprises comme des transformations dans l'espace (en dim 3 pour la compréhension, pas plus ). Ex : des matrices de "translations", de "rotations", etc. C'est comme çà que les logiciels de modélisation et d'animation 3D transforment et animent un objet (déplacement et zoom caméra, etc). Au lycée, j'avais vraiment rien panné, on enseignait à mon époque les math "abstrait", donc sans aucune références aux applications. En tout cas, çà va pas plus loin pour moi.
J'ai les bases de la programmation algo et objet. J'ai moi-même développé il y a une vingtaine d'année un petit environnement de simulation orienté objet en Lingo, le langage de prog du Logiciel multimédia Director, pour faire mes propres expérimentations.
Donc, je vais suivre attentivement ton fil et merci pour ton partage.
soto²- Messages : 2760
Date d'inscription : 07/12/2016
Localisation : Au delಠ(31)
Re: Fondamentaux du big data
non non pas kador, je bosse en auto didacte aussi :-) et c'est effectivement pas simple mais en effet ils lient le calcul matriciel à l'algèbre linéaire , en gros un espace 2d est transcris en matrices 2d et un espace 3 en matrice 3d, le vrai plus est qu'on peut travailler à n dimensions
ce qui n'est pas visualisable, mais oui en matrices et avec tous les calculs et simplifications dessus
en informatique en effet l'idée je suppose est de coder la masse de données non plus en tables indexées mais en matrices plus ou moins brutes à n dimensions, age sexe couleur des cheveux dernier achat etc etc
et de bosser le code en python pour extraire de ces matrices de données des liens stat intéressants et validés
ce n'est pas simple du tout, mais on voit l'idée générale du brol, l'idée en soi n'est pas si hard que cela, je la trouve même plutot basique en traitement de données
mais en stat il existe tellement de méthodes complexes que mélanger ces méthodes à des matrices brutes relève de la magie
mais comment sait il cela ? ben a juste croiser les données et extrait les profils m'fi
mmm mais de la théorie à la pratique c'est pas facile et je rame sur certains concepts et matières à apprendre
la prof de math du module algèbre linéaire de paris tech c'est pas rien.. jolie mais la vache elle va vite
donc no panic, j'ai rien pigé m'dame.. normal mf'i tu dois bosser et apprendre d'abord x puis y et z et si possible m , reviens me voir après ducon
lol
ce qui n'est pas visualisable, mais oui en matrices et avec tous les calculs et simplifications dessus
en informatique en effet l'idée je suppose est de coder la masse de données non plus en tables indexées mais en matrices plus ou moins brutes à n dimensions, age sexe couleur des cheveux dernier achat etc etc
et de bosser le code en python pour extraire de ces matrices de données des liens stat intéressants et validés
ce n'est pas simple du tout, mais on voit l'idée générale du brol, l'idée en soi n'est pas si hard que cela, je la trouve même plutot basique en traitement de données
mais en stat il existe tellement de méthodes complexes que mélanger ces méthodes à des matrices brutes relève de la magie
mais comment sait il cela ? ben a juste croiser les données et extrait les profils m'fi
mmm mais de la théorie à la pratique c'est pas facile et je rame sur certains concepts et matières à apprendre
la prof de math du module algèbre linéaire de paris tech c'est pas rien.. jolie mais la vache elle va vite
donc no panic, j'ai rien pigé m'dame.. normal mf'i tu dois bosser et apprendre d'abord x puis y et z et si possible m , reviens me voir après ducon
lol
Invité- Invité
Re: Fondamentaux du big data
soto² a écrit:
je me suis un amusé avec des réseaux de neurones artificiels (linéaire type Perceptron ou pas => règles d'apprentissages Hebb, Wridrow-Hoff, architectures diverses, réseaux récurrents) + algorithmes "génétiques", systèmes multi-agents (flocks), etc.
J'ai les bases de la programmation algo et objet. J'ai moi-même développé il y a une vingtaine d'année un petit environnement de simulation orienté objet en Lingo, le langage de prog du Logiciel multimédia Director, pour faire mes propres expérimentations.
Donc, je vais suivre attentivement ton fil et merci pour ton partage.
respect ! la prog neuronale c'est pas simple j'ai pas ta maitrise de ce sujet , je me demande s'ils ne vont pas aborder perceptron d'ailleurs mais toutes ces choses m'intéressent
moi j'ai surtout bossé perso dans la visualisation des données, en particulier geolocalisées mais là aussi ce n'est pas simple, ceci dit il existe des algo de codage à partir des codes postaux par exemple, on injecte une table excell et la moulinette ponds un fichier kmz par exemple
trop cool :-)
évidemment le gros boulot est formater convenablement ses données, il parait que c'est le plus gros su boulot en big data puisque bien sur la plupart des algos existent déjà
mais piger les algos et savoir en pondre soi même est sans doute l'idée aussi
bref j'avance avec la naïveté conquérante du chercheur qui ne se rend pas compte des précipices partout, pour le fun et en avant !
wééé
lol
Invité- Invité
Re: Fondamentaux du big data
je continue, sgdb, python et algebre lin partie 2 , de plus en plus sophistiqué
trouvé ceci au passage
https://inforef.be/swi/download/apprendre_python3_5.pdf
bref on voit l'idée de bases de données classiques lentes mais robustes, d'autres moins robustes mais super rapides et gros volumes et des nouvelles à mi chemin entre les 2, 14 bases et 8 sociétés spécialisées, marrant on ne voit pas kroosoft dedans
mais kroosoft va tous les avoir.. avec ses moteurs en ia.. ou pas
bref
python et calcul matriciel l'air de pas y toucher avec fonctions avancées et syntaxe assez hard avec des points des semi colon des virgules, des mélanges de format , conceptuellement assimilable mais c'est la combinaison des concepts
par exemple remplir un array, un tableau une matrice en somme avec des données géénrées par une fonction complexe et toussa dans la foulée d'une seule ligne de code
wow
ons e dit que le listing de code doit être ramassé
la moindre erreur ou débuggé ça .. bref va falloir faire son borg, assimiler
je n'ose ouvrir la seconde partie en algèbre linéaire , le mot avancé me vient à l'esprit .. on n'est pas en op de bases, pré requis toussa toussa
mais bon..
les quizz sont hards et ceux en sgbd semblent mal formulés, quelques comments à ce sujet, la barre de réussite est fixée haut , faut dire qu'on est plus de 4000 à suivre ce cours apparemment
filtrage de premier niveau
mon but à moi n'est pas d'avoir un diplôme mais de piger les concepts et de savoir les appliquer
bref ça continue , cela demande bien plus que 4 heures semaine, le surdon aide mais l'apprentissage demeure même rapide
je parlais de combinaison linéaire de capacités dans un autre topic, c'est un peu cela
computer scientist ou data scientist c'est avoir la combinaison mat stat proba prog, environnements, bases de données et la variable perturbatrice classique, l'art du comment on articule tout cela
on pressent aussi qu'il ya un autre art tout aussi complexe, comment kon fait la database brute à partir de la collecte des datas ? validation , présentation, tri, erreurs etc etc, données complètes ou incomplètes donc
donc double ou triple art à la sherlock
collecter, filtrer et organiser les données brutes, traitement de second niveau sur les logiques sur données convenablement formatées
c'est pas nouveau, je fais cela depuis longtemps autrement
ce qui change c'est la sophistication et la puissance des outils, j'espere aussi apprendre de nouvelels techniques de traitement stats ou prob, il ya tant de nouvelles techniques que quand on parcourt la liste des modules dans R on se sent con à n'en connaitre que 3 ou 4 dans la liste , regression ,anova etc etc ..eux ils ont déjà 50 manière de faire une régression , je n'en connais que 10
et j'ai entendu parlé de 3.. regression spatiale par exemple, très complexe à mettre en oeuvre et ayant servi à définir la réduction de temps pour les trajets tgv par exemple et de tracer une carte recrunchée des distances réelles modifiées par le temps de trajet racourci du tgv
on dirait une espace d'espace vectoriel ou quelqu'un aurait tiré sur un bout de ficelle, rapprochant deux points , en éloignant d''autres, l'hexagone devient un brol geometrique sans forme spécifique
le marketing utilise depuis longtemps et les experts en mobilité aussi les distances entre points, les périmètres de services et autres circuits logistiques
dites merci à Euler à la ville de Berne et à ses nombreux ponts
à quoi la science tient parfois..
ou comment optimiser la tournée de bus, de tram ou du facteur, doit il passer d'abord par la rue A ou la rue B
la complexité combinatoire des trajets est un casse tête pour de vrai, les fourmis de prigogine elles s'en foutent, elles se lancent au hasard et dès qu'elles croisent un morceau de sucre lache une féromone ou un marqueur quelconque , la suivante pareil jusqu'àtracer un chemin pour le reste de la colonie
de manière amusante les hommes en masse étant stupides, on fait pareil pour réguler le traffic routier en heure de pointe en régulant les feux de signalisation
bref je continue , on verra la suite
pour les quizz je me laisse le temps de reposer et de relire mes notes, faire à chaud n'est pas la bonne idée, le fer à froid fonctionne mieux
trouvé ceci au passage
https://inforef.be/swi/download/apprendre_python3_5.pdf
bref on voit l'idée de bases de données classiques lentes mais robustes, d'autres moins robustes mais super rapides et gros volumes et des nouvelles à mi chemin entre les 2, 14 bases et 8 sociétés spécialisées, marrant on ne voit pas kroosoft dedans
mais kroosoft va tous les avoir.. avec ses moteurs en ia.. ou pas
bref
python et calcul matriciel l'air de pas y toucher avec fonctions avancées et syntaxe assez hard avec des points des semi colon des virgules, des mélanges de format , conceptuellement assimilable mais c'est la combinaison des concepts
par exemple remplir un array, un tableau une matrice en somme avec des données géénrées par une fonction complexe et toussa dans la foulée d'une seule ligne de code
wow
ons e dit que le listing de code doit être ramassé
la moindre erreur ou débuggé ça .. bref va falloir faire son borg, assimiler
je n'ose ouvrir la seconde partie en algèbre linéaire , le mot avancé me vient à l'esprit .. on n'est pas en op de bases, pré requis toussa toussa
mais bon..
les quizz sont hards et ceux en sgbd semblent mal formulés, quelques comments à ce sujet, la barre de réussite est fixée haut , faut dire qu'on est plus de 4000 à suivre ce cours apparemment
filtrage de premier niveau
mon but à moi n'est pas d'avoir un diplôme mais de piger les concepts et de savoir les appliquer
bref ça continue , cela demande bien plus que 4 heures semaine, le surdon aide mais l'apprentissage demeure même rapide
je parlais de combinaison linéaire de capacités dans un autre topic, c'est un peu cela
computer scientist ou data scientist c'est avoir la combinaison mat stat proba prog, environnements, bases de données et la variable perturbatrice classique, l'art du comment on articule tout cela
on pressent aussi qu'il ya un autre art tout aussi complexe, comment kon fait la database brute à partir de la collecte des datas ? validation , présentation, tri, erreurs etc etc, données complètes ou incomplètes donc
donc double ou triple art à la sherlock
collecter, filtrer et organiser les données brutes, traitement de second niveau sur les logiques sur données convenablement formatées
c'est pas nouveau, je fais cela depuis longtemps autrement
ce qui change c'est la sophistication et la puissance des outils, j'espere aussi apprendre de nouvelels techniques de traitement stats ou prob, il ya tant de nouvelles techniques que quand on parcourt la liste des modules dans R on se sent con à n'en connaitre que 3 ou 4 dans la liste , regression ,anova etc etc ..eux ils ont déjà 50 manière de faire une régression , je n'en connais que 10
et j'ai entendu parlé de 3.. regression spatiale par exemple, très complexe à mettre en oeuvre et ayant servi à définir la réduction de temps pour les trajets tgv par exemple et de tracer une carte recrunchée des distances réelles modifiées par le temps de trajet racourci du tgv
on dirait une espace d'espace vectoriel ou quelqu'un aurait tiré sur un bout de ficelle, rapprochant deux points , en éloignant d''autres, l'hexagone devient un brol geometrique sans forme spécifique
le marketing utilise depuis longtemps et les experts en mobilité aussi les distances entre points, les périmètres de services et autres circuits logistiques
dites merci à Euler à la ville de Berne et à ses nombreux ponts
à quoi la science tient parfois..
ou comment optimiser la tournée de bus, de tram ou du facteur, doit il passer d'abord par la rue A ou la rue B
la complexité combinatoire des trajets est un casse tête pour de vrai, les fourmis de prigogine elles s'en foutent, elles se lancent au hasard et dès qu'elles croisent un morceau de sucre lache une féromone ou un marqueur quelconque , la suivante pareil jusqu'àtracer un chemin pour le reste de la colonie
de manière amusante les hommes en masse étant stupides, on fait pareil pour réguler le traffic routier en heure de pointe en régulant les feux de signalisation
bref je continue , on verra la suite
pour les quizz je me laisse le temps de reposer et de relire mes notes, faire à chaud n'est pas la bonne idée, le fer à froid fonctionne mieux
Invité- Invité
Re: Fondamentaux du big data
J'ai rien compris à ce que tu racontes Zebulon : ça te plait le MOOC ? Tu avais fait des maths en plus de ce qu'on fait jusqu'en terminale ? Tu penses qu'on peut suivre si on s'est arrêté en terminale ?
Invité- Invité
Re: Fondamentaux du big data
il faut une base mais tout s'apprend , des efforts et un niveau un peu plus que terminale mais le propre des moocs est de permettre à un max de gens d'apprendre
donc oui on peut suivre selon moi , 4000 inscrits à ce mooc par exemple
donc oui on peut suivre selon moi , 4000 inscrits à ce mooc par exemple
Invité- Invité
Re: Fondamentaux du big data
à relire le niveau en math est l2 , je n'ai pas toutes les bases ou il faut que je revoie pas mal de choses
par ailleurs peut jamais m'empêcher de voir la suite , trouvé ceci
http://eric.univ-lyon2.fr/~ricco/
et ceci
http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html
ca fixe le niveau.. wow.. si ce mec n'est pas surdoué..
mais on peut déjà avoir une première classification en big data en fonction de grandes catégories d'analyses
finalement en stat à mon époque on m'avait enseigné quelques une des ces branches, je constate qu'il n'y en a pas tellement de si nouvelles
mais c'est déjà wow
celle qui m'intrigue
''Cartes topologiques de Kohonen
Cartes auto-organisatrices de Kohonen. Réseaux de neurones. Réduction de dimensionalité. Représentations graphiques. Interprétation des résultats. Couplage avec la CAH (classification ascendante hiérarchique).
"
vla le prof
sans doute à rapprocher des cartes imo ??
http://fireballs.imo.net/imo_view/event/2016/631
bref le fun continue
c'est hard mais bon j'apprends plein de brols
par ailleurs peut jamais m'empêcher de voir la suite , trouvé ceci
http://eric.univ-lyon2.fr/~ricco/
et ceci
http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html
ca fixe le niveau.. wow.. si ce mec n'est pas surdoué..
mais on peut déjà avoir une première classification en big data en fonction de grandes catégories d'analyses
finalement en stat à mon époque on m'avait enseigné quelques une des ces branches, je constate qu'il n'y en a pas tellement de si nouvelles
mais c'est déjà wow
celle qui m'intrigue
''Cartes topologiques de Kohonen
Cartes auto-organisatrices de Kohonen. Réseaux de neurones. Réduction de dimensionalité. Représentations graphiques. Interprétation des résultats. Couplage avec la CAH (classification ascendante hiérarchique).
"
vla le prof
sans doute à rapprocher des cartes imo ??
http://fireballs.imo.net/imo_view/event/2016/631
bref le fun continue
c'est hard mais bon j'apprends plein de brols
Dernière édition par Zebulon2.52 le Ven 17 Fév 2017 - 22:01, édité 3 fois
Invité- Invité
Re: Fondamentaux du big data
ah ben voilà déjà trouvé ceci
https://fr.wikipedia.org/wiki/Carte_auto_adaptative
"où σ {\displaystyle \sigma } \sigma s'appelle coefficient de voisinage. Son rôle est de déterminer un rayon de voisinage autour du neurone vainqueur."
j'adore l'idée, en gros dans un réseau neuronal on a ce que j'appelle moi des nœuds, ici on appelle cela les vainqueurs autour desquels gravitent un eco système propre
en économie l'idée était de repondre une macro en partant non pas d'une vue keynésienne théorique mais de la réalité des vainqueurs et leurs réseaux
et d'essayer de piger ce qui fait qu'il y a des vainqueurs ou et pourquoi
bref .. restons en aux bases à acquérir.. petit à petit elie
un jour on aura une matrice de codes à analyser en big data , qui sait...
https://fr.wikipedia.org/wiki/Carte_auto_adaptative
"où σ {\displaystyle \sigma } \sigma s'appelle coefficient de voisinage. Son rôle est de déterminer un rayon de voisinage autour du neurone vainqueur."
j'adore l'idée, en gros dans un réseau neuronal on a ce que j'appelle moi des nœuds, ici on appelle cela les vainqueurs autour desquels gravitent un eco système propre
en économie l'idée était de repondre une macro en partant non pas d'une vue keynésienne théorique mais de la réalité des vainqueurs et leurs réseaux
et d'essayer de piger ce qui fait qu'il y a des vainqueurs ou et pourquoi
bref .. restons en aux bases à acquérir.. petit à petit elie
un jour on aura une matrice de codes à analyser en big data , qui sait...
Invité- Invité
Re: Fondamentaux du big data
oui donc plus concrètement en 2 semaines 3 cours différents
1 en python
2 algèbre linéaire
3 sgbd , sql et non sql etc
donc ce qui est vu est ceci
Utiliser l’environnement (ainsi que l’interpréteur) Python pour écrire et exécuter des programmes.
Utiliser la bibliothèque standard Python et ses modules dans des programmes de base.
Utiliser les conteneurs, les branchements et les boucles dans des programmes Python.
Utiliser les fonctions dans l’écriture des programmes Python.
Écrire des programmes Python orientés objet en utilisant les classes et leurs méthodes.
Identifier et manipuler un espace vectoriel réel
Identifier et manipuler un espace vectoriel engendré par une famille finie Identifier et manipuler une base.
Calculer et utiliser la dimension d’un espace vectoriel réel.
Calculer et utiliser le rang d’une famille de vecteurs Identifier si une famille de vecteurs est libre ou liée et utiliser ses caractéristiques Identifier et manipuler une application linéaire et ses propriétés selon les cas (composition, injectivité, surjectivité, inverse).
Utiliser le noyau d’une application linéaire.
Utiliser le théorème du rang pour caractériser l’inversibilité d’une application linéaire.
Identifier le lien entre une application linéaire et une matrice.
Identifier et utiliser la base canonique.
Réaliser des opérations sur les matrices (produits, inverse, transposition, changement de base).
Identifier les forces et les faiblesses des SGBD relationnels classiques pour savoir dans quels cas les utiliser ou préférer d’autres systèmes.
Connaître les différents types de données dans les systèmes NoSQL et leurs particularités.
Identifier les caractéristiques des systèmes clé-valeur, des systèmes orientés document, des systèmes orientés colonnes et en connaître quelques exemples.
Identifier les avantages de l’utilisation des systèmes NewSQL.
Importer les bibliothèques Numpy et Matplotlib pour le calcul scientifique en Python en fonction des besoins.
Créer des tableaux avec Numpy.
Manipuler les tableaux et utiliser les attributs shape, ndim, size, dtype, etc.
Faire de l’arithmétique sur les tableaux.
Générer des données aléatoires avec Numpy.
Créer des matrices.
Lire et écrire dans un fichier.
Résoudre des problèmes d’algèbre linéaire avec Numpy (opérations d’addition, de multiplication sur des matrices, réduction de matrice, copie, changement de dimension, concaténation).
Manipuler le produit scalaire et en connaître l'intérêt et les propriétés.
Manipuler les normes.
Utiliser l’inégalité de Cauchy-Schwartz.
Comprendre l’orthogonalité, de vecteurs, de sous-espaces, de matrices et la propriété induite d’invariance.
Utiliser les projections.
Identifier si une matrice est diagonalisable et pouvoir la diagonaliser (dans le cas des matrices symétriques et dans le cas général).
Identifier l’intérêt et les cas d’utilisation de la réduction de matrice.
Manipuler la Décomposition en Valeurs Singulières, l’utiliser dans Python et en connaître des cas d’applications.
--
si des parties échappent , ce que je fais moi c'est soit demander, on peut poser quelques questions directement
chercher sur mots clefs dans Google et sur types de fichiers en combinés
ou plus fun directement en youtube our avoir un didacticiel même basique pour compléter ou amorcer
exemple fun avec ce prof
bon ici c'est vraiment la super base..khan a de très bons didacticiels zossi
là on se rapproche du mooc
1 en python
2 algèbre linéaire
3 sgbd , sql et non sql etc
donc ce qui est vu est ceci
Utiliser l’environnement (ainsi que l’interpréteur) Python pour écrire et exécuter des programmes.
Utiliser la bibliothèque standard Python et ses modules dans des programmes de base.
Utiliser les conteneurs, les branchements et les boucles dans des programmes Python.
Utiliser les fonctions dans l’écriture des programmes Python.
Écrire des programmes Python orientés objet en utilisant les classes et leurs méthodes.
Identifier et manipuler un espace vectoriel réel
Identifier et manipuler un espace vectoriel engendré par une famille finie Identifier et manipuler une base.
Calculer et utiliser la dimension d’un espace vectoriel réel.
Calculer et utiliser le rang d’une famille de vecteurs Identifier si une famille de vecteurs est libre ou liée et utiliser ses caractéristiques Identifier et manipuler une application linéaire et ses propriétés selon les cas (composition, injectivité, surjectivité, inverse).
Utiliser le noyau d’une application linéaire.
Utiliser le théorème du rang pour caractériser l’inversibilité d’une application linéaire.
Identifier le lien entre une application linéaire et une matrice.
Identifier et utiliser la base canonique.
Réaliser des opérations sur les matrices (produits, inverse, transposition, changement de base).
Identifier les forces et les faiblesses des SGBD relationnels classiques pour savoir dans quels cas les utiliser ou préférer d’autres systèmes.
Connaître les différents types de données dans les systèmes NoSQL et leurs particularités.
Identifier les caractéristiques des systèmes clé-valeur, des systèmes orientés document, des systèmes orientés colonnes et en connaître quelques exemples.
Identifier les avantages de l’utilisation des systèmes NewSQL.
Importer les bibliothèques Numpy et Matplotlib pour le calcul scientifique en Python en fonction des besoins.
Créer des tableaux avec Numpy.
Manipuler les tableaux et utiliser les attributs shape, ndim, size, dtype, etc.
Faire de l’arithmétique sur les tableaux.
Générer des données aléatoires avec Numpy.
Créer des matrices.
Lire et écrire dans un fichier.
Résoudre des problèmes d’algèbre linéaire avec Numpy (opérations d’addition, de multiplication sur des matrices, réduction de matrice, copie, changement de dimension, concaténation).
Manipuler le produit scalaire et en connaître l'intérêt et les propriétés.
Manipuler les normes.
Utiliser l’inégalité de Cauchy-Schwartz.
Comprendre l’orthogonalité, de vecteurs, de sous-espaces, de matrices et la propriété induite d’invariance.
Utiliser les projections.
Identifier si une matrice est diagonalisable et pouvoir la diagonaliser (dans le cas des matrices symétriques et dans le cas général).
Identifier l’intérêt et les cas d’utilisation de la réduction de matrice.
Manipuler la Décomposition en Valeurs Singulières, l’utiliser dans Python et en connaître des cas d’applications.
--
si des parties échappent , ce que je fais moi c'est soit demander, on peut poser quelques questions directement
chercher sur mots clefs dans Google et sur types de fichiers en combinés
ou plus fun directement en youtube our avoir un didacticiel même basique pour compléter ou amorcer
exemple fun avec ce prof
bon ici c'est vraiment la super base..khan a de très bons didacticiels zossi
là on se rapproche du mooc
Invité- Invité
Re: Fondamentaux du big data
Zebulon a écrit:ou comment optimiser la tournée de bus, de tram ou du facteur...
Les algorithmes "génétiques" font çà très bien (problématique dite "du voyageur de commerce"), et sont très performant de façon générale pour les problèmes d'optimisations complexes.
soto²- Messages : 2760
Date d'inscription : 07/12/2016
Localisation : Au delಠ(31)
Re: Fondamentaux du big data
merci soto² :-)
on trouve vraiment tout sur youtube
etc
en quebecquois :-)
si j'avais eut tous ces outils à mon époque... tsss
les jeunes ne savent pas leur chance :-)
on trouve vraiment tout sur youtube
etc
en quebecquois :-)
si j'avais eut tous ces outils à mon époque... tsss
les jeunes ne savent pas leur chance :-)
Invité- Invité
Re: Fondamentaux du big data
ah trop cool ! merci c'est super ! j'ai commencé le Mooc, il me manque plein de choses ! J'ai fait le pretest en cherchant sur wikipédia, mais je pense que ça ne suffira pas pour suivre, j'ai commencé la premiere vidéo, je verrai au fur et à mesure ce qu'il faut combler comme lacune.
Invité- Invité
Re: Fondamentaux du big data
la partie proba est mathématisée et je pressens pourquoi, bref l'idée est de croiser algèbre linéaire, proba , vecteurs matrices et python
en gros au lieu de bosser sur matrices de données, on bosse sur "espaces" d'ordres variés avec un langage conçu pour cette généralisations, ce ne sont donc pas des tables mais des espaces mathématiques à propriétés spécifiques
c'est hard à suivre, mais je suppose que la pratique rendra tout cela plus clair, et puis faut faire de l'autodidacte si on pige pas, dixit ces profs
donc pas mal de temps à consacrer sauf si vous êtes diplomé en math, donc niveau l2
je présume que si je maitrise certains cours l2 me paraitront après coup simples
par moment je pige rien ...puis ça branche, le petit détail et je me dis, la vache mais qu'est ce qu'elle complique tout, puis je pige que la complexité vise à généraliser les propriétés pour pouvoir les programmer ensuite en python comme une formule complexe à appliquer sur un espace de données
je continue mais c'est hard, je ne suis pas un matheux à la base du tout, je suis un pragmatique peu pas dire mieux
mais bon pas ce choix,
le cours d'analyse en survol a l'air du même accabit donc finalement 3 semaines de math en quelque sorte et un peu de database et de prog mais peu
l'idée est aussi de lister les compétences à acquérir dans un tableau double entrée de voir celles acquises en pré requis, celle acquise avec le mooc et celles à acquérir par d'autres moyens
le drame c'est que les délais sont courts l'examen est début avril pour le dire ainsi, quizzà finir pour le 4
pas certain d'y arriver dans ces délais ni de tout assimiler à cette vitesse,
bref je continue comme je peux, on verra pour la suite
je ne suis pas surdoué en math mais je découvre que finalement je ne suis pas nul quand même
lol
il faut de la constance et de la persévérance comme souvent
99% de sueur et 1% de génie , la sueur c'est casse pied
en gros au lieu de bosser sur matrices de données, on bosse sur "espaces" d'ordres variés avec un langage conçu pour cette généralisations, ce ne sont donc pas des tables mais des espaces mathématiques à propriétés spécifiques
c'est hard à suivre, mais je suppose que la pratique rendra tout cela plus clair, et puis faut faire de l'autodidacte si on pige pas, dixit ces profs
donc pas mal de temps à consacrer sauf si vous êtes diplomé en math, donc niveau l2
je présume que si je maitrise certains cours l2 me paraitront après coup simples
par moment je pige rien ...puis ça branche, le petit détail et je me dis, la vache mais qu'est ce qu'elle complique tout, puis je pige que la complexité vise à généraliser les propriétés pour pouvoir les programmer ensuite en python comme une formule complexe à appliquer sur un espace de données
je continue mais c'est hard, je ne suis pas un matheux à la base du tout, je suis un pragmatique peu pas dire mieux
mais bon pas ce choix,
le cours d'analyse en survol a l'air du même accabit donc finalement 3 semaines de math en quelque sorte et un peu de database et de prog mais peu
l'idée est aussi de lister les compétences à acquérir dans un tableau double entrée de voir celles acquises en pré requis, celle acquise avec le mooc et celles à acquérir par d'autres moyens
le drame c'est que les délais sont courts l'examen est début avril pour le dire ainsi, quizzà finir pour le 4
pas certain d'y arriver dans ces délais ni de tout assimiler à cette vitesse,
bref je continue comme je peux, on verra pour la suite
je ne suis pas surdoué en math mais je découvre que finalement je ne suis pas nul quand même
lol
il faut de la constance et de la persévérance comme souvent
99% de sueur et 1% de génie , la sueur c'est casse pied
Invité- Invité
Re: Fondamentaux du big data
Moi aussi j esuis nulle ne maths mais j'aime bien quand même , je découvre des choses, c'est dommage qu'on nous fasse pas faire tout ça au lycée.
Invité- Invité
Re: Fondamentaux du big data
oui mais les moyens ont considérablement changé depuis 1996, il y une révolution depuis l'internet
on peut apprendre chez soi aussi des choses qui étaient accessibles qu'à des minorités et surtout mondialement et cela ets un immense progrès
c'était l"intention première de l'internet d'ailleurs, le partage de savoir
mais cela a merdoyé comme tout
mais il reste des bonus
il ya un hyperchoix de formation, pas assez d'une vie pour toutes les faire , mais on peut en effet apprendre à haut niveau
ce mooc est donc loin d'être le plus accessible mais on peut en effet apprendre bcp
quand on sait pas on peut prendre un mot clef et chercher une autre explication ailleurs
par exemple sur cette semaine 3
j'adore les videos de khan academy notamment
on peut apprendre chez soi aussi des choses qui étaient accessibles qu'à des minorités et surtout mondialement et cela ets un immense progrès
c'était l"intention première de l'internet d'ailleurs, le partage de savoir
mais cela a merdoyé comme tout
mais il reste des bonus
il ya un hyperchoix de formation, pas assez d'une vie pour toutes les faire , mais on peut en effet apprendre à haut niveau
ce mooc est donc loin d'être le plus accessible mais on peut en effet apprendre bcp
quand on sait pas on peut prendre un mot clef et chercher une autre explication ailleurs
par exemple sur cette semaine 3
j'adore les videos de khan academy notamment
Invité- Invité
Re: Fondamentaux du big data
etc etc
on en viendrait à comprendre et aimer les maths, c'est ti pas cool :-)
Invité- Invité
Re: Fondamentaux du big data
mon idée avant ce mooc était de refaire une formation de math de zéro comme si je ne savais rien et de revoir toute la pyramide de connaissance pour aller le plus haut après
ici je passe d'un segment à un autre , et au détour on complète par des choses peu ou pas connues, la prof dans le mooc d'ailleurs le précise bien
tu sais pas, démmerdes toi pour compenser ou apprendre, bref acquérir le pré requis, j'ai pas mal de pré requis mais aussi des faiblesses et des lacunes
je connais bien les stats et les probas par exemple mais nettement moins sous l'angle formel mathématique que peu utilisent en fin de compte dans la pratique, maisje comprend qu'ici c'est important de piger et assimiler ces concepts de cette manière
un des brols aussi analyse
bref , je devrais faire un tableau
1-concept à assimiler
2-cours correspondant
3- ressources didactique associée
du coup le mooc se simplifie en x concepts à digérer et x sources à comprendre
on peut poster en remarque ou espace dédié questions et aides de ce type, mais je ne suis pas certain que ma manière d'avancer soit partagée , je ne veux rien déranger dans la pièce :-)
je suis sage du coup , ça me ressemble peu :-)
ici je passe d'un segment à un autre , et au détour on complète par des choses peu ou pas connues, la prof dans le mooc d'ailleurs le précise bien
tu sais pas, démmerdes toi pour compenser ou apprendre, bref acquérir le pré requis, j'ai pas mal de pré requis mais aussi des faiblesses et des lacunes
je connais bien les stats et les probas par exemple mais nettement moins sous l'angle formel mathématique que peu utilisent en fin de compte dans la pratique, maisje comprend qu'ici c'est important de piger et assimiler ces concepts de cette manière
un des brols aussi analyse
bref , je devrais faire un tableau
1-concept à assimiler
2-cours correspondant
3- ressources didactique associée
du coup le mooc se simplifie en x concepts à digérer et x sources à comprendre
on peut poster en remarque ou espace dédié questions et aides de ce type, mais je ne suis pas certain que ma manière d'avancer soit partagée , je ne veux rien déranger dans la pièce :-)
je suis sage du coup , ça me ressemble peu :-)
Invité- Invité
Re: Fondamentaux du big data
Je n'en suis qu'à la semaine 1. Mais je vais me bouger pour avancer un peu.
Super les vidéos, j'en aurai besoin aussi je pense !
Super les vidéos, j'en aurai besoin aussi je pense !
Invité- Invité
Re: Fondamentaux du big data
Si tu as besoin d'aide THQIsansdéconner tu peux également me contacter.
Merci Zebulon2.52 d'avoir fait vivre mon post.
Merci Zebulon2.52 d'avoir fait vivre mon post.
Invité- Invité
Re: Fondamentaux du big data
- HS, quoi que...:
- Pour ceux que çà intéresse, j'aimerai bien reparler de l'utilisation des outils de traitement de l'information "parallèles et distribués" (type réseaux de neurones formel et systèmes multi-agents) et "évolutionnaires" (type algos "génétiques") dans une optique plus cognitive qu'opérationnelle. Et l'associer avec d'éventuels projets robotiques (Arduino etc). Peut-être lancer un fil sur le sujet, mais pas avant la rentrée prochaine (automne 2017) pour moi.
- L' éclairage de la seconde cybernétique sur la révolution du Big Data:
J'ai vu qu'il y a d'autres fils sur la thématique des Big Data. çà serait bien de les regrouper. J'imagine qu'il faut s'adresser à la modération ?!
En tout cas, bon courage à ceux qui suivent ces formations !
soto²- Messages : 2760
Date d'inscription : 07/12/2016
Localisation : Au delಠ(31)
Re: Fondamentaux du big data
jesaispas a écrit:Si tu as besoin d'aide THQIsansdéconner tu peux également me contacter.
Merci Zebulon2.52 d'avoir fait vivre mon post.
de rien donc:-)
merci d'avoir poster ce topic, sans quoi je n'aurais pas branché dessus :-)
Invité- Invité
Re: Fondamentaux du big data
x
Dernière édition par Zebulon2.52 le Jeu 23 Fév 2017 - 16:04, édité 1 fois
Invité- Invité
Re: Fondamentaux du big data
x
Dernière édition par Zebulon2.52 le Jeu 23 Fév 2017 - 16:05, édité 1 fois
Invité- Invité
Re: Fondamentaux du big data
x
Dernière édition par Zebulon2.52 le Jeu 23 Fév 2017 - 16:05, édité 1 fois
Invité- Invité
Re: Fondamentaux du big data
x
Dernière édition par Zebulon2.52 le Jeu 23 Fév 2017 - 16:05, édité 1 fois
Invité- Invité
Re: Fondamentaux du big data
Une bombe au graphite ou electromagnétique sur les sites de stockage. Ça sera peut-être l'avenir...
Fata Morgana- Messages : 20818
Date d'inscription : 09/02/2011
Age : 67
Localisation : Un pied hors de la tombe
Re: Fondamentaux du big data
x
Dernière édition par Zebulon2.52 le Jeu 23 Fév 2017 - 16:05, édité 1 fois
Invité- Invité
Re: Fondamentaux du big data
MOOC sympa, l'ensemble est très cohérent, mais les cours sont beaucoup trop succincts.
prométhéus- Messages : 361
Date d'inscription : 26/04/2015
Age : 43
Localisation : troisième planète du système solaire
Re: Fondamentaux du big data
OpenClassroom (mooc) > Formation "Data Architect"
"Le déluge de données actuel a fait apparaître un nouveau défi : concevoir et mettre en place les infrastructures informatiques permettant le passage à l’échelle du stockage et de l’analyse. Le rôle de Data Architect, à la pointe de la révolution Big Data, a été créé pour répondre à ce défi. Grâce à OpenClassrooms et CentraleSupélec, devenez architecte des données ! ", Ecole Centrale SupElec, 500 € / mois, durée approx. env. 6 mois.
Source : Formation "Data Architect"
soto²- Messages : 2760
Date d'inscription : 07/12/2016
Localisation : Au delಠ(31)
Re: Fondamentaux du big data
soto² a écrit:OpenClassroom (mooc) > Formation "Data Architect"
"Le déluge de données actuel a fait apparaître un nouveau défi : concevoir et mettre en place les infrastructures informatiques permettant le passage à l’échelle du stockage et de l’analyse. Le rôle de Data Architect, à la pointe de la révolution Big Data, a été créé pour répondre à ce défi. Grâce à OpenClassrooms et CentraleSupélec, devenez architecte des données ! ", Ecole Centrale SupElec, 500 € / mois, durée approx. env. 6 mois.
Source : Formation "Data Architect"
Il parait qu'un pigeon est plus intelligent que l'on pouvait s'imaginer,
après il serait étonnant qu'il soit capable de faire ce genre de formation en moins de 6 mois.
prométhéus- Messages : 361
Date d'inscription : 26/04/2015
Age : 43
Localisation : troisième planète du système solaire
Re: Fondamentaux du big data
x
Dernière édition par Zebulon252 le Dim 12 Mar 2017 - 23:17, édité 1 fois
Invité- Invité
Re: Fondamentaux du big data
La premier échelon dans ce mooc, c'est de comprendre les méthodes classiques de régressions .
Il y a plusieurs façon d'appréhender le truc.
L'idée de base est de faire passer une courbe exprimée sous forme d'un polynôme, qui passerait par un certains nombre de points
Pour un point le degré du polynôme doit être de un
Pour deux points le degré doit être de deux
etc ...
Le problème est un problème matriciel
V est la matrice de van der Monde
Pour n points de coordonnées (αi,βi)
et V=[θ0,θ1,θ2,...θn-1] matrice colonne.
Cela correspond au polynôme y(x)=θ0+θ1x+θ2x²+... qui passe par tous les points
On pose Y=[β0,β1...] matrice colonne
Matriciellement
AV=Y
On cherche V, coefficient du polynôme
Il suffira donc d'inverser A et c'est fini.
Maintenant que se passe t'il quand le nombre de points devient supérieur au degré-1 du polynôme.
Nous avons encore une matrice de Van der Monde, mais elle n'est plus inversible.
Géométriquement, si dans les problèmes précédent, il s'agissait de faire correspondre un vecteur à unique vecteur de Rn,
Là nous faisons une projection d'un vecteur dans un hyperplan...
Ici s'ouvre via le MOOC, trois méthodes:
1:
On cherche à minimiser la somme de tous les termes | y_théorique - y_reel|²
Pour le cas d'un polynôme de de degré un (droite de régression) , cela va être une équation quadratique (f(x,y)=ax²+bxy+cy²)
Si la matrice hessienne a des valeurs propres de même signe et positive, la surface z=f(x,y) sera convexe.
Donc trouver les θ0 et θ1 tel que df(θ0,θ1)=0
2:
On inverse la matrice de van der Monde via la méthode en décomposition en valeur singulière SVD
3:
si on a
Ax=y
on aura x = (At.A)^(-1)*y
C'est la méthode utilisée dans les exercices finaux du mooc.
Bon y a tous les choses très intéressantes sur la notion de perceptron, la notion de classifieur binaire, c'est très vite abordée mais pas déterminant pour la validation des quizz.
Il y a plusieurs façon d'appréhender le truc.
L'idée de base est de faire passer une courbe exprimée sous forme d'un polynôme, qui passerait par un certains nombre de points
Pour un point le degré du polynôme doit être de un
Pour deux points le degré doit être de deux
etc ...
Le problème est un problème matriciel
V est la matrice de van der Monde
Pour n points de coordonnées (αi,βi)
et V=[θ0,θ1,θ2,...θn-1] matrice colonne.
Cela correspond au polynôme y(x)=θ0+θ1x+θ2x²+... qui passe par tous les points
On pose Y=[β0,β1...] matrice colonne
Matriciellement
AV=Y
On cherche V, coefficient du polynôme
Il suffira donc d'inverser A et c'est fini.
Maintenant que se passe t'il quand le nombre de points devient supérieur au degré-1 du polynôme.
Nous avons encore une matrice de Van der Monde, mais elle n'est plus inversible.
Géométriquement, si dans les problèmes précédent, il s'agissait de faire correspondre un vecteur à unique vecteur de Rn,
Là nous faisons une projection d'un vecteur dans un hyperplan...
Ici s'ouvre via le MOOC, trois méthodes:
1:
On cherche à minimiser la somme de tous les termes | y_théorique - y_reel|²
Pour le cas d'un polynôme de de degré un (droite de régression) , cela va être une équation quadratique (f(x,y)=ax²+bxy+cy²)
Si la matrice hessienne a des valeurs propres de même signe et positive, la surface z=f(x,y) sera convexe.
Donc trouver les θ0 et θ1 tel que df(θ0,θ1)=0
2:
On inverse la matrice de van der Monde via la méthode en décomposition en valeur singulière SVD
3:
si on a
Ax=y
on aura x = (At.A)^(-1)*y
C'est la méthode utilisée dans les exercices finaux du mooc.
Bon y a tous les choses très intéressantes sur la notion de perceptron, la notion de classifieur binaire, c'est très vite abordée mais pas déterminant pour la validation des quizz.
prométhéus- Messages : 361
Date d'inscription : 26/04/2015
Age : 43
Localisation : troisième planète du système solaire
Re: Fondamentaux du big data
x
Dernière édition par Zebulon252 le Dim 12 Mar 2017 - 23:17, édité 1 fois
Invité- Invité
Re: Fondamentaux du big data
Mon petit cheveu sur la soupe, ci dessous des liens instructifs sur ce thème sans fond
https://eric.univ-lyon2.fr/~ricco/data-mining/ (université de Lyon 2)...
et deux autres en anglais
http://datascience.ibm.com/
http://www.ccsu.edu/datamining/
Bonne réception
https://eric.univ-lyon2.fr/~ricco/data-mining/ (université de Lyon 2)...
et deux autres en anglais
http://datascience.ibm.com/
http://www.ccsu.edu/datamining/
Bonne réception
Invité- Invité
Page 1 sur 2 • 1, 2
Sujets similaires
» Principes fondamentaux structurant le psychisme humain.
» Pure Data
» Le Big Data vertueux, ça existe ?
» Projet data mining générique
» Pure Data
» Le Big Data vertueux, ça existe ?
» Projet data mining générique
Page 1 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum