La science des données est le domaine d'étude qui gère de grandes quantités de données à l'aide de méthodes, processus, algorithmes et systèmes scientifiques pour trouver les modèles invisibles, dériver des informations significatives, prendre des décisions commerciales dans les entreprises et également utiliser dans des institutions non commerciales. Les institutions non commerciales incluent les industries des soins de santé, des jeux, de la reconnaissance d'image, des systèmes de recommandation, de la logistique, de la détection des fraudes (banque et des institutions financières), de la recherche sur Internet, de la reconnaissance vocale, de la publicité ciblée, de la planification des itinéraires des compagnies aériennes et de la réalité augmentée. La science des données est un sous-ensemble de l'intelligence artificielle. Les données utilisées pour l'analyse peuvent provenir de nombreuses sources différentes et sont présentées dans divers formats. Certaines des données source peuvent être standardisées; D'autres peuvent ne pas être standardisés.
Pour le dire d'une autre manière, différentes méthodologies sont utilisées pour recueillir les données (pluriel de Datum). Ensuite, la connaissance (conclusions précieuses) est extraite des données assemblées. Dans le processus, une fois les données recueillies, la recherche se fait sur eux (données) pour obtenir de nouvelles données (résultats) à partir desquelles les problèmes sont résolus.
La science des données en tant que (majeure) discipline existe au niveau du baccalauréat et de la maîtrise à l'université. Cependant, seules quelques universités au monde offrent la science des données au baccalauréat ou à la maîtrise. Au niveau du baccalauréat, l'étudiant diplômé avec un diplôme en science des données. C'est comme un diplôme à usage général. Au niveau de la maîtrise, l'étudiant part avec un diplôme d'études supérieures en science des données, spécialisé dans l'analyse des données, l'ingénierie des données ou en tant que scientifique des données.
Cela pourrait surprendre le lecteur et peut-être malheureusement que l'apprentissage automatique, la modélisation, les statistiques, la programmation et les bases de données sont des connaissances préalables pour étudier la science des données au niveau du baccalauréat malgré le fait qu'ils soient des cours universitaires respectés à leurs propres droits, étudiés en Autres disciplines au niveau du baccalauréat ou au niveau de la maîtrise. Nonobstant, lorsqu'un étudiant se rend dans une université pour étudier la science des données au niveau du diplôme, tous ces cours seront toujours étudiés, à côté ou avant les cours appropriés, pour la science des données.
La science des données pour le baccalauréat ou ses spécialisations comme l'analyse des données, l'ingénierie des données ou en tant que scientifique des données sont toujours en cours de développement; Bien qu'ils aient atteint un stade où ils sont appliqués dans les industries après avoir été étudiés (à l'université). La science des données est une discipline relativement très nouvelle, globalement.
N'oubliez pas que vous devriez d'abord être généraliste avant de devenir spécialiste. Les distinctions entre les programmes des spécialistes ne sont pas encore claires. Les distinctions entre les programmes généralistes et les programmes spécialisés ne sont pas encore clairs.
Étant donné que la science des données est une discipline relativement nouvelle, les livres prescrits dans ce document sont basés sur la couverture du contenu et non la pédagogie (comment le livre enseigne). Et ils sont pour le programme de baccalauréat (généraliste). Il existe différents cours généralistes.
La liste
Pour plus de détails et un achat possible avec une carte de crédit, un hyperlien pour chacun des livres est donné. Aucun des livres ne couvre tous les cours généralistes.
Mathématiques essentielles pour les sciences des données: calcul, statistiques, théorie des probabilités et algèbre linéaire
Écrit par: Hadrien Jean
Le contenu de ce livre peut être considéré comme le cours de mathématiques pour la science des données. Bien qu'il ne soit pas recommandé d'apprendre soi-même les sciences des données, un diplômé du secondaire qui veut apprendre les sciences des données lui-même devrait commencer par ce livre.
Contenu: calcul; Statistiques et probabilité; Algèbre linéaire; Scalaires et vecteurs; Matrices et tenseurs; Span, dépendance linéaire et transformation de l'espace; Systèmes d'équations linéaires; Vecteurs propres et valeurs propres; Décomposition de valeur singulière.
https: // www.Essentialmathfordatascience.com /
Un guide de bon sens pour les structures de données et les algorithmes: améliorez vos compétences en programmation de base / 2e édition
Écrit par: Jay Wengrow
Ce livre traite des algorithmes et des structures de données qui sont utilisées en science des données. En supposant que quelqu'un apprend la science des données par lui-même après avoir obtenu son diplôme de lycée, alors c'est le prochain livre à lire après avoir lu le livre de mathématiques précédent. Les exemples de programmes sont donnés dans Javascript, Python et Ruby.
Contenu: pourquoi les structures de données comptent; Pourquoi les algorithmes comptent; O Oui! Big O Notation; Accélérer votre code avec Big O; Optimiser le code avec et sans Big O; Optimisation des scénarios optimistes; Big O dans le code quotidien; Recherche rapide flamboyante avec des tables de hachage; Fabrication de code élégant avec des piles et des files d'attente; Recursuement récursivement avec une récursivité; Apprendre à écrire en récursif; Programmation dynamique; Algorithmes récursifs pour la vitesse; Structures de données basées sur des nœuds; Accélérer toutes les choses avec des arbres de recherche binaires; Garder vos priorités droites avec des tas; Ça ne fait pas de mal de triser; Connecter tout avec des graphiques; Traitant des contraintes d'espace; Techniques d'optimisation du code
Science plus intelligente des données: réussir avec les données de qualité d'entreprise et les projets AI / 1St Édition
Écrit par: Neal Fishman, Cole Stryker et Grady Booch
Contenu: grimper l'échelle AI; Fradiant la partie I: Considérations pour les organisations utilisant l'IA; Frading Partie II: Considérations pour travailler avec les données et l'IA; Un regard en arrière sur l'analyse: plus d'un marteau; Un attente sur l'analyse: tout ne peut pas être un clou; S'attaquer aux disciplines opérationnelles sur l'échelle de l'IA; Maximiser l'utilisation de vos données: être axé sur la valeur; Valoriser les données avec une analyse statistique et permettre un accès significatif; Construire à long terme; A Journey's End: un IA pour AI.
Apprentissage automatique: une perspective probabiliste (série de calcul adaptative et d'apprentissage automatique) Edition illustrée
Écrit par: Kevin P. Murphy
Ce livre est bon pour les débutants. Encore une fois, comme tous les autres livres prescrits dans ce document, ce livre ne couvre pas tout ce qui est nécessaire pour le programme généraliste qui, malheureusement, n'est toujours pas finalisé (les programmes spécialisés ne sont pas encore finalisés). Le débutant typique ici est un diplômé du lycée avec une passe en mathématiques et en informatique.
Contenu: Introduction (apprentissage automatique: quoi et pourquoi?, Apprentissage non supervisé, quelques concepts de base de l'apprentissage automatique); Probabilité; Modèles génératifs pour des données discrètes; Modèles gaussiens; Statistiques bayésiennes; Statistiques fréquentistes; Régression linéaire; Régression logistique; Modèles linéaires généralisés et famille exponentielle; Modèles graphiques dirigés (filets bayes); Les modèles de mélange et l'algorithme EM; Modèles linéaires latents; Modèles linéaires clairsemés; Graines; Processus gaussiens; Modèles de fonctions de base adaptative; Modèles de Markov et Hidden Markov; Modèles d'espace d'état; Modèles graphiques non dirigés (champs aléatoires de Markov); Inférence exacte pour les modèles graphiques; Inférence variationnelle; Plus d'inférence variationnelle; Inférence de Monte Carlo; Inférence de la chaîne de Markov Monte Carlo (MCMC); Clustering; Apprentissage de la structure du modèle graphique; Modèles de variables latentes pour des données discrètes; L'apprentissage en profondeur.
Science des données pour les affaires: ce que vous devez savoir sur l'exploration de données et la pensée analytique des données / 1ère édition
Écrit par: Tom Fawcett et Foster Provost
Contenu: pensée analytique des données; Problèmes commerciaux et solutions de science des données; Introduction à la modélisation prédictive: de la corrélation à la segmentation supervisée; Ajuster un modèle aux données; Sur-ajustement et son évitement; Similitude, voisins et grappes; Pensée analytique de décision I: Qu'est-ce qu'un bon modèle?; Visualiser les performances du modèle; Preuves et probabilités; Représentation et mine du texte; Pensée analytique de décision II: vers l'ingénierie analytique; D'autres tâches et techniques de science des données; Science des données et stratégie commerciale; Conclusion.
https: // www.amazone.com / data-science-business-data-analytic-thinking / dp / b08vl5k5zx
Statistiques pratiques pour les data scientifiques: 50+ concepts essentiels utilisant R et Python / 2e édition
Écrit par: Peter Bruce, Andrew Bruce et Peter Gedeck
Contenu: analyse exploratoire des données, distributions de données et d'échantillonnage, expériences statistiques et tests de signification, régression et prédiction, classification, apprentissage automatique statistique, apprentissage non supervisé.
Le livre de pourquoi: la nouvelle science de la cause et de l'effet
Écrit par: Judea Pearl, Dana Mackenzie
Alors que de nombreux livres de science des données utilisent l'industrie des affaires pure pour l'illustration, ce livre utilise l'industrie médicale et d'autres disciplines pour l'illustration.
Contenu: Introduction: Mind Over Data; L'échelle de la causalité; Des buccaneers aux cobayes: la genèse de l'inférence causale; De la preuve aux causes: le révérend Bayes rencontre M. Holmes; Confondance et déconfouillage: ou, tuer la variable cachée; Le débat rempli de fumée: nettoyer l'air; Les paradoxes à gogo!; Au-delà de l'ajustement: la conquête de l'intervention du mont; CONTROM-TRAQUES: Mondes minières qui auraient pu être; Médiation: la recherche d'un mécanisme; Big Data, Intelligence artificielle et les grandes questions.
Construisez une carrière en science des données
Écrit par: Emily Robinson et Jacqueline Nolis
Contenu: commencer avec la science des données; Trouver votre travail de science des données; S'installer dans la science des données; Grandir dans votre rôle de science des données.
https: // www.homme.com / books / build-a-carareer-in-data-science
Science des données pour les nuls / 2e édition
Écrit par: Lillian Pierson
Ce livre suppose que le lecteur a déjà la connaissance des mathématiques et de la programmation pré-requise.
Contenu: envelopper votre tête dans la science des données; Explorer les pipelines d'ingénierie des données et les infrastructures; Appliquer des informations axées sur les données aux entreprises et à l'industrie; Apprentissage automatique: apprendre des données avec votre machine; Mathématiques, probabilité et modélisation statistique; Utilisation du clustering pour subdiviser les données; Modélisation avec des instances; Construire des modèles qui exploitent l'Internet-of-Things; Suivre les principes de la conception de visualisation des données; Utilisation de D3.JS pour la visualisation des données; Applications Web pour la conception de la visualisation; Explorer les meilleures pratiques dans la conception du tableau de bord; Faire des cartes à partir de données spatiales; Utilisation de Python pour la science des données; En utilisant l'Open Source R pour la science des données; Utilisation de SQL en science des données; Faire de la science des données avec Excel et Knime; Science des données dans le journalisme: clouer les cinq WS (et un H); Plonger dans la science des données environnementales; Science des données pour stimuler la croissance du commerce électronique; Utiliser la science des données pour décrire et prédire l'activité criminelle; Dix ressources phénoménales pour les données ouvertes; Dix outils et applications de science des données gratuites.
Exploration de jeux de données massifs / 3rd Édition
Écrit par: Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman
Ce livre suppose également que le lecteur a déjà la connaissance des mathématiques et de la programmation pré-requise.
Contenu: l'exploration de données; MapReduce et la nouvelle pile logicielle; Algorithmes utilisant MapReduce; Trouver des articles similaires; Streams de données minières; Analyse des liens; Ensembles d'articles fréquents; Clustering; Publicité sur le Web; Systèmes de recommandation; GRAPHES DE NÉTRACHE SOCIAL MURING; Réduction de la dimensionnalité; Apprentissage automatique à grande échelle.
Conclusion
Les distinctions entre les programmes des spécialistes ne sont pas encore claires. Les distinctions entre les programmes généralistes et spécialisés ne sont pas encore claires. Cependant, après avoir lu la liste des livres donnée, le lecteur sera en mesure d'apprécier les rôles spéciaux de l'analyste de données, de l'ingénierie des données et du scientifique des données, puis d'aller de l'avant.