Rapport de mini projet Python
MINI PROJECT
D A T A B R I C K S
ZAKARIA RABIPLAN
Introduction01
Étapes de l'exécution d'un programme Python sur
Databricks02
Avantages de Databricks
03
Différences avec d'autres plateformes
04
Conclusion
05
01/10
ZAKARIA RABI
DATABRICKS
06
QUE SE PASSE-T-IL DANS DATABRICKS LORSQUE CE PROGRAMME EST EXÉCUTÉINTRODUCTION
02/10
UNTIL DAWN
Le but de ce mini-projet est d'exécuter un programme Python sur la plateforme Databricks et de comprendre les étapes impliquées dans …afficher plus de contenu…
Le module MultinomialNB est importé à partir du package sklearn.naive_bayes.
Cela permettra de créer un modèle de classification de texte utilisant la classification naïve bayésienne multinomiale.
Les modules confusion_matrix et accuracy_score sont importés à partir du package sklearn.metrics. Cela permettra d'évaluer les performances du modèle de classification de texte en calculant la matrice de confusion et le score d'exactitude. Si ces bibliothèques n'ont pas été installées dans le cluster Databricks sur lequel le code est exécuté, Databricks les téléchargera et les installera automatiquement.
Si les bibliothèques ont été installées dans le cluster, Databricks les chargera simplement à partir de l'emplacement …afficher plus de contenu…
Chaque chaîne de caractères correspond à un message unique. df.filenames est un tableau de chaînes de caractères représentant les noms de fichier de chaque message de l'ensemble de données. Chaque nom de fichier correspond à un message unique. df.DESCR est une chaîne de caractères décrivant l'ensemble de données "20
Newsgroups", y compris sa source, sa taille, son format et sa structure. df.target_names est un tableau de chaînes de caractères représentant les noms de chaque groupe de discussion dans l'ensemble de données "20
Newsgroups". Chaque chaîne de caractères correspond à l'un des 20 groupes de discussion. Ces commandes accèdent aux différentes propriétés de l'objet retourné par fetch_20newsgroups(), qui contient les données de l'ensemble de données