La lecture via les kindles devient très populaire. Depuis la première génération jusqu'à aujourd'hui, le nombre de personnes utilisant le kindle ne cesse de croitre. J'ai eu mon premier kindle en 2012 bien avant ma première tablette Android. J'ai pu considérablement augmenter ma quantité de livres lus par année. Ceci ne s'arrête pas la, cette acquisition m'a permis d'accéder plus rapideement à une plus large gamme de livres en anglais.
Les kindles donnent la possibilité de surligner les passages qui nous interessent dans un livre. Pour ceux qui souhaitent revisiter les passages surlignés, les anciennes générations les compilent dans le fichier texte "My Clippings.txt" qui se trouvent dans la racine du kindle. En plus de ce fichier, les nouvelles générations du kindle permettent, lorsque l'e-book, est acheté chez Amazon d'importer les passages surlignés dans un fichier pdf ou csv.
Le fichier My Clippings présente le désavantage de regrouper les passages par livre. Les passages sont ajoutés au fil des lectures faites. La situation idéale serait de lire un livre à la fois ensuite extraire les clippings. Pour moi par exemple qui utilise Notebook pour la sauvegarde des extraits des livres lus, le format texte est peu adapté.
Le problème ne se pose pas lorsque l'ebook provient d'Amazon et que l'on possède la dernière génération du kindle.
Que faut-il faire si l'ebook ne provient pas d'Amazon?
J'ai plusieurs livres en pdf ou epub que j'ai du convertir en mobi via Calibre. Bien que je possède la dernière génération du kindle, la liseuse ne permet pas d'importer les passages surlignés. Ce qui est vraiment dommage!!!!!!
On doit obligatioirement utiliser le fichier My Clippings. Pour cela,la bonne vieille méthode du copier et coller peut toujours nous dépanner. Si pour un livre on a une dizaine de passage surligné, rien ne nous empêche de faire cet exercice à 10 reprises. Mais lorsque cete quantité augmente, on doit se dire que l'on peut mieux mettre à profit son temps.
Ici vous allez découvrir une ébauche d'une alternative à l'option peu effiucace du "Copier et coller". On est naturellement paresseux. On cherche des moyens détournés pour accompir nos taches les plus ardus. L'une des resposnsabilités d'un Data scientist est d'arriver à extraire et organiser des données peu ou pas structurées.
Le fichier My Clippings regroupe tous les passages surlignés que le livre provienne d'Amazon ou personnellement ajouté. Voici quelques extraits de mon fichier My Clippings:
clip<-readLines("myclip.txt",encoding="UTF-8")
for(i in 1:8)
{
print(clip[i])
}
On remarque que les passages sont ainsi présentés: des signes (=), le titre de l'ouvrage,des détails sur le surlignement, des espaces vides et la partie qui est surlignée. Le script que voici permet de nettoyer les clippings et de les importer en format csv.
spaceid<-which(clip=='')
clipclean<-clip[-spaceid]
allseq<-seq(1,length(clipclean),by=1)
seqfour<-seq(1,length(clipclean),by=4)
cleanall<-allseq[-seqfour]
newclip<-clipclean[cleanall]
df<-data.frame(matrix(ncol=3))
names(df)<-c("Title","HilightInfo","Notes")
g<-1
for(i in seq(1,length(newclip),3))
{
df[g,1]<-newclip[i]
df[g,2] <-newclip[i+1]
df[g,3]<-newclip[i+2]
g<-g+1
}
write.csv(df, file = "notes_mmind.csv")
Voici 10 passages surlignés:
for (note in df[1:15,3])
{
print(note)
}
Le travail du data scientist ne s'arrête pas dans le nettoyage des données. Qu'il s'agisse de visualisation ou de machine learning, le Data scientist doit être à mêmme de construire des Data prioducts. Ce dernier est en clair une application qui permet de répliquer son exercice de visualisation ou de modélisation. Dans notre cas ici, notre data product sera une application web qui prendra en input le fichier texte My Clippings avec les passages surlignés d'au moins un livre. L'application permettra d'obtenir un fichier csv avec les passages surlignés par livre.