Ανανέωση Βιβλιονέτ και Βικιπαίδεια

Πρόσφατα «η ΒΙΒΛΙΟΝΕΤ επανασχεδιάστηκε ώστε να είναι εναρμονισμένη στις τεχνολογικές ανάγκες των επισκεπτών της». Βασικά είναι ένα παράδειγμα του πως να ΜΗΝ επανασχεδιάσεις έναν ιστότοπο. Η μόνη θετική αλλαγή που βλέπω είναι ότι είναι πλέον προσβάσιμη και από κινητό. Ok, αναμενόμενο και πλέον αυτονόητο, αλλά φαίνεται να ήταν το μόνο θετικό. Έγραψα σε μια ανάρτηση στο facebook όσα αρνητικά εντόπισα, και εδώ θα επικεντρωθώ σε όσα αφορούν τη Βικιπαίδεια.

Μεταδεδομένα Βιβλιονέτ

Όπως και ο παλιός ιστότοπος, ούτε ο νέος χρησιμοποιεί schema markup για βιβλία ώστε να μπορεί ο επισκέπτης να χρησιμοποιήσει κάποια εφαρμογή όπως το Zotero για να δημιουργήσει μια βιβλιογραφική αναφορά (το ίδιο λοιπόν και για το εργαλείο δημιουργίας παραπομπών μέσα από τη Βικιπαίδεια). Ο μόνος τρόπος μηχανικής άντλησης είναι μέσω του API αλλά αυτό βολεύει μόνο τα βιβλιωπωλεία και ΟΧΙ τους αναγνώστες.

Πλαίσιο που γράφει «Προσθήκη παραπομπής», με κουμπί «Εισαγωγή», και ενδείξεις "Ιστότοπος, «ΤΙΤΛΟΣ - Βιβλιονετ» (στα Αγγλικά). Ανακτήθηκε στις 20 Οκτωβρίου 2020." και υποσημείωση «Με τη λειτουργία Zotero».
Εισαγωγή παραπομπής στη Βικιπαίδεια με τη λειτουργία δημιουργίας αυτόματης παραπομπής.

Ακόμη χειρότερα: Όλες οι σελίδες για βιβλία έχουν τίτλο ΤΙΤΛΟΣ – Βιβλιοnet και όλες για συγγραφείς ΠΡΟΣΩΠΟ – Βιβλιοnet. Όχι απλώς αν ανοίξεις πολλές καρτέλες δεν ξέρεις τι έχει η κάθε μία, αλλά και όλοι οι σελιδοδείκτες θα έχουν τον ίδιο τίτλο! Και αν χρειάζεται να μιλήσουμε για το πως φαίνονται οι σύνδεσμοι προς τη Βιβλιοnet από τα social media… Απλά δοκιμάστε να τοποθετήσετε ένα σύνδεσμο προς ένα βιβλίο. Η προεπισκόπηση μας πληροφορεί απλώς

BIBLIONET.GR
ΤΙΤΛΟΣ – Βιβλιοnet
BeInteractive | Best WordPress theme for interactive agencies

Tο ίδιο λοιπόν και για το εργαλείο δημιουργίας παραπομπών μέσα από τη Βικιπαίδεια. Δυστυχώς αυτό είναι ένα πρόβλημα που δεν μπορεί να λυθεί μέσα στη Βικιπαίδεια. Πιθανά θα το διορθώσουν κάπως όταν αντιληφθούν πως φαίνονται οι προεπισκοπήσεις σε facebook και twitter…

Νεκρά URL στη Βικιπαίδεια

Σημαντικότερο πρόβλημα όμως για τη Βικιπαίδεια είναι ότι οι περισσότερες μορφές συνδέσμων url που δούλευαν στον προηγούμενο ιστότοπο, δεν δουλεύουν στον νέο. Είναι μόνο μία ή δύο που κάνουν ανακατεύθυνση, αλλά όχι αυτές που χρησιμοποιούνταν πραγματικά. Αλλά αυτό δεν πρέπει να συμβαίνει. “Cool URIs don’t change”. Για την Βικιπαίδεια σήμαινε ότι περίπου 5100 σύνδεσμοι προς τη ΒιβλιοΝετ από κάπου 1350 λήμματα ήταν πλέον νεκροί και θα έπρεπε να διορθωθούν.

Για την διόρθωση χρησιμοποίησα μια σειρά από regular expressions όπως:

https*://(?:www\.)*biblionet.gr/main.asp\?page=showbook&bookid=(\d+)([\|| <])

που αντικαταστάθηκε με https://www.biblionet.gr/titleinfo/?titleid=$1$2

Με την ευκαιρία λοιπόν όλοι οι σύνδεσμοι μετατράπηκαν από http σε https και ομοιοποιήθηκαν. Όπως έγραψα χρειάστηκε μια σειρά από regex και όχι μόνο μία, επειδή η Βιβλιονετ είχε αλλάξει πολλές φορές την μορφή των url της, αλλά πάντοτε γινόταν ανακατεύθυνση από τις παλιότερες στη νεότερη. Οπότε κατέγραψα τρεις μορφές url για κάθε βιβλίο, και από τρεις για κάθε πρόσωπο.

Η ανίχνευση των λημμάτων στα οποία βρίσκονταν σύνδεσμοι προς τη Βιβλιονετ έγινε σε XML dump της βάσης δεδομένων από τις 3 Οκτωβρίου, για να μην επιβαρύνονται οι σέρβερ από την ανάγνωση όλων των σελίδων (1350 από 182.000 σελίδες). Οι αρχικές δοκιμές έγιναν με το AutoWikiBrowser ενός ημιαυτοματοποιημένου επεξεργαστή MediaWiki που έχει σχεδιαστεί για να κάνει τις κουραστικές ή επαναλαμβανόμενες εργασίες επεξεργασίας. Ακολούθως χρησιμοποιήθηκε το pywikibot μια βιβλιοθήκη Python και μια συλλογή από scripts που αυτοματοποιούν την εργασία στους ιστότοπους που λειτουργούν σε περιβάλλον MediaWiki.

Οι επεξεργασίες έγιναν μέσω του λογαριασμού Gerakibot, προκειμένου να μην εμφανίζεται στις Πρόσφατες Αλλαγές και επιβαρύνει τον έλεγχο. Έτρεξα το pywikibot script σε σέρβερ του Wikimedia Toolforge.

Παράδειγμα αυτόματης αλλαγής

Προφανώς σε άλλους το παραπάνω φαίνεται ευκολάκι και σε άλλους ακατανόητο. Δεν έχει καμία απολύτως σημασία. Δεν θα έπρεπε να χρειάζεται να γίνει. Όπως συστήνει το W3C από το 1995 «Cool URIs don’t change». Σε κάθε τροποποίηση ενός ιστότοπου το σημαντικότερο από όλα είναι να διατηρούνται ενεργοί, έστω και με ανακατεύθυνση όλοι οι σύνδεσμοι. Είναι μέρος της αξιοπιστίας του ιστότοπου.

Είναι δύναμη για τη Βικιπαίδεια το γεγονός ότι όλο το περιεχόμενο μπορεί να διορθωθεί και να ενημερωθεί, έστω και αν η αιτία είναι η δυσλειτουργία μιας άλλη υπηρεσίας και ιστοσελίδας. Άλλοι ιστότοποι δεν έχουν αυτή τη δυνατότητα. Εκατοντάδες άλλοι ιστότοποι μπορεί να έχουν συνδέσμους που δεν πρόκειται να διορθωθούν ποτέ…

Αναζήτηση στη Βιβλιονέτ μέσω Βικιπαίδειας

Στη Βικιπαίδεια, κάθε ISBN γίνεται αυτόματα σύνδεσμος προς μια ειδική σελίδα που είναι ρυθμισμένη με ορισμένες μηχανές αναζήτησης (βάσεις δεδομένων, βιβλιοθήκες, βιβλιοπωλεία) για να μπορεί κάποιος να εντοπίσει ευκολότερα ένα βιβλίο που αναφέρεται ως πηγή. Παράδειγμα: ISBN 9789602212707.

Η προσπάθεια να αφαιρέσουμε ή έστω να μειώσουμε τους συνδέσμους προς βιβλιοπωλεία και να δώσουμε μεγαλύτερη βάση σε βάσεις δεδομένων και βιβλιοθήκες είναι δύσκολη. Αφενός οι περισσότερες βιβλιοθήκες έχουν δύστροπες μηχανές αναζήτησης και περιέχουν δεδομένα μόνο για τα βιβλία της συλλογής τους. Αφετέρου για ελληνικά βιβλία, η μόνη βάση δεδομένων χωρίς εμπορικό σκοπό, διαφημίσεις, κλπ ήταν η Biblionet.

Με την «ανανέωση» καταργήθηκε η παλιά μηχανή αναζήτησης και λειτουργεί μια νέα, η οποία από τη μία δεν φέρνει πάντα αποτελέσματα ακόμη και αν κάτι υπάρχει στη βάση, και από την άλλη δουλεύει μόνο με javascript οπότε δεν μπορεί να δεχθεί ερώτημα μέσω url (μέθοδο GET). Ως εκ τούτου, αφαιρέσαμε τον αντίστοιχο και σημαντικότερο σύνδεσμο από τις Πηγές βιβλίων… 😢

Summary
Ανανέωση Βιβλιονέτ και Βικιπαίδεια
Article Name
Ανανέωση Βιβλιονέτ και Βικιπαίδεια
Description
Η διόρθωση εκατοντάδων νεκρών συνδέσμων από τη Βικιπαίδεια προς της Βιβλιονετ μετά από την ανανέωση του ιστότοπου της Βιβλιονετ.
Author

Απάντηση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.

Αλλαγή μεγέθους γραμματοσειράς