Πώς άλλαξε η Βικιπαίδεια στην εποχή της τεχνητής νοημοσύνης

Κάποια στιγμή τα τελευταία δύο‑τρία χρόνια συνειδητοποιήσαμε ότι, όταν μιλάμε για «τεχνητή νοημοσύνη και Βικιπαίδεια», δεν μιλάμε πια για κάτι εξωτερικό – για μοντέλα που ρουφάνε το περιεχόμενό μας και το σερβίρουν αλλού. Μιλάμε και για τα δικά μας εργαλεία, για αποφάσεις που παίρνουμε εμείς ως κοινότητα και ως Ίδρυμα: πού θέλουμε να μπαίνει η ΤΝ στην καθημερινή ζωή των συντακτών, και με ποιους όρους. Το ερώτημα δεν είναι αν θα χρησιμοποιήσουμε ΤΝ, αλλά πώς θα την κάνουμε να υπηρετεί το ανθρώπινο κομμάτι της Βικιπαίδειας, αντί να το υπονομεύει.

Από τα πρώτα μοντέλα στην «αόρατη» ΤΝ

Για όσους παρακολουθούμε τα τεχνικά, η Βικιπαίδεια μπήκε στην εποχή της μηχανικής μάθησης πολύ πριν γίνει μόδα το «AI». Το ORES, το σύστημα που έδινε scores σε επεξεργασίες («μάλλον βανδαλισμός», «μάλλον καλοπροαίρετη», «χαμηλή ποιότητα λήμματος»), υπήρχε εδώ και χρόνια και έγινε καθημερινό υπόβαθρο για πατρολέρ, εργαλεία και dashboards (όχι στην Ελληνική Βικιπαίδεια). Χωρίς να το πολυσκεφτούμε, συνηθίσαμε την ιδέα ότι ένα μοντέλο μάς βοηθά να βρούμε πού αξίζει να κοιτάξουμε πρώτα, και ότι αυτό είναι αποδεκτό, εφόσον την τελική απόφαση την παίρνει άνθρωπος.

Τα τελευταία χρόνια αυτή η γενιά μοντέλων μετακομίζει από τον παλιό ORES στη νέα πλατφόρμα LiftWing, μια υποδομή που επιτρέπει πιο γρήγορα, πιο πολύπλοκα και πιο σταθερά μοντέλα. Για τον μέσο συντάκτη δεν αλλάζει κάτι ορατό – τα κουμπιά μοιάζουν ίδια – αλλά στο παρασκήνιο τρέχουν ήδη Revert Risk και άλλα μοντέλα που βοηθούν να ξεσκαρτάρονται οι αλλαγές πριν καν τις δούμε. Είναι ένα είδος αόρατης ΤΝ: δεν εμφανίζεται ως feature marketing, αλλά διαμορφώνει την εμπειρία μας στο patroling, στις RecentChanges, στο πώς αντιλαμβανόμαστε τον φόρτο εργασίας.

Όταν η ΤΝ έγινε στρατηγική και όχι μόνο εργαλείο

Το πραγματικό άλμα, όμως, ήρθε όταν το Ίδρυμα αναγκάστηκε να απαντήσει δημόσια στο άβολο ερώτημα: «Πότε θα αντικαταστήσετε τους εθελοντές με ΤΝ;». Η απάντηση, που διατυπώθηκε πολύ καθαρά στη νέα τριετή στρατηγική ΤΝ, ήταν: «Δεν θα το κάνουμε». Από εκεί και πέρα, όλη η συζήτηση γυρίζει γύρω από το πώς θα χρησιμοποιήσουμε την ΤΝ για να βγάλουμε από τη μέση τα τεχνικά εμπόδια και να αφήσουμε τους ανθρώπους να κάνουν αυτό στο οποίο είναι καλοί: να κρίνουν, να συζητούν, να χτίζουν συναίνεση και περιεχόμενο.

Το κείμενο της στρατηγικής είναι εντυπωσιακά ξεκάθαρο για τα Wikimedia δεδομένα: μιλά για workflows που βοηθούν patrollers και moderators, για βελτιωμένη ανακάλυψη πληροφορίας που δίνει «χρόνο πίσω» στους συντάκτες, για μετάφραση και προσαρμογή θεμάτων και για πιο έξυπνο onboarding νέων. Και κυρίως βάζει ως πυξίδα την ανθρωποκεντρική προσέγγιση, τα open‑source ή open‑weight μοντέλα, τη διαφάνεια και τη σοβαρή αντιμετώπιση της πολυγλωσσίας – όλα αυτά όχι ως PR, αλλά ως συνέχεια των υπαρχόντων αρχών μας (ιδιωτικότητα, ανθρώπινα δικαιώματα, κοινοτική αυτονομία).

ΤΝ, ανθρώπινα δικαιώματα και το ποιος ορίζει την «αλήθεια»

Το ενδιαφέρον είναι ότι η συζήτηση δεν έμεινε στο τεχνικό. Η Human Rights Impact Assessment που παρήγγειλε το Ίδρυμα για την ΤΝ αντιμετωπίζει τη Βικιπαίδεια όχι μόνο ως dataset, αλλά ως κομμάτι της δημόσιας σφαίρας. Όταν γενετικά μοντέλα συνοψίζουν τον κόσμο για λογαριασμό μας, δεν είναι αδιάφορο πώς και από πού αντλούν την πληροφορία, τι παραμορφώσεις εισάγουν, τι αποδίδουν και τι κρύβουν κάτω από το χαλί.

Η αξιολόγηση υπενθυμίζει κάτι που εμείς οι «μέσα» συχνά ξεχνάμε: εδώ και πάνω από μια δεκαετία χρησιμοποιούμε ΤΝ για βανδαλισμούς, ποιότητα, μετάφραση, χωρίς να το θεωρούμε υπαρξιακή απειλή. Η μεγάλη διαφορά τώρα είναι ότι η ΤΝ δεν είναι μόνο μέσα στα εργαλεία μας, αλλά και μπροστά από εμάς: ως chatbots και AI overviews που απαντούν στον χρήστη πριν αυτός φτάσει στο λήμμα, πολλές φορές χωρίς να του δείχνουν ούτε τίτλο ούτε ιστορικό. Εκεί πια η συζήτηση δεν αφορά μόνο «πόσο καλό είναι το μοντέλο», αλλά και το ποιος έχει λόγο στο πώς παρουσιάζεται η γνώση που συλλογικά γράψαμε.

Όταν η Βικιπαίδεια γίνεται dataset για άλλους

Ένα μέρος αυτής της πραγματικότητας είναι αναπόφευκτο: η Βικιπαίδεια, με το μέγεθος και τις άδειές της, είναι ιδανική πρώτη ύλη για εκπαίδευση μοντέλων ΤΝ. Αυτό συνέβαινε έτσι κι αλλιώς· το νέο στοιχείο είναι ότι πλέον γίνονται οργανωμένες, συμβατικές συνεργασίες, αντί για άναρχο scraping. Η πρόσφατη τριετής συνεργασία Wikimedia Enterprise – Mistral AI είναι χαρακτηριστική: μέσω του Snapshot API, η Mistral παίρνει καθημερινά πλήρη dumps σε δομημένο JSON, χωρίς να χρειάζεται να ξηλώνει HTML ή wikitext, και τα τροφοδοτεί στα μοντέλα της.

Στην ανακοίνωση τονίζεται ότι αυτό δεν είναι «ξεπούλημα δεδομένων», αλλά προσπάθεια να μπουν κανόνες σε κάτι που έτσι κι αλλιώς συμβαίνει: γρήγορη, σταθερή και αδειοδοτημένη πρόσβαση στο περιεχόμενο, με αντάλλαγμα οικονομική υποστήριξη στο κίνημα και δεσμεύσεις για attribution και διαφάνεια στο πώς χρησιμοποιείται. Είτε συμφωνεί κανείς είτε διαφωνεί με το συγκεκριμένο μοντέλο, δεν μπορεί να αγνοήσει το βασικό: η ποιότητα των μοντέλων που χρησιμοποιούν εκατομμύρια άνθρωποι εξαρτάται –και– από το πόσο καλά έχουμε κάνει τη δουλειά μας στα λήμματα. Το «βελτιώνεις τη Βικιπαίδεια, βελτιώνεις την ΤΝ» παύει να είναι σλόγκαν και γίνεται κυριολεξία.

Πώς το νιώθουμε στην καθημερινή επεξεργασία

Όλα αυτά μπορεί να ακούγονται πολύ «στρατηγικά», αλλά στον καθημερινό συντάκτη η ΤΝ εμφανίζεται με πολύ πιο πεζούς τρόπους. Ένα νέο φίλτρο που «πετυχαίνει» καλύτερα τον βανδαλισμό πριν καν εμφανιστεί στις Πρόσφατες αλλαγές. Ένα εργαλείο που προτείνει ποιες παραγράφους χρειάζονται πηγές ή ποιες προτάσεις μοιάζουν με after‑the‑fact synthesis. Ένας μεταφραστής που πια δεν παλεύει τόσο με τα βασικά, αλλά αφήνει περισσότερο χώρο για να ασχοληθούμε με τις αποχρώσεις της γλώσσας.

Στη στρατηγική «Artificial intelligence for editors» στο Meta περιγράφονται αρκετά από αυτά τα σενάρια: αυτοματοποίηση ρουτίνας, υποστήριξη νέων χρηστών, καλύτερο information retrieval, προτάσεις επεξεργασιών, όλα με στόχο να ελευθερωθεί χρόνος για πραγματικό εγκυκλοπαιδικό έργο. Αν το σκεφτούμε ψύχραιμα, αυτό μοιάζει περισσότερο με το πώς θα έπρεπε να χρησιμοποιούμε την ΤΝ σε ένα συνεργατικό εγχείρημα: να καθαρίζει τον δρόμο, όχι να γράφει ανώνυμα στη θέση μας.

Η νέα πληροφοριακή πραγματικότητα

Την ίδια στιγμή, γύρω από τη Βικιπαίδεια έχει αλλάξει το τοπίο της πληροφόρησης. Ένα μεγάλο κομμάτι του κοινού πια ρωτά πρώτα το chatbot και μετά –αν ποτέ– κλικάρει στις πηγές. Πλατφόρμες όπως ChatGPT, Gemini, Perplexity και τα αντίστοιχα των μεγάλων search providers σερβίρουν «προ‑μασημένες» απαντήσεις, συχνά πατώντας σε περιεχόμενο της Βικιπαίδειας χωρίς ο αναγνώστης να το βλέπει ρητά.

Για το κίνημα αυτό είναι διπλό στοίχημα. Από τη μία, κινδυνεύουμε να χάσουμε αναγνωσιμότητα και, μαζί μ’ αυτήν, μέρος της φυσικής στράτευσης νέων συντακτών που παλιότερα έφταναν στα κείμενα, έβλεπαν λάθη ή κενά και έλεγαν «ας το φτιάξω». Από την άλλη, αν δεν συμμετέχουμε ενεργά στο πώς αυτά τα μοντέλα εκπαιδεύονται και αποδίδουν, ρισκάρουμε να δούμε τη δουλειά μας να κυκλοφορεί ξεκρέμαστη, χωρίς πηγές, χωρίς ιστορικό, χωρίς ευκαιρία για κριτική ανάγνωση – ακριβώς δηλαδή το αντίθετο από ό,τι προσπαθεί να είναι η Βικιπαίδεια.

Τι μένει ανθρώπινο μέσα σε όλα αυτά;

Ίσως το πιο ενθαρρυντικό στοιχείο της νέας στρατηγικής ΤΝ είναι ότι, για πρώτη φορά τόσο καθαρά, η Wikimedia πλευρά λέει «η ανθρώπινη κοινότητα είναι το μη διαπραγματεύσιμο». Όχι επειδή ρομαντικοποιούμε τον εθελοντισμό, αλλά επειδή η διαδικασία –έρευνα, συζήτηση, διαφωνία, συναίνεση– είναι αυτή που δίνει στη Βικιπαίδεια τη σχετική της αξιοπιστία μέσα σε έναν κόσμο γεμάτο “έξυπνες” αλλά αδιαφανείς απαντήσεις.

Για εμάς ως συντάκτες, αυτό μεταφράζεται σε μια νέα μορφή ευθύνης. Δεν αρκεί να γράφουμε «καλά λήμματα» με την κλασική έννοια. Πρέπει να σκεφτόμαστε και πώς αυτά τα λήμματα θα καταναλωθούν από μηχανές: πόσο καθαρά είναι δομημένα, πόσο σαφής είναι η απόδοση πηγών, πόσο περιορίζουν τον κίνδυνο να «τραβήξει» ένα μοντέλο μια πρόταση έξω από το context της. Ταυτόχρονα, καλούμαστε να είμαστε παρόντες στις συζητήσεις για την ΤΝ – από RFCs στο Meta μέχρι τοπικές δράσεις τύπου #WikipediaxAI – ώστε οι αποφάσεις να μην παίρνονται ερήμην μας.

Αν κάτι έχει αλλάξει πραγματικά στην εποχή της ΤΝ, δεν είναι τόσο ο ορισμός της Βικιπαίδειας, όσο η κλίμακα στην οποία η δουλειά μας επηρεάζει τον έξω κόσμο. Κάθε βελτίωση, κάθε πηγή που προσθέτουμε, κάθε μεροληψία που διορθώνουμε, δεν αντανακλάται μόνο στις σελίδες του wiki, αλλά και στα μοντέλα που όλο και περισσότερο μεσολαβούν ανάμεσα στους ανθρώπους και τη γνώση. Αυτό μπορεί να είναι τρομακτικό, αλλά είναι και ίσως η πιο ισχυρή υπενθύμιση του γιατί αξίζει να συνεχίσουμε να γράφουμε –και να σκεφτόμαστε– συλλογικά.

Cookie	Duration	Description
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duration	Description
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_128578_2	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duration	Description
NID	6 months	NID cookie, set by Google, is used for advertising purposes; to limit the number of times the user sees an ad, to mute unwanted ads, and to measure the effectiveness of ads.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duration	Description
GFE_RTT	5 minutes	No description available.
wpcom_highlander_3pc_check	session	No description