Τα παλαιότερα chatbots, όπως ακριβώς και οι ηλικιωμένοι άνθρωποι, παρουσιάζουν σημάδια γνωστικής εξασθένησης, διαπιστώνει νέα μελέτη.
Οι άνθρωποι βασίζονται όλο και περισσότερο στην τεχνητή νοημοσύνη για ιατρικές διαγνώσεις, λόγω του πόσο γρήγορα και αποτελεσματικά αυτά τα εργαλεία μπορούν να εντοπίσουν ανωμαλίες και προειδοποιητικά σημάδια σε ιατρικά ιστορικά, ακτινογραφίες και άλλα σύνολα δεδομένων πριν γίνουν εμφανή με γυμνό μάτι. Αλλά μια νέα μελέτη που δημοσιεύθηκε στο περιοδικό BMJ εγείρει ανησυχίες ότι οι τεχνολογίες AI, όπως τα μεγάλα γλωσσικά μοντέλα (LLM) και τα chatbots, παρουσιάζουν σημάδια επιδείνωσης των γνωστικών ικανοτήτων με το πέρασμα των χρόνων, ακριβώς όπως και οι άνθρωποι.
«Τα ευρήματα αυτά αμφισβητούν την υπόθεση ότι η τεχνητή νοημοσύνη θα αντικαταστήσει σύντομα τους ανθρώπινους γιατρούς», γράφουν οι συγγραφείς της μελέτης, «καθώς η γνωστική εξασθένιση που είναι εμφανής στα κορυφαία chatbots μπορεί να επηρεάσει την αξιοπιστία τους στην ιατρική διάγνωση και να υπονομεύσει την εμπιστοσύνη των ασθενών».
Όπως αναφέρει το LiveScience, οι επιστήμονες δοκίμασαν τα δημόσια διαθέσιμα chatbots που βασίζονται σε LLM, συμπεριλαμβανομένων των ChatGPT της OpenAI, Sonnet της Anthropic και Gemini της Alphabet, χρησιμοποιώντας την Γνωστική Εκτίμηση Μόντρεαλ (MoCA), ένα τεστ που χρησιμοποιούν οι νευρολόγοι για να ελέγξουν τις ικανότητες στην προσοχή, τη μνήμη, τη γλώσσα, τις χωρικές δεξιότητες και την εκτελεστική νοητική λειτουργία.
Γνωστική εκτίμηση στα chatbots
Η MoCA χρησιμοποιείται συνήθως για την αξιολόγηση της γνωστικής εξασθένησης σε καταστάσεις όπως η νόσος του Αλτσχάιμερ ή η άνοια. Τα υποκείμενα αναλαμβάνουν καθήκοντα όπως το να σχεδιάζουν μια συγκεκριμένη ώρα σε ένα άδειο ρολόι, να ξεκινούν από το 100 και να αφαιρούν επανειλημμένα το επτά, να θυμούνται όσο το δυνατόν περισσότερες λέξεις από έναν προφορικό κατάλογο κ.ο.κ. Στους ανθρώπους, βαθμολογία ίση ή υψηλότερη από 26 στα 30 θεωρείται επιτυχής (δηλαδή το υποκείμενο δεν εμφανίζει γνωστική εξασθένιση).
Ενώ ορισμένες πτυχές των δοκιμασιών, όπως η κατονομασία, η προσοχή, η γλώσσα και η αφαίρεση, ήταν φαινομενικά εύκολες για τα περισσότερα από τα LLM που χρησιμοποιήθηκαν, όλα είχαν κακές επιδόσεις στις οπτικές/χωρικές δεξιότητες και στις εκτελεστικές εργασίες, ενώ αρκετά τα πήγαν χειρότερα από άλλα σε τομείς όπως η καθυστερημένη ανάκληση.
Ενώ η πιο πρόσφατη έκδοση του ChatGPT (έκδοση 4) πέτυχε την υψηλότερη βαθμολογία (26 στα 30), το παλαιότερο LLM Gemini 1.0 πέτυχε μόνο 16 – οδηγώντας στο συμπέρασμα ότι τα παλαιότερα LLM παρουσιάζουν σημάδια γνωστικής παρακμής.
Οι συγγραφείς της μελέτης σημειώνουν ότι τα ευρήματά τους είναι μόνο παρατηρησιακά – οι κρίσιμες διαφορές μεταξύ των τρόπων με τους οποίους λειτουργούν η τεχνητή νοημοσύνη και το ανθρώπινο μυαλό σημαίνουν ότι το πείραμα δεν μπορεί να αποτελέσει άμεση σύγκριση. Αλλά προειδοποιούν ότι μπορεί να υποδείξει μια «σημαντική αδυναμία», που θα μπορούσε να φρενάρει την ανάπτυξη της AI στην κλινική ιατρική. Συγκεκριμένα, τάχθηκαν κατά της χρήσης της σε εργασίες που απαιτούν οπτική αφαίρεση και εκτελεστική λειτουργία.