Histoires de Claira

Leçons de l'affaire Zhang c. Chen : Comment les avocats canadiens peuvent réellement éviter les hallucinations de l'IA en révision

Résumer avec l'IA

Dans l'affaire Zhang c. Chen, 2024 BCSC 285, un dossier de droit de la famille de la Colombie-Britannique est devenu le premier cas canadien à sanctionner publiquement un avocat pour avoir cité des jurisprudences inexistantes. L'avocat avait demandé à ChatGPT de trouver des décisions à l'appui d'un avis de demande, avait inséré les résultats dans le dossier et n'avait appris que plus tard, après que l'avocat adverse eut passé deux jours d'audience à tenter de retracer les affaires, que l'outil les avait inventées de toutes pièces. Le juge Masuhara a refusé d'accorder des dépens spéciaux, ne constatant aucune intention de tromper, mais a ordonné à Me Ke de payer personnellement les dépens en vertu de la règle 16-1(30) des Supreme Court Civil Rules. Depuis, cette affaire est devenue la mise en garde que tout plaideur canadien a entendue au moins une fois.

La question intéressante n'est pas de savoir si l'avocate a commis une erreur. Elle l'a admis immédiatement. La question intéressante est de savoir si le mode de défaillance lui-même, à savoir un outil d'IA inventant des sources plausibles, est une caractéristique de toute l'IA appliquée au domaine juridique ou de la manière dont cet outil particulier a été utilisé. Notre opinion est que la seconde formulation est la bonne, et que les praticiens qui comprennent la différence peuvent utiliser l'IA en revue documentaire avec plus de confiance, et non pas moins.

La cause structurelle d'une hallucination

Un modèle linguistique polyvalent, face à une invite telle que « trouve-moi des cas canadiens sur le critère de réinstallation en vertu de l'article 16 de la Loi sur le divorce », génère la séquence de mots suivante la plus probable. Rien dans sa logique interne ne l'oblige à faire correspondre ces mots à un document réel. Le modèle a lu suffisamment de jurisprudence au cours de son entraînement pour produire des noms, des citations et des raisonnements qui semblent exacts. Il les produira, que les décisions existent ou non. C'est la cause structurelle. Il ne s'agit pas d'un bogue, dans le sens où les bogues peuvent être corrigés. C'est la conséquence du fait de demander à une machine probabiliste de répondre à une question factuelle sans lui présenter les faits.

La sanction dans l'affaire Zhang c. Chen n'est pas survenue parce que ChatGPT a été utilisé. Elle est survenue parce que ChatGPT a été utilisé comme outil de recherche dans un contexte où il n'y avait aucun document à analyser pour lui. Une fois que vous intégrez cela, vous pouvez commencer à tracer la frontière entre les tâches pour lesquelles un agent conversationnel est dangereux et celles pour lesquelles l'IA est, au contraire, plus sûre que l'alternative humaine.

La revue documentaire ancrée est un problème différent

L'examen du dossier dans le cadre d'un litige est un problème différent de la recherche juridique. Lors de la revue documentaire, le document existe. Il se trouve dans votre plateforme de traitement, avec un numéro de contrôle connu, une famille connue, un dépositaire connu. La question n'est pas « que dit la loi sur le ouï-dire », mais plutôt « ce courriel contient-il une communication privilégiée » ou « cette pièce jointe répond-elle à la catégorie 3 de l'annexe ». Cette question a une réponse réelle, et celle-ci se trouve sous les yeux du modèle.

C'est autour de ce principe de conception que Claira a été conçue. Lorsque Claira examine un document au sein de Nuix Discover, elle ne récupère pas un passage d'un index vectoriel pour le résumer et en faire une conclusion. Elle lit le document, applique vos critères de codage au texte réel du document et produit une justification écrite qui cite le document lui-même. Si vous n'êtes pas d'accord avec la réponse, vous pouvez lire la citation. Si la citation ne figure pas dans le document, la réponse est erronée et vous pouvez voir pourquoi. Il n'y a pas de citation à l'apparence plausible d'une décision inexistante, car la seule autorité que Claira est invitée à citer est le document déjà versé en preuve.

Ce que le contexte de l'affaire apporte

Les avocats avec lesquels nous travaillons posent souvent la même question complémentaire. Si le modèle lit le document, qu'est-ce qui l'empêche de tirer une conclusion erronée sur un document qu'il n'a pas analysé en contexte ? C'est là que l'arrière-plan du dossier prend toute son importance. Claira permet à votre équipe de rédiger un contexte de l'affaire pour chaque dossier, lequel accompagne chaque analyse et indique à l'IA la nature du litige, l'identité des parties, la signification de vos codes de tri et ce qui est considéré comme privilégié ici, dans ce dossier précis, plutôt que dans l'abstraction d'un manuel juridique. La documentation sur le contexte de l'affaire explique en détail comment configurer cela ; l'effet opérationnel est que le jugement de l'IA est ancré, et non flottant.

Ce n'est pas le même choix d'ingénierie que font tous les fournisseurs d'IA dans le domaine juridique. Certains outils indexent le corpus dans une couche de recherche et acheminent les meilleurs passages vers un agent conversationnel, ce qui est rapide pour répondre aux questions, mais réintroduit le mode de défaillance de Zhang c. Chen, car le modèle effectue à nouveau une reconnaissance de formes sur des fragments récupérés plutôt que de lire le document réel de bout en bout. Notre article phare sur l'examen assisté par IA détaille plus longuement les directives des barreaux sur ce point. En résumé, les devoirs de franchise et de compétence pointent dans la même direction : vous voulez un flux de travail d'IA où chaque décision est rattachée à un passage que vous pouvez lire, dans un document que vous pouvez produire.

Garde-fous pratiques pour les équipes canadiennes

Trois habitudes distinguent les équipes qui ont assimilé la leçon de l'affaire Zhang c. Chen de celles qui ne l'ont pas fait. La première consiste à écarter l'IA générative de toute tâche nécessitant d'inventer des faits qui devraient déjà exister. La recherche juridique en est l'exemple classique. Si la question est de savoir ce que dit la loi, utilisez les outils que la profession a conçus à cette fin, et utilisez l'IA pour résumer les résultats après avoir vérifié le nom des décisions, et non pour inventer ces noms en premier lieu.

La deuxième consiste à exiger que chaque résultat d'IA touchant à une décision de codage cite la source. Si l'IA vous indique qu'un document est privilégié, elle doit vous indiquer quel paragraphe a déclenché cette décision. Si la citation se trouve dans le document, vous disposez d'une réponse vérifiable. Si elle ne s'y trouve pas, il s'agit d'une hallucination, et vous l'avez détectée avant qu'elle ne quitte la plateforme.

La troisième est la supervision. Le Barreau de la Colombie-Britannique, à la suite de l'affaire Zhang, a été clair sur le fait que l'obligation de vérifier les documents soumis au tribunal « vous incombe personnellement ». Il ne s'agit pas d'un commentaire propre à l'IA. C'est le devoir de supervision qui s'est toujours appliqué aux avocats débutants, aux réviseurs contractuels et à toute autre personne dont le travail est soumis sous votre signature. La même norme s'applique à un réviseur doté d'IA.

Où commencer

Les avocats qui nous contactent après l'affaire Zhang c. Chen ne se demandent pas s'ils doivent utiliser l'IA. Ils se demandent comment l'utiliser d'une manière qui résistera à une éventuelle requête future. À notre avis, la réponse consiste à exiger un examen ancré dans les documents, des justifications écrites citant le dossier et un contexte propre à l'affaire qui ancre le jugement de l'IA. Si vous souhaitez voir à quoi cela ressemble concrètement sur l'un de vos dossiers, vous pouvez réserver une séance de travail avec nous. Nous analyserons un document réel et vous montrerons exactement ce que Claira a vu lorsqu'elle a pris sa décision.

Les hallucinations ne sont pas le prix à payer pour utiliser l'IA en droit. Elles sont le prix à payer pour l'utilisation du mauvais type d'IA pour le mauvais type de tâche.