Warum ich gerade als FOSS-Entwickler Githubs Copilot verteidige

Wednesday, 7. July 2021

Githubs Copilot, also die neue Software, die KI-betrieben vollständigere Codeschnipsel vorschlägt, wird teilweise sehr kritisiert. Keineswegs der einzige Einlass in diese Richtung, schreibt ein OSBN-Blognachbar auf kaiserbarbarossa beispielsweise:

Ich schreibe also Programme, stelle sie unter die GPL und weiß nicht, ob diese “Intelligenz” nicht meinen Code irgendwo anders vorschlägt. Da könnte ich mir dann auch die GPL sparen. … Ich gehe also davon aus, dass meine Projekte und dieser Blog in Kürze auf eine andere Plattform umziehen.

Ignorieren wir mal, dass das Umziehen auf eine andere Plattform nicht zwingend Copilot den Zugriff auf nun halt anderswo öffentlich lesbaren Code entzieht. Ich finde, gerade als FOSS-Entwickler sollte man der Sache entspannter entgegentreten. Denn wir Entwickler müssen aufpassen, hier in dieser Frage nicht eine Urheberrechts-Maximierungsposition zu vertreten, die in anderen Fällen viele von uns ablehnen würden.

Lernen muss erlaubt sein, auch für KIs

Wenn wir als Entwickler einen Code lesen und Konzepte lernen, interessiert es erstmal nicht unter welcher Lizenz dieser Code steht. Das Urheberrecht gibt dem Urheber Rechte zur Kontrolle der Weiterverbreitung und der direkten Nutzung des konkreten Werks, also der Software und dem Quellcode als Text. Es gibt dem Nutzer kein Anrecht auf im Werk enthaltene Konzepte. Wenn ich also in einer Software eine neue Art von LinkedLists beschreibe, gehören die nicht per Urheberrecht mir. Dafür gäbe es Patente, wobei Softwarepatente von jedem vernünftigen Menschen auf diesem Planeten abgelehnt werden, weil sie zur völligen Unmöglichkeit des Schreibens neuer Software führen.

Ich kann also einen Code lesen, völlig egal welcher Lizenz, und davon lernen. Es muss ja nichtmal etwas abgehobenes wie eine neue Datenstruktur sein. Vielleicht lerne ich einfach, wie if-Abfragen funktionieren. Wenn ich als Mensch mit dem gewonnenen Wissen eine neue Software schreibe, gehört diese mir – nicht dem, von dem ich Konzepte gelernt habe.

Genau das gleiche sollte auch für KIs gelten. Auch wenn das, was wir als Künstliche Intelligenz bezeichnen, derzeit nicht besonders intelligent ist und keinesfalls eine starke künstliche Intelligenz ist: Selbst diese schwachen künstlichen Intelligenzen – pure Algorithmen ohne Bewusstsein – sind von der Funktionsweise her mittlerweile so abstrakt, dass ihr gespeichertes Wissen keine reine Reproduktion ist. Sie lernen daher auf durchaus abstraktem Level. Bei einem neuronalen Netz als Funktionsweise hinter der KI beispielsweise kann man die entstandenen Konfigurationen nicht mehr originär dem eingelernten Code zuordnen.

Täte man das, dann gälte das gleiche auch für den Lernprozess von Menschen. Denn je nach Sichtweise auf den menschlichen Organismus passiert bei uns ja nichts anderes, ordnet Lernen unsere Neuronen in anderen Konfigurationen an.

Ich weiß: Manchmal machen Unternehmen das. Programmierer Anton darf nicht an Projekt Y arbeiten, weil dort X der Softwareschmiede abc nachprogrammiert wird, Anton dessen originalen Quellcode mal gelesen hat, und die Firma nicht von abc verklagt werden will. Aber das sind Risikominimierungen. Es sind nicht echte, direkte Ansprüche, die abc aus dem Urheberrecht ziehen kann.

Das ist nur ein Argument, nennen wir es das ethische. Das andere ist rein verfahrenstechnisch: Copilot ist Software. Der Code, den es ausspuckt, kann es nicht per Urheberrecht schützen, weil es keine Person – kein Urheber – ist. Entsprechend dürfte es unmöglich sein, der Nichtperson Copilot Urheberrechtsverletzungen vorzuwerfen. Und was sonst sollte man dem System vorwerfen können? Patentverletzungen?

Wie spielt die GPL hier mit rein

Es ist kein Wunder, dass die Kritik an Copilot oft von GPL-Entwicklern kommt. Auch ich greife gerne zu dieser Lizenz und kenne daher ihre Bedingungen. Die GPL schützt die Freiheit von Software, indem es freiheitswahrende Bedingungen an ihre Weiterverbreitung knüpft. Anders als bei permissiven Lizenzen wie BSD/MIT müssen abgeleitete Werke den Nutzern Freiheitsrechte zugestehen: Den Code zu lesen, ihn ändern und unter gleicher Lizenz weiterverbreiten zu können. Bei der AGPL gilt das sogar für Software, auf die über ein Netzwerk (=dem Internet) zugegriffen wird. Der Zugriff übers Netz gilt dann schon als Weiterverbreitung und schließt so das Schlupfloch, das von GPL-Software abgeleitete proprietäre Serversoftware ausnutzte.

Um diese Rechte durchzusetzen benutzt die GPL das Urheberrecht. Mit ihr sagt der Entwickler: Ich, als Urheber, gebe dir diese und jene Rechte, dafür musst du das und das machen. Weil ich der Urheber bin und über das Urheberrecht dazu befähigt musst du auf mich hören, willst du meine Software nutzen. Wenn nun Copilot hingeht, GPL-Code vorne einliest und hinten ohne GPL-Lizenz wieder ausspuckt, dann verfehlt die GPL ihre Wirkung.

Aber hier muss man eben wieder berücksichtigen, was oben gilt: Nur weil ich in einem GPL-Quellcode gelernt habe wie if-Abfragen funktionieren, muss ich nicht alle zukünftigen if-Abfragen unter die GPL stellen. Bei diesen Lizenzen geht es ums stumpfe Kopieren von (etwaig sogar kompletten) Werken mit einer ausreichend hohen Schöpfungshöhe, nicht um das Lernen kleinteiliger Konzepte. So weit zu gehen käme im Effekt wieder der Patentierung von Software gleich, dem Unmöglichmachen der Softwareentwicklung. Es überhöhte das Urheberrecht weit über die Grenze, bei der es derzeit liegt. Der RIAA würde das gefallen, Leistungsschutzrechtvertreter hätten Dollarzeichen in den Augen, das manifestierte Böse namens Oracle hat mit dieser Auffassung Milliarden von Google gefordert, Abmahnanwälte würden jubeln. Entsprechend muss jeder Softwareentwickler diese Position ablehnen.

Ein lernendes System darf unabhängig der Lizenz von Code lernen. Auch von GPL-Software.

Allerdings: Reines Lizenzwegwaschen geht auch nicht

Es gilt eine Einschränkung zu machen: Wenn Copilot zeilenweise komplette Funktionen aus GPL-Codequellen kopiert, dann fällt es irgendwann schwer diese Position aufrechtzuhalten. Es geht dann noch über die nicht erreichte Schöpfungshöhe, sodass das Urheberrecht vll nicht greift, aber je länger und wie mehr 1:1 die Codeübernahme ist desto kritischer wird das. Armin Ronacher (mitsuhiko) hat auf Twitter ein entsprechendes Beispiel gezeigt, bei dem sogar die Kommentare noch aus der Originalquelle sind.

Aber letzten Endes ist das eine Frage der Feinabstimmung, wie abstrakt Codepilot lernt, und dass die gezeigten paar Zeilen vom Urheberrecht geschützt wären darf getrost bezweifelt werden. Wenn das also das Extrembeispiel der Verfehlungen Copilots sind, dann gibt es kaum einen validen Grund zur Kritik. Wenn Copilot beispielsweise lizenzignorierend ganze Dateien kopieren würde, dann wäre es vorbei, aber so verhält sich die Software nicht. Trotzdem müssen Copilots Schöpfer hier aufpassen, dass mein "Es ist ein lernendes System, keine Kopiermaschine" gültig bleibt.

Githubs Copilot schlägt zurecht Wellen. Im ersten Moment ist die ablehnende Position im FOSS-Umfeld völlig verständlich, mein Blognachbar möge sich bitte nicht vorgeführt fühlen. Wir kommen hier ins hochkomplizierte Medien- und Urheberrecht, das dann auch noch in jedem Land unterschiedlich ausfällt. Aber ich hoffe, dass viele Entwickler meiner entspannten Argumentation folgen werden, da die negativen Implikationen einer juristischen Ablehnung eines solchen Systems viel zu groß sind und allen Entwicklern massiv schaden würden. Und langfristig sind es unsere Überzeugungen, die im Konflikt mit der Lobbyarbeit der Großkonzerne und der Anwaltsfraktion diese uns betreffenden Gesetze formen. Unsere Überzeugungen als Entwickler, unsere Reaktionen auf solche Systeme sind daher unheimlich wichtig.

Kommentare (15) | Trackback (1) | in Linux

Trackbacks

linuxnews.de am Sunday, 11. July 2021: PingBack

Vorschau anzeigen

Kommentare

-thh am Wednesday, 7. July 2021:

> Wenn Copilot zeilenweise komplette Funktionen aus GPL-Codequellen kopiert, dann fällt es irgendwann schwer diese Position aufrechtzuhalten.

War das nicht gerade das am weitesten verbreitete Argument? Also dass Copilot eben nicht im Sinne einer echten AI primär "lernt", sondern in weiten Teilen - oder oft, oder häufig, oder nicht selten ... - 1:1 kopiert?

Dass ein Mensch oder eine AI aus Code lernt, ist sicherlich keine Frage der GPL oder des Lizenzrechts, und es würde mich wundern, wenn sich Nutzer und Verteidiger der GPL daran stören würden. Mir scheint da vielmehr zum einen die Feststellung im Vordergrund zu stehen, dass es mit "AI" und "Lernen" teilweise noch nicht so weit her sei, also - absichtlich oder unabsichtlich - 1:1-Kopien erfolgen, und zum anderen die Befürchtung, dass es sich um einen finsteren Plan von Microsoft, dem Hort des Bösen, handelt, um auf diese Weise GPL-Code zu "waschen".

> Der Code, den es ausspuckt, kann es nicht per Urheberrecht schützen, weil es keine Person – kein Urheber – ist. Entsprechend dürfte es unmöglich sein, der Nichtperson Copilot Urheberrechtsverletzungen vorzuwerfen.

Im Zweifel wird der Betreiber für sein Werkzeug haften. Letzen Endes kann das dem Rechteinhaber aber egal sein: auf jeden Fall begeht nämlich der Programmierer, der den von Copilot ausgespuckten Code nutzt, eine Urheberrechtsverletzung (immer unterstellt, es geht tatsächlich um schutzfähige Codeteile).

Für noch relevanter halte ich übrigens die Bedenken, die in https://tuxproject.de/blog/2021/07/github-4-schoene-lizenz-hatten-sie-da-tja-bloed-jetzt/ im letzten längeren Abssatz umrissen werden, nämlich dass ein solches System noch mehr dazu verführt, einfach Versatzstücke aneinander zu kleben, die Copilot ausspuckt.

onli am Wednesday, 7. July 2021:

Ich habe das mit den 1:1-Kopien zumindest nicht als häufiges Argument gesehen. Beziehungsweise gar nicht mit der Differenzierung, dass eine teilweise Reproduktion nach einem Lernprozess okay wäre, und eine längere Kopie eben irgendwann nicht mehr. Der ganze Aspekt der Schöpfungshöhe ging meiner Wahrnehmung nach komplett unter. Hast du da gute Artikel mitbekommen?

Die Vorbehalte gegen Microsoft und es als Verschwörung gegen die GPL einzuschätzen, das schwang definitiv bei manchen Reaktionen mit.

Zum Zusammenkleben von Versatzstücken, das machen Programmierer doch sowieso immer bei allem, was sie nicht aus dem Ärmel schütteln können. Ich sehe nicht wirklich, warum das durch eine bessere Codeunterstützung schlimmer oder ein Paradigmenwechsel werden sollte. Den Überblick über den Programmablauf muss der Entwickler sich doch sowieso erarbeiten, ob er die Einzelteile dann per KI aus dem Internet holt oder selbst bei Stackoverflow nachliest - ich glaube, das wird nichts ändern. Ich würde eher erwarten, dass wir über die Befürchtung in ein paar Jahren schmunzeln werden, wenn sich Copilot wie eine dann einfach übliche erweitere Autovervollständigung etabliert hat. Dann würde das ähnlich laufen wie bei den Argumenten gegen IDEs.

tux. am Wednesday, 7. July 2021:

Dass es Menschen gibt, die meinem Code die Schöpfungshöhe absprechen, spricht weniger gegen den Copiloten.

onli am Wednesday, 7. July 2021:

Nehms nicht persönlich ;) Aber denke das mal durch, du wirst mir sicher zustimmen. In jedem Codewerk gibt es viele einzelne Funktionen, die für sich selbst trivial sind. Wären die geschützt, hätten wir ein Problem. Weil dann jeder behaupten könnte, das sei von ihm kopiert (weil zuerst auf Github hochgeladen) und alle anderen, die die gleichen triviale Funktion in ihrem Code haben seien Urheberrechtsverletzer.

Denk als Startpunkt an den Aufbau von Schleifen, die Definition der main, oder etwas anderes was in deiner Lieblingssprache immer wieder wiederholt wird. Aber das geht weiter, zu allen Funktionen bei denen der Programmierer nicht wirklich denken musste. Und dann auch zu komplizierteren, wenn es eine Umsetzung eines generischen Algorithmus ist, was ebenfalls nicht geschützt werden kann. Was ein gutes Argument zum mitsuhiko-Tweet gewesen wäre, wenn ich vorhin dran gedacht hätte.

Dass deine mit eigener Geistesleistung erschaffene Software im Ganzen oder schon in wesentlichen Teilen vom Urheberrecht geschützt ist, das ist nicht bestritten. Dass das Urheberrecht viel zu lange gilt und zu weit gefasst ist, das ist dann wieder ein eigenes Thema.

tux. am Wednesday, 7. July 2021:

Sicher, vieles ist trivial. Eine Fibonacci-Funktion urheberrechtlich zu schützen wäre auch wirklich hackendämlich. Der Copilot kennt da aber leider keine (dokumentierten) Grenzen - der Dokumentation zufolge sollte er auch bei berechne_weltformel() ein Ergebnis ausspucken und das ist dann so der Teil, bei dem ich als Entwickler direkt gucke, wo ich den nächsten Anwalt finde, um das Arschloch in die Steinzeit zurückzuklagen.

Ich möchte übrigens gar nicht, dass 70 Jahre nach meinem Tod mein Code noch irgendwem gehört. Ich möchte nur auch nicht, dass Code, den ich nicht in die faktische Gemeinfreiheit (MIT-0, WTFPL) entlassen habe, von Vollnulpen ohne mein Wissen missbraucht werden kann.

onli am Thursday, 8. July 2021:

Naja, `berechne_weltformel() { return 42; }` ist vielleicht nicht das beste Beispiel :)

mitch am Thursday, 8. July 2021:

Du schreibst, der Code, den Copilot produziert, sei nicht urhebergeschützt, weil Copilot keine Person und damit kein Urheber sei.

Was macht man denn in so einem Fall? Man kann sich dann ja vermutlich schlecht selbst zum Urheber ernennen (oder doch? weil man auf den Autocomplete-Button gedrückt hat?).

"Dieser Sourcecode steht unter der GPL, bis auf Zeile 123 bis 127, für die gilt gar keine Lizenz"?

onli am Thursday, 8. July 2021:

Hm, das kommt drauf an, oder? Es müsste doch so sein: Wenn das System tatsächlich lernt, Code abstrakt verarbeitet und am Ende neuen Code produziert, dann kannst du dich tatsächlich selbst als Urheber setzen. Die Software hat keine Rechte, du kannst also den Code in Besitz nehmen, genauso wie du auch am Gesamtwerk trotz der Toolunterstützung alle Urheberrechte hast. Das entspräche dann auch der Position von Julia Reda, wenn ich das richtig sehe.

Wenn das System nicht lernt, sondern es nur direkt andere kopiert, dann ginge das nicht. Aber dann könnte es die entsprechende Lizenz direkt mitkopieren. Das sieht man im oben verlinkten Tweet am Ende, wo das versucht wird. Wobei allerdings nicht die ursprüngliche Lizenz erwischt wurde, was Teil des Problems war.

Kai am Monday, 12. July 2021:

Hallo,
1. "... weil Copilot keine Person und damit kein Urheber sei" hieße dann auch,
wenn eine Software autonomes Fahren erlaubt und ein Unfall passiert, niemand haftbar zu machen ist.

Aber: Beißt ein Hund jemanden in den Hintern, ist der Halter haftbar.

Miner Auffassung:
Bringe ich etwas in Umlauf und dieses Etwas verursacht einen Schaden, dann bin ich verantwortlich.
Dabei ist es egal, ob es ein Hund oder ein Stück Software ist.

2. KI Tool zur Aufdeckung von Urheberverletzungen
Copilot läßt sich doch bestimmt wunder bar genau auch hierfür nutzen.
Auch dies ist möglich - schon mal darüber nachgedacht ?
Was sind die Konsequenzen dieser Betrachtungsweise: Abmahn- /Klagewellen ?

mitch am Monday, 12. July 2021:

1 ist doch leider schon Standard. "Durch einen Fehler in der Software" liest man ja öfter als Begründung für irgendwas. Und meist ohne Folgen für den Softwarehersteller, der den Fehler eingebaut hat.

Andererseits kann man das ja auch sauber trennen: Nicht der Urheber ist verantwortlich, sondern der Betreiber und/oder Nutzer. Dann ist egal, ob die KI ein Urheber ist. Das regelt sich dann auch langfristig von alleine: entweder wird die KI besser oder Betreibern und Nutzern wird die Sache auf Dauer zu heiß und sie nutzen was anderes.

(Hinkende Analogie: Wenn ich jemanden mit dem Auto überfahre, bin ich Schuld (Nutzer). Hat der Hersteller ab Werk kaputte Bremsen eingebaut, ist er Schuld (Betreiber?). Wie gesagt, das hinkt ;-)

Pascal Garber am Saturday, 10. July 2021:

Danke für den Artikel, ich habe mich bei ihm in den Kommentaren auch schon ein bisschen über das Thema gestritten ^^

Pascal Garber am Saturday, 10. July 2021:

Ich finde das Projekt auch sehr interessant und stehe dem eigentlich auch positiv gegenüber. Ein paar Dinge gibt es trotzdem zu verbessern: Man sollte vielleicht eine Art robots.txt für repos einführen, falls man nicht möchte, dass das eigene Repo automatisiert durchsucht wird. Und für die Fälle wo dann doch fast 1:1 Code kopiert wird sollte dann auch die Lizenz mit eingefügt werden, vor allem wenn sie in einem prioritären Projekt verwendet wird.

onli am Sunday, 11. July 2021:

Sehe ich ähnlich. Eine Blockademöglichkeit würde helfen, die Bedenken zu mindern. Bei den 1:1-Kopien die richtige Lizenz mit reinkopieren und sie generell einfach vermeiden. Es wird ja auch erst die Praxis zeigen, wie oft die überhaupt vorkommen, und in welchen Situationen (keine eigene Codebasis, Startpunkt ein Kommentar - sowas wird da mit reinspielen).

kamome am Monday, 12. July 2021:

> Anders als bei Copyleft-Lizenzen wie bei BSD/MIT

GPL (et al.) ist copyleft, BSD (et al.) nicht.

onli am Monday, 12. July 2021:

Danke für die Korrektur! Permissive war gemeint, wird nachher korrigiert.

Kommentar schreiben

Name
E-Mail
Homepage
Antwort zu
Kommentar	Phone* HTML-Tags werden in ihre Entities umgewandelt. Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet. Umschließende Sterne machen ein Wort kursiv (wort), per wort wird es fett. [http://www.example.com Link] fungiert als URL-Tag.
	Daten merken? Bei Aktualisierung dieser Kommentare benachrichtigen

Warum ich gerade als FOSS-Entwickler Githubs Copilot verteidige

onli blogging