Qwen3 kommt in zwei Versionen daher: Ein großes LLM mit dem sperrigen Namen Qwen3-235B-A22B, das in gängigen Benchmarks laut Alibaba mit Modellen wie DeepSeek R1 o3-mini von OpenAI und Gemini 2.5 Pro mithalten können soll, sowie als kleines Qwen3-30B-A3B, das dennoch ausgesprochen leistungsfähig sein soll. Anzeige Bei beiden handelt es sich um Mixture-of-Experts-Modelle, das heißt, sie bestehen aus mehreren Experten, von denen jeweils einer oder mehrere auf eine Eingabe reagieren, statt dass das gesamte Modell angesprochen wird. Die Zahlen und Buchstaben in den Modellbezeichnungen sind entsprechend die Gesamtzahl der Parameter (B) sowie die einzelnen Experten-Parameter (A). Die beiden großen Modelle sind ebenso wie sechs kleine, verdichtete Modelle unter Apache 2.0 Lizenz veröffentlicht. Alibaba schreibt im Blogbeitrag: "Wir sind davon überzeugt, dass die Veröffentlichung und das Open-Sourcing von Qwen3 die Forschung und Entwicklung von großen Foundationmodellen erheblich voranbringen wird. Unser Ziel ist es, Forscher, Entwickler und Organisationen auf der ganzen Welt in die Lage zu versetzen, innovative Lösungen mit diesen innovativen Modellen zu entwickeln." Qwen3 liefert Denkmodus oder schnelle Antworten Hybrid bedeutet, dass Qwen3 sowohl in einem "Denkmodus" genutzt werden kann, als auch ohne einen solchen Prozess. Im Denkmodus dauert die Beantwortung einer Anfrage länger, das Modell nimmt sich Zeit, um die Antwort zu prüfen. Der "Non-Thinking-Mode" bringt hingegen schnell eine Antwort hervor. Die allerdings kann dann ungenauer oder eher falsch sein. KI-Anbieter sprechen davon, dass sie weniger "tief" sei. Ohne die Tiefe sind die Antworten auf jeden Fall günstiger. Qwen3 unterstützt 119 Sprachen und Dialekte, neben Chinesisch gehören dazu freilich Englisch sowie Spanisch, aber auch Deutsch und etwa Luxemburgisch sowie Jiddisch. Zudem soll das Modell für agentische Aufgaben optimiert sein. Zu den Daten, mit denen Qwen3 trainiert wurde, gehören neben Inhalten aus dem Web auch PDF-Dokumente, schreibt Alibaba. Diese seien vom Vorgängermodell Qwen2.5 für das Training zusammengefasst worden. Auch die Mathe- und Coding-Fähigkeiten habe man mittels synthetischer Daten, die das Vorgängermodell generiert hat, bereitgestellt. Anzeige Insgesamt gab es drei Stufen des Trainings. Das klassische Vortraining für das Basiswissen, ein zweites Training spezialisiert auf MINT-Bereiche sowie abschließend ein Training auf besonders lange und hoch qualitative Inhalte. Laut den von Alibaba veröffentlichten Benchmarkergebnissen kann Qwen3 mit den aktuell größten Modellen anderer Anbieter mindestens mithalten. Für die Praxis heißt das aber bekanntlich wenig. Der auf Qwen basierende KI-Assistent Quark ist in China bereits der beliebteste KI-Dienst. Weltweit soll Meta AI der meistgenutzte KI-Chatbot sein. Allerdings gibt es diesen bisher nicht in China. Auch Apple bietet in China keinen direkten Zugang zu ChatGPT auf den eigenen Geräten an. Stattdessen sollen dort Alibabas Modelle einziehen. (emw)