Pretrained Catalan OpenNMT models

This project has a bunch of pre-trained OpenNMT models and tooling for Catalan language pairs.

1 Like

I trained a Catalan model with Argos Train. Here’s a comparison with the Softcatala model. I think the biggest difference is that the Softcatala model is trained with OpenNMT-tf, which is more production oriented, while the Argos model is trained using OpenNMT-py, which is more research oriented. Both models get most of their data from the Opus Parallel Corpus.The Softcatala model is also about 30% larger when packaged and compressed (95MB vs 72MB).

English

Nearly 800 oil wells were set ablaze by the retreating Iraqi army and the fires were not fully extinguished until November 6 1991, eight months after the end of the war. The fires consumed an estimated six million barrels of oil daily. Their immediate consequence was a dramatic decrease in air quality, causing respiratory problems for many Kuwaitis. The sabotage of the oil wells also impacted the desert environment, which has a limited natural cleansing ability. Unignited oil from the wells formed about 300 oil lakes that contaminated around 40 million tons of sand and earth. Cleaning efforts led by the Kuwait Institute for Scientific Research and the Arab Oil Co., who have tested a number of technologies including the use of petroleum-degrading bacteria, produced significant results. In fact, vegetation in most of the contamined areas adjoining the oil lakes began recovering by 1995, but the dry climate has also partially solidified some of the lakes. Over time the oil has continued to sink into the sand, with as yet unknown consequences for Kuwait’s precious groundwater resources.

Michael Ondaatje was born in 1943 in Ceylon (now Sri Lanka) to a Burgher family of Dutch-Tamil-Sinhalese-Portuguese origin. He moved to England with his mother in 1954. After relocating to Canada in 1962, Ondaatje became a Canadian citizen. Ondaatje studied for a time at Bishop’s University, but moved to Toronto and received his BA from the University of Toronto and his MA from Queen’s University in Kingston, Ontario and began teaching at the University of Western Ontario in London, Ontario. In 1970 he settled in Toronto. From 1971 to 1988 he taught English Literature at York University and Glendon College in Toronto.

Argos Train English→Catalan

El 6 de novembre de 1991, vuit mesos després de la fi de la guerra, es van establir prop de 800 pous de petroli. Les exportacions de carn de porc a la Xina contra sobretensions; valor de les exportacions a Mèxic rebota La seva conseqüència immediata va ser una disminució dramàtica de la qualitat de l’aire, provocant problemes respiratoris per a molts Kuwait. L’epicentre dels pous d’oli també va afectar l’entorn del desert, que té una capacitat de neteja natural limitada. L’oli sense encendre dels pous formava uns 300 llacs d’oli que contaminaven al voltant de 40 milions de tones de sorra i terra. Els esforços de neteja dirigits per l’Institut de Recerca Científica de Kuwait i l’Arab Oil Co., que han provat diverses tecnologies, incloent l’ús de bacteris degradants del petroli, van produir resultats significatius. L’any 1995 s’inicia la recuperació de la vegetació en la major part de les zones contaminades dels llacs d’oli, però també s’ha solidificat parcialment alguns dels llacs. Amb el pas del temps, l’oli s’ha anat a enfonsar a la sorra, amb conseqüències encara desconegudes per als recursos d’aigües subterrànies de Kuwait.

Michael Ondaatje va néixer el 1943 a Ceilan (ara Sri Lanka) a una família Burgher d’origen holandès-Tamil-Sinhalese-portuguès. Es va traslladar a Anglaterra amb la seva mare el 1954. Després de traslladar-se a Canadà el 1962, Ondaatje es va convertir en un ciutadà canadenc. Ondaatje va estudiar durant un temps a la Universitat Episcopal, però es va traslladar a Toronto i va rebre el seu BA de la Universitat de Toronto i el seu MA de la Universitat Queen’s a Kingston, Ontario i va començar a ensenyar a la Universitat d’Ontario Occidental a Londres, Ontario. El 1970 es va establir a Toronto. De 1971 a 1988 va impartir classes de Literatura Anglesa a la Universitat de York i al Glendon College de Toronto.

Softcatala English→Catalan

Prop de 800 pous de petroli van ser incendiats per l’exèrcit iraquià en retirada i els incendis no es van extingir completament fins al 6 de novembre de 1991, vuit mesos després del final de la guerra. Els incendis consumien aproximadament sis milions de barrils de petroli diàriament. La seva conseqüència immediata va ser una disminució dramàtica de la qualitat de l’aire, causant problemes respiratoris per a molts kuwaitians. El sabotatge dels pous de petroli també va afectar l’entorn del desert, que té una capacitat de neteja natural limitada. L’oli no declarat dels pous va formar uns 300 llacs petrolífers que van contaminar al voltant de 40 milions de tones de sorra i terra. Els esforços de neteja dirigits per l’Institut de Recerca Científica de Kuwait i l’Àrab Oil Co., que han provat una sèrie de tecnologies incloent l’ús de bacteris degradants del petroli, van produir resultats significatius. De fet, la vegetació de la majoria de les zones contaminades adjacents als llacs petrolífers va començar a recuperar-se el 1995, però el clima sec també ha solidificat parcialment alguns dels llacs. Amb el temps, el petroli ha continuat enfonsant-se en la sorra, amb conseqüències encara desconegudes per als preciosos recursos d’aigua subterrània de Kuwait.

Michael Ondaatje va néixer el 1943 a Ceilan (ara Sri Lanka) en una família burgher d’origen holandès-tamil-singalès-portuguès. Es va traslladar a Anglaterra amb la seva mare el 1954. Després de traslladar-se al Canadà el 1962, Ondaatje es va convertir en ciutadà canadenc. Ondaatje va estudiar durant un temps a la Universitat de Bishop, però es va traslladar a Toronto i va rebre el seu BA de la Universitat de Toronto i el seu MA de la Queen’s University a Kingston, Ontario i va començar a ensenyar a la Universitat de Western Ontario a Londres, Ontario. El 1970 es va establir a Toronto. De 1971 a 1988 va ensenyar literatura anglesa a la Universitat de York i al Glendon College de Toronto.

Catalan

L’Amèrica del Nord és un subcontinent d’Amèrica, que s’estén, geopolíticament, des d’Alaska i Groenlàndia al nord, fins a la frontera de Mèxic amb Guatemala i Belize al sud. El subcontinent limita al nord amb l’oceà Glacial Àrtic, i al sud amb el subcontinent centreamericà. En altres models continentals, com ara el model angloparlant, Amèrica del Nord és un continent que s’estén des d’Alaska fins a l’istme de Panamà, incloent-hi les Antilles.

L’Amèrica del Nord se situa a la regió superior del continent americà, connectat amb el subcontinent sud-americà per mitjà de la regió centreamericana, més específicament, per l’istme de Panamà. Amèrica del Nord comença, segons la majoria de les autoritats acadèmiques, a l’istme de Tehuantepec (al sud-est de Mèxic), i s’estén cap al nord fins a la regió àrtica canadenca i d’Alaska. Tot el subcontinent pertany a la placa Nord-americana (incloent-hi l’istme de Tehuantepec, però, excloent algunes regions de Califòrnia i Baixa Califòrnia que pertanyen a la placa del Pacífic i altres regions de la Baixa Califòrnia Sud i de l’est de Mèxic que pertanyen a la placa de Cocos.[5] S’hi troben nombroses illes, principalment les illes de l’arxipèlag Àrtic, l’arxipèlag d’Alexander, i les illes Aleutianes. Groenlàndia, l’illa danesa autònoma, és localitzada sobre la placa tectònica nord-americana, i per tant, es considera, geogràficament, com a part del subcontinent nord-americà. Les Bermudes, per contra, no es troben sobre aquesta placa, sinó que són illes oceàniques sobre la dorsal Atlàntica.

Argos Train Catalan→English

North America is a subcontinent of America, extending geopolitically from Alaska and Greenland in the north to the Mexican border with Guatemala and Belize in the south. The subcontinent is bordered to the north by the Arctic Glacial Ocean, and to the south by the Central American subcontinent. In other continental models, such as the Anglo-speaking model, North America is a continent stretching from Alaska to the Isthmus of Panama, including the Antilles.

North America is located in the upper region of the American continent, connected to the South American subcontinent by means of the Central American region, more specifically, by the Isthmus of Panama. North America begins, according to most academic authorities, in the isthmus of Tehuantepec (southeast Mexico), and extends northward to the Canadian and Alaska Arctic region. The entire subcontinent belongs to the North American Plate (including the Isthmus of Tehuantepec, however, excluding some regions of California and Baja California belonging to the Pacific Plate and other regions of Baja California South and eastern Mexico belonging to the Cocos Plate.[5] There are numerous islands, mainly the Arctic Archipelago, Alexander Archipelago, and the Aleutian Islands. Greenland, the autonomous Danish island, is located on the American tectonic plate, and is therefore geographically considered as part of the American subcontinent. Bermuda, on the other hand, are not on this plate, but are ocean islands on the Atlantic Ridge.

Softcatala Catalan→English

North America is a subcontinent of America, extending geopolitically from Alaska and Greenland in the north to Mexico’s border with Guatemala and Belize in the south. The subcontinent is bounded on the north by the Arctic Glacial Ocean, and on the south by the Central American subcontinent. In other continental models, such as the English-speaking model, North America is a continent that extends from Alaska to the Isthmus of Panama, including the Antilles.

North America is located in the upper region of the American continent, connected to the South American subcontinent by means of the Central American region, more specifically the Isthmus of Panama. North America begins, according to most academic authorities, at the Isthmus of Tehuantepec (in southeastern Mexico), and extends northward into the Canadian and Alaska Arctic region. The entire subcontinent belongs to the North American Plate (including the Isthmus of Tehuantepec, however, excluding some regions of California and Baja California belonging to the Pacific Plate and other regions of Southern and eastern Baja California belonging to the Cocos Plate.[5] Numerous islands are found, mainly the islands of the Arctic Archipelago, the Alexander Archipelago, and the Aleutian Islands. Greenland, the autonomous Danish island, is located on the American tectonic plate, and is therefore considered geographically as part of the American subcontinent. Bermuda, on the other hand, are not found on this plate, but are oceanic islands on the Atlantic Ridge.

This is live using the Argos Train model:

I have argosmodel files for the Softcatala models if anyone wants them, I probably won’t save them for too long though. If you want to use the Softcatala model (or any other custom OpenNMT model) you can

  • Unzip the .argosmodel file for an existing model
  • Replace these files (model/model.bin, model/shared_vocabulary.txt, sentencepiece.model)
  • Rezip the directory and give it the extension “argosmodel”

Someone from Softcatala tested the BLEU scores of the models and found 41.6 for the Argos Train model and 43.3 for the Softcatala model.

I published the Argos Train model for the smaller download size and for consistency but both are very good scores!

1 Like

Wow! Excellent results. I’ve just updated the models on libretranslate.com.

1 Like