ISO 639-3
ISO 639-3:2007, Nyaéta kodeu pikeun ngagambarkeun ngaran-ngaran tina rupa-rupa basa anu aya dina;– Part 3: Alpha-3 kode anu lengkep dina wengkuan basa, mangrupa standar internasional pikeun kodeu basa dina runtuyan ISO 639. Éta netepkeun kode tilu hurup pikeun ngaidéntipikasi basa. Standar ieu dipedalkeun ku International Organization for Standardization (ISO) dina 1 Pébruari 2007.[1]
ISO 639-3 ieu ngamekarkeun tina ISO 639-2 alpha-3 kodeu kalawan tujuan pikeun meungkeut sakabéh basa alami anu dipikanyaho. Tambah legana wengkuan basa utamana dumasar kana kode basa anu digunakeun dina Ethnologue (volumes 10–14) dipedalkeun ku SIL International, nu kiwari salaku otoritas pendaptaran pikeun ISO 639-3. [2] Nyadiakeun enumerasi basa sakumaha lengkep sabisa-bisa, kaasup nu hirup jeung tumpur, kuno jeung kiwari, utama jeung leutik, ditulis jeung teu ditulis.[1] Anu mana, éta teu kaasup basa dirékonstruksi sapertos Proto-Indo-European.[3]
ISO 639-3 dimaksudkeun pikeun pamakéan salaku métadata kode dina rupa-rupa aplikasi. Hal ieu loba dipaké dina komputer jeung sistem informasi, sapertos Internét, dimana loba basa perlu didukung. Dina arsip jeung neundeun inpormasi séjén, dipaké dina sistem katalog, dina nuduhkeun ngeunaan naon basa sumber. Kodeu ogé sering dianggo dina linguistik sastra jeung tempat séjénna pikeun ngimbangan kanyataan dimana ngaran basa bisa jadi teu jelas atawa ambigu.
Téangan basa |
---|
Eusikeun Kodeu ISO 639-3 pikeun manggihan artikel basa nu pakait. |
Kodeu basa
[édit | édit sumber]Daptar kodeu dina ISO 639-3 ngawengku sakabéh basa dina ISO 639-1 jeung sakabéh individu basa di ISO 639-2. ISO 639-1 sarta ISO 639-2 museur kana basa utama, pangseringna digambarkeun dina dunya sastra. Timimiti ISO 639-2 ogé kaasup kumpulan basa jeung henteu Part 3 , ISO 639-3 sanés kumpulan tina ISO 639-2. dimana ISO 639-2#B jeung T aya di ISO 639-2, ISO 639-3 éta ngagunakeun T-codes.
Basa | 639-1 | 639-2 (B/T) | 639-3 tipe | 639-3 kodeu |
---|---|---|---|---|
English | en | eng | individual | eng |
French | fr | fre/fra | individual | fra |
Jérman | de | ger/deu | individual | deu |
Arabic | ar | ara | macro | ara |
Standard Arabic | individual | arb | ||
Masri | individual | arz | ||
Shami | individual | apc | ||
Gilit Arabic | individual | acm | ||
Chinese | zh | chi/zho[4][5] | macro | zho |
Mandarin | individual | cmn | ||
Cantonese | individual | yue | ||
Southern Min | individual | nan | ||
Central Thai | th | tha | individual | tha |
Southern Thai | individual | sou | ||
Northern Thai | individual | nod | ||
Lue | individual | khb | ||
Lao/Isan | lo | lao | individual | lao/tts |
Phu Thai | individual | pht |
Standar ngandung 7,916 éntri.[6] Invéntarisasi basa dumasar kana sababaraha sumber diantarana: basa individu anu aya dina 639-2, basa modern ti Ethnologue, variétas anu mibanda sajarah, basa kuna jeung basa artificial/jieunan ti éta Daptar Basa,[7] kitu ogé basa dianjurkeun dina période commenting publik taunan.
Data mesin-bisa dibaca file disadiakeun ku otoritas anu ngadaptarkeun.[6] Mappings ti ISO 639-1 atawa ISO 639-2 ka ISO 639-3 tiasa dilakukeun nganggo file data ieu.
ISO 639-3 dimaksudkeun pikeun nganggap bédana dumasar kana kritéria anu henteu sagemblengna obyéktif.[8] Henteu dimaksudkeun pikeun ngadokuméntasikeun atanapi nyayogikeun idéntifikasi pikeun dialék atanapi variasi sub-basa sanés.[9] Sanaos kitu, kaputusan ngeunaan bédana antara basa bisa subyéktif, utamana dina kaayaan basa anu béda-béda sarta tradisi sastra kurang pengkuh, pamakéan dina atikan atawa média, atawa kaayaan séjén nu nyumbang kana convéntionalization basa. Ku kituna, standar teu kudu dianggap salaku hiji ugeran anu otoritatif ngeunaan naon béda basa nu aya di dunya (nu ngeunaan bisa jadi aya kaayaan teu kapanujuan dina sababaraha kasus), tapi ngan saukur hiji cara anu mangpaat pikeun ngaidéntipikasi rupa-rupa basa anu béda-béda.
Kodeu space
[édit | édit sumber]Kusabab kodena tilu-hurup alfabét, hiji wates luhur pikeun jumlah basa anu bisa digambarkeun nyaéta 26 × 26 × 26 = 17,576. Tisaprak ISO 639-2 nangtukeun kodeu husus (4), rentang ditangtayungan (520) sarta kode -B wungkul (22), 546 kodeu teu bisa dipaké sabagéan 3. Ku kituna, hiji tanda wates luhur nyaéta 17,576 − 546 = 17,030.
Watesan luhur bakal langkung heureut upami urang ngirangan koléksi basa anu didéfinisikeun dina 639-2 sareng anu masih kedah didéfinisikeun dina ISO 639-5.
Macrolanguages
[édit | édit sumber]Nyaéta 58 basa dina ISO 639-2 nu dianggap, pikeun kaperluan standar, janten "macrolanguages" dina ISO 639-3.[10]
Sababaraha macrolanguage ieu teu boga basa individu sakumaha didefinisikeun ku ISO 639-3 dina susunan kode tina ISO 639-2, misalna. 'ara' (Generic Arabic). Lain kawas 'nor' (Norwegian) ngagaduhan dua bagian masing-masing ('nno' (Nynorsk), 'nob' (Bokmål)) aya di ISO 639-2.
Éta hartosna sababaraha basa (misalna 'arb', Standard Arabic) éta dianggap ku ISO 639-2 jadi dialék tina hiji basa ('ara') ayeuna di ISO 639-3 dina kontéks nu tangtu dianggap basa individu sorangan.
Ieu usaha pikeun ngungkulan variétas anu bisa jadi béda ti unggal linguistik lianna, tapi dianggap ku panyaturna salaku dua wangun basa anu sarua, misalna, dina kasus diglossia.
Salaku conto:
- ara | ISO 639-3 (Generic Arabic, 639-2)
- arb | ISO 639-3 (Standard Arabic, 639-3)
Daptar lengkep sadia dina ISO 639-3 ramatloka registrar urang.[11]
Basa koléktif
[édit | édit sumber]"Unsur kodeu basa koléktif nyaéta idéntifikasi anu ngagambarkeun sakumpulan basa individu anu henteu dianggap hiji basa dina kontéks pamakéan naon waé.."[12] Kodeu ieu henteu écés ngagambarkeun basa atanapi makrolanguage anu tangtu.
Nalika ISO 639-2 ngawengku identifiers tilu-hurup pikeun basa koléktif, Konci ieu teu kaasup ti ISO 639-3. Lantaran kitu ISO 639-3 sanés beungkeutan/superset tina ISO 639-2.
ISO 639-5 ngahartikeun 3-hurup kodeu koléktif pikeun kulawarga basa jeung grup, kaasup kodeu basa koléktif ti ISO 639-2.
Kodeu husus
[édit | édit sumber]Opat kodeu dipisahkeun di ISO 639-2 jeung ISO 639-3 pikeun kasus dimana teu aya kodeu khusus anu pas. Ieu dimaksudkeun utamana pikeun aplikasi kawas database mana hiji kode ISO diperlukeun paduli naha aya.
(basa anu teu disandi, asalna singketan pikeun miscellaneous) dimaksudkeun pikeun basa anu henteu (acan) geus kaasup kana standar ISO.mis
(multiple languages) dimaksudkeun pikeun kasus dimana data ngawengku leuwih ti hiji basa, jeung (salaku conto) database merlukeun kodeu ISO tunggal.mul
(undetermined) dimaksudkeun pikeun kasus dimana basa dina data teu acan dicirikeun, misalna lamun teu aya labél atanapi geus pernah dilabélan. Éta henteu dimaksudkeun pikeun kasus sapertos Trojan dimana hiji basa henteu dibuktikeun/unattested geus dibéré ngaran.und
(teu aya kontén linguistik / henteu lumaku) dimaksudkeun pikeun data basa anu lain pisan, kayaning panggero sato.[13]zxx
Salaku tambahan, 520 kode dina rentang
–qaa
nyaéta 'ditangtayungan pikeun pamakéan lokal'. Salaku conto, Rebecca Bettencourt napelkeun kode pikeun basa diwangun, jeung assignments anyar dijieun kana pamundut.[14] Aranjeuna ngagunakeun daptar pikeun basa tumpur. Daptar Ahli Basa parantos masihan salah sahiji niléy umum: qtz
, basa proto teu dingaranan. Ieu dipaké keur titik panengah diusulkeun dina tangkal kulawarga nu teu boga ngaran.
qnp
Prosés pangropéa
[édit | édit sumber]Tabel kodeu pikeun ISO 639-3 nembrak pikeun parobahan. Pikeun ngajaga stabilitas pamakéan anu tos aya, parobahan nu diijinkeun diwatesan ku:[15]
- modipikasi kana inpormasi rujukan pikeun hiji éntri (kaasup ngaran atawa categorizations pikeun jenis na wengkuan),
- tambahan éntri anyar,
- deprésiasi tina éntri anu duplikat atawa palsu,
- ngagabungkeun hiji atawa leuwih éntri kana éntri séjén, sarta
- ngabagi hiji éntri basa nu geus aya kana sababaraha éntri basa anyar.
Kodeu anu ditugaskeun ka hiji basa henteu dirobih kajaba aya parobahan dénotasi.[16]
Parobahan dilakukeun dina siklus taunan. Unggal pamundut dibéré periode sahenteuna tilu bulan pikeun umum ngaréview.
Ieu ISO 639-3 Situs wéb ngagaduhan halaman anu ngajelaskeun "lingkup denotasi"[17] (Tipe-tipe languoid) jeung jinis basa,[18] anu ngajelaskeun konsép naon anu aya dina wengkuan pikeun encoding sareng kritéria anu tangtu anu kedah dicumponan. Salaku conto, basa anu diwangun bisa dikodeukeun, tapi ngan lamun dirancang pikeun komunikasi manusa jeung boga awak sastra, nyegah paménta pikeun pamanggihan anu istiméwa (idiosyncratic).
Dokumén otoritas pendaptaran dina petunjuk situs Wébna dilakukeun dina téks ISO 639-3 standar ngeunaan kumaha tabél kodeu anu dijaga.[19] Éta ogé ngadokumentasikeun prosés anu dianggo pikeun nampi sareng ngolah pamundut parobihan.[20]
Hiji formulir pamundut parobah disadiakeun, tur aya formulir kadua pikeun ngumpulkeun informasi ngeunaan tambahan diusulkeun. Pihak mana waé tiasa ngalebetkeun pamundut parobihan. Nalika dikintunkeun, pamundut mimitina diréview heula ku otoritas pendaptaran pikeun mariksa kalengkepanna.
Lamun narimadokumén pamundut pinuh, éta ditambahkeun kana Request Index diterbitkeun robahna. Ogé 64, Pangumuman dikirimkeun ka daptar diskusi umum linguist di daptar linguis sareng daptar sanésna anu tiasa dianggap aya pataliba/ relevan ku otoritas pendaptaran, ngondang réview publik jeung input dina robah anu dipénta. Sakur nu boga daptar atawa individu bisa ménta béwara ngeunaan pamundut parobahan pikeun wewengkon atawa kulawarga basa nu tangtu. Koméntar anu katampi dipedalkeun pikeun ditempo ku pihak séjén. Dumasar konsensus dina koméntar nampi, pamundut robah bisa jadi ditarik atawa diwanohkeun ka "status calon".
Tilu bulan sateuacan ahir siklus tinjauan taunan (biasana dina bulan Séptémber), pengumuman dikirim ka daptar diskusi LINGUIS jeung daptar sejenna ngeunaan Requests Robah Status Calon. Kabéh requests tetep kabuka pikeun review sarta komentar ngaliwatan tungtung siklus review taunan.
Kaputusan diumumkeun dina ahir siklus réview taunan (biasana dina Januari). Dina waktos éta, pamundut bisa diadopsi sakabéhna atawa sabagian, dirobah sarta dibawa ka hareup kana siklus réview salajengna, atawa ditolak. Panolakan sering kalebet saran ngeunaan cara ngarobih usulan pikeun dikirimkeun deui. Arsip umum tina unggal pamundut perobahan dijaga sareng kaputusan anu dicandak ogé alesan pikeun kaputusan.[21]
Kritik
[édit | édit sumber]Morey ahli basa, Pos jeung Friedman ngangkat rupa kritik ngeunaan hususna ISO 639 sarta ISO 639-3:[16]
- Kodeu tilu hurup sorangan aya masalah, sabab bari resmina wenang labél teknis, aranjeunna mindeng diturunkeun tina singketan mnemonic pikeun ngaran basa, sababaraha nu pejorative. Salaku conto, Yemsa ieu ditugaskeun kode
jnj
, ti pejorative "Janejero". Kodeu-kodeu ieu bisa jadi dianggap karasa ku panyatur asli. Sanajan kitu, Konci bisa dirobah ku kaluman pamundut dina SIL's website. - Administrasi standar aya masalah sabab SIL mangrupikeun organisasi misionaris kalayan transparansi sareng akuntabilitas anu teu cekap. Kaputusan ngeunaan naon anu pantes disandikeun salaku basa dilakukeun sacara internal. Bari input ti luar bisa atawa teu bisa jadi tampi, kaputusan sorangan, sarta loba ahli basa geus nyerah nyobian pikeun ngaronjatkeun standar.
- Idéntifikasi permanén hiji basa teu cocog jeung parobahan basa.
- Basa jeung dialék mindeng teu bisa rigorously dibédakeun, jeung ''dialect continua'' bisa dibagi ku sababaraha cara, padahal standar hak istiméwa hiji pilihan. Bédana sapertos kitu sering dumasar kana faktor sosial sareng politik.
- ISO 639-3 bisa jadi salah harti jeung disalahgunakeun ku otoritas nu nyieun kaputusan ngeunaan identitas jalma jeung basa, ngaleungitkeun hak panyatur pikeun ngaidéntifikasi atawa ngaidéntifikasi jeung ragam omonganana. Sanaos SIL peka kana masalah sapertos kitu, masalah ieu alamiah dina alam standar ngadegkeun, nu bisa dipaké (atawa mis-dipaké) dina cara nu ISO jeung SIL teu maksudna.
Martin Haspelmath satuju jeung opat titik ieu, tapi teu titik ngeunaan robah basa.[22] Anjeunna teu satuju sabab sagala akun tina basa merlukeun identifying, sarta kami bisa kalayan gampang nangtukeun tahap béda tina basa. Anjeunna nunjukkeun yén ahli basa bisa resep ngagunakeun kodifikasi nu dijieun di languoid tingkat saprak "jarang pisan pikeun ahli basa naha naon anu diomongkeun nyaéta basa, dialék atawa kulawarga basa anu raket." Anjeunna ogé patarosan naha standar ISO pikeun idéntifikasi basa téh luyu sabab ISO mangrupa organisasi industri, bari manéhna nempo dokuméntasi basa jeung nomenklatur salaku usaha ilmiah. Anjeunna nyebatkeun kabutuhan asli pikeun idéntifikasi basa standar salaku "pentingna ékonomi tina tarjamahan sareng software localization", pikeun tujuan nu ISO 639-1 jeung 639-2 standar diadegkeun. Tapi anjeunna raises mamang ngeunaan kabutuhan industri pikeun sinyalna komprehensif disadiakeun ku ISO 639-3, kaasup salaku "basa saeutik dipikawanoh masarakat leutik anu pernah atawa boro dipaké dina tulisan sarta anu mindeng dina bahaya punah".
Pamakéan
[édit | édit sumber]- Ethnologue
- Linguist List
- OLAC: the Open Languages Archive Community[23]
- Microsoft Windows 8:[24] Ngarojong sadaya kode di ISO 639-3 dina waktu dileupaskeun.
- Wikimedia Foundation: Proyék dumasar basa anyar (misalna. Wikipedia dina basa anyar) kudu boga identifier ti ISO 639-1, -2, atawa -3.[25]
- Standar séjén anu ngandelkeun ISO 639-3:
- IETF Tag basa sakumaha didéfinisikeun ku Internet Engineering Task Force (IETF), sakumaha documented dina:
- BCP 47: Best Current Practice 47,[26] nu ngawengku Citakan:IETF RFC
- Citakan:IETF RFC, nu ngagantikeun Citakan:IETF RFC, nu ngagantikeun Citakan:IETF RFC. (Ku kituna, sadaya standar anu gumantung kana salah sahiji ieu 3 IETF standar ayeuna dipaké ISO 639-3.)
- The ePub 3.0 standar pikeun metadata basa[27] ngagunakeun élémen Dublin Core Metadata. Unsur metadata basa dina ieu ePub anudikandung kedah valid Citakan:IETF RFC codes for languages.[27] RFC5646 points to ISO 639-3 for languages without shorter IANA codes.
- Dublin Core Metadata Initiative: DCMI Metadata Term[28] pikeun basa, ngaliwatan IETF's Citakan:IETF RFC (now superseded by Citakan:IETF RFC).
- Internet Assigned Numbers Authority (IANA) Usaha internasionalisasi W3C nyarankeun pamakéan basa IANA Subtag Registry pikeun milih kodeu basa..[29] The IANA Language Subtag Registry[30] gumantung kana ISO 639-3 kode pikeun basa nu saméméhna teu boga kodeu dina bagian séjén tina standar ISO 639.
- HTML5:[31] via IETF's BCP 47.
- XML:[32] ngaliwatan IETF's BCP 47.
- SVG:[33] via IETF's BCP 47.
- MODS kode perpustakaan:[34] Incorporates IETF's Citakan:IETF RFC (now superseded by Citakan:IETF RFC).
- Text Encoding Initiative (TEI):[35] ngaliwatan IETF's BCP 47.
- Lexical Markup Framework: ISO spésifikasi pikeun ngagambarkeun kamus mesin-bisa dibaca.
- Unicode's Common locale data repository: Ngagunakeun sababaraha ratus kode ti ISO 639-3 teu kaasup kana ISO 639-2.
- IETF Tag basa sakumaha didéfinisikeun ku Internet Engineering Task Force (IETF), sakumaha documented dina:
Rujukan
[édit | édit sumber]- ↑ a b "ISO 639-3 status and abstract". International Organization for Standardization. 2010-07-20. Diakses tanggal 2012-06-14.
- ↑ "Maintenance agencies and registration authorities". ISO.
- ↑ "Types of individual languages – Ancient languages". sil.org. Diakses tanggal 2018-06-11.
- ↑ Ethnologue report for ISO 639 code: zho Archived 2014-09-12 di Wayback Machine on ethnologue.com
- ↑ ISO639-3 on SIL.org
- ↑ a b "ISO 639-3 Code Set". Sil.org. 2021-02-18. Diakses tanggal 2021-04-07.
- ↑ "ISO 639-3". sil.org.
- ↑ "Scope of Denotation: Individual Languages". sil.org.
- ↑ "Scope of Denotation: Dialects". sil.org.
- ↑ "Scope of denotation: Macrolanguages". sil.org. Diakses tanggal 2012-06-14.
- ↑ "Macrolanguage Mappings". sil.org. Diakses tanggal 2021-11-02.
- ↑ "Scope of denotation: Collective languages". sil.org. Diakses tanggal 2012-06-14.
- ↑ Field Recordings of Vervet Monkey Calls. Entry in the catalog of the Linguistic Data Consortium. Retrieved 2023-01-15.
- ↑ Bettencourt, Rebecca. "ConLang Code Registry". KreativeKorp. Diakses tanggal 2021-03-12.
- ↑ "Submitting ISO 639-3 Change Requests: Types of Changes". sil.org.
- ↑ a b (2013) "The language codes of ISO 639: A premature, ultimately unobtainable, and possibly damaging standardization". {{{booktitle}}}. Archived 2016-02-23 di Wayback Machine
- ↑ "Scope of Denotation for Language Identifiers". sil.org.
- ↑ "Types of Languages". sil.org.
- ↑ "ISO 639-3 Change Management". sil.org.
- ↑ "Submitting ISO 639-3 Change Requests". sil.org.
- ↑ "ISO 639-3 Change Request Index". sil.org.
- ↑ Martin Haspelmath (4 Désémber 2013). "Can language identity be standardized? On Morey et al.'s critique of ISO 639-3". Diversity Linguistics Comment.
- ↑ "OLAC Language Extension". language-archives.org. Diakses tanggal 3 August 2015.
- ↑ "Over 7,000 languages, just 1 Windows". Microsoft. 2014-02-05.
- ↑ "Language proposal policy". wikimedia.org. Diakses tanggal 3 August 2015.
- ↑ "BCP 47 – Tags for Identifying Languages". ietf.org. Diakses tanggal 3 August 2015.
- ↑ a b "EPUB Publications 3.0". idpf.org. Diakses tanggal 3 August 2015.
- ↑ "DCMI Metadata Terms". purl.org. Diakses tanggal 3 August 2015.
- ↑ "Two-letter or three-letter ISO language codes". W3C. Diakses tanggal 3 August 2015.
- ↑ "Language Registry". Internet Assigned Numbers Authority. Diakses tanggal 2015-08-12.
- ↑ "Semantics, structure, and APIs of HTML documents — HTML5". W3C. Diakses tanggal 3 August 2015.
- ↑ "Extensible Markup Language (XML) 1.0 (Fifth Edition)". W3C. Diakses tanggal 3 Séptémber 2022.
- ↑ "Scalable Vector Graphics (SVG) 2". W3C. Diakses tanggal 3 Séptémber 2022.
- ↑ "Elements – MODS User Guidelines: Metadata Object Description Schema: MODS". Library of Congress. Diakses tanggal 3 August 2015.
- ↑ "TEI element language". Text Encoding Initiative. Diakses tanggal 3 August 2015.
Bacaan salajengna
[édit | édit sumber]- Aristar, Anthony (2006). "ISO standardized language codes and the Ethnologue". SSILA Bulletin 247. Diarsipkan on 20 May 2014. Kesalahan: If you specify
|archivedate=
, you must also specify|archiveurl=
. http://linguistlist.org/ssila/Bulletins/Archive/bull247.pdf. - Dobrin, Lise M.; Good, Jeff (2009). "Practical language development: Whose mission?". Language 85 (3): 619–629. doi:10.1353/lan.0.0152. http://www.acsu.buffalo.edu/~jcgood/DobrinGood-PracticalLanguageDevelopment.pdf.
- Epps, Patience (2006). "In opposition to adopting Ethnologue's language codes for ISO 639-3". SSILA Bulletin 246. Diarsipkan on 20 May 2014. Kesalahan: If you specify
|archivedate=
, you must also specify|archiveurl=
. http://linguistlist.org/ssila/Bulletins/Archive/bull246.pdf. - Golla, Victor, ed. (2006). "SSILA statement on ISO 639-3 language codes". SSILA Bulletin 249. Diarsipkan on 20 May 2014. Kesalahan: If you specify
|archivedate=
, you must also specify|archiveurl=
. http://linguistlist.org/ssila/Bulletins/Archive/bull249.pdf. - Good, Jeff; Cysouw, Michael (2013). "Languoid, doculect, and glossonym: formalizing the notion 'language'". Language Documentation & Conservation 7: 331–359.