Bulgarian |
has gloss | bul: Корпусът е основен обект на изследване и езиков ресурс в корпусната и компютърната лингвистика. |
lexicalization | bul: Корпус |
Catalan |
has gloss | cat: Un corpus lingüístic és un conjunt, normalment molt ampli, dexemples reals dús d'una llengua. Aquests exemples poden ser textos (típicament), o mostres orals (normalment transcrites). |
lexicalization | cat: Corpus lingüístic |
Czech |
has gloss | ces: Jazykový korpus je (většinou rozsáhlý) soubor textů, které jsou v různé míře opatřeny metajazykovými značkami vypovídajícími o samotném textu (autor, rok vydání, žánr apod.) a zařazení jednotlivých slov do kategorie slovních druhů, o frekvenci slova v korpusu, případně dalších lingvistických a frekvenčních aspektech. Některé korpusy jsou budovány jako takzvaně vyvážené, což znamená, že by měly obsahovat vyvážený podíl textů tříděných podle žánrovosti, doby vzniku, případně dalších hledisek (mluvenost, psanost, regionálnost, užívanost apod.). V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. Pro formátování textů a vkládání značek se používá zejména standardizovaného jazyka XML, případně staršího SGML. |
lexicalization | ces: Jazykový korpus |
Danish |
has gloss | dan: Et tekstkorpus (flertal: -korpora) er en samling af maskinelt læsbare tekster, som tjener et bestemt formål, samt overholder regler for indhold og format. |
lexicalization | dan: tekstkorpus |
German |
has gloss | deu: Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die in verschiedenen wissenschaftlichen Disziplinen Gegenstand einer beliebigen Darstellung oder Untersuchung ist. So kann beispielsweise eine literaturwissenschaftliche Untersuchung einem bestimmten Textkorpus gelten, etwa dem deutschen Roman des 20. Jahrhunderts oder Titeln, in denen ein bestimmtes Motiv (wie etwa "Eifersuchtsmord") vorkommt. Des Weiteren kann ein Textkorpus einer bestimmten Sprache von Linguisten ausgewertet werden, um z. B. Regelmäßigkeiten in dieser Sprache beschreiben zu können. Auch eine rechtshistorische Arbeit kann ein bestimmtes Textkorpus behandeln, so etwa Gesetzestexte einer bestimmten Tradition. |
lexicalization | deu: Textkorpus |
Modern Greek (1453-) |
has gloss | ell: Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη γλωσσολογική ανάλυση. |
lexicalization | ell: Σώμα κειμένων |
Esperanto |
has gloss | epo: Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzas kiel tuton por studo. Komputado ne necesas, sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭ aro da parolregistraĵoj estas korpuso. |
lexicalization | epo: korpuso |
Basque |
has gloss | eus: Corpus edo testu corpus bat egituratutako testu sorta handi bat da hizkuntzalaritzan. Hizkuntza baten deskribatzeko eta ikertzeko baliatzen den hizkuntza-datu bilduma da, edo baliabide elektronikoak erabiltzen eta eskaintzen dituena. |
lexicalization | eus: Testu corpus |
Finnish |
has gloss | fin: Korpus (latinan sanasta corpus, kokoelma) on tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä (tekstikorpus) tai puhutun kielen nauhoitteita (puhekorpus) , jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista. |
lexicalization | fin: korpus |
French |
has gloss | fra: Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc. |
lexicalization | fra: corpus |
Galician |
has gloss | glg: Un corpus lingüístico é un conxunto, normalmente moi amplo, de exemplos reais de uso dunha lingua. Estes exemplos poden ser textos (tipicamente), ou mostras orais (normalmente transcritas). |
lexicalization | glg: Corpus lingüístico |
Hindi |
has gloss | hin: भाषाशास्त्र में वृहद एवं सुसंगठित पाठ (टेक्स्ट) को पाठसंग्रह या कॉर्पस (corpus) कहते हैं। आज के एलेक्ट्रानिक युग में पाठसंग्रह को एलेक्ट्रानिक प्रारूप में संग्रहित किया जाता है एवं संगणक द्वारा इसकी बहुविध जाँच-पड़ताल एवं प्रसंस्करण किया जाता है। इस प्रकार का पाठसंग्रह सांख्यिकीय विश्लेषण करने, परिकल्पना-परीक्षण, शब्दों के प्रयोग की आवृत्ति निकालने तथा भाषायी नियमों की जाँच के लिये प्रयुक्त होते हैं। |
lexicalization | hin: पाठसंग्रह भाषाविज्ञान |
Italian |
has gloss | ita: Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis , al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente, ma oggi il ruolo del computer nell'uso dei corpora è diventato così cruciale che ormai il termine stesso di “corpus” è spesso sinonimo di “corpus elettronico”. Un esempio di corpus elettronico consultabile via web è quello riferito al quotidiano “La Repubblica”. Il settore della linguistica in cui vengono usati i corpora è anche noto come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati: Linguistica storica e comparativa in Italia, Comparative grammar negli Stati Uniti, Comparative philology nel Regno Unito. |
lexicalization | ita: corpus |
Japanese |
has gloss | jpn: コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。 |
lexicalization | jpn: コーパス |
Malay (macrolanguage) |
has gloss | msa: Dalam linguistik, korpus ialah himpunan data-data mentah yang bakal digunakan untuk kajian lingustik. Contohnya adalah seperti himpunan manuskrip dan teks bertulis yang lain. |
lexicalization | msa: korpus |
Dutch |
has gloss | nld: Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. |
lexicalization | nld: corpus |
Polish |
has gloss | pol: Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. |
lexicalization | pol: korpus |
Portuguese |
has gloss | por: Corpus linguístico é um conjunto de textos escritos ou falados numa língua que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à Linguística de corpus. |
lexicalization | por: Corpus linguístico |
lexicalization | por: Corpus lingüístico |
Slovak |
has gloss | slk: Korpus textov v jazykovede je ohraničený súbor jazykových výpovedí zaznamenaných písmom alebo na zvukovom nosiči, ktorý spracováva na vedecko-výskumné a učebné ciele; množina textov používaných na lingvistický opis a argumentáciu; v užšom zmysle elektronická databáza jazykových prvkov spolu s prostriedkami efektívneho vyhľadávania. |
lexicalization | slk: korpus |
Slovenian |
has gloss | slv: V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, običajno elektronsko hranjena in obdelana. Korpuse se uporablja za statistične analize in testiranje hipotez, za preverjanje pojavitev ali pa za potrditev lingvističnih pravil v določenem jeziku. |
lexicalization | slv: Besedilni korpus |
Castilian |
has gloss | spa: Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas). |
lexicalization | spa: Corpus linguistico |
lexicalization | spa: Corpus lingüístico |
Swedish |
has gloss | swe: Korpus, från latinets corpus (plural corpora) med betydelsen "kropp", kan syfta på: |
lexicalization | swe: korpus |
Thai |
has gloss | tha: ในภาษาศาสตร์ คลังข้อความคือข้อความปริมาณมากที่ได้จัดเก็บตามลำดับโครงสร้าง (ปัจจุบันนี้มักจะจัดเก็บและประมวลผลในรูปแบบอิเล็กทรอนิกส์) คลังข้อความสามารถจัดเก็บข้อความของภาษาเดียว (คลังข้อความภาษาเดียว) หรือจัดเก็บข้อความหลายภาษา (คลังข้อความหลายภาษา) คลังข้อความหลายภาษามักจะจัดอยู่ในรูปแบบพิเศษ สามารถมองเห็นส่วนของข้อความที่มีความหมายตรงกันได้ คลังข้อความชนิดนี้เรียกว่า "คล้งข้อความขนานระบุส่วนตรงกัน" ดังตัวอย่างด้านล่าง |
lexicalization | tha: คลังข้อความ |
Yue Chinese |
has gloss | yue: 語料庫響語言學上指一大而有構嘅 字詞或文本嘅集合,通常佢哋係經過整理,具有特殊嘅格式同埋標記、方便電腦查找。 |
lexicalization | yue: Text corpus |
lexicalization | yue: 語料庫 |
Chinese |
has gloss | zho: 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 " " 的涵意即為 "body of text"。 |
lexicalization | zho: 语料库 |