e/Text corpus

New Query

Information
has glosseng: In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe.
lexicalizationeng: Text corpus
instance ofe/de/Brauch
Meaning
Bulgarian
has glossbul: Корпусът е основен обект на изследване и езиков ресурс в корпусната и компютърната лингвистика.
lexicalizationbul: Корпус
Catalan
has glosscat: Un corpus lingüístic és un conjunt, normalment molt ampli, dexemples reals dús d'una llengua. Aquests exemples poden ser textos (típicament), o mostres orals (normalment transcrites).
lexicalizationcat: Corpus lingüístic
Czech
has glossces: Jazykový korpus je (většinou rozsáhlý) soubor textů, které jsou v různé míře opatřeny metajazykovými značkami vypovídajícími o samotném textu (autor, rok vydání, žánr apod.) a zařazení jednotlivých slov do kategorie slovních druhů, o frekvenci slova v korpusu, případně dalších lingvistických a frekvenčních aspektech. Některé korpusy jsou budovány jako takzvaně vyvážené, což znamená, že by měly obsahovat vyvážený podíl textů tříděných podle žánrovosti, doby vzniku, případně dalších hledisek (mluvenost, psanost, regionálnost, užívanost apod.). V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. Pro formátování textů a vkládání značek se používá zejména standardizovaného jazyka XML, případně staršího SGML.
lexicalizationces: Jazykový korpus
Danish
has glossdan: Et tekstkorpus (flertal: -korpora) er en samling af maskinelt læsbare tekster, som tjener et bestemt formål, samt overholder regler for indhold og format.
lexicalizationdan: tekstkorpus
German
has glossdeu: Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die in verschiedenen wissenschaftlichen Disziplinen Gegenstand einer beliebigen Darstellung oder Untersuchung ist. So kann beispielsweise eine literaturwissenschaftliche Untersuchung einem bestimmten Textkorpus gelten, etwa dem deutschen Roman des 20. Jahrhunderts oder Titeln, in denen ein bestimmtes Motiv (wie etwa "Eifersuchtsmord") vorkommt. Des Weiteren kann ein Textkorpus einer bestimmten Sprache von Linguisten ausgewertet werden, um z. B. Regelmäßigkeiten in dieser Sprache beschreiben zu können. Auch eine rechtshistorische Arbeit kann ein bestimmtes Textkorpus behandeln, so etwa Gesetzestexte einer bestimmten Tradition.
lexicalizationdeu: Textkorpus
Modern Greek (1453-)
has glossell: Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη γλωσσολογική ανάλυση.
lexicalizationell: Σώμα κειμένων
Esperanto
has glossepo: Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzas kiel tuton por studo. Komputado ne necesas, sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭ aro da parolregistraĵoj estas korpuso.
lexicalizationepo: korpuso
Basque
has glosseus: Corpus edo testu corpus bat egituratutako testu sorta handi bat da hizkuntzalaritzan. Hizkuntza baten deskribatzeko eta ikertzeko baliatzen den hizkuntza-datu bilduma da, edo baliabide elektronikoak erabiltzen eta eskaintzen dituena.
lexicalizationeus: Testu corpus
Finnish
has glossfin: Korpus (latinan sanasta corpus, kokoelma) on tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä (tekstikorpus) tai puhutun kielen nauhoitteita (puhekorpus) , jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.
lexicalizationfin: korpus
French
has glossfra: Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc.
lexicalizationfra: corpus
Galician
has glossglg: Un corpus lingüístico é un conxunto, normalmente moi amplo, de exemplos reais de uso dunha lingua. Estes exemplos poden ser textos (tipicamente), ou mostras orais (normalmente transcritas).
lexicalizationglg: Corpus lingüístico
Hindi
has glosshin: भाषाशास्त्र में वृहद एवं सुसंगठित पाठ (टेक्स्ट) को पाठसंग्रह या कॉर्पस (corpus) कहते हैं। आज के एलेक्ट्रानिक युग में पाठसंग्रह को एलेक्ट्रानिक प्रारूप में संग्रहित किया जाता है एवं संगणक द्वारा इसकी बहुविध जाँच-पड़ताल एवं प्रसंस्करण किया जाता है। इस प्रकार का पाठसंग्रह सांख्यिकीय विश्लेषण करने, परिकल्पना-परीक्षण, शब्दों के प्रयोग की आवृत्ति निकालने तथा भाषायी नियमों की जाँच के लिये प्रयुक्त होते हैं।
lexicalizationhin: पाठसंग्रह भाषाविज्ञान
Italian
has glossita: Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis , al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente, ma oggi il ruolo del computer nell'uso dei corpora è diventato così cruciale che ormai il termine stesso di “corpus” è spesso sinonimo di “corpus elettronico”. Un esempio di corpus elettronico consultabile via web è quello riferito al quotidiano “La Repubblica”. Il settore della linguistica in cui vengono usati i corpora è anche noto come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati: Linguistica storica e comparativa in Italia, Comparative grammar negli Stati Uniti, Comparative philology nel Regno Unito.
lexicalizationita: corpus
Japanese
has glossjpn: コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。
lexicalizationjpn: コーパス
Malay (macrolanguage)
has glossmsa: Dalam linguistik, korpus ialah himpunan data-data mentah yang bakal digunakan untuk kajian lingustik. Contohnya adalah seperti himpunan manuskrip dan teks bertulis yang lain.
lexicalizationmsa: korpus
Dutch
has glossnld: Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus.
lexicalizationnld: corpus
Polish
has glosspol: Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych.
lexicalizationpol: korpus
Portuguese
has glosspor: Corpus linguístico é um conjunto de textos escritos ou falados numa língua que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à Linguística de corpus.
lexicalizationpor: Corpus linguístico
lexicalizationpor: Corpus lingüístico
Slovak
has glossslk: Korpus textov v jazykovede je ohraničený súbor jazykových výpovedí zaznamenaných písmom alebo na zvukovom nosiči, ktorý spracováva na vedecko-výskumné a učebné ciele; množina textov používaných na lingvistický opis a argumentáciu; v užšom zmysle elektronická databáza jazykových prvkov spolu s prostriedkami efektívneho vyhľadávania.
lexicalizationslk: korpus
Slovenian
has glossslv: V jezikoslovju je korpus oziroma besedilni korpus velika in strukturirana zbirka besedil, običajno elektronsko hranjena in obdelana. Korpuse se uporablja za statistične analize in testiranje hipotez, za preverjanje pojavitev ali pa za potrditev lingvističnih pravil v določenem jeziku.
lexicalizationslv: Besedilni korpus
Castilian
has glossspa: Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas).
lexicalizationspa: Corpus linguistico
lexicalizationspa: Corpus lingüístico
Swedish
has glossswe: Korpus, från latinets corpus (plural corpora) med betydelsen "kropp", kan syfta på:
lexicalizationswe: korpus
Thai
has glosstha: ในภาษาศาสตร์ คลังข้อความคือข้อความปริมาณมากที่ได้จัดเก็บตามลำดับโครงสร้าง (ปัจจุบันนี้มักจะจัดเก็บและประมวลผลในรูปแบบอิเล็กทรอนิกส์) คลังข้อความสามารถจัดเก็บข้อความของภาษาเดียว (คลังข้อความภาษาเดียว) หรือจัดเก็บข้อความหลายภาษา (คลังข้อความหลายภาษา) คลังข้อความหลายภาษามักจะจัดอยู่ในรูปแบบพิเศษ สามารถมองเห็นส่วนของข้อความที่มีความหมายตรงกันได้ คลังข้อความชนิดนี้เรียกว่า "คล้งข้อความขนานระบุส่วนตรงกัน" ดังตัวอย่างด้านล่าง
lexicalizationtha: คลังข้อความ
Yue Chinese
has glossyue: 語料庫響語言學上指一大而有構嘅 字詞或文本嘅集合,通常佢哋係經過整理,具有特殊嘅格式同埋標記、方便電腦查找。
lexicalizationyue: Text corpus
lexicalizationyue: 語料庫
Chinese
has glosszho: 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 " " 的涵意即為 "body of text"。
lexicalizationzho: 语料库

Query

Word: (case sensitive)
Language: (ISO 639-3 code, e.g. "eng" for English)


Lexvo © 2008-2024 Gerard de Melo.   Contact   Legal Information / Imprint