FiofananaKolejy sy ny anjerimanontolo

Inona no atao hoe Corpus Linguistics?

Am-polony taona vitsivitsy lasa izay mba automate ny fikarohana ara-pitenenana, ny mpahay siansa ihany no afaka manonofy ny. Ny asa natao ny tanana, dia manintona ny maro ny mpianatra, misy Mitana Azo inoana "mitandrina" fahadisoana, ary ny zava-dehibe indrindra - izany rehetra izany dia nitondra ny ela, ela.

Noho ny fivoaran'ny teknolojia solosaina dia lasa azo atao ny mitarika fikarohana momba ny lamin 'maridrefy haingana kokoa, ary ankehitriny dia iray amin'ireo toromarika fanantenana indrindra amin'ny fianarana ny fiteny dia Corpus Linguistics. Ny tena endri-javatra dia ny fampiasàna betsaka-dahatsoratra vaovao, vaovao iray ho banky angona, amin'ny fomba manokana, ary niantso ny marika vatana.

Hatramin'izao, maro ny trano noforonina amin'ny tanjona isan-karazany miorina amin'ny fiteny isan-karazany fitaovana avy amin'ny olona an-tapitrisany naharitra am-polony an'arivony tapitrisa lexical venty. Ity tari-dalana dia fantatra ho toy ny mahabe fanantenana sy manan-danja maneho fandrosoana manoloana ny fampiharana sy ny fikarohana tanjona. Manam-pahaizana, na ahoana na ahoana rehefa mifandray amin'ny fiteny voajanahary, dia soso-kevitra no hivory hiaraka amin'ny vatana ny andinin-teny iray, fara fahakeliny, amin'ny ambaratonga fototra.

History of Corpus Linguistics

Ny fiforonan'ny fironana io dia vokatry ny fananganana ny Etazonia amin'ny Brown ny tena ao amin'ny tany am-boalohany 60-ies tamin'ny taonjato farany. Ny famoriam-bola dia ahitana ny andinin-teny rehetra 1 tapitrisa ny teny amin'ny teny, ary amin'izao fotoana izao ny vatana ity dia ho tanteraka habe uncompetitive. Izany no betsaka noho ny dian'ny fampandrosoana ny teknolojia solosaina, ary koa ny fangatahana tsy mitsaha-mitombo harena ho an'ny fikarohana vaovao.

Tamin'ny taona 90 Corpus Linguistics nipoitra tao amin'ny fifehezana feno sy mahaleo tena, fitambarana lahatsoratra no nosarihana niakatra sy feno ho an'ny fiteny am-polony. Ao amin'io fotoana io noforonina, ohatra, ny British National Corpus 100 tapitrisa famantarana.

Miaraka amin'ny fampandrosoana ny faritra ity ny Linguistics, dia lasa boky lahatsoratra bebe kokoa (ary hahatratra an'arivony tapitrisa rakibolana vondrona), ary ny fisehon'ny dia miha samihafa. To daty, ny Internet toerana dia hita voasoratra fatiny ka niteny fiteny, fiteny, sy ny fianarana mitodika kanto na boky fianarana, ary koa ny karazam-biby maro hafa.

Inona avy ny trano

Body karazana eo amin'ny tena Linguistics dia azo omena noho ny antony maro. Intuitively, ny fototry ny amin'ny fanasokajiana dia afaka ny ho fiteny lahatsoratra (Rosiana, alemà), ny fomba fidirana (loharano misokatra, mihidy, ara-barotra), ny Genre ny loharanon-kevitra (tantara foronina, fanadihadiana, akademika, ny fanaovan-gazety).

Fomba mahaliana miteraka niteny fitaovana ny fiteny. Koa satria ny ninia fandraisam-peo ny teny toy izany mba hamoronana tontolo artifisialy ho an'ny namaly, ary ny vokatry ny zavatra tsy azo antsoina hoe "tonga ho azy", ankehitriny Corpus Linguistics efa lasa ny fomba hafa. Ny mpilatsaka an-tsitrapo dia fitaovana amin'ny mikrô, ary mandritra ny andro namoaka an-tsoratra ny resaka rehetra, izay tsy mandray anjara. Ny olona manodidina, mazava ho azy, dia mety tsy mahalala, raha ny Mazava ho azy fa ny resaka andavanandro manampy amin'ny fampandrosoana ny siansa.

Taty aoriana dia nahazo firaketana an-tsoratra voatahiry ao amin'ny banky angona ary miaraka amin'ny soratra vita pirinty transcript karazana. Noho izany, dia lasa azo atao fanamarihana ilaina mba hamoronana ny teny am-bava trano isan'andro.

fampiharana

Na aiza na aiza mety ny fampiasana ny teny, ary angamba ny fampiasana ny trano andinin-teny. Fomba hampiharana ny Hull amin'ny Linguistics dia mety ho:

  • Famoronana fandaharana famaritana ny fanalahidy, no be mpampiasa sy ny raharaham-barotra eo amin'ny politika mba haharaka ny tsara sy ny ratsy valiny mpifidy sy ny mpanjifa, tsirairay avy.
  • Connection rafitra vaovao amin'ny rakibolana sy ny mpandika teny mba hanatsarana ny zava-bitany.
  • Misy isan-karazany ny asa fikarohana izay mandray anjara amin'ny fahatakarana ny teny vondrona, ny tantaran'ny ny fampandrosoana sy ny faminaniana ny fiovana tsy ho ela.
  • Development-baovao retrieval rafitra mifototra amin'ny morphological, syntactic, zotran sy ny endri-javatra.
  • Optimization ny samy hafa fiteny rafitra sy ny hafa.

Fampiasana trano

toy izany koa harena interface tsara amin'ny mahazatra fikarohana, ary mandrisika ny mpampiasa hiditra amin'ny teny na fitambaran-teny mba hitady ny vaovao fipetrahany izy. Ankoatra QUERY mamorona ny tena dia afaka mampiasa ny dikan kokoa, izay mamela ny hahita textual vaovao momba ny fiteny saika misy fepetra.

fikarohana base dia mety ho:

  • maha-mpikambana ny vondrona iray manokana ny amin'ny teny;
  • fitsipi-pitenenana endri-javatra;
  • semantics;
  • stylistic sy ara-pihetsehampo fandokoana.

Azonao atao ihany koa ny fepetra ho an'ny fikarohana mitambatra fisesin-teny, ohatra, ny mahita ny rehetra Miseho ny matoanteny amin'ny amin'ny teny, voalohany SAMPA tsy ampy, izay tonga taorian'ny mpampiankin-teny "ao amin'ny" sy ny anarana amin'ny teny raharaha. Ny vahaolana ho toy izany asa tsotra maka ny mpampiasa segondra vitsy ary tsy mitaky afa vitsivitsy kitika totozy ao amin'ny mazava tsaha.

Ny dingan'ny famoronana

Ny fikarohana mihitsy azo tanterahina rehetra subcorpus ary ny iray voafidy manokana, arakaraka ny zavatra ilaina eo amin'ny fanatanterahana ny tanjona manokana:

  1. Ny dingana voalohany dia ny mamaritra izay andinin-teny mamorona ny fototry ny tranga. Fa mahasoa tanjona, izany no matetika ampiasaina asa fanaovan-gazety, ny vaovao tantara, fanehoan-kevitra amin'ny aterineto. Ny tetikasa fikarohana dia ny fampiasana ny maro samihafa ny fonosana karazana, fa ny lahatsoratra dia tokony ho voafantina araka ny marimaritra iraisana.
  2. Ny vokatr'izany famoriam-bola ny andinin-teny niharan'ny pretreatment, dia misy fanitsiana ny fahadisoana, raha misy, nomanin'ny bibliographic sy ny fanampiny-pitenenana famaritana ny lahatsoratra.
  3. Intsony dia tsy textual rehetra ny vaovao: vahaolana? Ny sary, sary, latabatra.
  4. Dia fanomezana ny famantarana, izay matetika teny, fa fanodinana bebe kokoa.
  5. Farany, dia nitondra morphological, syntactical sy ny hafa nahazo marika plurality ny singa.

Ny vokatry ny varotra rehetra natao amin'ny syntactic rafitra amin'ny zaraina ao ny plurality ny singa, ny tsirairay avy izay fantatra Partie du discours, fitsipi-pitenenana, ary, indraindray, ny zotran toetra.

Olana amin'ny famoronana trano

Zava-dehibe ny mahatakatra fa tsy ampy ny atambatra andian-teny na fehezan ho an'ny vatana. Amin'ny lafiny iray, ny fanangonana ny lahatsoratra dia tokony ho mahay mandanjalanja, izany hoe, maneho ny andininy isan-karazany ao amin'ny ampahany sasany. Etsy an-- ny votoatin'ny ny fefy tokony fizarany amin'ny fomba manokana.

Ny voalohany dia olana dia voavaha amin'ny alalan'ny fifanarahana; fa ohatra, ao amin'ny famoriam-bola dia ahitana 60% ny literatiora soratra, 20% ny fanadihadiana, dia nisy isan-jato omena an-tsoratra sarin 'ny niteny fiteny, lalàna, Siantifika asa, sns tanteraka fomba fahandro mandanjalanja vatana amin'izao fotoana izao dia tsy misy ...

Ny fanontaniana faharoa, ny amin'ny votoaty fisehon'ny, handamina sarotra. Misy fandaharana manokana sy ampiasaina ho mandeha ho azy algorithms nanamarihana ny soratra, nefa tsy Asehoy izay marina àry, dia afaka mahatonga fikorontanana sy mitaky rework boky fampianarana. Fahafahana sy ny zava-tsarotra rehefa mifandray amin'ny olana ity dia lazaina amin'ny an-tsipiriany ao amin'ny taratasy V. P. Zaharova ny Corpus Linguistics.

Text fanamarihana dia ampiharina amin'ny sehatra maro, izay lisitra eto ambany.

morphological tagging

Tany an-tsekoly, tsaroanay fa amin'ny teny Rosiana, dia misy isan-karazany amin'ny teny, ary ny tsirairay amin'izy ireo manana ny toetra. Ohatra, ny matoanteny dia manana sokajy ny fironana sy ny fotoana izay tsy Anarana iombonana amin'ny. ny tompon-tany tsy am-pihambahambana pihilan'ny mpandahateny teny sy conjugate teny, fa mba hanamarihana ny vatana ny 100 tapitrisa. famantarana lazain'ny boky fampianarana dia tsy miasa asa. Rehetra ny hetsika ilaina dia afaka hampihatra ny solosaina, na izany aza, fa izany dia Ilaina ny mampianatra.

Morphological tagging, ny solosaina dia tsy maintsy "mahatakatra" ny teny tsirairay ho toy ny vola sasany vidiny-teny manana fitsipi-pitenenana endri-javatra sasany. Koa satria ny Rosiana (sy ny teny hafa) miasa tsy tapaka maromaro fitsipika, azo atao ny manorina ny fomba mandeha ho azy ho an'ny morphological fanadihadiana, mampiasa vola tao anaty fiara ho maro algorithms. Na izany aza, misy maningana ny fitsipika, ary koa ny anton-javatra isan-karazany complicating. Ho vokany, harato Computer analysis ny amin'izao fotoana izao dia mety tsara lavitra, ary na dia 4% fahadisoana mahavokatra ny sandan'ny 4 mln. Teny eo amin'ny vatana ny 100 tapitrisa. Units, mitaky rework boky fampianarana.

Detailed boky mamaritra ny olana Zaharova V. P. "Corpus Linguistics".

syntactic Filazana fohy

Parsing na parsing - fomba fanao iray izay mamaritra ny fifandraisana ny teny ao anaty fehezanteny. Mampiasa ny napetraka ny algorithms azo atao ny mamaritra ny lahatsoratra ny foto-kevitra, enti-, fanampiny, maro mifandimby-teny. Fantaro izay teny no tena filaharana, ary izay - miankin-doha, dia afaka tsara hanesorana vaovao avy lahatsoratra sy hampianatra ny milina mba hamoaka ho valin'ny fangatahana amin'ny fikarohana ny fanazavana ihany Mahaliana antsika.

Teny an-dalana, maoderina fikarohana mampiasa izany mba hanome avy isa voafaritra tsara fa tsy andinin-teny lava be ho setrin'ny fanontaniana manan-danja toy ny hoe "firy kaloria amin'ny paoma" na "ny lavitra avy any Moscou ho any Saint-Pétersbourg." Na dia izany aza, mba hahatakatra na dia ny fototry ny dingana voafaritra amin'ny alalan'ny fa ilaina ny mijery ny "Fampidirana ny amin'ny Corpus Linguistique" na fototra hafa tutorial.

zotran fanamarihana

Ny semantics ny teny - dia, amin'ny teny tsotra, ny dikany. Azo ampiharina be manatona ny zotran famakafakana ny teny Attribution Tags, taratry ny anisan'ny napetraka ny sokajy sy ny zotran matoanteny. Fanazavana toy izany no sarobidy noho ny optimizing algorithms lahatsoratra hamakafaka feo, mandeha ho azy sy ny asa summarization fomba Corpus Linguistics.

Misy maro ny "fototry" ny hazo, misolo tena ny saro-takarina indrindra ny teny amin'ny malalaka haneho hevitra. Amin'ny maha-sampan 'ny hazo nodes no namorona, misy bebe kokoa lexical singa manokana. Ohatra, ny teny hoe "zavaboary" mety ho foto-kevitra toy izany mifandray amin'ny hoe "olombelona" sy ny "biby". Ny teny voalohany dia mbola Sampana any an fiekem samy hafa, maha mpihavana teny, zom-pirenena, ary ny faharoa - eo amin'ny fampianarana sy ny karazan-biby.

Ny fampiasana ny rafitra vaovao retrieval

Areas ny fampiasana ny Corpus Linguistics manarona saha samihafa ny asa. Housings dia ampiasaina ho an'ny fanomanana sy ny fanitsiana ny rakibolana, mamorona rafitra fandikan-teny mandeha ho azy, annotating, retrieving zava-misy, mamaritra ny fihetseham-po sy ny soratra hafa fanodinana.

Ankoatra izany, dia toy izany no loharanon-karena ampiasaina ao mavitrika amin'ny fianarana ny fiteny sy ny fomba fiasa izao tontolo izao ny miasa ny fiteny amin'ny ankapobeny. Access ho lehibe boky vaovao voaomana mialoha manamora haingana sy feno fandalinana ny fironana ny fampandrosoana fiteny, ary ny mafy orina fiofanana neologisms fiovana haingana teny sarobidy lexical vondrona sy ny hafa.

Koa satria ny asa toy izany tahirin-kevitra be dia be dia mitaky automatique, amin'izao fotoana izao dia misy fifandraisana akaiky eo amin'ny solosaina sy ny Corpus Linguistics.

Rosiana National Corpus

Ity tranga ity (nohafohezina NKRYA) dia ahitana maromaro subcorpus, mamela ny fampiasana ny loharanon-karena ho an'ny maro samihafa ny asa.

Ny fitaovana ao amin'ny banky angona dia nozarainy NKRYA:

  • ny boky sy gazety ao amin'ny haino aman-jery 'taona 90 sy ny taona 2000, na ao an-toerana sy any ivelany;
  • firaketana ny teny;
  • aktsentologicheski nanamarika andininy (i.e., ny marika ny fihenjanana);
  • fitenim-paritra miteny;
  • tononkalo;
  • Fitaovana amin'ny syntactic sy ny marika hafa.

Ny vaovao dia ahitana ihany koa ny rafitra mifanitsy Subcorpus amin'ny asa fandikan-teny amin'ny avy amin'ny teny Rosiana ho amin'ny teny Anglisy, Alemana, Frantsay sy maro hafa fiteny (sy ny mifamadika amin'izany).

Ary amin'ny banky angona misy fizarana lahatsoratra ara-tantara, misolo tena ny voasoratra kabary amin'ny teny Rosiana tamin'ny vanim-potoana samy hafa ny ny fampandrosoana. Misy ihany koa ny fiofanana tena, izay mety ho ilaina ho an'ny olom-pirenena vahiny eo amin'ny mahafehy ny fiteny Rosiana.

-Pirenena Rosiana Corpus 400 tapitrisa lexical ahitana vondrona, ary amin'ny fomba maro mialoha ny ampahany manan-danja amin'ny fiteny Eoropa vatana.

fanantenana

Ny marina izay manohana ny fanekena ny fironana ity dia ny fisian'ny nampanantena laboratoara Corpus Linguistics amin'ny oniversite Rosiana, ary koa ny avy any ivelany. Ny fampiasana sy ny fikarohana ao anatin'ny sehatry ny fikarohana ity loharanom-baovao sy ny mitaky ny fampandrosoana ny faritra sasany eo amin'ny sehatry ny teknolojia avo, mamaly fanontaniana-rafitra, fa efa voaresaka etsy ambony.

Koa fampandrosoana ny Corpus Linguistics dia mialoha amin'ny ambaratonga rehetra, manomboka amin'ny ara-teknika sy eo amin'ny lafiny fampiharana ny vaovao algorithms izay manatsara ny fizotry ny mikaroka sy fanodinana vaovao, manome hery ordinatera, bebe kokoa RAM, sy ny mpanjifa, satria ireo mpampiasa efa maro sy kokoa ny fomba azo ampiasana azy io karazana harena ao amin'ny isan'andro ny fiainana sy ny asa.

Ho famaranana

Eo afovoan'ny taonjato farany tamin'ny 2017 ho avy Toa lavitra, izay mandeha amin'ny alalan'ny sambon izao rehetra izao sy milina manao ny asa rehetra ho an'ny olona. Raha ny marina, dia siansa Feno "fotsy mangirana" sy manao ezaka mafy mba hamaliana ny fanontaniana ny olona nandritra ny taonjato maro manelingelina. Fanontaniana miasa ny fiteny eto hipetraka toerana ny voninahitra, sy ny kabinetra sy ny kajy amin'ny solosaina, Linguistics afaka manampy antsika hamaly azy ireo.

Fikarakarana ny angon-drakitra lehibe milentika dia afaka mahita ireo lamina, afaka nidirana teo aloha, mialoha ny fivoaran'ny teny manokana lafin-javatra mba manara-maso ny fananganana ny teny efa tena fotoana.

Eo amin'ny fampiharana ambaratonga, ny eran-fefy hita, ohatra, toy ny mety ho fitaovana mba hijery ny vahoaka toe-po - ny Internet dia foana nohavaozina isan'andro isan-karazany andinin-teny namorona ny tena mpampiasa; ireo fanehoan-kevitra sy hevitra, ary ny lahatsoratra, ary ny maro hafa karazana teny.

Ankoatra izany, dia niara-niasa tamin'ny vatana manampy amin'ny fampandrosoana ny fitaovana ihany, izay mandray anjara amin'ny fampahalalana retrieval, isika dia tsara ny service "Google" na "Yandex", fitaovana fandikan-teny, elektronika diksionera.

Afaka matoky isika fa ireo ihany no mahatonga Corpus Linguistics ny dingana voalohany, ary tsy ho ela dia hiroborobo.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 mg.birmiss.com. Theme powered by WordPress.