1. 基于网页语言的数据过滤功能

1.1. 概述

功能导航: 软件菜单-》【过滤规则设置】-》【网站语言过滤器】 如图:

filter-language-1

网页语言,即网页内容主要使用到的语言。比如国内网站一般为中文,国外网站都为英语。目前,msray-plus已经支持上百种语言编码识别!

网页语言过滤器,可以通过智能识别网站语言,以及用户设置的规则,去决定采集到的数据是否需要存储。

1.2. 设置说明

注意!! 必须[打开对应过滤器]的启动开关,以及在[任务参数]中选择"使用过滤方案",才会生效!

设置界面,如图:

filter-language-1

1.2.1. 判断类型

判断类型分为【包含】以及【不含】;

如果为"包含",则只存储结果数据中,网页主要语言属于【规则值】中任意一项数据的结果

如果为"不含",则网页核心语言属于【规则值】中任意一项的数据都不会被存储!

1.2.2. 规则值

规则值需要自行添加配置。可以一个或者多个。

可以点击【新增】,然后输入需要的【语言编码】,语言编码可以查看下文;然后【回车键】或者【点击空白地方】实现添加,然后点击【保存按钮】即可保存配置!

1.3. 示例说明

1:判断类型为"不含",规则值为"cmn",则采集结果中,如果网页语言是"中文",都会被自动过滤掉,不会存储!

1:判断类型为"包含",规则值为"jpn",则采集结果中,只有网页语言是"日语",才会被存储,其他任何语言都会被过滤掉!

1.4. 语言编码表

ISO-639-3 Name Script Speakers
und unknown language(未知)
cmn Mandarin Chinese(中文) Han 885000000
spa Spanish(西班牙语) Latin 332000000
eng English(英文) Latin 322000000
rus Russian(俄语) Cyrillic 288000000
arb Standard Arabic(阿拉伯语) Arabic 280000000
ben Bengali(孟加拉语) Bengali 196000000
hin Hindi(印地语) Devanagari 182000000
por Portuguese(葡萄牙语) Latin 182000000
ind Indonesian(印度尼西亚语) Latin 140000000
jpn Japanese(日语) Hiragana, Katakana, and Han 125000000
fra French(法语) Latin 124000000
deu German(德语) Latin 121000000
jav Javanese(爪哇语) Latin 75500800
kor Korean(韩语) Hangul 75000000
tel Telugu(泰卢固语) Telugu 73000000
vie Vietnamese(越南语) Latin 66897000
mar Marathi(马拉地语) Devanagari 64783000
ita Italian(意大利语) Latin 63000000
tam Tamil(泰米尔语) Tamil 62000000
tur Turkish(土耳其语) Latin 59000000
urd Urdu(乌尔都语) Arabic 54000000
guj Gujarati(古吉拉特语) Gujarati 44000000
pol Polish(波兰语) Latin 44000000
ukr Ukrainia(乌克兰语) Cyrillic 41000000
mai Maithili(迈蒂利语) Devanagari 34700000
mal Malayalam(马拉雅拉姆语) Malayalam 34014000
kan Kannada(卡纳达语) Kannada 33663000
mya Burmese(缅甸语) Myanmar 31000000
ori Oriya (macrolanguage)(乌兹别克语) Oriya 31000000
gax Borana-Arsi-Guji Oromo(奥罗莫) Latin 30000000
swh Swahili (individual language)(斯瓦希里语) Latin 30000000
sun Sundanese(巽他语) Latin 27000000
ron Romanian(罗马尼亚语) Latin 26000000
pan Panjabi(旁遮普语) Gurmukhi 25700000
bho Bhojpuri(比哈尔语) Devanagari 25000000
amh Amharic(阿姆哈拉语) Ethiopic 23000000
fuc Pulaar(普拉尔语) Latin 22000000
hau Hausa(豪萨语) Latin 22000000
bos Bosnian(波斯尼亚语) Latin 21000000
bos Bosnian(波斯尼亚语) Cyrillic 21000000
hrv Croatian(克罗地亚语) Latin 21000000
nld Dutch(荷兰语) Latin 21000000
srp Serbian(塞尔维亚语) Latin 21000000
srp Serbian(塞尔维亚语) Cyrillic 21000000
tha Thai(泰语) Thai 21000000
ckb Central Kurdish(库尔德语) Latin 20000000
yor Yoruba(约鲁巴语) Latin 20000000
uzn Northern Uzbek(北乌兹别克语) Latin 18386000
uzn Northern Uzbek(北乌兹别克语) Cyrillic 18386000
ibo Igbo(伊博语) Latin 17000000
nep Nepali (macrolanguage)(尼泊尔语) Devanagari 16200000
ceb Cebuano(宿务语) Latin 15230000
skr Seraiki(和塞拉基语) Arabic 15020000
tgl Tagalog(他加禄语) Latin 14850000
hun Hungarian(匈牙利语) Latin 14500000
azj North Azerbaijani(北阿塞拜疆语) Latin 13869000
azj North Azerbaijani(北阿塞拜疆语) Cyrillic 13869000
sin Sinhala(僧伽罗语) Sinhala 13218000
ell Modern Greek (1453-)(现代希腊语) Greek 12258540
ces Czech(捷克语) Latin 12000000
mag Magahi(摩揭陀语) Devanagari 10821000
bel Belarusian(白俄罗斯语) Cyrillic 10200000
plt Plateau Malagasy(马达加斯加语) Latin 10156900
mad Madurese(马都拉语) Latin 10000000
nya Nyanja(尼昂加语) Latin 10000000
qug Chimborazo Highland Quichua(奇楚亚语) Latin 10000000
kin Kinyarwanda(卢旺达语) Latin 9306800
zul Zulu(祖鲁语) Latin 9140000
bul Bulgarian(保加利亚语) Cyrillic 9000000
swe Swedish(瑞典语) Latin 9000000
lin Lingala(林格拉语) Latin 8400000
som Somali(索马里) Latin 8335000
hms Southern Qiandong Miao(黔东苗族) Latin 8200000
ilo Iloko(伊洛卡诺语) Latin 8000000
kaz Kazakh(哈萨克语) Cyrillic 8000000
uig Uighur(维吾尔语) Latin 7464000
uig Uighur(维吾尔语) Arabic 7464000
hat Haitian(海地语) Latin 7382000
khm Central Khmer(高棉语) Khmer 7063200
aka Akan(阿卡语) Latin 7000000
aka Akan(阿卡语) Latin 7000000
hil Hiligaynon(希利盖农语) Latin 7000000
pes Iranian Persian(伊朗波斯语) Arabic 7000000
sna Shona(绍纳语) Latin 7000000
tat Tatar(鞑靼语) Cyrillic 7000000
xho Xhosa(科萨语) Latin 6858000
hye Armenian(亚美尼亚语) Armenian 6836000
min Minangkabau(米南加保) Latin 6500000
afr Afrikaans(南非荷兰语) Latin 6365000
lua Luba-Lulua Latin 6300000
sat Santali(桑塔利语) Ol_Chiki 6218900
bod Tibetan(藏语) Tibetan 6150000
tir Tigrinya(提格里尼亚语) Ethiopic 6060000
fin Finnish(芬兰语) Latin 6000000
run Rundi(塔塔尔语) Latin 6000000
slk Slovak(斯洛伐克语) Latin 5606000
tuk Turkmen(土库曼语) Latin 5397500
tuk Turkmen(土库曼语) Cyrillic 5397500
dan Danish(丹麦语) Latin 5292000
als Tosk Albanian(阿尔巴尼亚语) Latin 5000000
nob Norwegian Bokmål(挪威语) Latin 5000000
suk Sukuma(苏库马语) Latin 5000000
sag Sango(桑戈语) Latin 4900000
nno Norwegian Nynors(新挪威语) Latin 4700000
heb Hebrew(希伯来语) Hebrew 4612000
mos Mossi(莫西语) Latin 4600000
tgk Tajik(塔吉克语) Cyrillic 4380000
cat Catalan(加泰罗尼亚语) Latin 4353000
sot Southern Sotho(南索托语) Latin 4197000
kat Georgian(格鲁吉亚语) Georgian 4103000
bcl Central Bikol(塞尔维亚-克罗地亚语) Latin 4000000
glg Galician(加利西亚语) Latin 4000000
lit Lithuanian(立陶宛语) Latin 4000000
lao Lao(老挝语) Lao 4000000
umb Umbundu(姆邦杜语) Latin 4000000
tsn Tswana(茨瓦纳语) Latin 3932000
nso Pedi Latin 3851000
ban Balinese(巴厘语) Latin 3800000
bug Buginese(巴厘语) Latin 3500000
knc Central Kanuri(翁布里亚语) Latin 3500000
ibb Ibibio(伊比比奥语) Latin 3186000
lug Ganda(干达语) Latin 3015980
ace Achinese(亚齐语) Latin 3000000
bam Bambara(班巴拉语) Latin 3000000
kmb Kimbundu(金邦杜语) Latin 3000000
lun Lunda(隆达语) Latin 3000000
tzm Central Atlas Tamazigh(塔马齐格特语) Latin 3000000
war Waray (Philippines)(菲律宾语) Latin 3000000
ydd Eastern Yiddis(第绪语) Hebrew 3000000
wol Wolof(沃洛夫语) Latin 2700000
kir Kirghiz(吉尔吉斯语) Cyrillic 2631420
nds Low German(低地德语) Latin 2600000
mkd Macedonian(马其顿语) Cyrillic 2500000
vmw Makhuwa(马库阿语) Latin 2500000
ewe Ewe(埃维语) Latin 2477600
khk Halh Mongolian(蒙古语) Cyrillic 2330000
slv Slovenian(斯洛维尼亚语) Latin 2218000
ayr Central Aymara(艾玛拉语) Latin 2200000
bem Bemba (Zambia)(赞比亚语) Latin 2150000
emk Eastern Maninkakan(翁布里亚语) Latin 2140300
bci Baoulé Latin 2130000
epo Esperanto(世界语) Latin 2000000
pam Pampanga(邦板牙语) Latin 2000000
tiv Tiv(提夫人) Latin 2000000
tpi Tok Pisin(皮金语) Latin 2000000
ssw Swati(斯威士语) Latin 1670000
nyn Nyankole(尼扬科勒语) Latin 1643193
iii Sichuan Yi(四川彝族) Yi 1600000
yao Yao(姚语) Latin 1597000
lav Latvian(拉脱维亚语) Latin 1550000
quz Cusco Quechua(库斯科克丘亚语) Latin 1500000
Copyright © msray.net 2020 all right reserved,powered by Gitbook文件修订时间: 2023-10-30 23:02:06

results matching ""

    No results matching ""