BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / dot-net / #1624同步于 2010/4/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
dotNET机器人发帖

.net 中有没有提取html中文本的方法

ycline
2010/4/26镜像同步15 回复
rt 也就是把html转成txt,只保留里面的文本信息。 如果用的是form的话,有webBroswer的控件可以把html转成document的类。但在命令行程序下有类似的函数或类吗?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
ahomer机器人#1 · 2010/4/27
用python提取会非常之简单,有相应的库可用 要不很多标签还得处理 很麻烦的
shooter机器人#2 · 2010/4/29
在命令行程序下手动添加webBrowser引用就可以了 【 在 ycline (line) 的大作中提到: 】 : rt : 也就是把html转成txt,只保留里面的文本信息。 : 如果用的是form的话,有webBroswer的控件可以把html转成document的类。但在命令行程序下有类似的函数或类吗? : ...................
ycline机器人#3 · 2010/4/29
具体怎么搞呢,我试了几次都有错。。 【 在 shooter 的大作中提到: 】 : 在命令行程序下手动添加webBrowser引用就可以了 : 【 在 ycline (line) 的大作中提到: 】 : : rt : ...................
shooter机器人#4 · 2010/4/29
click solution explorer right click references click "Add Reference" menu item select System.Windows.Forms in the ".NET" tab item, and click OK. add "using System.Windows.Forms" instance one WebBrowser object 【 在 ycline 的大作中提到: 】 : 具体怎么搞呢,我试了几次都有错。。 : 【 在 shooter 的大作中提到: 】 : : 在命令行程序下手动添加webBrowser引用就可以了 : ...................
snoopyboy机器人#5 · 2010/4/29
CA的IP...回答都用E文了哈 【 在 shooter (加油 ≮雪域≯之雪神 ) 的大作中提到: 】 : click solution explorer : right click references : click "Add Reference" menu item : ...................
wangjianzhou机器人#6 · 2010/5/1
哥们,可以这样,解析XML文档,现在的网页都是标准的XHTML格式,你只要解析XML文档就成,不过事先的知道XHTML代码
lixunhuan机器人#7 · 2010/5/11
或者用 webbrower, 获得 HTMLelements. 然后Innertext 或者 innerHTML
AirSendoh机器人#8 · 2010/6/27
自己写个函数,去除字符串里的html标签 比如 private static string delHtmlTag(string input) { string TAGLIST = "!--;!DOCTYPE;A;ACRONYM;ADDRESS;APPLET;AREA;B;BASE;BASEFONT;" + "BGSOUND;BIG;BLOCKQUOTE;BODY;BR;BUTTON;CAPTION;CENTER;CITE;CODE;" + "COL;COLGROUP;COMMENT;DD;DEL;DFN;DIR;DIV;DL;DT;EM;EMBED;FIELDSET;" + "FONT;FORM;FRAME;FRAMESET;HEAD;H1;H2;H3;H4;H5;H6;HR;HTML;I;IFRAME;IMG;" + "INPUT;INS;ISINDEX;KBD;LABEL;LAYER;LAGEND;LI;LINK;LISTING;MAP;MARQUEE;" + "MENU;META;NOBR;NOFRAMES;NOSCRIPT;OBJECT;OL;OPTION;P;PARAM;PLAINTEXT;" + "PRE;Q;S;SAMP;SCRIPT;SELECT;SMALL;SPAN;STRIKE;STRONG;STYLE;SUB;SUP;" + "TABLE;TBODY;TD;TEXTAREA;TFOOT;TH;THEAD;TITLE;TR;TT;U;UL;VAR;WBR;XMP;" + "APPLET;EMBED;FRAMESET;HEAD;NOFRAMES;NOSCRIPT;OBJECT;SCRIPT;STYLE;/"; string[] htmTag = TAGLIST.Split(';'); string output = input; string contentToReplace = null; for (int i = 0; i < htmTag.Length; i++) { //Console.WriteLine(htmTag[i]); int start = input.ToUpper().IndexOf("<" + htmTag[i]); int end = 0; while (start > -1) { end = input.IndexOf(">", start); if (end > -1 && end > start) { contentToReplace = input.Substring(start, end - start + 1); output = output.Replace(contentToReplace, ""); } else { break; } start = input.ToUpper().IndexOf("<" + htmTag[i], start + 1); } } return output; }
ycline机器人#9 · 2010/6/27
哥们,你这也太能挖坟了。。 后来我用正则表达式搞定了。。 【 在 AirSendoh 的大作中提到: 】 : 自己写个函数,去除字符串里的html标签 : 比如 : private static string delHtmlTag(string input) : ...................